正确的数据生态系统可以让研究人员更容易跨越学科界限

当我和学生时代的有机合成化学家伙伴们共进午餐时,我们聊起了一个艰难的化学选择性还原过程。我们有一些关于均相催化剂的想法,或者有机化学家的一般多相选择“碳上的钯”。我们的新博士生刚从化学工程硕士毕业,他走进来,推荐了一种专业支持的催化剂,调得恰到好处,为我们棘手的碳碳双键提供完美的还原力,同时在其他地方保留一个卤素。最年长的合成学生直视着他,直截了当地驳回了这个想法,说:“是的,我们这里不做那个。”这是令人困惑的-但不可否认,他是正确的,我们没有这样做。如果我们接受了我们僵化经验之外的想法,我们会变得好得多!

历史上有很多开创性的科学家在拒绝受单一学科的限制后取得成功的案例。即使在合成有机化学中,跨越边界的灵活工作也使以前被回避的技术,如光化学、电化学和实验设计越来越受欢迎。如今,领导者们也花费了大量时间和心力,试图推动跨学科,尽管体制似乎坚决拒绝这一概念。学者们抱怨说,他们找不到合适的期刊,大学领导不了解不同领域的不同发表指标,此外,在单一学科的安全范围之外招聘更困难。

人类的不安全感使我们拒绝分享信息

在大公司里,跨学科的工作可能要容易得多。而且,公平地说,制药和农业化学家的问题可能更简单,因为我们最多样化的学科至少有人类健康或植物健康的共同点。至少在英国,对于化学领域的研发,先驱者们看到了不同团队之间建立联系的好处。事实上,我已经习惯了“竖井”这个词被消极地使用,以至于我很惊讶地听到技术专业人士将它作为软件开发中不同团队的标准术语。它说明了这些孤立的群体是如何被有意创造出来的。人类的不安全感使我们拒绝分享信息。

沟通障碍

有时候拒绝沟通是有合理的理由的。当然,一些市场营销的工具故意降低了互操作性,试图将客户引入供应商的数据生态系统。但作为一名反应优化化学家,我经常遇到这样的情况:我需要询问其他化学家的原始数据——一份高水平的报告无法达到要求。我在寻找能帮助我全面理解之前反应的副产品,而对于最初的团队来说,最重要的结果是产物收率和生物学数据。在最糟糕的情况下,当团队不能或不直接分享他们的结果时,我们最终会降低质量或重复工作。

一个好的数据生态系统,无论是公共的还是私人的,都可以帮助实现这一点。在合成化学中,我们很少完全从零开始进行合成。化学家们依靠他们自己和同事的经验,以及文献和现有技术。然而,即使是寻找相似的分子也是一个挑战。你确切的产品或转化不太可能产生结果,而且产生的结果可能太少,无法代表尖端化学。另一方面,马库什结构残酷地缩小到最简单的组成部分,缺乏确切问题的细微差别。此外,在化学中很难区分到底是什么决定了“最接近的先例”。这些条件用于垂链烷基醚是否也适用于可能不稳定的甲酯位置?通过通用结构搜索电子上相似的基团也很棘手,例如,如果该酯被三氟甲基取代。同样的问题也出现在公司的电子实验室笔记本上——只是有时用户报告说这些笔记本更难搜索。

一个机构的数据能力越强,其团队之间的联系越强,它就越接近半自动搜索的能力。首先,为所有用户的需求设计的共享模式允许最不同的化学团队做出贡献并受益。为了减少覆盖所有接近匹配、前沿文献条件以及空间和电子相似性所需的查询数量,一个自动系统运行所有这些可能性是一个诱人的替代方案。对于化学家来说,设计他们预期的反应是合理的,而他们的数据生态系统回答说,“你知道你的工艺化学同事尝试了几乎相同的转化,而你的配方同事发现产品在丙醇中溶解得很好吗?””

直接交流结果是分享信息最令人难忘的方式,但当然,即使是一家公司,也没有人能知道每个人的反应和每个项目。一个快速、自动的推荐信可能一开始听起来像是一个没有人情味的选择。但是建立一个跨项目、跨功能、跨机构的数据生态系统自然有助于竖井的合并,并解决了首先知道该问谁的主要问题。