基于机器学习系统希望超越expert-guided反应规划技术,发现安迪Extance

当IBM的深蓝计算机打败国际象棋冠军盖瑞卡斯帕罗夫相媲美的1997年,一些化学家们必须意识到,这可能意味着一场胜利。但Bartosz Grzybowski。然后在美国哈佛大学的博士研究生,化学外他扮演纸牌游戏热切的桥梁。Grzybowski的对手像深蓝的算法很感兴趣。我开始思考,为什么不能这对分子做什么?”他回忆说。特别是,可能类似的算法帮助计划的战略目标分子,化学家们称之为retrosynthesis。

计算机辅助retrosynthesis已经尝试过,尤其是由诺贝尔奖得主有机化学家E J科里。然而这些努力被挑战的规模有限。“我甚至去了一个非常著名的化学家,他告诉我“不能做”,“Grzybowski说。但他没有被吓倒。

Grzybowski坚持的想法后,他开始自己的研究小组,他们在2005年开始描述化学合成网络。首先,他们看着以前的化学反应,通过一系列的统计描述的法律化学家的方法使有机分子如何。到2012年,他们介绍了得分函数评估和优化现有的合成,指的是原料,然后从精细化工供应商Sigma-Aldrich,商用Chematica称他们的工具。但Grzybowski希望算法来提高合成路线前所未有的化学文献中使用的步骤,如深蓝寻求最好的国际象棋在全新的游戏。

目前发表的化学实验的细节问题。有许多错误,他们是偏向简单的和成功的实验。Grzybowski约2010,和他的同事做出关键决定手工代码规则描述反应机械类,包括与他们官能团是不相容的,必须得到保护。Grzybowski从波兰科学院的团队发表的第一途径发现在2016年由Chematica从头。但直到2020年,他们声称战胜他们著名的化学家抱怀疑态度的人,当Chematica生产路线复杂的天然产物。

有机化学不仅仅是记忆规则,这也是学习它的微妙之处

由于这个故事展开,2017年,德国化学巨头默克公司,拥有Sigma-Aldrich业务,买了Chematica Synthia重命名它。后决定做这个测试自动化retrosynthesis Sigma-Aldrich想让七个化合物。”在过去的三天,我们有一个速成班如何使用它,”林赛Rickershauser解释说,他现在是Synthia的销售和营销经理。我们周围有规则,所以我们会模仿科学家和化学家的压力。在每种情况下Synthia发现新的合成路线的全新产品,增加实验获得的收益率,降低成本和/或减少所需合成步骤的数量。

现在默克公司的一部分,Synthia包含超过100000个手工编码规则,每一个都需要一个长时间的搜索,有可能在几个星期。默克公司的潜在价值就会使投资价值,Rickershauser说。然而今天是用于其他化学家执照,和我addsts年代使用的十排名前20位的制药公司,Rickershauser补充道。大多数化学家使用Synthia,他们不一定退出整个软件执行路径从头到尾,“Rickershauser评论。他们发现灵感和断开连接,他们永远不会想到。

然而Synthia现在面临着许多挑战。

限制检查

在2014年,Marwin赛格勒走近自动化retrosynthesis从一个稍微不同的方向明斯特大学的博士期间,德国。他试图避免需要专家教retrosynthesis算法有机化学的规则。赛格勒转向相反,机器学习。传统上,纯粹的基于规则的模式匹配技术提出了自动教计算机化学强劲够retrosynthesis无法工作。赛格勒采用新技术,但更适合化学挑战。“我们发现机器学习申请retrosynthesis工作得非常好,解决了一些长期存在的挑战,”赛格勒说。直观地说,这是有意义的。有机化学不仅仅是记忆规则,从实验数据也学习它的微妙之处。

工作已经被证明有影响力,与其他组织采用类似的方法。科学家现在赛格勒,像微软剑桥研究院英国正试图开发系统,可以做Synthia没有被专家教。他们超越retrosynthesis,挑战人类化学家可能麻烦。从向后找出如何使目标分子,他们已经朝前看和预测反应的结果。

产生的retrosyntheses算法对那些由人类是没有区别的

赛格勒也比较retrosynthesis象棋。最长的比赛象棋比赛269移动,但有相对较少的选择为每个移动。Retrosynthesis——从最终产品你想要和工作向后通过多个反应原料,在这两点上不同。20,或者中间步骤,对于大多数retrosyntheses就太长了,但是在每一步可能会有成千上万的潜在的合成路线。机器学习是教学数据神经网络通过喂养。赛格勒的算法首先学到的规则从数以百万计的化学反应反应Reaxys数据库。然后,retrosynthesis,它搜索的步骤学习。理论化学家,明斯特团队面临的一个实际问题测试这个工作。他们不能轻易地尝试提出的路线,所以他们能做什么?

答案将来自计算机的先驱之一:阿兰·图灵。图灵曾提出了一个测试来判断一个计算机可以像人类一样思考,跟一个真正的人类。在这种情况下,明斯特科学家测试了是否人类化学家可以告诉retrosynthesis是否由一台电脑。“如果你看看评论论文从2000年代,批评你一直是很多这样的系统不合理的路线,这专家有机化学家很容易发现,“赛格勒说。一些典型的retrosyntheses药物化学目标产生的明斯特团队的算法对那些由人类是没有区别的。赛格勒说,“这是令人惊讶的。

在2018年出版时,明斯特团队的研究引发了新的兴趣自动化retrosynthesis,据Esben Bjerrum,供职于制药巨头阿斯利康在瑞典哥德堡。他加入公司不久,因为原系统并不是免费的,与他的同事塞缪尔Genheden博士生阿莫勒塔迦尔开发这样的一个人。他们称他们的版本AiZynthFinder,Bjerrum突出的优势公开可用的源代码

我们也看到了融入RetroBioCat,旨在预测生物转化的工具,但是,选择使用标准反应AiZynthFinder添加作为替代,“Bjerrum说。“我们正在开发的工具已经可用。然而,我们继续努力改善它们。“日本推特机器人还使用AiZynthFinder转发预测合成路线,如果你把它微笑字符串格式的结构。

有一个指数增长的出版物在化学。很难想象在长期保持。

AiZynthFinder也被集成到一个版本的自动化系统知识连续有机合成(ASKCOS),麻省理工学院开发的一个工具,我们。走出2016年darpa资助使其计划,ASKCOS是方法的自动化retrosynthesis是结果,麻省理工学院的康纳Coley说。的方式方法很不同于更由专家系统,”他说。允许访问的目标都是一样的大型化学空间,使它更快,更便宜,更容易合成新结构或提出更好的方法来合成旧结构。然后学习技术的局限,推动我们使用的算法和计算方法的过程,从实验数据描述和学习有机反应。

比例模型

ASKCOS的一部分机器学习药物发现和合成财团由麻省理工学院和涉及15个制药公司。2019年,协会出版了一本论文将ASKCOS集成到自动化机械合成,揭示它的功能和局限性。机器学习的基本挑战是总结从嘈杂的数据错误和大缺口,Coley补充道。“当然,人类可以做外推,写下我们相信规则和反应的范围,”他说。“我们正在研究如何试图从数据推断。“这很重要,因为Coley看到场景自动推理将会更快和更可伸缩比人力的方法。有出版物在化学的指数增长的速度,”他说。“很难想象长期保持。

就更难使用反应常常没有足够的数据来构建健壮的模型

一些研究人员使用机器学习技术来预测哪些反应将工作,包括他们的条件,可能设计全新的反应类。再一次,他们从重演过去的象棋发明全新的移动。对于这个应用程序有可能在某些方面专家系统要比在retrosynthesis更乏味的部署,Coley说。

Bjerrum谨慎回应这个前景。的平衡可能会提示从基于规则的专家系统对规模的方法更好的数据量不断增加,”他说。然而,他指出,这些数据通常需要很多管理和清洁为了成为可用的深度学习的。”就更难使用反应常常没有足够的数据来构建健壮的模型和基于规则的系统有优势,因为它可以建立在化学的知识背景下,“Bjerrum说。但为什么不结合呢?我想尝试深度学习与hand-curated模板,用于Chematica。”

从他的角度来说,阿斯利康Bjerrum没有印象,化学家们一般使用自动retrosynthesis工具,而是他们自己的经验和知识。更多的意识的好处和易用性自动化retrosynthesis工具是必要的,”他说。数百万的工具有一个知识库的反应和一个完整的概述可用库存,可以自动搜索。化学家使用我们的工具从而得到一个好的概述潜在的反应和构建块的上下文中使用一个给定的目标分子,即使预测路线可能不包含具体的最终使用。

然而今年重大步骤采取进一步自学系统已经由不是别人,深蓝的开发人员,IBM。自2017年以来,该公司机器学习应用于化学使用技术类似于自动的翻译。训练算法对化学专利数据,IBM可以自动提取反应规则,然后预测从反应物的反应结果。它使生成的RXN化学奖2018年网上工具。2019年,公司耦合retrosynthesis这些模型与其他算法。RXN利用反应预测算法来帮助评估retrosynthesis结果,解释了IBM的亚历山德拉Toniato,检查该路线会产生目标分子。

这可以自动清理脏数据集模型难以学习的反应包含不正确的元素。IBM指示模型注意努力学习反应和删除它们从原始数据集。一个有趣的实验,我们做的是更清洁的数据集,引入一些噪声,“Toniato说。将随机分子,他们不应该和更换正确的产品的相似。和模型,通过应用这种无助的技术,是能够发现这种噪音。”

业绩压力

在2020年,IBM扩展的方法合成分子机器人自动和远程。它创建一个数据集的操作液-液萃取和过滤从700000年记录的反应。研究人员然后使用这些记录训练一个新的机器学习模型的化学方程式,它转换为可以在原则上的一系列步骤,直接在执行RoboRXN机器人,”IBM的阿兰Vaucher解释道。系统目前是免费使用,增加了团队领导特奥多罗会。”每个人都有机器人的模拟器,”他说。“如果你想访问真正的硬件,然后你需要从我们的一个关键。如果你喜欢它,有可能有类似的安装在你的前提。

到目前为止有26000用户RXN总的来说,一起Vaucher说,他取得了370万年预测的反应。IBM已经用它来开发新的碳捕获和半导体制造材料。在英国,钻石光源同步加速器将开始使用RXN模型有自己的机器人在2021年上半年开始。

没有单一的神奇的子弹

会承认retrosynthesis工具完全基于机器学习落后Synthia性能。Synthia一直建立在大量的文献和数据来源,”他说。有机化学家的性能体验,真的是知识的结果数据集。“现在IBM将与欧洲出版商合作与高质量的化学数据训练模型。“那是,我们要有一个比较公平一点,“会说。高质量的数据和无监督规则提取将使IBM的复制Synthia仅仅几天,会补充道。

Grzybowski系统的前景持怀疑态度,只使用机器学习,打电话的想法“不太可能,考虑到嘈杂的文献,又有多少是由简单的反应类型”。然而,一些团队,第一赛格勒的绿青鳕的,后来还Grzybowski的,显示机器学习和基于规则的专家系统之间的协同效应。没有单一的魔术子弹,grzybowsk说。“是的,有一个地方为AI在这方面,但是也有一个机械的知识,对量子力学,分子力学。“最终的问题,技术是最好的retrosynthesis是次要的,他总结道。“我不想被附加到一个词汇,我想解决这个问题。”

安迪Extance在埃克塞特是一个基于科学作家,英国