机器学习算法可以预测反应收益率仍然难以捉摸,因为化学家往往埋低收益的反应在他们的实验室笔记本而不是出版,研究人员说。我们这张照片是坏的实验失败的实验,”说Felix Strieth-Kalthoff。但它们包含知识,它们包含有价值的信息为人类和人工智能。

Strieth-Kalthoff从多伦多大学、加拿大和一个团队弗兰克Glorius从德国明斯特大学的要求化学家开始不仅包括他们的最好的也是最糟糕的结果文件。,以及公正的试剂选择实验程序和报告在一个标准化的格式,将允许研究人员最后创建产量预测算法。

Retrosynthesis已经使用机器学习模型创建短,便宜或非专利合成路线。但很少有尝试创建程序预测产量。他们中的大多数需要研究人员首先产生一个自定义数据集的高通量实验。

“当然是理想是…我们取的数据,在文献中,“Strieth-Kalthoff说。但做了流行的反应像Buchwald-Hartwig氨基化和铃木耦合生成算法,非常不准确的,我们可以几乎只是猜测的平均(收益率)培训分布”。

研究小组显示,虽然机器学习算法相当健壮的实验错误——比如收益率波动由于规模——他们深深影响了人类的偏见。整个化学反应条件的空间和空间非常广阔,但我们往往总是做同样的事情,”Strieth-Kalthoff说。这是进一步强化了哪些化学物质最便宜和最可用的。但我们发现的因素是更重要的是,我们不报告所有的实验结果。

复利计算错误

研究人员训练数据集的算法高通量的反应。当许多低收益的例子,艾未未的产量预测误差增长超过50%,使用整个不变的数据集。增加30%的误差发生在偏压训练数据只使用特定试剂的组合。当团队有意引入实验错误数据集的产量,预测误差保持在10%以下。

添加假-数据-随机分配试剂组合在0%的收益率实际上增加了算法的预测精度。我们不知道什么是真正的收益率(这些反应),我们可能会推出一些小错误,但实际上这种策略显示了一个承诺,“Strieth-Kalthoff解释道。“但我想,在这个阶段,不认为这是解决方案,而是强调负面数据是多么的重要。”

”这是一个很好的方式来让人们意识到,不同的考虑应该当我们考虑使用现有的不同类型的反应数据预测化学任务的机器学习,”说康纳绿青鳕他在麻省理工学院的计算机辅助化学发现,我们。问题数据限制创建在机器学习社区是众所周知的。但更多的化学家从实验背景开始使用人工智能工具'我认为很好,以确保这些主题被想到的。

我认为,更广泛地说,文学,我不会说(省略低收益反应)是唯一的问题,甚至必要的主要限制,“绿青鳕指出。他说,一个大问题,就是文献数据经常丢失信息或隐藏在文本文档。试剂添加顺序等因素还是混合物搅拌可以是至关重要的。

提高标准

报告所有的这些细节,标准化的格式,将不仅有助于计算机,而且人类的化学家。我觉得很多人可能浪费几小时或几天内试图复制一个反应,他们读过的一篇论文中,“绿青鳕说,过后才发现一些简单的处理,比如烘干瓶使所有的差异。

去年,绿青鳕是团队的一部分数据库创建开放的反应。这种开放获取存储库允许数据被捕获在一个结构化的有机反应,机器可读的方式。虽然这是一个一步解决数据共享的技术壁垒,还有文化障碍,Coley说。“我们需要改变人们选择的方式报告他们的数据,使用这些更加结构化的格式和愿意分享他们认为是负面的例子。”

有充分的理由不去报告一些失败的实验:他们可能开始一个新项目你不想舀,例如。但省略所有的0%的收益率反应可能让其他化学家不必要的重复努力,Strieth-Kalthoff说。

可是有时很难发现是否反应失败因为设置错误或者因为固有的反应活性,Coley说。自动化、高通量实验、标准化的程序都将帮助。

耦合自动化与人工智能也将采取一些乏味的实验室工作。对方法开发的我最讨厌的,是坐在前面的平衡,体重40催化剂尝试,“Strieth-Kalthoff笑着说。”如果我们有机器人自动化系统,然后化学家能更专注于更高层次的任务指导模型到正确的方向和找到合适的研究问题。