科学家发现了人类的偏见在数据集训练机器学习模型用于计算机辅助合成。1他们发现,模型训练小随机样本的反应比那些训练有素的更大选择人的数据集。结果显示包括实验结果的重要性,人们可能会认为不重要时为化学家开发计算机程序。

机器学习在化学合成模型是一个有价值的工具,但它们从文学训练数据支持积极的结果,而暗反应的实验,被试过,但没有工作——通常是排除在外。包括这些失败是必不可少的生成预测机器学习模型,”说约书亚Schrier福特汉姆大学的我们是一个团队的一部分,研究了水热合成amine-templated金属氧化物,发现偏差引入文学的人们的选择反应参数。

“我们认为额外的暗反应——一类反应,人类甚至不尝试,不是因为科学和实际的原因,只是因为它是人类做出的决定,“Schrier说。“我们发现化学家往往陷入窠臼在规划新的实验,这就强化了社会线索。有一个倾向于随大流,文献中所定义的先例。这将导致系统的群体中一些试剂和反应条件在实验数据集,他说。我们发现这在晶体数据库和我们收集数字化暗反应的实验室笔记本”。

研究人员评估超过5000 amine-templated剑桥结构金属氧化物结构存入数据库,并发现17%的已知胺反应物(70“流行”分子)发生在79%的报告结构,而剩下的83%(345年“不受欢迎”分子)中只有21%的结构。他们还未发表的实验记录分析水热硼酸钒反应从他们暗反应项目pH值,发现类似的偏见和胺量使用。

我们删除了这种偏见通过故意拒绝这些探索性的标准方法反应,”说亚历山大Norquist哈弗福德学院的我们,他也参与了研究。他指出,在反应中性能没有区别时,“不受欢迎”胺。我们创建了两个机器学习模型。一个有偏见的数据和使用其他使用随机实验。随机试验的模型更强、更好。在实验室测试与看不见的试剂,它能够预测新的反应更成功和发现新的化合物,将由一个模型完全错过了训练有素的人为偏差数据。

李·克罗宁英国格拉斯哥大学的说,结果是有趣的但不令人惊讶。所有项目偏差,关键是声明它,”他说。康纳绿青鳕在麻省理工学院的,我们对此表示赞同。可以说作者有一种偏见的另一种形式交易。甚至在“随机”的实验中,他们必须指定参数空间上的概率分布他们感兴趣的建筑模型,”他说。克罗宁说,这项研究被认为是热液形成的晶体,这是非常广泛和持续。“这并不遵循这可能适用于不连续等新类型的反应,”他说。

Sorelle fiedl的用于检查电子邮件地址哈弗福德学院的,他也参与了研究,认为技术正在开发鼓励公平的机器学习。她相信,这种方法将是一个有趣的扩展这项工作。但是Coley认为偏差问题可能仍然存在。选择实验算法是一个伟大的方式来减少人类的偏见的影响,但选择算法和定义它的目标仍然是非常主观的任务,”他说。