的感觉,对我来说,他们接触机器学习就像用锤子来解决一个问题,“机器学习专家说悉赶车工作在无人驾驶汽车在美国公司Nvidia技术。赶车的是指一个算法设计的预测反应的结果1——谁说现在有争议的另一个研究团队的研究不能古典控制机器学习。2

尽管该研究的作者不同意这种评估,3机器学习方法的争议凸显了潜在的缺陷,因为他们获得牵引力。十年前,只有几百化学机器学习出版物。在2018年,将近8000的文章在网络科学的化学包含关键字集合。

学习算法承诺改革药物发现,合成材料科学。但因为越来越多化学家来场(机器学习),不幸的是,有时最佳实践不跟随,”说Olexandr Isayev化学家和机器学习专家从北卡罗莱纳大学教堂山分校,我们。

化学模式

2018年2月,一个团队阿比盖尔道尔从普林斯顿大学,我们,斯宾塞·德雷尔从默克公司创建了一个机器学习模型预测收益率上升与异恶唑杂环化合物的交叉耦合反应被抑制的反应。

收益率和试剂的研究人员喂养他们的算法参数——轨道能量、偶极矩和核磁共振和其他很多变化——3000年的反应。模型可以预测,精度高,收益率的反应还没有遇到。

有这种误解关于机器学习的一个黑盒子。这不是真的

迈克尔•Keiser加州大学旧金山

然而,Kangway壮族迈克尔Keiser从加州大学,旧金山,我们觉得柯南道尔的团队未能进行充分的控制实验。当Keiser和壮族训练一个无意义的数据相同的算法——随机条形码而不是化学参数——这几乎是柯南道尔的一样擅长预测收益率。怎么将一个模型,甚至没有看到化学反应特性预测收益率?betway必威游戏下载大全“Keiser奇迹。“任何成功的模型不使用化学。”

Keiser解释说,问题可能源于缺少多样化的训练和测试使用的数据集模型。是有害的,因为它的微妙和容易错过:可能你看到的化学模式非常多样,“Keiser说。当训练集和测试集看起来太相似,解释了赶车,膨胀模型的准确性。

“如果有一种方法对机器学习模型找到模式,欺骗和获得良好的性能,我们研究人员甚至不考虑——它会这样做,”Keiser说。甚至有一个这样的作弊算法年代,由维多利亚Krakovna DeepMind。它包括“懒惰的食人族”出现一个人工生命仿真

在仿真,吃提供能量,成本能源和再生能源是中立的。进化的算法最大化它的能量增益久坐不动的生活方式,包括主要的交配产生后代,作为一种食物来源。

越简单越好

在化学,每个数据点的价格高,你需要新的化合物,做新的反应,“Isayev说。这就是为什么化学数据集往往比较小,这是一个问题对于复杂的算法,容易过度拟合。

模型训练不仅只有几千的反应可能会发现有用的趋势也模式潜在的噪音。过度拟合模型过于自信和人为推高他们的表现。赶车的建议坚持奥卡姆剃刀:“用最简单的算法或模型,有助于解决这个问题。

小数据集也往往有偏见——它们包含太多的相似结构,Isayev说。模型训练这些数据可能会做得很好,“但实际上,所有(它)是了解这个特殊的支架”,他指出。它听起来真的很无聊,但数据是关键,“Isayev补充道。管理数据需要一定的技巧。与任何模拟”,“垃圾在垃圾”适用原则,”他说。

“这是一个杰出的挑战”,同意柯南道尔。“你怎么提前知道实验条件包括作为一个模型的训练集为了最大化样本外预测能力?在他们的反驳,柯南道尔,德雷尔和他的同事们认为,他们的机器学习模型是有效的,尽管Keiser试图证明并非如此。柯南道尔解释说,随机模型不能预测化合物没有训练数据的一部分。

耶稣埃斯特拉达博士研究员在柯南道尔的小组,说,证明模型的预测能力,是不够做一个实验,测试和训练集只包含组件的平均反应。“你想使用一个测试集,更极端的结果,因为这是(随机)模型不能预测。

很难去说谁是正确的——事实可能是介于两者之间,“Isayev说。也许作者不小心在应用某些实践,但是它没有折扣,您可以使用机器学习来预测反应的结果。

克服炒作

虽然没有算法的有效性,最后共识Isayev指出讨论重要的是帮助别人避免类似的绊脚石。对机器学习的有这种误解,这是一个黑盒子。Keiser说,那不是真的。科学研究的原则——测试多个假设和检查结果结合直觉——应该应用于机器学习任何其他类型的研究。

而不是期待立竿见影的效果,我认为使用机器学习或任何计算技术是减少搜索空间,它允许科学家更集中的方法——专业领域的相关性不能排除的,说赶车。机器学习和人工智能为大标题,但有时你必须看到除了他们看到实际结果不是惊天动地的。”