机器学习可以提供全新的视角对我们的化学世界

分子大于部分的总和?这取决于你需要的部分。鉴于马钱子碱包含相同的原子蛋白(C、H、N, O),似乎没什么洞察分子性质提供拉这样的分子原子组件。另一方面,番木鳖碱——也在马马钱子树和另一个讨厌的毒素——表明,生物碱框架共同分子一般是坏消息。

0917年cw -坩埚- 3 d元素周期表

来源:©彼得牛艺术工作室

元素周期表延伸到三维显示每个元素创建知名的构建块

生理效应可以臭名昭著的反复无常——结构相似的分子(如两个对映体)可以有非常不同的影响,而不同的分子可以产生不尽相同的结果。但是一个内在分子属性,如总能量?可能我们希望产生某种解剖吗?

黄的预印本Bing和阿纳托尔·冯·Lilienfeld巴塞尔大学,瑞士,表明它。1这两位研究人员已经表明,分子的能量或多或少可以相当准确地预测任意大小和结构的机器学习算法“训练”在一个相对较小的组相关的碎片。这与先前的努力使用机器学习(ML)计算化学性质,在训练集还需要成为大目标的大小和复杂性增加。2、3

构建块

这减少的规模问题是通过应用一些逻辑。典型的ML的方法是把一个巨大的训练集的算法,与一些组件不太到目标密切相关。相反,黄和冯·利设计方案仅供识别这些分子框架代表化学意义的碎片的目标:“核心”组,尺寸从一个原子几乎目标本身,在相关环境,准确反映当地的化学。

有更少的这些碎片比的总数可能部分可能包括在培训组,但他们足够使算法收敛于一个精确计算的总能量。一个测试用例,2 -丙醇(C (furan-2-yl)7H10O2),34岁的这些片段足以产生一个结果在1.5千卡/摩尔的真实的数字。传统ML方法可能需要成千上万的。新算法可以预测一些其他属性,如极化率。

这些碎片是许多类似的分子的构建块。化合物与此相关的测试用例,例如,可以被分解成类似集,有强烈程度的重叠。虽然没有明显的限制有意义的化学空间碎片的数量,他们更减少了所有可能的子集。它不仅有机分子:黄和冯·利表明,他们的方法适用于非共价结构,诸如水集群或氢键的沃森克里克DNA碱基对和长固态结构,如氮化硼表。

构建化学空间

研究者指出,这种方法可以被认为是元素周期表的延伸成一个三维空间,其中列举了所有不同的化学环境中为每个元素。氧气,说,位于OC, OO, O = N, OC = C等等,研究人员称之为“am-ons”:原子在一个特定的分子环境。冯·利说,有一个这样做的方法排序,包括积分neighbouring-atom距离、提供am-ons具有独特的和专制的位置,即使它不避免裁员由于原子排列。这个原则,他说,可能提供一个定义良好的、甚至有些自然结构的化学空间,其中的元素周期表就变成了“生成表面”。

认为计算可以解决挑战性的问题变得越来越聪明还在另一篇论文,结合基于物理理论与化学直觉。4安德烈Bernevig普林斯顿大学的我们,和他的同事已经美国化学家的真实空间图片与物理学家的动量空间的照片带结构复杂的固态化合物。在这一过程中,他们发现了一个快捷方式,特别是识别候选化合物电子结构主要由拓扑因素负责“量子材料”的不同寻常的特性拓扑绝缘体。与黄和冯·利的枚举的化学片段,这种方法减少了冗余的寻找解决方案,利用系统中固有的对称性。

这项工作被誉为“化学和物理愉快地结婚”。5这是我们都高兴地看到——但或许更一般的情况下应对复杂问题不仅是更多的资源,但精明的思考。