科学家开发了第一个开源工具翻译化学结构的Iupac命名使用机器学习软件由谷歌设计的。

Iupac自1919年成立以来,国际纯粹与应用化学联合会一直维护的系统命名化合物。然而,其他系统来确定化学结构更方便计算机处理在过去的几十年里出现了。简化分子输入行输入系统(微笑)描述了化学结构使用线符号——例如,butan-2-ol被编写为CCC (C) O

但Iupac命名不去任何地方,因为它是最容易被人理解,因此在教学中,仍然是普遍的化学期刊和专利。但是没有开源工具转换之间的微笑Iupac符号和名称。项目如ChemDraw已经包含structure-to-name算法,但这些都不是免费的访问和不能用微笑作为输入。

谷歌最近开发的人工神经网络来提高翻译的自然语言,称为变压器。科学家在俄罗斯建立在这个生产一个程序Iupac微笑翻译字符串和结构图纸的名称,反之亦然。

图像显示一个大的化学结构。环绕在不同部位不同颜色显示各个功能组重要的命名。下面两个长名字写出来

来源:2021年©列弗Krasnov et al

这个分子有四个名称根据Iupac命名——神经网络发现他们所有人

PubChem有近1亿种不同的分子结构,用来训练和测试程序。然后,100000这些分子被随机选中的验证算法。

软件Iupac承认当一个分子可以有多个名称,这是通常情况下在大型和高度functionalised结构。然而,却挣扎于非常小的分子,即甲烷,有时错过了非常大的化合物。总体而言,98.9%的准确率,将微笑Iupac结构名称。