一种机器学习算法的任务是设计形成自组装结构的肽,在正面交锋中胜过了领先的专家。尽管机器陷入了一些人类专家避免的陷阱,但它也发现了一些高度新颖的肽。

肽的自我组装对许多生物学领域都至关重要,如皮肤、头发和指甲中的胶原蛋白形成,并与阿尔茨海默病等疾病有关。它在生物学之外也有应用。化学家说:“我们自己的兴趣是开发生物电子等传感新材料。克里斯弗莱美国阿贡国家实验室的研究人员。

然而,在肽可以组装之前,它们必须首先在溶液中聚合。这要求它们具有足够的亲水性以溶解于水中,同时又具有足够的疏水性以凝固。生命使用20种氨基酸来制造蛋白质,因此,每增加一种额外的氨基酸,任何给定链长度的可能肽的数量就增加20倍。利用分子动力学模拟,可以从计算上筛选所有8000种三肽的性质,但目前不可能对超过300万种五肽进行筛选。

因此,弗莱与同事合作萨勃拉曼尼亚Sankaranarayanan领导他也在阿贡大学(Argonne)对AlphaGo -中使用的机器学习算法进行了调整谁在2015年的围棋比赛中击败了世界冠军李世石-成为“人工智能专家”。AlphaGo算法的关键突破在于它能够高效地分析19×19棋盘上所有可能的走法。Sankaranarayanan解释道:“这不是19×19桌游,而是序列空间的问题。“无论搜索空间有多大,该算法或多或少都需要相同数量的评估,这意味着即使你的搜索空间是数百万个分子,你仍然可以选择任何你想要的目标属性,并只需要几百个评估就能找到表现最好的候选分子。”

研究人员从随机五肽的分子动力学模拟开始,计算了一个称为“聚集倾向”的度量值。然后,他们使用机器学习算法来寻找具有更高聚集倾向的五肽。他们对100种表现最好的五肽进行了详细的分子动力学计算,并合成了9种最有希望的五肽。6个在溶液中聚合,命中率为67%。然后,研究人员请五名人类专家设计出他们认为会聚合的五肽。在模拟中看起来很有希望的11个中,有6个加在一起,成功率为55%。

人类专家通常依赖于与已知在其他多肽中起作用的结构类似的结构,并且大多停留在四种常见的氨基酸上。这位人工智能专家设计了一些高度新颖、非直观的序列,总共使用了10多种氨基酸,并发现了一些传统的多肽。然而,它的一些努力并不那么成功——它反复尝试加入脯氨酸,而脯氨酸已知会破坏自组装的结构。研究人员目前正在努力增加额外的约束条件,以减少这些异常预测。

“我们天生就有偏见,”计算肽设计师说法比安Plisson他没有参与这项研究。“算法的组合很有趣,因为他们的目标是……你可以看到同样的工具组合被用于识别抗癌肽、抗微生物肽、抗病毒肽——同样的策略正在肽研究的不同领域被利用。”