该算法可能已经了解了能源格局,但它需要一点帮助才能找到全局最小值

的成功AlphaFold获奖原因:预测了超过2亿种蛋白质的结构去年8月,导致兴奋的说该算法将彻底改变生物学、药物发现和分子医学。这还有待观察,但有些人热衷于此缓和炒作他指出AlphaFold实际上并没有“解决蛋白质折叠问题”。相反,它通过使用机器学习来发现序列和已知结构之间的联系,然后将其推广到未知结构,从而回避了这个问题。

蛋白质

来源:©科学图片库

AlphaFold对蛋白质结构的预测表明,它对势能格局有所了解

与分子动力学模拟不同,AlphaFold(由谷歌的分支DeepMind的一个团队设计)并不试图概括导致折叠结构的分子途径。它只是利用它所学到的序列和链形状之间的相关性。然而,为了为任意的主氨基酸序列识别这些序列,该算法需要编译与目标序列密切相关的序列集合,称为多序列比对(msa)。这些给了算法一种在构型空间的这部分氨基酸替换的结果的感觉。如果很少有已知的蛋白质与靶蛋白有密切的同源关系,那么对msa的这种要求就成了一个问题。

这些预测究竟有多准确,仍有争议。一个新的预印本报告称,即使AlphaFold预测的结构具有很高的置信度,也可能与实验数据的细节存在显著差异。1研究人员说,这些预测不应被视为实验结构确定的替代方案,而应被视为实验可以验证的假设。

尽管如此,这些预测大多是令人印象深刻的准确,对蛋白质结构和功能的探索肯定是有用的。但是,它们能告诉我们关于蛋白质折叠本身的任何东西吗?

地面控制

蛋白质的最低能量折叠态是在其初级氨基酸序列中唯一编码的想法是由基督教Anfinsen2蛋白质在被翻译到核糖体上后如何正确可靠地折叠,或者变性后如何折叠?在今天的经典图景中,折叠发生在具有漏斗状地形的势能景观上,确保该过程或多或少地流向基态,而不管初始配置是什么,并且不会陷入次优亚稳态构象。

AlphaFold能告诉我们有关能源格局的任何信息吗?这并不明显,但哈佛大学的詹姆斯·罗尼和谢尔盖·奥夫钦尼科夫现在已经做到了认为确实如此。3.他们提出,该算法已经隐式地了解了能量格局的样子,但由于它是如此巨大,它无法从任何任意起点导航到全球能量最小值(最稳定的折叠)。这就是为什么需要msa:在正确的区域启动优化过程。(这里的“能量”不一定对应于热力学自由能,而是AlphaFold优化的某个函数。)

为了支持这一观点,罗尼和奥夫钦尼科夫展示了AlphaFold可以推断出序列与“手动”提供给它的候选结构的匹配程度。研究人员使用了一个蛋白质结构数据库,该数据库是用一种经典的结构预测软件包开发的罗塞塔4Rosetta确实有一个明确的能量函数,基于分子间作用力、溶剂化作用、氢键等等,并对小蛋白质表现得相当好。通过向AlphaFold提供一个由Rosetta优化的结构,以及许多覆盖广泛结构空间的“诱饵”结构,研究人员发现,算法分配给每个结构的置信度与它们的真实质量相关,即它们如何最小化能量函数。

他们使用了一组类似的目标和诱饵结构预测的第14次关键评估2020年的挑战,这是两年一次的“锦标赛”,蛋白质结构预测方法相互竞争。在这里,AlphaFold也需要诱饵——实际上,充当msa——来为CASP14目标生成良好的结构预测。

不过,现在看来,这已经不是什么限制了。考虑到AlphaFold似乎确实获得了局部能量表面的感觉,可能没有必要从真正的蛋白质中收集msa来帮助它导航到全局最小值。像Rosetta这样的方法,可以从头为给定序列生成足够合理的结构,这可能足以让AlphaFold识别出其中最好的结构并加以改进。这对于使用该算法设计全新的蛋白质来说尤其是个好消息。因此,这个人工智能比它看起来更聪明:在它的置信度估计中编码的是一种物理直觉。