深度学习网络AlphaFold2 -培训约170000蛋白质结构已经在科学界引起了人们极大的兴奋

团队在谷歌分支DeepMind说他们的人工智能(AI)网络解决了一个巨大的飞跃50岁的蛋白质折叠问题后,打败所有其他团队在一个蛋白质结构预测的挑战。这个项目已经收到,世界各地的研究人员说,它可以彻底改变对生物学,特别是药物设计等领域或环境的可持续性。

谷歌的算法AlphaFold2今年的赢家结构预测的关键评估(Casp14)挑战——两年一次的竞争创建基准进步计算蛋白质结构预测的准确性。AlphaFold2能够确定约三分之二的三维形状的目标蛋白质准确度实验,大大超过约100其他团队。

蛋白质氨基酸组成的复杂的分子链,可以折叠成不同的形状。预测最后的3 d结构将是什么样子是一个挑战,科学家已经在工作了几十年。穆罕默德AlQuraishi从哥伦比亚大学,我们开发的一个竞争算法认为,DeepMind的人工智能可以帮助研究人员了解蛋白质的功能通过比较其预测结构蛋白与已知函数和形状。他补充说,虽然这个项目不是为蛋白质设计开发,经验从其他模型罗塞塔表明它可能用于这一目的。”很可能没有足够精确的医学应用主要集中在小分子,但它可能帮助设计抗体蛋白质疗法,”他说。

安德烈领袖德国马克斯·普朗克发育生物学研究所,他是一名法官在Casp14,相信有很多算法在幕后魔法。他们没有太清楚他们在做什么,但他们花很多时间正确的细节,这似乎加起来是一个非常,非常好的总体预测,”他说。“我的部门提供一种蛋白质的目标,我们没有能够解决了10年。他们给了我们一个模型,我们解决了结构在半小时!”

增加一个图像显示GDT(衡量来衡量结构的预测准确性)自2006年第一次比赛的挑战

来源:©DeepMind

在今年的Casp挑战,AlphaFold2把GDT得分(衡量来衡量结构的预测准确性)超过90

Casp竞争使用全球距离测试(GDT)指标来评估准确性。任何项目得分达到约90 GDT被认为是竞争与实验方法。AlphaFold2实现平均得分92.4 GDT所有目标,让所有竞争对手落后。的软件,培训约170000的结构蛋白质数据银行,建立在前一个版本是2018年Casp13。

有两个版本之间的关键区别在于,AlQuraishi解释道。”这是端到端可微,这意味着系统优化从序列到最后的三维结构,和系统中各个部分共同优化学习数据,”他说。独立的原始AlphaFold多个单独的部分训练,只有预测原子间的距离——这不是3 d结构被用来使用更传统的方法如罗塞塔折叠的蛋白质。,AlphaFold2是迭代生成一个初始的三维结构,然后提炼在许多步骤,”这是能从数据中提取更为复杂的模式”,他解释说。

尽管AlQuraishi的模型没有执行以及AlphaFold2,它也提高对前一版本的。“我们的方法从个体蛋白质序列,不像AlphaFold2从同源蛋白质序列。我们认为这条路线的设计是值得的,因为它可以使蛋白质完全不同于自然产生的,可以对单个序列的变化更敏感,例如,突变。”

DeepMind现在想进一步改善算法,找出蛋白质形成复合物或他们如何与小分子相互作用。