尽管几乎没有了解化学或生物学,神经网络可以成为一个好刺在生物化学的一大难题——预测蛋白质折叠简单地通过观察其氨基酸序列。机器学习算法比其他预测项目快一百万倍,成为一个充满希望的全球赢得明年的蛋白质折叠锦标赛。

它直接分析蛋白质的氨基酸序列,但发现其三维结构。虽然有很多方法核磁共振,x射线晶体学低温电子显微镜——他们仍然艰苦的和昂贵的。这是部分原因,只有140000年左右结构蛋白质数据银行——估计10的一小部分12天然蛋白质。

近半个世纪以来,科学家一直在试图预测一个氨基酸序列如何扭曲和折叠成有功能的蛋白质。现在,穆罕默德AlQuraishi来自美国哈佛大学,引发了机器学习算法的任务。他神经网络击败每个预测程序,超过过去六蛋白质折叠世界锦标赛2018年之前——双年展蛋白质结构预测技术的关键评估(Casp)。

测试挑战设置Casp自2006年以来,该算法更准确-以小的优势比其他小说中预测折叠类别。这组结构非常不同于已知的,很难通过软件依赖与已知的蛋白质。

而其他项目需要几小时甚至几天才能履行模拟蛋白质折叠,AlQuraishi毫秒的算法做同样的事。人们的搜索数据库的蛋白质,提取碎片,做各种模拟基于物理能量最小化函数非常复杂,通常数百万行代码,“AlQuraishi解释道。的想法是把这些非常复杂的管道和调整成分作为一个单一的神经网络。

实验和预测复发性几何网络图(RGN)结构

来源:©2019爱思唯尔公司。

通过实验确定蛋白质结构预测和AlQuraishi的神经网络

模型对物理和化学知之甚少,AlQuraishi说,尽管它尊重当地几何,不会在上面放两个原子。它了解蛋白质通过观察10000年和50000年之间几个月序列及其结构。

AlQuraishi惊奇地发现算法已经意识到氨基酸长链折叠成螺旋线和打褶的表——中最常见的结构蛋白质。神经网络具有学习这就其本身而言,尽管不会被告知二级结构的存在,”他解释说。

我认为关键的一点关于他的方法是,它完全可微,“蛋白质折叠专家说阿尔贝托·佩雷斯美国佛罗里达大学的。他解释说,这让它更容易设计从头蛋白质——简单的反向过程和预测哪些氨基酸序列产生所需的三维结构。

佩雷斯认为AlQuraishi神经网络还可以提高自己的模拟。机器学习是能够得到很好的整体蛋白质的折叠,然后基于物理方法能够改进结构的细节。

2020年,AlQuraishi将他的神经网络输入下一个蛋白质折叠的挑战,可能与谷歌竞争的人工智能在去年的比赛激起了波澜。我们都期待下Casp伟大的事情,”佩雷斯说。”(AlQuraishi算法)可能是一个主要参与者。”