右图显示了一种方案,其中多条弯弯曲曲的线被组合成一条更长的弯弯曲曲的线。图像中央的方案以点与线连接的形式显示了氨基酸的可能组合。

来源:©MIT

Peptimizer通过学习现有的氨基酸序列,提出了最有希望的40种氨基酸组合——地球上的氨基酸数量比原子还多

大型生物分子药物的巨大前景受到阻碍,因为它们很难进入细胞,但现在美国研究人员已经使用机器学习来解决这个问题。他们开发了Peptimizer,这是一种机器学习模型,设计细胞穿透肽(CPPs),可以将寡核苷酸药物输送到细胞中提高50倍。

团队拉斐尔Gomez-Bombarelli而且布拉德利Pentelute麻省理工学院与Sarepta Therapeutics合作,该公司开发了针对杜氏肌营养不良(DMD)等严重罕见疾病的寡核苷酸药物。寡核苷酸是由大约20个核苷酸碱基组成的链类似于DNA和RNA。这种相似性有助于寡核苷酸改变基因转化为蛋白质的方式,从而有利于DMD等遗传疾病。

尽管第一种寡核苷酸药物于1998年获得批准,但它们进入细胞的困难阻碍了许多其他药物进入市场。这也引发了关于Sarepta的DMD药物效果如何的争议eteplirsen工作当时它被美国食品和药物管理局批准

Pentelute研究小组发现,将两种已知的CPPs连接在一起,由大约5到20个氨基酸组成,会产生“非常强烈的活性增加”,博士研究员说卡莉Schissel.然而,进一步改进CPPs变得具有挑战性,因为在40个残基序列中氨基酸的组合比地球上的原子还要多。研究人员转向了机器学习,表明一个简单的神经网络可以将寡核苷酸药物的输送提高三倍。

“这告诉我们,机器学习可以与我们正在做的事情兼容,”希塞尔说。“但我们想训练一个更先进的机器学习模型来设计真正高强度的活动序列。”

简单来说就是最好的训练数据

Somesh Mohapatra因此,Gómez-Bombarelli团队的一名博士研究员开发了Peptimizer,它结合了两种神经网络。第一种方法使用超过1000个已知CPPs的序列进行训练,这样它就可以提出可能有效的新序列。

研究人员将这些序列输入第二个预测优化神经网络。莫哈帕特拉用Pentelute团队合成并在细胞实验中测试的600种寡核苷酸- cpp缀合物组合的数据进行了训练。莫哈帕特拉说,一致的条件为机器学习提供了一个干净的数据集,这是“你能得到的最好的数据集”。这些数据教会神经网络识别触发活动的序列模式。神经网络可以预测由生成器建议的活动序列。然后,它可以做一些小的改变,再次预测结果序列的活性。

一幅显示长螺旋状、彩虹色结构的图像

来源:©MIT

这种穿透细胞的肽是Peptimizer设计的性能最好的肽之一

Pentelute的团队随后从Peptimizer建议的数百种CPPs中制作了12种。虽然预测精度各不相同,但几种新的CPPs在细胞测定中提高了寡核苷酸传递20倍以上,最好的达到50倍。Sarepta的研究人员还发现CPPs对小鼠有效,它们帮助寡核苷酸到达动物心脏,这是现有药物面临的一个关键挑战。

研究人员现在将超越简单的直CPPs,设计不同的分子形状。莫哈帕特拉补充说,Peptimizer适用于任何生物聚合物和可用的开源代码

杜米尼克海德来自德国马尔堡大学的教授称这项工作是“人工智能和机器学习如何改变生命科学并最终改变患者护理、药物开发和治疗的一个很好的例子”。他补充说,值得注意的是,该团队做出了有用的预测,并且“可以将他们的深度学习方法用于自动化肽设计”。

这项研究也是朝着设计定制酶的化学“圣杯”.Schissel说:“这是在破译序列函数和可能的结构函数的道路上。”“但为了找到全新的酶,我们仍然需要大量的相关数据。”