人工智能和机器学习非常有用和强大,但它们需要高质量的数据输入,而这些数据还不能用于药物研发

我们最近听到了很多关于人工智能(AI)和机器学习(ML)在化学(和生物),而且步伐没有放缓。到2020年底,美国的Deepmind-AlphaFold该团队在蛋白质结构预测方面的巨大进步成为了头条新闻,紧随其后的是美国华盛顿大学的RosettaFold团队。现在,两个小组都宣布在预测蛋白质之间的相互作用和由此产生的复合物的结构方面取得了同样令人印象深刻的进展,许多人认为这些问题是该领域下一个(也是更困难的)合乎逻辑的步骤。

如果你想用你选择的时间机器把这些信息传达给20世纪70年代的研究人员,他们可能会认为,在21世纪20年代初,我们已经学习了大量关于蛋白质折叠、氢键、水分子相互作用的能量学,以及平衡熵能和焓能对第一性原理的贡献。现在,我们对这些东西的了解确实比四五十年前要多,但奇怪的是:我们对它们的了解还不够,不能以它们为基础来预测我们现在拥有的那种异常准确的蛋白质结构。

这一切的一个关键因素是大量高质量的数据

那么它们是从哪里来的呢?我们看到的更多的是模式匹配和数据库争论的胜利。到目前为止,我们已经通过x射线衍射、核磁共振和(最近的)低温电子显微镜积累了大量关于蛋白质结构的实验数据。这让我们有机会(在一些巧妙和完善的算法的帮助下)挑选出各种各样的结构基序和它们相关的氨基酸序列,这让蛋白质的大部分结构空间可以通过类比我们已经确定的结构来填充。

这一切的一个关键因素是大量高质量的数据。用来分类的技术非常棒。但是,如果没有关于蛋白质结构的足够的基本知识,任何算法都无法在这个问题上获得足够的关注。这说明了一个关于信息的重要事实,这个事实可能看起来微不足道,但却变得越来越有趣:你不可能从数据中得到比一开始更多的东西。这可以更正式地表达为关于类似的事情香农熵和算法可压缩性,但一般来说,有一个守恒定律在起作用,类似于能量和物质的守恒定律。

经典的“垃圾输入,垃圾输出”的计算法则在机器学习中是最适用的

蛋白质的数据集是巨大的、丰富的和详细的,人们可以从中提取有用的预测蛋白质的结构,甚至以前从未想过。所以,如果你想知道下一个惊人的人工智能结果可能来自哪里,那么就去寻找其他数据集,其中包含足够多的黄金,可以从中获利。机器学习技术并不能创造黄金;他们发现它,并找出它最丰富的接缝是如何连接的。正如他们所说,将这些数据库整合在一起并非易事。您需要(自然地)确定的数字,覆盖与您的问题相关的大量空间,并以这样一种方式格式化,以便为软件提供找到所有这些隐藏联系的最快和最有用的方法。没有干净、结构良好的数据,您和您的算法将会有一段非常不愉快的时光。经典的“垃圾输入,垃圾输出”的计算法则在机器学习中是最适用的。

对于蛋白质,你可能会认为下一步强有力的工作是预测新的药物靶点和疾病途径。但这将是一项比结构预测更难的工作(到目前为止,结构预测肯定已经够难的了)。我们根本没有一个精心策划的数据集来展示这项工作所需的知识,而我们所掌握的知识也充满了空白。更复杂的是,其中一些差距是明显的,但也有一些是不可见的。只有当我们更多地了解细胞生物学和生物体作为一个整体时,它们才会变得清晰。这些将是50年后研究人员回顾我们时会感到遗憾的事情。“那些可怜的人!”他们会说。“他们甚至不知道X,也不知道Y,甚至没有人想到Z!”难怪他们过得这么艰难!”

你知道谁会发现这些吗?不是我们的人工智能和ML系统,尽管我确信它们会在任何可能的时候提供帮助。不,是我们。就像以前一样。