深入学习算法将变换耗时的分子筛查项目

,“这是一个艺术和科学解释了约书亚股份,美国软件公司的资深科学家薛定谔。他指的是深度学习计算机科学的一个分支,似乎转变化学家屏幕分子和探索化学行为。

在过去的几十年里,深度学习已经进入了公共意识等项目AlphaGo。一个里程碑计算,谷歌的算法能够自主学习和玩棋盘游戏- 1050倍比象棋复杂,一度被认为是超越了电脑的一个挑战。AlphaGo于2015年首次击败了人类对手,并在2017年击败世界第一。

使用算法来玩游戏似乎有限使用的科学。但如果一台机器可以通过玩游戏的规则本身,它可以学习化学化学分析数据的规则。深度学习平台可以快速开发一个化学的知识没有任何人类的指令,和化学家们开始意识到,知识可以是一个强大的工具。

它的美丽和简单性是没有规则或功能我们需要工程师betway必威游戏下载大全

约书亚股份,薛定谔

薛定谔的情况下,股权和他的同事凯尔马歇尔想加快这一进程的筛查新药物和材料使用深度学习在文献搜寻候选人分子。

研究论文和专利包含大量的分子结构和实验数据,可用于虚拟筛选程序,但得到的文件是费力。首先你必须确定哪些化合物在发布你想提取、“评论的股份。”所以,你阅读本文,然后…进入一些绘图软件和手工画出来。一旦分子重划在一个计算机可读的格式(俗称微笑),可用于筛选程序的信息。

”做了数以百计的化合物在一个大的专利,它变得乏味,“股权哀叹道。“[它]开始变得更容易,在数据输入更容易犯错误。”

剪掉中间的人

股份和马歇尔想出了一个解决方案,减少中间的人。事实上,彻底摆脱男性和女性。这个团队开发了一种深层神经网络可以找到的图片在文档中分子结构,并将其转换成数字格式,事先没有被告知任何有关分子。1这是真正的美丽和简单,没有复杂的规则或特性,作为人类,我们需要工程师的股份。betway必威游戏下载大全

从文档中提取分子结构使用深度学习

来源:©薛定谔公司

薛定谔的算法删除文本和其他无关的项目文档的结构,然后重绘的结构以机器可读的格式

该平台由两个独立的网络。我们有一个模型,该模型将承认在一个图像是什么和不是一个分子结构,确定债券,原子和什么不是,“股权解释道。然后清理的软件形象,将它从附近的文本、图形或者其他分子。马歇尔把这个细分的过程比作一个图像是如何出现在摄影软件。网络甚至可以识别模糊或低分辨率的分子。

然后第二个网络将图像转换成一个微笑格式使用一个编码器和译码器。第一图像编码为一系列的坐标,在译码器解释这个向量作为一个微笑字符串。

镜像的直觉

准备算法,团队训练使用的结构和相应的微笑。股份估计软件看到大约1.28亿image-SMILES对之前准备好模糊图像转换成干净的笑容。测试算法在一系列低分辨率的分子库,这个平台成功地识别多达83%的已知样本。

它会改变,我毫无疑问

艾伦Aspuru-Guzik,美国哈佛大学

广泛的培训后,该算法还采用了看似人类特征在某些罕见的情况下,直觉。这是见过太多的化学结构,学习化学,”评论的股份。如果你投入的东西不是化学准确…它有机会正确。”

两人继续解释算法,在某些情况下,可以正确地分配手性原子如果已经错过了在原始的文件中。“好像模型学习一些关于手性意味着什么,直觉的认为股权。

但是网络并不打算作为化学专家——这主要是为了简化得到结构的过程文件和电脑;提供人员、图书馆的分子用来寻找新药或新材料。

感知预测

然而,其他组都是专门设计的建筑框架来预测分子从其结构性质。这是Chemception背后的推动力量,开发的框架加勒特高和他的同事在太平洋西北国家实验室(PNNL)在美国。2给定一个输入分子,Chemception使用一切已经学会如何结构与性质预测分子将如何表现。

集团从一个挑战:什么是化学知识的最少一个算法需要预测一个特定的财产吗?内森•贝克主任,吴的合作者和太平洋西北国家实验室先进的计算部门,把这样一个网络比作对付一个未经训练的婴儿。与薛定谔的工作,婴儿学习首先被训练数据集:一群分子标记数据的毒性、抗艾滋病活动和溶剂化作用的能量。

插图Chemception框架的

来源:©Garrett吴作栋et al

学习后的组织性能关系为成千上万的分子,Chemception准确预测新分子的性质,只是从他们的结构

而不是将[Chemception]通过浓缩化学课程…我们淹没在标签数据,问什么提取物,”贝克解释说。

而不是从一个图像,这个过程从一个微笑开始描述。这是转化为一个二维绘图送入Chemception神经网络中。使用原始图像,然后平台决定了分子的潜在毒性,活动或溶解度。团队Chemception相比的性能与网络专门为这些任务设计。在大多数情况下,Chemception能够匹配的准确性专业网络。

工具,如定量结构活性关系(构象)模型已经执行这个函数。但这样的模型已经使用了几十年的化学知识,贝克解释说,与人类提供规则。定量构效关系已经很多进步的基础上更好的发展特性集来描述分子,”他继续说。Chemception,另一方面,从头开始构建自己的模式。在这种情况下,它只是使用2 d分子的照片,”贝克说必威体育 红利账户

我们淹没(网络)在标签数据提取和询问

内森•贝克,美国太平洋西北国家实验室

然而,尽管Chemception作品没有先验知识,贝克是定量构效关系模型很快指出,做更多的不仅仅是预测属性。他们还可以丰富我们的理解为什么分子首先有这样的属性——这就是他看到机器学习下。

对于贝克,一个深度学习工具,可以复制构象可能支付股息的能力在生物物理学社区,那里是一个需要了解氨基酸的行为。特别是,深度学习有助于揭示pH值如何影响蛋白质相互作用在细胞环境中。

电的梦想

这些潜在的应用都是根植于一个系统,将分子——也称为歧视模型。但是你能创建一个人工智能,可以生成新的分子,定制你的规格吗?艾伦Aspuru-Guzik计算化学家从哈佛大学、美国、和他的团队已经找到他们的使命。

解释他们的想法,Aspuru-Guzik转向科幻小说:“你看过银翼杀手吗?”他问道。根据这部小说机器人梦见电子羊吗?菲利普•K•迪克,银翼杀手讲述了迪卡,他是负责追捕合成人类(或机器人)。

“迪卡。…他应该是识别机器人;他们可能是机器人,或者他们可能是人,“Aspuru-Guzik解释道。这是歧视模型背后的原理。在化学界,它基本上是给定一个的想法x,预测y…我和我的小组使用,屏幕用于分子,”他解释说。但是机器人本身生成模型,Aspuru-Guzik仍在继续。他们需要生成人类行为并通过作为一个人。”以及他的团队、Aspuru-Guzik现在已经创建了一个模型,该模型既能探索化学本质上和空间生成分子具有理想特性。3

像Chemception的婴儿,Aspuru-Guzik的算法从微笑开始的字符串。但与Chemception,这个婴儿是“无监督”——没有训练集工作的例子,所以电脑留给发现数据间的关系。艾城的小组使用一种被称为autoencoder,接收和压缩信息,形成一个图像、文档或即使这部电影银翼杀手地图,然后在“潜在空间”类似的数据分组分在一起。一旦映射,AI可以探索这个空间和生产原始输入的一个估计。Aspuru-Guzik把它比作我们的大脑如何构造的梦想。

自动化学分子的设计使用一个数据驱动的连续表示

来源:©美国化学学会

autoencoder地图分子(a)到一个潜在的空间,这是连接到另一个网络的结构与化学性质相关(b)。该算法可以探索的化学空间映射寻找分子所需的属性。

团队的auto-encoder收到250000药物类分子微笑格式和映射它们来创建其化学潜在空间。但是而不是简单地生成一个估计的原始输入,团队添加另一个神经网络。

你可以添加第三个神经网络连接的子空间与属性相关的分子,“Aspuru-Guzik说。AI可以探索这个空间与选择的目标分子所需的属性,如drug-likeness或合成的可访问性。

模型还可以为用户提供的所有已知的药物分子有着相似之处。我们把咖啡因和服用阿司匹林和我们说:“给我分子咖啡因和阿司匹林”之间,“Aspuru-Guzik评论。我们沿着这条线,我们可以解码,看看分子有——你可以看到分子变成另一个。”

熟能生巧

深度学习的能力令人印象深刻,但它不会取代现有的计算工具,甚至人类。贝克希望深度学习平台将补充电流分析方法支持化学家,而不是取代他们:“我想让机器学习达到一个点,它是一个工具在我们的工具箱与传统分子模拟,,它不仅帮助我们生成答案…但我们可以把它带回基础化学和物理。

为了达到这个目标,它可能会利用人类的聪明才智,设计更加健壮,直观深刻的学习算法。股份将这些设计的努力比作乐高建筑物,我们可以看到建筑的艺术和科学创新结构。但没有一个简单的说明书,建造这样复杂网络仍然需要一件事,根据股份:“真的,它归结为实践。”

Aspuru-Guzik,梦幻般的深度学习化学的未来是明确的。它会改变,我毫无疑问,”他说。人们看不到它,好让他们等待。”