几年前从一个看似不可能的问题,一些研究人员认为,预测蛋白质的折叠结构可以很快解决。詹姆斯·米切尔乌鸦报告

每两年,国际社会的蛋白质结构研究人员竞争。被称为蛋白质结构预测的关键评估(Casp),它在计算机模拟预测评估的最新进展的3 d结构蛋白质的氨基酸序列。

对于许多轮的比赛,结果是发人深省的。研究人员逐渐善于同源性建模,模型一个蛋白质的结构基础上的蛋白质与已知结构密切相关。但当它来到从氨基酸序列预测蛋白质结构,一切都处于停滞状态。我们在放弃的边缘预测类别,因为在许多Casp绝对没有进展,“Krzysztof忠诚说,蛋白质结构预测中心主任加州大学戴维斯在美国,谁一直在比赛组委会随着竞争的加剧,在1994年的《盗梦空间》。

但在2014年,在Casp 11,事情发生了变化。我们的自由造型顾问,(德克萨斯大学蛋白质分析员)尼克Grishin写信给我们,要么有人作弊,或折叠问题已经解决了!忠诚说。的结果是没有,不过,这是一个了不起的启示。

模型导致Grishin发射他的电子邮件来自大卫·贝克和他的团队在西雅图,华盛顿大学的我们。取得的显著进步贝克最近预测蛋白质结构,在使用这种能力来设计新的催化蛋白质与特定应用程序从医学——为他赢得了亚军的位置科学的今年的重大突破2016年的列表。

贝克的进步,和更广泛的社区,没有放缓的迹象。

搜索空间

半个多世纪前,蛋白质研究人员意识到这是一个蛋白质的氨基酸序列决定这些长链分子的三维结构折叠自己。热身的一种蛋白质,其紧密折叠结构将瓦解。但允许蛋白质酷,它将线圈再次成原来的折叠形状作为其氨基酸安排自己回能量最低的状态。

0418 cw -蛋白质折叠功能部分折叠蛋白质折纸图解的概念

来源:©Edu f /首次艺术有限公司

蛋白质在折叠状态,成为功能。仅在人体,这些角色从编组复杂分子的合成化学能量转化为机械功的肌肉,感应光的眼睛,感觉到空气中的小分子的痕迹的鼻子。

虽然实验读出一种蛋白质的氨基酸序列是快速,通过实验确定其折叠结构,使用x射线晶体学等技术和先进的核磁共振光谱学——依然缓慢而昂贵的。只是一个例子的长度有时研究人员去获得蛋白质结构,日本药物发现公司PeptiDream最近与日本航天局JAXA将蛋白质样品进入太空,发展更好的低重力下蛋白质晶体,晶体分析一旦样本返回地球。

在2018年初,蛋白质数据银行国际实验获得蛋白质结构库,包含138464种蛋白质的结构。这是沧海一粟相比1012独特的蛋白质结构自然世界估计生产。能填补一些空白,许多研究小组试图开发计算模型,可以分析蛋白质的氨基酸序列,并计算必须折叠。

的基本原理是蛋白质折叠的最低能量状态,就像任何物理系统——就像一个球滚在颠簸的路面,例如,”贝克解释说。所以蛋白质结构预测问题的问题是找到一种蛋白质的最低能量状态鉴于其氨基酸序列。

这听起来简单,但现实是什么。第一个挑战是计划一个能量函数,计算折叠蛋白质的能量。然后程序发出轧轧声,测试折叠态折叠态后,寻找一个最低的能量。

蛋白质结构预测是一个困难的问题,因为很多事情可能出错,“威廉•DeGrado说加州大学蛋白质结构分析员在美国旧金山。如果你想旋转债券的数量,每个可以做自己的事情。只有当这一切发生的一起合作,你会得到正确的答案,”他说。

初开始…

如果一个蛋白密切相关的问题曾有其结构实验确定,让计算机模型一个巨大的腿,从一个模板的工作。但对大多数蛋白质,没有已知的结构来构建一个同源性模型。计算机模型必须从头开始,从头开始,使用常见的拉丁短语——探索一个庞大的搜索空间,试图找到能量最低折叠结构。

0418 cw -蛋白质折叠功能预测和观察到的结构

来源:©2011马克et al / PLoS ONE e28766

预测结构,如在左边,越来越接近实验确定的,就像那些在右边

在第一个Casp轮,在1990年代中期,从头开始造型本质上是行不通的,忠诚说。“Casp 4左右,2000年,有一个突破。人们开始能够折叠小蛋白质,偶尔,有些正确性。

贝克是当时的先驱之一,他与罗塞塔软件。罗塞塔不是一个即时成功,忠诚回忆说。我们看着他们的模型与某种程度的惊奇当他们第一次提交——他们非常长和un-protein-like,”他说。但事情迅速改善,Casp 4开始产生一些令人印象深刻的结果。大卫•贝克的集团,与罗塞塔,能够折叠这些蛋白在早期。

“当我们第一次开发的罗塞塔,当时我的实验室集中在实验研究蛋白质折叠,”贝克说。”所以我们有一些直觉关于蛋白质折叠,和那些直觉我们建在罗塞塔的基础。

三个关键事情一起逐步提高罗塞塔的性能随着时间的推移——不仅仅是直接在贝克的研究小组,但国际社会的合作者,包括许多ex-Baker实验室的研究人员,在罗塞塔长大的。

第一个是逐步改善这个社区做出了罗塞塔的能量函数,使项目逐步更准确计算折叠蛋白质的能量。第二,我们有更好的算法搜索空间的结构,”贝克说。第三,有更多可用的计算能力比我们之前的今天。尤其是团队建立了高度流行的程序——贝克延长了罗塞塔社区包括非科学家。超过一百万名公众家里电脑上安装一个程序开始解决蛋白质结构当计算机空闲的时候。

然后还有贝克,DeGrado说。人的智能是地狱。他操作的规模是巨大的。他吸引的资金和人民绝对一流。他创建了这个社区,工作非常合作。它还是非常不错的,在几个层面上。”

然而——直到2014年大Casp 11突破进展预测蛋白质结构是相当之慢除了最小的蛋白质。的问题是,序列变长,你从来没有在实践中得到接近实际结构,”贝克说。搜索空间太大。的更大的问题,你可以问你的能力来计算能量不准确,或者你从未真正偶然发现正确的结构?”

增强了进化

克里斯·桑德,哈佛医学院的计算生物学家在美国,第一次意识到大自然——具体来说,进化——可以提供线索,可以大大缩小搜索空间。1

通过比较大量的氨基酸序列密切相关的蛋白质,尤其是蛋白质来自不同物种的同一家庭,可以识别对氨基酸,然而他们的分歧是沿着蛋白骨干,一起发展。只要一发生变化,那么另一个。事实上这些氨基酸共同演化表明他们必须扮演一个角色,作为一对,蛋白质的功能,所以在有限的空间内可能发现近在折叠的蛋白质。

0418 cw -蛋白质折叠功能的演化和设计新的蛋白质

来源:©eLife科学出版物

氨基酸对共同演进在一起(黄线连接)给蛋白质建模一个有用的提示,最终对亲密的折叠结构

即使一个蛋白家族没有已知结构创建相同的模型,只要足够的家族的蛋白质序列是已知的,识别对氨基酸有效地钉在一起密切相关的部分蛋白质的折叠结构,大大减少了搜索空间蛋白质折叠模型必须探索。

当贝克和他的团队将这个方法到罗塞塔——他们所做的第一次时间Casp11——改善是戏剧性的。我们发表了一篇论文科学在2017年显示通过使用metagenome序列信息,我们可以大大提高蛋白质结构预测的力量——重要的是你可以可靠地计算出结构的蛋白质结构目前还不清楚,”贝克解释说。2”这个共同进化信息,它基本上是一个巨大的蛋白质更像一个小:它将限制搜索,所以250 -残留蛋白质变得更像一个60-residue结构,因为你有一个想法的空间你需要寻找什么。

忠诚是乐观地认为,对于大多数蛋白质,我们很快就可以宣布蛋白质折叠解决。过去20年来,我们一直在说,蛋白质折叠问题将解决在大约五年。我仍然认为这是真的!”他说。这一次,事情真的走到一起,他说。”的部分蛋白质主链排列的球状蛋白质的核心,我认为我们将在五年内有。”

敢设计

使用罗塞塔的最新联合进化迭代引导,贝克的集团是通过所有的大型家庭预测蛋白质结构。现在对我们来说有趣的是应用蛋白质预测方法构建模型的大规模蛋白质,人们关心,”贝克说。现在我们的主要问题是如何把它们弄出来和可用的人,因为PDB认为他们不想矿床模型。”

但是这些天贝克的大部分能量在一个新的方向。我们工作的另一个问题是蛋白质设计。以历史事故,我们的生活和我们有蛋白质,存在于自然。但现在我们理解的原则(蛋白质折叠)我们应该能够设计蛋白质来解决当前问题。当寻找一个新的蛋白质药物,或一个新的催化剂,为什么限制自己的1012偶然发现了蛋白质结构自然了?对于一个典型的蛋白质,200氨基酸残基的长度,有惊人的20倍200年可能的结构探索,贝克说。

0418年cw -蛋白质折叠功能,设计新的蛋白质

资料来源:©2015年美国科学促进会

如果你能预测结构,你可以其他方式和设计新的蛋白质能装在一个空间,例如,一个药物的目标

如何从现有的蛋白质的结构预测设计新的吗?这是一样的,除了而不是从天然来自一些生物的基因组序列,你开始在另一端。你开始一个全新的结构设计在电脑来解决问题,那么你必须找到能量最低状态的序列结构。

也许最简单的设计挑战——相对而言——是设计一种蛋白质或肽,只要坚持目标,具有高选择性和高亲和力。显而易见的应用在这个领域是医学。肽和小蛋白质之间可以完全传统的小分子药物,免疫抗体的生物药物,最近开始主宰重磅药品销售列表。

小分子药物有一个好处,那就是它们相对容易使大量的,他们可以采取以药片形式而不是注射,和有一个良好的货架寿命。抗体是相反的——但弥补这些缺点通过绑定他们的目标比小分子可以更具体地说,提高他们的能力,同时减少副作用。

我们认为[,]设计分子大小之间的小分子和抗体可以得到最好的两个世界——的东西仍然与很高的亲和力和特异性结合,他们的目标,但更容易制造和更稳定,”贝克说。现在我们试图找出规则试图让这些跨膜蛋白或多肽,”他补充说。那么你真的可以所有小分子的优点,但仍与更高的特异性和亲和力。我们显然不存在,但这就是我们的目标。”

贝克的团队已经采取一些有趣的步骤。免疫抑制剂环孢霉素的药物,用于某些自身免疫性疾病以及防止器官移植排斥反应,是一种大环的氨基酸肽11大小。2017年11月,贝克和他的同事发表了一份全面的分析就可以形成稳定结构的肽重点7到10个氨基酸残基的大小。3研究小组发现了超过200的稳定结构,可以调查作为未来药物支架。

但是,出版有更深的意义,贝克说。人们总是说,“嗯,你设计的蛋白质总是由α螺旋和β折叠所以你怎么知道你不只是复制在本质上是什么?“你能看到当你看,我们正在设计看起来不像任何在自然界中,但是他们的设计是在完全相同的方式,”他说。我们很兴奋,因为这表明我们可以采取的原则我们学到了什么从现在的设计蛋白质和应用使事情看起来完全不同于自然的想出什么。

在另一个具有里程碑意义的2017年的论文,贝克的集团开始利用蛋白质现在不仅快速设计。4也快速和廉价的合成相应的蛋白质序列的DNA,然后转移DNA大肠杆菌和细菌产生的蛋白质;也迅速对目标产生的蛋白质的实验筛选。在这个特定的例子中,他们设计和测试22660 mini-proteins 37-43残留目标流感病毒血凝素和肉毒神经毒素B。

的生物,一般来说,是一个描述性的科学——你通常不会有机会开发假说,然后测试他们严格通过创造新的生命形式,”贝克说。但在这种情况下,你真的能做到这一点。你可以有一些假设什么类型的蛋白质绑定流感,然后你可以测试10000年或100000年的假设来找出哪些最有效。然后继续迭代,”贝克说。这是一个积极的反馈回路,可以改善蛋白质设计的过程,潜在的跳板大发展——以同样的方式共同进化的数据最近对蛋白质结构预测。非常兴奋能够收集数据计算模型规模,”贝克说。

创建催化剂

贝克的下一个区域是关注——或者说,重新聚焦于蛋白质催化。

这是一个恶作剧者命题多简单绑定目标,DeGrado说。的一种酶,需要绑定到基态,需要绑定到过渡态和其他高能中间,然后需要绑定弱的产品。这是一个多态设计问题,”他说。

但如果我们能到达那里,潜力是巨大的。蛋白质、酶的形式、特殊催化剂——尽管被限制在十分有限的可利用铁和镍等金属离子。“我们生活在一个生物世界的有限数量的代数余子式催化、“DeGrado说。但化学家使用大量的代数余子式包括各种金属离子。目的是设计蛋白质结合一些强有力的代数余子式,比如铂,钯和铑,结婚的多功能性和效率和可编程性具有催化功能的蛋白质结构的人造代数余子式。”我认为这是一个有趣的研究领域是准备起飞。

蛋白质在生物做很多不同的事情

2010年,贝克发表的设计一个双分子的酶,这种酶可以催化Diels-Alder反应。5在这一点上,我们从第一原理计算理想活跃网站,然后通过本地蛋白质结构寻找一个地方我们可以嵌入活性部位,”贝克说。但它从未有可能找到一个天然蛋白质的活性部位设计完全符合,从而损害性能。“现在我们专注于新创蛋白质设计,我们从零开始构建支架港口设计网站。

贝克的团队在这个领域还没有公布任何结果,但看这个空间。正如DeGrado最近证明,设计一个蛋白质作为一个整体可以获得巨大的回报。6蛋白质设计是设计的一个经典问题蛋白质,可以选择性地结合小分子卟啉,他说。以前我们倾向于认为设计蛋白质配体结合位点,和其他蛋白质的折叠和疏水核心作为单独的问题。但作为抗体的研究显示,地区相当远的蛋白质结合位点可以贡献不少亲和力和特异性,DeGrado说。以类似的方式,我们认为我们必须设计整个蛋白质,包括那些可能只是看起来像框架的部分,都在一个计算,这样都是一起工作和玩。的第一个蛋白质他们设计了这样美丽在卟啉绑定工作,他说。

我们希望这种方法能适用于其他小分子绑定问题。我们开发了很多新代码,围绕着这一想法,DeGrado说。“我认为这将是一个非常富有成果的领域。”

“蛋白质生物学做很多不同的事情,”贝克说。我们获得更好的蛋白质设计,手牵手,我们能够设计越来越复杂的事情。”

詹姆斯·米切尔乌鸦是一个基于科学作家在墨尔本,澳大利亚

错误折叠的药物

认为“淀粉”这个词,可能是神经退行性疾病如阿尔茨海默氏症和帕金森氏症会想到。淀粉体聚集的典型错误折叠蛋白质形成神经退行性患者的大脑中,似乎身体阻塞大脑。一旦这些错误折叠蛋白质开始形成,一个失控的过程开始发生这些错误折叠种子团其他蛋白质的错误折叠他们接触到。

弗雷德里克·卢梭和Joost Schymkowitz鲁汶大学的比利时,在淀粉和把它的想法。他们设计的淀粉,治疗疾病,而不是触发。他们正在设计蛋白质将种子蛋白质的错误折叠和聚集在癌细胞和致病细菌。

工作后开始团队设计了一个程序,这个程序可以识别aggregation-prone伸展蛋白的氨基酸序列。然后我们开发了这个算法,探戈,我们开始做整个蛋白质组分析,“Schymkowitz说。结果是令人震惊的。我们很快意识到,大多数蛋白质,如果不是全部,aggregation-prone地区。”

只有一小部分的蛋白质在人体曾经形成淀粉,但事实证明几乎所有的蛋白质有潜力。播种,故意引发错误折叠的蛋白质可以治疗疾病的一种方法。

在一篇论文科学2016年交流,团队设计了一种肽能成功穿透癌细胞并引发蛋白质总量的目标蛋白质的形成,VEGFR2,某些癌细胞的生存所必需的蛋白质类型。7

“我们正在探索不同的目标,”Schymkowitz说。“我们现在正在寻找其他目标,看看我们能找到东西,小分子斗争或抗体够不到的地方。癌症绝对是焦点,而且抗菌素。

一个特别有前途的面积达到多重耐药性细菌。迄今为止我们所看到的是,抵抗beta-lactam抗生素并不以任何方式与抵抗聚合多肽。希望它能提供一个备份,我们迫切需要抗生素耐药性继续上升。”