找回密码
 注册
搜索
查看: 415|回复: 0

[电脑数码] 全民可用的蛋白质结构预测来了!AlphaFold2源代码免费公开

[复制链接]
发表于 2021-7-24 02:19 AM | 显示全部楼层 |阅读模式


全民可用的蛋白质结构预测来了!AlphaFold2源代码免费公开

 Nature Portfolio Nature Portfolio 2021-07-24


原文作者:Ewen Callaway

DeepMind公司和一个对手团队的机器学习系统现已全部开源,并可免费获取。

全民可用的蛋白质结构预测来了。能够精准解析蛋白质三维结构的软件将供研究人员免费使用。


AE30D89D-9DE3-4521-BB15-EB95F62CD200.jpeg

人白介素12蛋白与其受体结合的结构——由机器学习软件预测。来源:Ian Haydon, UW Medicine Institute for Protein Design

7月15日,总部位于伦敦的DeepMind公司公布了其深度学习神经网络AlphaFold 2的开源版本,并在《自然》[1]上发表了一篇阐释其原理的论文。AlphaFold 2在去年的蛋白质结构预测大赛上曾技惊四座(参见:颠覆生物学!AlphaFold成功预测蛋白质结构


与此同时,另一个学术团队在AlphaFold 2的启发下,也开发了一款蛋白质预测工具。该工具名为RoseTTaFold,预测能力与AlphaFold 2不相上下,已经受到了科研人员的热烈追捧。该团队7月15日在《科学》发表了一篇论文[2]描述了这个系统。


这两个工具的开源意味着科学界现在能在这些成果的基础上,创造出更强大、更有用的软件,未参与这两项研究的芝加哥大学的计算生物学家Jinbo Xu说。

从结构到功能

蛋白质是由氨基酸链组成的,折叠成三维结构的氨基酸链决定了细胞内蛋白质的功能。数十年的时间里,研究人员一直在用X射线晶体学和冷冻电镜这类实验技术解析蛋白质结构。但是,这类方法存在费时耗钱的问题,对一些蛋白也不适用。


去年,DeepMind在科学界掀起了轩然大波,它的软件仅凭蛋白质的序列(由DNA决定)就能准确预测其结构。学界在这方面的攻关已经进行了几十年,看到AlphaFold 2在两年一度的“蛋白质结构预测比赛”(CASP)上表现如此优异,比赛的创始人之一直呼其“在某种程度上攻克了该问题”。


去年12月1日,对公司项目一向讳莫如深的DeepMind在CASP大赛上简要介绍了AlphaFold 2,并承诺将发表一篇论文详细描述这个网络,并向研究人员免费开放整个软件,但具体细节并未展开。


“当时的学术界一片哀嚎。”华盛顿大学生物化学家David Baker说。Baker带领团队开发出了RoseTTaFold。“如果有人解决了你正在研究的问题,但不肯告诉你解决方法,你还怎么研究下去呢?”


“我当时觉得自己失业了。”Baker团队的成员、计算化学家Minkyung Baek说。但DeepMind在介绍会上呈现的新想法让Baek迫不及待想要一探究竟。于是,她和Baker还有他们的同事开始想办法重复AlphaFold 2的成功。


他们确定了AlphaFold 2的几大关键性进展,包括如何利用与预测目标在演化上相关的蛋白的信息,以及预测出的一个蛋白的部分结构如何影响AlphaFold 2对该分子其他部位对应序列的处理。


RoseTTaFold的预测能力毫不逊于AlphaFold 2,而且还远超其他CASP参赛团队的预测结果(包括一些来自Baker实验室的预测结果)。现在还不清楚它比AlphaFold 2差在哪里,一个可能是DeepMind拥有的专业能力,Baek说,“我们实验室没有深度学习工程师。”Xu很佩服Baek、Baker和他们合作者的工作,并猜测DeepMind的厉害之处在于其工程方面的专业知识和独一无二的算力。

加速结构解析

DeepMind 还对AlphaFold 2进行了优化。虽然这个网络在预测CASP比赛中的一些结构时,在计算上用了好几天的时间,但最新的开源版本比这个速度快了约16倍,AlphaFold首席研究员John Jumper说。取决于蛋白质的大小,AlphaFold 2能在几分钟到几小时内预测出结构。这和RoseTTaFold的速度差不了多少。


虽然AlphaFold 2的源代码现可免费获取——包括商业公司在内,但对不懂技术专业知识的研究人员可能不是特别有用。DeepMind 已经在与一些研究人员和组织合作,预测特定的蛋白质,合作对象包括总部位于瑞士日内瓦的“被忽略疾病药物”(Drugs for Neglected Diseases)非营利性组织,但 DeepMind希望能进一步开放技术,DeepMind的科学AI主管Pushmeet Kohli说。“我们在这个领域还有很多想做的尝试。”


除了让RoseTTaFold的代码免费公开,Baker的团队还搭建了一个服务器,研究人员只要插入一个蛋白质序列,就能得到预测好的结构。自上个月上线以来,这个服务器已经预测了约500人提交的5000多个蛋白,Baker说。


RoseTTaFold和AlphaFold 2的代码如今都已免费公开,研究人员可以在这两项成果的基础上继续拓展,Xu说,并有望解析AlphaFold 2至今难以下手的蛋白质结构。两个备受瞩目的领域正在预测多体蛋白质相互作用复合物的结构,并用这些软件用于设计新的蛋白质。

参考文献:

1. Jumper, J. et al. Nature https://doi.org/10.1038/s41586-021-03819-2 (2021).

2. Baek, M. et al. Science https://doi.org/10.1126/science.abj8754 (2021).


原文以DeepMind’s AI for protein structure is coming to the masses标题发表在2021年7月15日的《自然》的新闻版块上

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|小黑屋|www.hutong9.net

GMT-5, 2024-6-11 02:11 PM , Processed in 0.038990 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表