撰文 | 龚海鹏、龚新奇、李赛、王宏伟、颜宁、张鹏、张阳、周强

by Asier Sanz | https://asiersanz.com/

AlphaFold2是个大打破,但我们还有努力的方向

张阳

(ITASSER创造者,美国密歇根大学教授)

颜宁等点评AI精准猜测蛋白质结构结构生物学何去何从

AlphaFold2显然是蛋白质构造预测领域的重大打破。
这可能是从1969年第一篇 Journal of Molecular Biology用比较建模方法预测蛋白质构造揭橥51年以来最大 的打破。
这个领域过去20年来,进展一贯比较缓慢。
但是最近几年,随着共同进化 打仗图预测以及引入深度学习之后,很多软件,比如I-TASSER和Rosetta等都有了 很大进步。
就I-TASSER来讲,两年前在CASP13的时候,它能够精确预测非同源蛋白 的数目比其六年前在CASP11长进步了5倍。
这次CASP14也比CASP13的预测能力提高 了很多。
但是AlphaFold2这次比上次进步更大,和CASP13的AlphaFold比较,AlphaFold2的紧张变革是直接演习蛋白质构造的原子坐标,而不是用以往常用的简 化了的原子间距或者打仗图。
传统上,蛋白质构造预测可以分成基于模板和从头预 测,但是AlphaFold2只用同一种方法--机器学习,对险些所有的蛋白质都预测出了 精确的拓扑学的构造,个中有大约2/3的蛋白质精度达到了却构生物学实验的丈量 精度。
说他们靠近办理了这个问题,这个说法没错,至少是在单构造域的蛋白构造 来讲是这样的。

谷歌这次为什么能够取得如此大的成功?这个首先是与它们拥有强大的人力和打算 资源有关。
打算机上,他们利用TPU(据他们的宣扬是比GPU快15倍),学术界的实 验室只有CPU或者GPU,而很多实验室都还没有GPU。
他们对媒体在宣扬中说 Alphafold2末了只用相称于100个GPU的资源演习了两周产生了末了的模型,学界大 多数实验室都可以做到,这是不客不雅观的。
由于产生一个新的想法,到演习成功的模 型,中间最少要反复测试重复100次乃至1000次。
这就像吃了十个馒头的饿汉一 样,不能说吃了末了一个馒头吃饱了,就以为只吃末了一个馒头就够了。
其余,他 们可以高薪招聘大量专业人才,集中精力攻关一件事,不须要担心基金申请,教 学,和学生毕业论文等等。
这些人力和打算资源上的差别是谷歌DeepMind这样的工 业研究机构同学术界在攻关科学或者工程问题上的最大上风。
当然,学术界在蛋白 质构造预测这么多年的积累,也给AlphaFold2的成功奠定了根本。

实在,我自己很高兴他们取得了这么大打破。
这个事情首先证明了蛋白质构造预测 问题是可以被办理的。
这实在不是一个大略的问题,由于蛋白质构造和序列的繁芜 关系,常常让人们特殊是做构造预测的人疑惑,蛋白质折叠这个问题是不是可解, 或者是有唯一解。
我们在15年前的一篇PNAS论文中提到用PDB库中的模板在理论上 可以办理单构造域蛋白质构造预测这个问题,但是那是一个基于模板的传统解法, 难点是如何找到最好的模板。
谷歌他们这次用“暴力”的机器学习,“暴力”的办理了 这个问题。
这个成功对很多干系领域都会产生深远影响。
有人说这个AlphaFold2会 让很多干系行业的人失落业。
我认为正好相反,它给很多领域供应理解决问题的新途 径和新思维,因而会极大推动干系领域的发展,因此,会产生更多更大的机会。
即 使对付蛋白质构造预测这个相对较小的领域来讲,我们还有很多事情要做。
AlphaFold2这次只有2/3的蛋白做到实验精度,还有1/3做不到,是否还有更快更好 的路子来产生更高精度构造的算法?基于商业或其它考虑,我相信谷歌可能不会公 开代码或Server。
以是,终极可能还得学术界的同行共同努力,完善和推广这一技 术,让其真正沾恩于生物医学研究以及普通公众年夜众的康健需求。

共赢大于竞争

龚新奇

(中国公民大学数学科学研究院教授,清华大学北京构造生物学高精尖中央互助研究员)

2020年第14届国际蛋白质构造预测竞赛(CASP14)共有84个常规(Regular)题目,个中有14个题目由于生物实验没给出确定构造等缘故原由被取消或延缓,其他70个题目的单体和复合物蛋白质所含有的氨基酸个数从73到2180不等。

19个国家的215个小组参加了CASP14。
终极,谷歌旗下DeepMind公司的人工智能系统AlphaFold2在2018年的Alphafold根本上迭代创新,超常发挥,一枝独秀,基本办理了“从氨基酸序列预测蛋白质构造”这个困扰人类50年的生物学第二遗传密码问题。

AlphaFold2的成功表现在三个方面:

不少构造的预测精确度跟实验晶体构造相称,可以替代晶体构造;一些含有多个构造域的繁芜超长的单链构造也达到了可以跟实验构造比较的程度;帮助解析了竞赛中涉及到的、实验多年没拿到的X射线晶体和cryo-EM冷冻电镜构造,比如T1058的膜蛋白是用了Alphafold2的预测模型之后,才跟原有晶体学数据综合成功解析了却构。

AlphaFold2团队的John Jumper报告表明,他们利用了基于把稳机制的神经网络,动态调度网络中节点的顺序和链接;依赖的是端到真个优化整体构建构造,而不是氨基酸间隔;网络中内置了大量的序列、构造和宏基因组等多重比较信息;还依赖分子仿照软件优化去掉了原子的堆积碰撞。

在AlphaFold2的择要作者名单里,交叉团队的30位作者中有19位都被标记为相同贡献的第一作者。
他们将近8分钟的宣介视频,记录了团队成员在新冠疫情期间精诚互助、攻坚克难的宝贵场景。

CASP组织者John Moult指出,打算下一步还有更困难的问题要办理:超大复合物构造、动态构象变革、蛋白质设计、药物设计等等。

除了我们蛋白质构造预测小同行对AlphaFold2的成功很欣喜之外,社会上还有多个不同方向的学术界、家当界和新闻界对它寄予了厚望。

在欣喜的同时,蛋白质构造预测小同行也有一些保留见地:

工程化明显,依赖于强大的GPU打算资源和代码优化团队;谷歌公司险些可以网络环球所有网络信息,虽然看起来AlphaFold2的自动化程度很高,但他们在人工操作中利用了哪些信息值得关注;预测对了却构,但不即是明白了蛋白质折叠过程和事理。

生物实验科学家也有不少意见:

算出构造只是生物学规律创造的第一步;打算的多个models中,有时打分排序不准;开放AlphaFold2的server之后,利用效果不一定那么好;只是在已有蛋白质构造数据集上演习得到的模型,尚不能打算其它构象或其它类别的分子构造。

还有关心这个领域的其他方向的专家也提出了问题:怎么理解这个算法成功的事理?怎么跟原有的热力学、物理学等基本事理相融相通?

我认为AlphaFold2是个大打破,后续可能性很多,会替代一些大略的构造生物学实验,但对当下科学家追求的前沿生物学来说,共赢大于竞争;对生物学、数学和打算机学等学科而言,则会带来新的机遇。

技能做事于科学探索,构造生物学早就进入新时期

颜宁

(美国普林斯顿大学雪莉·蒂尔曼终生讲席教授,美国科学院外籍院士)

首先,大略说一下,什么是生物学里的“构造”。
用个不太恰当的类比:变形金刚。
比如擎天柱是辆车还是个机器人,这便是不同的构造了,机器人能斗殴大车做运输,功能也不一样。
而不同的汽车人组成身分可能差不多,都有合金、玻璃、橡胶,但是形态互异,特长也不一样。
生物分子的组成身分和基本单元就那么几种,但是组装起来,不同的序列不同的构造,于是功能互异、五花八门。
这个构造不是静止的,每一个生物大分子基本都像个小机器,比变形金刚更繁芜、更变革多端。

由于构造决定了生物大分子的功能,以是解析高分辨率构造在过去几十年一贯是理解生物大分子事情机理最有力的工具。
但是一贯以来,由于技能局限,对付绝大多数生物大分子的构造解析困难重重。
以是,一批科学家另辟路子,试图在已有的知识根本上,绕开劳心劳力又劳财的实验步骤,从蛋白质的序列直接通过打算预测出它们精准的三维构造。

蛋白构造预测并不是一个新鲜学科,一贯以来便是构造生物学的一个分支,很多科学家不断开拓算法,希望根据序列预测出来的构造越来越准确。
这个领域在过去十几年进步迅速,并且与实验构造生物学领悟度越来越高。
比如,自从进入电镜时期,看到一堆黑白灰的密度,如果个中某些部分没有同源构造,通过软件预测一个大致的构造模型,放到密度图里面做框架,再根据实验数据调度,已经是个常规操作。

这次人工智能赢得CASP的新闻亮点有两个,一是AI,二是准确度高。
这确实是打破,但是有了两年前的新闻(注:2018年,DeepMind开拓的第一代AlphaFold首次参加CASP并且拔得头筹)做铺垫,现在这次委实是猜想之中。

至于衍生出来的所谓“构造生物学家都要失落业了”的调侃——如果你对构造生物学的理解还勾留在20年前,那这么说也不是弗成。
但是构造生物学自身一贯在发展着,一场冷冻电镜的分辨率革命更是令构造生物学不同昔日了。
我在2015年主持一个学术研讨会的时候曾经评论过:构造生物学的主语是生物学,是理解生命、是做出生物学创造。
但是,在X-射线晶体学为紧张手段的时期,得到大多数研究工具的构造本身太难了,于是很多研究者把“得到构造”本身作为了目标,让生手误以为构造生物学便是解构造。
但我从进入这个领域之初,就被教诲得明明白白:构造本身只是手段,它们是为了回答问题、做出发现。
而电镜使得“创造”二字尤为突出。

看到构造本身、知道你的研究工具长啥样,倒也可以称之为创造,但我刚刚说的“创造”,特指那些超乎想象的、通过构造才揭示出来的、自然界里神奇的存在或者令人叹为不雅观止的机理。
我讲课最喜好举的例子之一便是施一公组的剪接体构造。
为啥呢?由于它凑集了却构生物学创造里险些所有的精彩要素和寻衅。

第一,在剪接体构造出来之前,有很多剪接体的组分乃至是未知的。
不同于传统的构造生物学,先知道你要研究工具是啥,再吭哧吭哧地去把它们的构造解出来——剪接体的电镜剖析是看到了密度图之后,完备不晓得这是啥,须要通过质谱等手段去鉴定组分。
我从2015年就预测:电镜与质谱组合,将会变成一个主要的生物学研究创造手段。
在电镜时期,这样的例子越来越多。
比如清华大学隋森芳老师组的那个巨大的藻胆体构造,靠质谱都不足了。
为了搞明白组分,他们乃至先做了基因组测序。

第二,几十上百个蛋白如何众星捧月地把那么几条貌似大略的RNA掰成与几个小小的金属离子合营的核酶反应中央,在茫茫碱基中,在精确的韶光精确的地点牵线搭桥,剪掉intron(内含子),连接exon(外显子)?就为了这一“剪子”一“钩针”,为了几毫秒的过程,这么个庞然大物的几十上百个组成部件却要分分合合,这个过程是真神奇。

施一公实验室宣布的首个酵母剪接体的构造(图源:生归天学经典教材Lehninger Principles of Biochemistry(第七版)封面)

构造生物学目前的实验手段只能得到静止的3D照片,为了揭示这部电影,就要不断得到中间态的3D照片,帧数越多,电影越精准。
但即便如此,这个过程中的动力学问题,大略说,便是变革速率,依旧不是现在的构造生物学实验手段可以揭示的,须要借助更多生物物理技能、打算生物学手段去探索。

我自己的事情虽然没有剪接体那么酷炫,但是电压门控钠离子通道如何感想熏染膜电势的变革,开门关门,就这么个过程,听着大略,我们去世磕三年了,依旧束手无策。
其余,我们今年发的两篇PNAS论文实在代表了却构生物学的另一个努力方向:在实验操作过程中对生物大分子施加外力(电场、磁场、各种长度的波......)。

大概是受到我自身专业领域的局限,AlphaFold迄今带给我的震荡还赶不上冷冻电镜的革命,后者将我们从技能挣扎中解放出来,可以专注于构造带来的生物学创造本身。

AlphaFold目前最成功的预测是针对单链分子,当然将来预测复合物的高精构造也该当不在话下。
比较于对蛋白折叠的贡献,我倒是更希望AI能够助力Molecular Dynamics Simulation(分子动力学仿照)。
对构造生物学而言,这个领域才是亟需进步的。

我个人认为生命是地球上最神奇的存在,那么多未知要探索,任何一次技能进步都是契机。
该考虑的是如何把新技能为我所用,去问出、去探索更故意思的问题。

末了,当AI能够成功预测我们正在孜孜以求的生物大分子动态、原位高分辨率构造的时候,那失落业的一定不止是构造生物学家、或者生物学家了 :p

各抒己见

根据现在表露的结果,AlphaFold2已经基本达到实验解析构造的精度。
前天AlphaFold2团队的报告展示了新冠病毒SARS-COV-2的预测结果,解释RNA聚合酶这么大的蛋白也能基本预测准确。
理论上,这会对构造生物学有很大冲击,尤其是往后单颗粒cryo-EM的实验方法上,是否还须要把分辨率做得那么高?低分辨率的电子密度图,乃至SAXS数据结合预测结果该当就能办理问题了。

但是,现实中的冲击不会那么大。
这是由于,AlphaFold2模型的创新性非常高,个中结合的2D transformer和3D equivariant transformer都是AI领域的前沿技能,模型的演习难度很大。
DeepMind的演习方法在学术界很难复现,估计学术界要花几年的韶光才能跟上,因此短期内AlphaFold2对构造生物学的影响会比较有限。
DeepMind可能会和个别实验室互助,预测蛋白质构造。

——龚海鹏(打算生物学家,清华大学构造生物学高精尖创新中央研究员)

AlphaFold为构造生物学家供应了除晶体学、冷冻电镜、NMR以外的其余一种手段,用于揭示生物大分子发挥浸染的分子机制。

——张鹏(构造生物学家,紧张利用晶体学和冷冻电镜技能;中科院分子植物科学卓越创新中央研究员)

AlphaFold目前还不能预测繁芜的分子机器,紧张是由于蛋白-蛋白相互浸染非常繁芜,存在极多的可能性。
实验手段所揭示出来的蛋白-蛋白相互浸染办法还只是冰山一角,更何况在不同生理条件和过程中的构造变革。
因此,未来对有特定功能的、多个身分组成的、生物大分子复合体的构造解析,以及体内的构造剖析,将成为构造生物学实验研究的紧张内容。
无论有没有AlphaFold,构造生物学也正在朝这个方向发展。

Rosetta(注:从头蛋白构造建模算法)也好,AI也罢,构造预测都是基于已有的实验数据够大。
没有足够的数据积累,这些基于统计和数据库的预测就无法实现。
完备基于物理学和化学第一性事理的构造预测还没有涌现。

实验科学永久是探索未知的必要手段。
新的软件算法该当是成为实验科学家的更有力工具,而不是取代实验科学。

——王宏伟(cryo-EM专家,清华大学构造生物学高精尖创新中央实行主任,清华大学生命科学学院院长)

最近两年,构造生物学领域经历了与围棋界类似的故事。
Alphago Fan版本时围棋界并不认为它能够降服人类顶尖高手,可是Alphago Lee后全体围棋界心悦诚服,并且转向AI拜师学艺。
2018年Alphafold涌现时,实验构造生物学领域认为被降服的仅仅是传统的构造预测领域,2020年Alphafold2之后,实验构造生物学领域该当开始思考如何与之共存以及如何“拜师学艺”了。
目前阶段人工智能在围棋上已经远远超过人类顶尖棋手,但是人类围棋比赛并未因此取消,犹如汽车发明后奥林匹克仍旧在进行田径比赛一样。
缘故原由之一是人工智能虽然超越了人类,但并未办理围棋的终极解。
同样的道理,对付繁芜的构造生物学问题,预测手段本身还不能号称完备办理了问题。
实验构造生物学领域接下来须要做的一个事情是要拥抱变革,更好地与预测方法结合以及共同发展。

——周强(cryo-EM专家,西湖大学生命科学学院特聘研究员)

蛋白质体系越大,构造的解析越难仅依赖打算方法。
Cryo-ET (冷冻电镜断层成像) 技能善于解析体外难表达的大分子机器构造、细胞中的原位蛋白构造等繁芜体系,因此很难被分开实验手段的方法取代。
目前,由于体系过于繁芜,利用分子动力学仿照整颗病毒尚未实现,要仿照细菌、细胞、组织,还要很长的路要走。

——李赛(Cryo-ET专家,清华大学构造生物学高精尖创新中央研究员)