7月28日,DeepMind官宣:AlphaFold2预测出2.14亿个蛋白质构造,险些涵盖地球上所有已知蛋白质。

近半年来,我们见证了AI在生物医学中的一次次打破。

本文根据蛋白质构造、算法模型、临床数据三大热门领域,对2022年以来的主要论文进行梳理,与各位共同回顾AI为生物医药带来的改变。

01、蛋白质干系研究论文

回忆AI赞助药物研发领域的32篇重磅论文

关键词:构造预测、从头设计、AlphaFold、Rosetta

清华大学和MIT团队:利用AlphaFold方法增强COVID-19抗体

在3月的PNAS杂志上,清华大学与麻省理工学院联合揭橥论文。
科学家描述了修正一种已知的针对 COVID-19 的抗体,以提高其针对多种疾病变体的功效。
团队参考了AlphaFold 2,并且采取了其方法,但没有利用DeepMind的代码。

论文链接:

https://www.pnas.org/doi/10.1073/pnas.2122954119

华为:推出全流程蛋白质构造预测工具 MEGA-Protein,即将开源

华为与北京昌平实验室、北京大学生物医学前沿创新中央团队、深圳湾实验室高毅勤教授课题组,联合推出全流程蛋白质构造预测工具 MEGA-Protein。

图:不同方案预测的蛋白质构造效果比拟

包含 AI MSA 引擎、蛋白质折叠演习推理流程、蛋白质构造打分、蛋白质构造预测数据集 PSP 等关键技能,干系代码和模型参数后续会在昇思 MindSpore 社区开源。

论文链接:

https://arxiv.org/pdf/2206.12240.pdf

Nat Commun|提升AlphaFold2蛋白-蛋白相互浸染的预测能力

以AlphaFold2为根本,Patrick Bryant等人提升了蛋白复合物预测的能力,该事情于近日揭橥在Nature Communication上。
作者优化了复合物构造预测中的MSA输入,大幅提升了AF2的复合物构造预测能力,并且发展的pDockQ指标可以很好地分类蛋白是否能相互浸染。

论文链接:

https://www.nature.com/articles/s41467-022-28865-w

David Baker团队:仅根据靶点构造设计蛋白质的结合蛋白

3月24日,华盛顿大学蛋白设计研究所的David Baker、曹龙兴和Brian Coventry等人在Nature揭橥文章,先容了一种仅根据靶点蛋白的构造信息就可以进行蛋白质从头设计的方法,该方法可以对治疗和诊断中各种蛋白质上的位点进行针对性的设计,具有广泛的用场。

论文链接:

https://doi.org/10.1038/s41586-022-04654-9

David Baker团队:利用深度学习设计蛋白质功能位点

7月21日,华盛顿大学蛋白质设计研究所David Baker等人在Science揭橥文章,描述了如何采取两种深度学习方法来设计含有预先指定的功能位点的蛋白质,通过专门演习的RoseTTAFold网络,在单次向前通报中创建一个可行的蛋白质骨架。

图:创造与靶点蛋白结合的迷你蛋白的策略

论文链接:

https://doi: 10.1126/science.abn2100.

Nat Commu | 探索蛋白质序列表示学习

4月8日,哥本哈根大学打算机科学系 Wouter Boomsma 等人在 Nature Communications 上揭橥文章:探索了迁移学习和可阐明性学习中的表示。

在迁移学习中,作者证明了现在的一些实践只能产生次优的结果。
在可阐明性学习中,把几何信息考虑在内有助于提升可阐明性,并且可以帮助模型揭示被粉饰的生物信息。

论文链接:

https://doi.org/10.1038/s41467-022-29443-w

Facebook:从数百万个预测蛋白质构造中学习逆折叠,预测序列信息

Facebook利用AlphaFold2产生的数据,采取几何不变处理层的seq2seq的模型,在蛋白质骨架构造数据上实现了51%的序列复现,对付包埋残基的复现率达到72%,总体上比现有方法提高了近10%。

该研究于2022年4月10日发布在 BioRxiv 预印平台。

论文链接:

https://www.biorxiv.org/content/10.1101/2022.04.10.487779v1

六国联合发起,Nature两大子刊:关注蛋白质组“暗物质”研究

5月9日,Georg Kustatscher等六国科学家联合发起了一项名为“未充分研究的蛋白质操持”的调查。

图: “未充分研究的蛋白质操持”调查截图

Nature Methods、Nature Biotechnology连发两篇干系文章,呼吁学界通过系统地将未表征的蛋白质与已知功能的蛋白质干系联,来缩小存在的蛋白质间注释差距,从而为详细的机制研究奠定根本。
西湖欧米的郭天南博士参与个中。

论文链接:

https://doi.org/10.1038/s41587-022-01316-z

https://doi.org/10.1038/s41592-022-01454-x

ColabFold:让所有人都能进行蛋白质折叠

5月30日,哈佛大学FAS科学部的Sergey Ovchinnikov及韩国首尔国立大学生物科学学院的Martin Steinegger等人揭橥文章,先容了全新蛋白质构造预测工具ColabFold。

通过将MMseqs2的快速同源搜索与AlphaFold2或RoseTTAFold相结合,供应了蛋白质构造和复合物的加速预测。
其搜索速率提高了40-60倍,并且优化了模型的利用,在一台有图形处理单元的做事器上每天可以预测近1000个构造。

论文链接:

https://doi.org/10.1038/s41592-022-01488-1

Rosetta MPNN:新一代蛋白设计引擎

作者Justas Dauparas,在哈佛大学和Sergey Ovchinnikov组一起探索共进化和图网络的关系,随后加入了蛋白质设计大师David Baker课题组。
MPNN基于图扩散模型,并且加入了对蛋白质构造的理解,将蛋白质构造信息的融入到了神经网络之中,从而蛋白质序列的回答率提高到了50%。
论文链接:

https ://doi.org/10.1101/2022.06.03.494563

源码code:

https://github.com/dauparas/ProteinMPNN

02、药物设打算法干系论文

关键词:深度学习、算法模型、药物设计、产学进展

百度:利用几何构象提升化合物分子建模效果

图:GEM的整体框架

2月,百度在《Nature Machine Intelligence》上揭橥了AI+生物打算的最新研究成果,提出“基于空间构造的化合物表征学习方法”,即“几何构象增强AI算法”(GEM模型),揭示了一种基于三维空间构造信息的化合物建模方法,以及在药物研发中的运用。

论文链接:https://www.nature.com/articles/s42256-021-00438-4

兰州大学&腾讯团队:开拓自适应图学习方法,预测分子相互浸染及性子

6月23日,兰州大学和腾讯量子实验室团队,提出了基于图学习的自适应机器GLAM,并分别设计了两种通用架构:一种用于分子相互浸染,另一种用于分子属性,可以适应任何数据集并在无需人工干预的情形下做出准确的预测。
研究以发布在《Nature Machine Intelligence》。

论文链接:

https://www.nature.com/articles/s42256-022-00501-8

GLAM 开源地址:

https://github.com/yvquanli/GLAM

浙江大学&腾讯团队:像打算化学家一样提取分子特色的方法

本文提出了一种新的预演习策略,通过学习由打算化学家预定义的分子特色和原子特色,使得模型能够像打算化学家一样从SMILES中提取分子特色。
K-BERT在多个成药性数据集上表现了精良的预测能力。
此外,由K-BERT天生的通用指纹K-BERT-FP在15个药物数据集上表现出与MACCS相称的预测能力。

论文链接:

https://doi.org/10.1093/bib/bbac131

Iktos:运用于多参数优化的基于配体的从头设计深度天生模型

2月26日,J Comput Chem杂志揭橥了AI药物创造公司Iktos的Yann Gaston-Mathé等人的一项早期事情:基于DL的从头设打算法,结合QSAR模型,天生了150个估量在所有指标上都具有活性的虚拟化合物,11个化合物被合成和测试。

论文链接:

https://doi: 10.1002/jcc.26826.

赛诺菲:机器学习勾引的早期小分子药物创造

3月29日,赛诺菲的NikhilPillai等人在Drug Discov Today杂志揭橥文章,剖析和反思了机器学习在临床前小分子药物创造中的多种运用,并简要先容了机器学习任务中的分子表征方法。

论文链接:

https://doi: 10.1016/j.drudis.2022.03.017

薛定谔:一种仿照药归天学家思路的先导化合物构造优化新算法

2022年6月,薛定谔公司的Sathesh Bhat等人发展了一种从头设打算法AutoDesigner,通过模拟药归天学家的先导化合物优化思路,广泛地探索符合良好药动性子条件的化学空间,终极设计出新颖、类药且具有空想活性的化合物,并将其成功运用在D-氨基酸氧化酶(DAO)抑制剂的设计项目当中。
成果已揭橥在美国化学会出版的核心期刊J. Chem. Inf. Model.上。

论文链接:

https://DOI: 10.1021/acs.jcim.2c00072

阿斯利康:通过课程学习改进从头分子设计

阿斯利康公司的研究职员在从头设计平台 REINVENT 中履行课程学习,并将其运用于不同繁芜性的解释性分子设计问题。
与标准的基于策略的强化学习比较,结果显示了对加速学习和输出质量的积极影响。
研究于6月22日发布在Nature Machine Intelligence。

图示:CL 概述

论文链接:

https://www.nature.com/articles/s42256-022-00494-4

MIT:用深度学习模型发掘潜在药物分子,速率提升1000倍

今年7月,麻省理工学院的研究团队用 EquiBind 寻衅了药物分子预测问题。
这是一种 SE(3) 等变几何深度学习模型,对受体结合位置(盲对接)和配体的结合姿势和方向进行直接预测。
与传统和最近的基线比较,EquiBind 实现了显著的加速和更好的质量。
论文已在第 39 届机器学习国际会议(ICML 2022)上揭橥。

论文链接:

https://arxiv.org/abs/2202.05146

Stanford | 基于蛋白-配体复合物的几何深度学习,辅导基于片段的配体天生

斯坦福大学打算机科学系Ron O. Dror教授组针对配体天生问题,利用数据有效的E(3)等变网络和3D原子点云表征进行建模。
该方法能结合蛋白质口袋的3D空间信息同时天生合理的分子,从而加速药物创造过程。
通过对多种性子进行评估证明该框架确实能天生可行的分子。

论文链接:

https://doi.org/10.1101/2022.03.17.484653

03、临床数据干系论文

关键词:知识图谱、组学数据、数据库挖掘/验证

Nat. Biotechnol. | CKG : 用于阐明临床蛋白质组学数据的知识图谱

CKG建立在科学的Python库上,包括analytic score、graphdb builder、graphdb connector等四个独立的功能模块。
它可以在标准事情流程和基于Jupyter条记本的互动探索中实现可重复、可再现和透明的剖析。
全体系统是开源的,并取得了MIT容许,有关先容已揭橥在Nature上。

论文链接:

https://doi.org/10.1038/s41587-021-01145-6

哈佛大学:构建知识图谱PrimeKG以实现精准医疗

5月初,哈佛大学团队在bioRxiv上揭橥了题为“Building a knowledge graph to ennable precision medicine"的文章。

图:表征精准医学知识图谱

构建了PrimeKG知识图谱用于创造新的生物标志物、表征疾病过程、完善疾病分类、识别表型特色、预测生物学机制和药物重利用等,并公开了所有的数据与代码。

项目网站:

https://zitniklab.hms.harvard.edu/projects/PrimeKG

代码地址:

https://github.com/mims-harvard/PrimeKG

数据地址:https://doi.org/10.7910/DVN/IXA7BM

Drug Discov Today|用生物医学知识图谱阐释药物的临床结果路径

2月16日,美国北卡罗来纳大学Eshelman药学院的Alexander Tropshab等人揭橥文章,提出了临床结果路径 (COP)的观点,将其定义为有关药物分子治疗效果的一系列关键的分子和细胞事宜。
COP可以通过挖掘生物医学知识图谱进行打算阐释,这为产生新的、有辅导意义的药物创造和再利用的假设铺平道路。

论文链接:

https://doi.org/10.1016/j.drudis.2022.02.008

MIT团队:从科学文献中自动提取化学反应

5月16日,麻省理工学院打算机科学与人工智能实验室的Jiang Guo等人在J Chem Inf Model杂志揭橥文章,先容了一种从化学文献中提取反应的自动化方法。
将其表述为构造预测问题,并通过一个由产物提取和反应角色标记组成的两个阶段的深度学习架构来办理。

论文链接:

https://pubs.acs.org/doi/10.1021/acs.jcim.1c00284

Science | ChemPU中化学合成文献数据库的数字化和验证

2022年7月7日,Science揭橥了一篇关于化学合成自动智能化的论文。
Simon Rohrbach等研究职员供应了一个包含100个分子的自动可实行化学反应数据库,包括过渡金属催化的偶联反应、杂环形成、官能团相互转化和多组分反应。

合成中,已下载数据库中的50多个条款,并在七个模块化 ChemPU 中自动运行,其产率和纯度与专业化学家所达到的相称。

论文链接:

https://www.science.org/doi/10.1126/science.abo0058

04、AI制药干系综述/报告

Nat Rev Drug Discov|小分子药物创造中的AI:即将到来的浪潮?

2月7日,Nat Rev Drug Discov揭橥了波士顿咨询公司Christoph Meier等人的文章,从多方面看到了AI在药物创造领域中创造的代价,包括更大生产力、更快速率、更低本钱、更广泛的分子多样性及更高的临床实验成功率,并利用公开的数据进行了深度剖析。

论文链接:

https://doi.org/10.1038/d41573-022-00025-1

WIREs CMS | 基于深度学习的药物重定位:方法、数据库和运用

来自湖南大学曾湘祥教授的科研团队,与弗雷德里克国家癌症研究所Ruth Nussinov教授、伊利诺伊大学芝加哥分校Philip Yu教授等多位学者互助,揭橥了利用深度学习方法和工具进行药物重定位主题的综述文章。

图:基于深度学习的药物重定位确当前主流研究过程

概述了常用于药物重定位的生物信息学和药物基因组学数据库;并谈论了基于序列和基于图的表示学习方法及最前辈的基于深度学习的方法及未来寻衅。

论文链接:

https://doi.org/10.1002/wcms.1597

Nat Mach Intell|GPU打算和深度学习在药物创造中的变革浸染

当代药物创造已经受益于最近DL模型和GPU并行打算的爆炸性增长。
3月23日,哥伦比亚大学的Artem Cherkasov和英伟达的Abraham C等人揭橥文章,全面阐述了GPU打算和深度学习的历史趋势和最新进展,并谈论了它们对药物创造的直接影响。

论文链接:

https://doi.org/10.1038/s42256-022-00463-x

JCIM|药物创造的超大型化合物数据集概述

4月14日,美国国家癌症研究所 (NCI) 打算机赞助药物设计研究课题组的Wendy等人在JCIM杂志上揭橥综述:先容了许多包含百万乃至数十亿化学构造的数据集,以及未完备列举的更大化学空间。

论文链接:

https://pubs.acs.org/doi/10.1021/acs.jcim.2c00224

Nat. Commun. | 生物科学领域运用深度学习确当提高展和公开寻衅

4月1日,莱斯大学(Rice University)的研究职员谈论了深度学习在蛋白质构造预测、蛋白质功能预测、基因组工程、系统生物学和数据集成以及系统发育推断,共五个广泛领域的最新进展、局限性和未来前景。
综述揭橥在Nature Communications上。

论文链接:

https://www.nature.com/articles/s41467-022-29268-7

Nature:AlphaFold和AI蛋白质折叠革命的下一步是什么

4月13日,Nature一篇综述中,多位科学家就AlphaFold和AI蛋白质折叠的现状和未来阐述了不雅观点:AlphaFold预测不一定是个直接的办理方案,但它供应了一个初步的近似值,可以通过实验来验证或完善,我们应批驳性乐不雅观。

论文链接:

doi: 10.1038/d41586-022-00997-5.

ACM:未来,合成生物学与人工智能会对天下产生哪些影响?

劳伦斯伯克利国家实验室(LBNL)、美国空军研究实验室(AFRL)等机构的研究职员互助,对人工智能在合成生物学中的运用现状、影响、寻衅以及潜力与前景进行了较为系统的阐述。
以Artificial Intelligence for Synthetic Biology为题,于今年5月发布在《Communications of the ACM》。

论文链接:

https://cacm.acm.org/magazines/2022/5/260341-artificial-intelligence-for-synthetic-biology/fulltext

Nature评论|AlphaFold如何在构造生物学中实现AI的全部潜力?

2022年8月2日,Nature揭橥了一篇简短的评论文章,从AlphaFold的技能造诣出发,谈论了如何实现AI的全部潜力。
文章提到了两个主要不雅观点:为了充分利用人工智能,数据和软件必须自由共享,打算、理论和实验研究职员必须紧密互助。

论文链接:

https://www.nature.com/articles/d41586-022-02088-x

—The End—