一、AI+BT正变革人类生物科技未来

2024年初,《自然》杂志公布2024年七项值得关注的技能趋势,包括大片段DNA插入、人工智能设计蛋白质、脑机接口、 细胞图谱、超高分辨率显微成像、3D打印纳米材料和DeepFake检测。
显著可见,人工智能的快速进步,正成为推动包括生物技能在内的各种令人振奋新技能发展的核心支撑。

——AI引发科研范式革命性变革。
人工智能是20世纪涌现的一门技能科学,致力于研究和开拓用于仿照、扩展和增强人类智能的理论、方法、技能及运用系统。
1950年,英国数学家阿兰·图灵(Alan Turing)提出著名的“图灵测试”,即通过判断一个机器是否能够展现出与人类不可区分的智能行为来定义人工智能。
这一定义奠定了人工智能研究的根本,是人工智能领域的第一块基石;1956年,人工智能观点在达特茅斯会议上首次被提出,标志着其作为一个独立研究领域的出身。

此后半个多世纪,人工智能虽然历经各种技能波折,但是稳步向前。
2006年后,随着深度学习等技能的打破、GPU的遍及以及大数据的兴起而快步发展。
这一期间,图像识别、语音识别和自然措辞处理等技能突飞年夜进,个中代表性事宜有2012年AlexNet在ImageNet竞赛中取得压倒性胜利、2016年AlphaGo降服人类围棋冠军等。
自此,人工智能技能迅速在互联网、金融、医疗康健等多个运用处景拓展,随后又深入至能源、生命、新材料、信息、环境科学等各个科学领域(图一)。

华谷申报AIBT划时代的学科融合以蛋白质研究为例

最近2~3年是人工智能爆发期——大模型开始引领AI的发展。
它们凭借弘大的参数数量和繁芜的网络构造,在多个领域取得打破性进展。
比如在自然措辞处理(NLP)领域,OpenAI的GPT系列和谷歌的BERT模型都取得了巨大的成功,它们通过数十亿到数千亿的参数,能够捕捉到措辞的奇妙细节,极大推动自然措辞处理的发展。
这些模型在文本天生、图像和视频天生、机器翻译、问答系统等浩瀚方面展现出惊人能力,快速改变着人类与天下的互动办法,成为推动人类进步的颠覆性技能。
在科学领域运用人工智能(AI for Science)的过程中,通过模型驱动和数据驱动的深度领悟,形成了一种系统化的工程方法。
这一过程不仅哀求在理论事理上进行创新,还须要在根本举动步伐培植、产品设计以及场景交互等各个层面进行全面的改造,这预示着广阔的发展空间和巨大机遇(图二)。

未来,在BT领域,AI for Science 有潜力实现在全基因组层面定制化工厂的观点,这将使得从实验室中的小规模理性化设计,到大规模生产过程的制备工艺成为可能。
此外,AI的运用还可能扩展到从微不雅观层面对生物系统的仿照构建,到宏不雅观层面对海洋乃至全体生态系统的仿照,从而真正仿照出“蝴蝶效应”的繁芜动态过程。

图1:AI for Science系统工程

(引用:深势科技)

图二:AI for Science 推动研发范式不断演进(材料研究)

(引用:2023 版《AI4S 环球发展不雅观察与展望》)

——BT改变自然天下。
生物技能是利用生命科学事理和技能手段办理现实问题和知足人类需求的技能体系。
1953年,James Watson和Francis Crick创造了DNA的双螺旋构造,生命科学由此进入“分子生物学”时期。
近半个世纪以来,生物技能历经三次革命,成为当现代界最前沿的学科,改变着人类未来(表一)。

DNA双螺旋构造的创造对付揭示基因实质和遗传信息的通报起到了决定性浸染。
通过研究分子的构造和功能,人们可以深入理解生命征象的实质。
分子生物学的发展推动了遗传学、基因工程、生物技能等领域的发展,为医学、农业、环保等领域带来了重大的影响。

1990年至2003年,美国、英国、法国、德国、日本和中国等多国科学家通过国际互助完成了“人类基因组操持”,解开了人体内约2.5万个基因的密码,并绘制出人类基因的图谱。
这是人类历史上一次对生命最大规模的探索。
在这个过程中,逐渐发展出基于合成测序的新一代DNA测序方法(NGS),大大地推进了基因测序的步伐。
通过理解人类基因组的完全序列,极大推动了对基因功能、基因表达调控、遗传变异等研究的深入,为疾病的预防、诊断和治疗供应了新路子;基因组学产生的大量遗传数据,又推动了生物信息学的发展,促进了生物学、打算机科学、统计学等多个学科的交叉领悟,推动了生命科学的“大数据”时期的到来(图三)。

表一:三次生物技能革命及标志性事宜

图三:人工智能驱动的生命科学研究新范式

(引用:李鑫, 于汉超. 中国科学院院刊)

随着对付生命密码的节制和理解愈发深入,人类已不知足于仅仅解读基因,更期待编码基因、乃至创造生命。
进入21世纪,合成生物学应运而生。
合成生物学以重组或从重新合成新的、具有特定功能的人造生命为目标,是生物学、工程学、物理学、化学、打算机等学科交叉领悟的产物,推动并实现了生命科学由解读生命到编写生命的超过,给自然天下带来了颠覆性影响(图四)。

——AI给BT带来新活力。
生物系统涵盖了从分子,细胞到个体不同层次,以及个体间的种群关系,机体与环境的相互浸染,展现出多维度,高度互联,动态调控的特点,具有多层面的繁芜性。
传统的科学实验研究模式已难以应对,如处理生物信息的算力不足;无法处理繁芜性,难以从大规模、多样性、高维度数据中高效提取隐匿的关联和机制等。
又由于这些成分,传统生物技能每每只能从局部入手,通过不断试错的实验方法和有限次数的打算办法总结规律与验证实验结果,导致整体研究实验的精确度和灵敏度难以提升。
而AI恰好填补这两大难题(表二)。

图四:合成生物学2000~2023年打破性事宜

(引用并延展:赵国屏. 合成生物学:开启生命科学“会聚”研究新时期. 中国科学院院刊)

表二. 传统方法与AI+BT方法

AI能够在弘大的参数堆叠情形下,从数据中更好地理解繁芜生物体系中的规律,并在多层次的海量数据中以“低维”数据预测“高维”信息及规律,实现从基因序列和表达等低维数据到细胞、机体等高维繁芜生物过程规律揭示的超过,解析繁芜的非线性关系。
施一公院士曾形象地说:原来四五个博士须要几年才能完成的事情,现在借助AI,一个博士两个星期就能完成。

——AI+BT领域不断拓展。
AI+BT已经延展出一系列技能分类,而且每项分类都有方法论与运用,推动了科研的迅速发展和精准化。
例如,支持向量机(SVM)和随机森林(RF)算法被用于解析繁芜的遗传数据,提高疾病诊断的准确率;深度学习能够处理和剖析大量的细胞和组织图像,用于分类、识别和预测疾病模式;自然措辞处理技能使得从弘大的生物医学文献和数据库中提取信息成为可能。
通过自动化的文本分析,研究职员能够更快地获取有关基因、蛋白质及疾病间的干系性信息,加速新假设的天生和验证。
在生物工程领域,强化学习被用来优化生物反应器的参数设置,提高生产效率和产品质量。
AI技能已深入生物领域各种场景(表三)。

表三. AI技能在生物技能领域的运用

AI不仅提升研究与发展效率,更是为办理更系统的生命科学问题供应了新的研究方法。
科研事情已不仅是“如何办理问题”,还包括“如何明确问题的定义,如何选择得当的工具”。
“AI”和“科研”深度领悟的新兴科技形态,已被学界称为“科学研究第五范式”。

二、BT在AI助力下实现超过式发展

目前,AI已在BT领域的基因识别与调控研究、组学数据剖析、蛋白质构造解析等的运用取得打破性进展。

——基因识别与调控研究。
人类基因组操持为我们揭示了生命的基本组成,强调了基因表达调控系统的繁芜性。
每个细胞的表型都由其在特定时空背景下的基因表达所决定,探索这些基因调控机制是当前生命科学中的关键课题。

基因测序技能的快速发展,让科学家可以迅速天生海量基因数据。
然而,数据爆炸性增长给数据处理和剖析带来前所未有的寻衅。
随着AI技能的引入以及Gene Compass、scGPT、Geneformer和sc Foundation等根本生命大模型的开拓。
利用从单细胞转录组数据等生命科学数据演习,学习并仿照基因表达与细胞命运之间的繁芜关系,使得有效预测和理解基因调控网络成为现实。
例如,德国马克斯·普朗克分子遗传学研究所 Annalisa Marsico 团队就利用AI开拓的新算法,从患者样本中天生的包括突变的DNA序列数据、DNA甲基化、单个基因活性以及细胞通路中蛋白质相互浸染信息的恒河沙数的数据集,检测导致癌症发展的模式和分子事理。

同时,技能领悟不仅提升基因编辑技能的精确性与效率,还降落本钱,从而促进了生物医药领域的创新发展。
例如,利用AI模型预测引导RNA(gRNA)靶向活性,提高碱基编辑的效率、预测碱基编辑的结果。

——帮助实现更有效的组学数据剖析。
基因组学是一门以数据为驱动的科学,是通过探索大规模基因组数据来发掘新特性。
它的运用广泛,包括创造基因型与表型之间的联系、识别患者的生物标记物、预测基因功能和绘制生化活性的基因组区域等。
基因组数据由于弘大和繁芜性,须要依赖剖析工具来揭示未预见的关系。
2015年,Alipanahi等在专业学术期刊Nature Biotechnology上提出了DeepBind模型,该模型将深度CNN运用于剖析预测DNA、RNA与蛋白质结合的研究之中,深度神经网络被证明适用于DNA序列数据剖析。
随后该AI技能在基因组学领域的运用迅速增长。

除了基因组学以外,在引人瞩目的基因编辑领域,AI运用的探索也在深入。
譬如Insilico Medicine和Lunit通过采取前辈算法,增强了传统的诊断与治疗方法,为快速有效地识别和履行潜在治疗方案供应了支持。

——蛋白质构造解析。
蛋白质在生物体内起着至关主要的功能,其构造对付运输、催化、结合以及免疫等生物过程极为关键。
虽然测序技能能够揭示蛋白质的氨基酸序列,但序列可能的多种折叠构象增加了准确解析其构造的繁芜性。
传统的构造解析技能,如核磁共振、X射线晶体学和冷冻电子显微技能,虽能描述蛋白质构造,但每每耗时长、本钱高,且成功率不稳定。
因此,快速且准确地预测蛋白质构造是构造生物学中的重大寻衅。

AI尤其是AlphaFold模型的开拓带来了重大打破。
该模型利用大规模蛋白质数据库作为演习集,通过算法学习氨基酸序列与其空间构造之间的关系,实现更快、更精确的构造预测能力。
该模型已在药物开拓和疾病治疗领域展示巨大能力。
例如,牛津大学与美国国家过敏症和传染病研究所(NIAID)利用AlphaFold与晶体学技能确认了Pfs48/45的完全构造,助推了基于Pfs48/45的疫苗免疫原的未来开拓,互助开拓了多组分疟疾疫苗。
其余,科罗拉多大学波尔德分校的学者正利用该模型研究与抗生素抗性干系的蛋白质。

三、AI带来颠覆性影响——蛋白质研究为例

基因、蛋白质和细胞共同构成了生命体的基本框架,是生命科学中不可或缺的三个组成部分。
个中,蛋白质是生命活动的紧张承担者,参与并调控险些所有的生归天学过程,因而是AI领悟过程中被重点关注和研究的领域,也是AI for Science中最早被打破、目前取得成果最多的领域。
从家当发展的角度看,药物研发中的靶点、抗体药、多肽类药物、蛋白疫苗、领悟蛋白药物等都是蛋白质;合成生物学的大多数酶都是蛋白质,代谢通路、细胞工厂等关键要素也与蛋白质息息相关。
因此,蛋白质研究对人类发展具有主要代价,也是AI参与的重点领域。

——蛋白质是生命的物质根本。
根据当代生物科学的基本规律之一“中央法则”,在生命体内,DNA卖力遗传信息存储,而遗传信息须要通过转录和翻译形成蛋白质来实行功能。
蛋白质可以在生命体中起到各种浸染,包括组成生命体、运送各种物质、抵御病毒、消化食品、供应能量、调节激素等等。
成长、发育、运动、遗传、繁殖等在内的统统生命活动,都离不开蛋白质的参与。

蛋白质以氨基酸为基本组成单位,氨基酸的不同排列(即序列)以及在此根本上的卷弯曲叠,形成了特定的三维立体构造,进而实行不同功能。
蛋白质的不同特定构造决定了其具备不同的生物学功能,如催化、运输、免疫等。
人类现在已知组成蛋白质的氨基酸有20余种,如果它们可以以任意顺序和长度链接,并折叠形身分歧的蛋白质,那么理论上可能存在的蛋白质数量会比全体宇宙中的原子数量还要多很多倍,功能更是丰富而繁芜。

——传统蛋白质研究已碰着瓶颈。
科学家对蛋白质构造的研究持续一个多世纪,理解蛋白质的折叠构造和功能一贯是生物学界最棘手的问题之一。
进入到上个世纪后五十年,科学家陆续利用晶体衍射、核磁共振、冷冻电镜平分歧实验技能来测定蛋白质的三维坐标,利用实验用具进行直接不雅观测成为研究蛋白质构造的紧张方法。
然而,所有这些方法都存在着耗时长、花费高档一系列问题,而且很多蛋白质构造很难用实验手段进行剖析,加上蛋白质的数量种类十分弘大,用实验探索蛋白质构造的努力只能算是杯水车薪。

——蛋白质设计并非易事。
蛋白质设计紧张是通过人工设计和工程技能改变和改进蛋白质的构造和功能,实现在生物学和医学领域的实际运用。
详细来说,紧张有两个目的:一是改进现有蛋白质。
通过设计和改进现有的蛋白质,研究职员可以提高蛋白质的稳定性、特异性和生产效率。
二是天生新的蛋白质。
通过设计和制造新的蛋白质,研究职员能够探索蛋白质在生物学和医学等领域中的新功能,例如开拓新的生物燃料、药物和材料等。

但是,蛋白质设计一贯十分困难,紧张有三个缘故原由:一是蛋白质序列空间非常巨大。
假设须要设计1个带有100个氨基酸的蛋白质,自然界有20种氨基酸,这个蛋白质的序列空间就有20的100次方种可能性。
但这个巨大序列空间种仅有很小比例的氨基酸序列可以稳定折叠,且具有我们所需的特定功能。
因此,要在巨大的空间中找到符合需求的氨基酸系列,无异于大海捞针。
二是对蛋白质知识积累仍旧不敷。
基于特定功能设计蛋白质,须要对蛋白质构造、功能的深入理解,这于科学家和家当界而言仍是难题。
三是家当蛋白质的需求繁芜多样。
比如根据特定靶点设计蛋白药物,设计可催化特定底物的酶,或是提升现有酶的催化效率等。
不同类型的蛋白质、不同的需求,须要利用不同的算法组合来办理。

——AI给蛋白质构造预测带来革命性影响。
截至2018年,人类五十多年积累了22万个蛋白构造,但AI两三年就预测了六七亿个。
广义来讲,“AI+蛋白质研究”已经是新的科学领域。
在蛋白质构造研究,研究者供应氨基酸序列,并向AI算法供应氨基酸序列对应的构造,从而演习AI学会自主预测蛋白质构造。
这个方法超过了以往蛋白质构造预测方案的思维定式,全面激活了AI蛋白质构造预测的可行性。
2016年,许锦波教授研发出RaptorX-Contact方法,是环球首次利用深度学习方法大幅提升蛋白质构造预测精度,一举破解了“蛋白质折叠”难题,拉开了基于人工智能的蛋白质构造预测时期的序幕。
该方法的思想核心后被DeepMind采取并开拓出AlphaFold 。

——AI给蛋白质设计带来新思路。
蛋白质构造预测只是AI研究蛋白质的开始。
对家当更有代价的是根据运用处景,设计出具备特定功能的或天生自然界中没有的蛋白质。
这方面,华盛顿大学的David Baker 团队连续取得主冲要破。
2023年4月,在 Science揭橥论文,利用AI从头设计了全新且有功能的蛋白纳米颗粒,为疫苗和药物递送载体开拓开辟了全新方法;12月,再次在 Nature揭橥文章,利用AI从头设计了具有高亲和力和特异性的全新蛋白质,为抗体设计和疾病诊断打开了新视角。

2023年以来,随着大措辞模型的兴起,蛋白质设计问题有了新思路,但这并不虞味着能直策应用通用措辞大模型进行蛋白质天生。
缘故原由在于,蛋白质数据比自然措辞数据繁芜的多,ChatGPT等通用大模型还无法对蛋白质序列、蛋白质构造、蛋白质复合物、蛋白质-小分子复合物、蛋白质进化树、motif和共进化信息等多种模态的、高度专业化的数据进行精准建模。

——蛋白质设计方法仍待迭代。
学界也有团队环绕蛋白质优化设计研发新的办法方法。
如华盛顿大学David Baker团队的ProteinMPNN,RFDiffusion,Generate Biomedicin公司的Chroma,加拿大蒙特利尔学习算法研究院(MILA)与加州理工团队推出的ProteinDT等。
但是这些模型都有局限,一是都不是大模型,因此普适性较差;二是未专门面向家当运用;三是无法同时接管构造、序列、功能、进化的输入进行精准的条件式天生。

大略而言,ProteinMPNN与RFDiffusion用场类似,都是无条件天生,只能输入蛋白骨架,并掩码部分构做作为输入,产生更自然的蛋白,但无法哀求蛋白具备某种性子,因此无法进行条件天生;Chroma每种类型的功能须要独立演习一个天生器,缺少普适性,且只能天生蛋白使之折叠成特定(非功能含义的)构造,无法基于功能产生蛋白、也未辅导如何评估天生的蛋白的功能性和命中率;ProteinDT利用CLIP技能将功能与蛋白序列对齐,但在不同的功能条件输入情形下,蛋白的性子预测只有少量改变,无任何实验验证,因此不愿定这些蛋白是否真正能进入家当开拓。

也即是说,当前的蛋白天生方法,无论是基于构造输入,还是基于功能文本输入,都尚未能接管多个旗子暗记进行稠浊天生蛋白,且天生的蛋白无本色性的评估(如可靠的性子预测、实验验证),因而这些方法要么利用门槛极高(只有精通模型性能者才能精确运用莅临盆),要么根本无家当代价。

四、AI赞助天生家当级蛋白质亟待打破

从上文可知,AI蛋白质天生大模型解释的只是蛋白质设计研究从“挖矿寻宝”到“按图索骥”的范式变革,赋能的是抗体、酶、肽和微蛋白质等大分子创造、优化、设计的变革,从家当而言还有很长路要走。
目前,用于蛋白质构造预测的模型和用于蛋白质优化、设计的模型,均无法精准地知足家当级天生蛋白质的需求。

但是在家当端,仍有不少模型在利用,按照功能区分,目前天生蛋白质干系技能或平台紧张有两类:

——AI蛋白质构造预测模型。
此类技能以DeepMind开拓的AlphaFold 2为代表。
AlphaFold 2实现了对大部分蛋白质构造的预测与真实构造只差一个原子的宽度,达到了人类利用冷冻电镜等繁芜仪器不雅观察预测的水平。
功能层面,AlphaFold 2的紧张功能是单体蛋白质构造预测,但在蛋白质复合物构造预测、孤儿蛋白构造预测、蛋白质-蛋白质/小分子之间浸染预测、蛋白质优化与设计等家当需求强烈的任务上表现较差,或不具备功能。

2024年5月8日,DeepMind发布AlphFold 3,流传宣传AlphaFold 3打破了蛋白质复合物构造预测,能够仿照由蛋白质、DNA、RNA及各种配体、离子和化学润色等组成的繁芜构造。
但新版本不开源代码,仅发布了一个名为AlphaFold Server的公共接口,对可供考试测验的分子施加了一个限定,且DeepMind表示预测准确度仅为40%-80%。
而且,AlphaFold仅能预测构造,一来用户可能还须要再进行湿实验验证构造,二来构造只是出发点,用户仍无法转换成核心指标比如稳定性、可开拓性,间隔家当运用较远

海内的AI蛋白构造预测模型大多是基于AlphaFold 2的复现或微调。
例如,深势科技2021年推出的Uni-Fold蛋白质预测工具,复现了AlphaFold 2的全规模演习、效率超其2-3倍,且两者的方法论同等,且属于同一代技能。
Uni-Fold对蛋白质三维构造的预测精度、运行韶光和对蛋白质复合物的预测与AlphaFold2靠近,在同等测试条件下,Uni-Fold对CASP14蛋白质序列数据集的均匀Cα-lDDT(局部比对指标)达到82.6,仅次于AlphaFold2;2022年北京大学高毅勤教授团队与华为互助推出的SPONGE,从硬件、软件平台和发展新方法三个维度对AlphaFold 2进行了复现,在打算效率,软硬件合营、运用处景和打算精度方面,都达到了AlphaFold 2水平,在某些指标上还有比较明显的上风。

——用于蛋白质改造、设计的模型。
蛋白质设计及改造或蛋白质工程,是在基因工程的根本上,结合蛋白质结晶学、蛋白质化学、打算机输助设计等多学科,通过对基因的人工定向改造等手段对蛋白质进行润色、改造和拼接,以生产出能知足人类须要的新型蛋白质的技能,被科学家称为“第二代基因工程”。
其紧张内容是通过对天然蛋白质加以改造,使其具有更优秀性能,或者从头设计和生产自然界本来不存在的蛋白质,以知足人类须要。
由于蛋白质数量远超过基因数量,而且蛋白质具有可变性和多样性,导致了蛋白质研究技能远比核酸技能要繁芜和困难得多。

此前,对蛋白质分子的改造与设计紧张利用定向进化(directed evolution)和理性设计(rational design)两种策略。
前者通过仿照自然选择过程,对目标基因进行多轮突变和筛选实验,直至得到所需水平的优秀变体。
后者依据序列和构造信息,选择较少的关键位点进行精准改造,从而构建较小的突变文库。

与上述两种策略比较,近年来还涌现一种由数据驱动的新策略,即AI赞助的蛋白质工程策略。
该策略通过学习已有数据中的信息,建立起输入属性(如序列)到输出属性(如功能)的映射关系,不须要详细的物理或生物层面的根本信息。
一旦得到足够准确的映射关系,就能够通过实验中随意马虎得到的输入值来预测输出值,从而免除大量的重复性实验。
目前,基于AlphaFold在内的蛋白质构造预测方法,该策略已经成功运用在蛋白质工程的很多方面,包括蛋白分子构造预测、蛋白分子功能预测、蛋白分子溶解度预测等,但紧张还是集中于构造与功能的预测,在对付天然蛋白的改造、乃至生产自然界本不存在的蛋白质方面,AI赞助的办法还有待进一步研究。

五、AI+BT的家当运用成效初显

只管上述两种策略为代表的蛋白质设计与改造方法仍有不敷,但是在家当的运用层面,已经在蛋白质药物、工业酶制剂等领域取得较大进展。

——生物药研制是当前热点。
在人体已知疾病靶点中,小分子药仅覆盖20%已知疾病靶点,超过80%的靶点可用抗体、多肽、酶、细胞因子等生物药办理,生物药增长空间远高于小分子药。
例如在胰岛素和GLP-1类似物等医用蛋白质产品的开拓;利用大肠杆菌、酵母、哺乳动物细胞等表达系统,高效、快速、大量地生产性状稳定的高活性生物细胞因子;利用分子设计和定点突变技能得到胰岛素突变体、滋扰素、尿激酶等治疗用生物制品;用人抗体的恒定区替代鼠单克隆抗体的恒定区,降落免疫原性、改进抗体亲和力,用于癌症和自身免疫性疾病的治疗等。

目前新药研发霸占全体AI市场超过35%份额。
靶点创造、大分子化合物构造的预测、构造的优化、药物浸染机制的探索等逐步被AI技能赋能(图五)。
例如,AI蛋白质技能可以对药物靶点的构造进行解析,替代传统X光晶体衍射或者冷冻电镜的方法,更加快速、高效地进行新靶点的创造;或基于AI蛋白质构造预测能力,对已有的大分子药物数据库进行挖掘、剖析,快速找到所需的药物分子,并判断哪些是高概率成药分子、哪些是低概率成药分子;乃至可借助AI蛋白质天生技能,根据靶点按需快速天生新的蛋白质药物等。

这些能力将显著提升创新药研发效率,大大缩短临床前药物研发周期,降落本钱,将药物研发早期研发韶光从2-4年缩短到几个月,乃至在某些环节上实现数万倍的效率提升和数百倍的本钱降落。
更主要的是,通过多目标优化显著提升成功率,AI蛋白质大模型还可以设计自然界不存在的全新药物分子。

图五:药物研发的紧张环节

(引用:2023 版《AI4S 环球发展不雅观察与展望》)

生物药物包括DNA重组技能生产的蛋白质、多肽、酶、激素、疫苗、单克隆抗体和细胞因子药物,也包括蛋白质工程技能生产的上述产品的各种润色物,还包括用于基因治疗的基因、反义寡核苷酸和核酶及病毒和非病毒基因递送载体等。
创新药研发存在着周期长、本钱高、成功率低的痛点,单款上市药物均匀本钱达到14亿美金,均匀临床成功率仅9.2%。
这也预示着新药开拓的每个环节的效率提高都有巨大商业代价。
根据36氪“AI+医疗”行业研究报告数据显示,仅在AI助力下的化合物虚拟筛选就可以均匀节约40-50%韶光,年均节约260亿化合物筛选本钱。
据Tech Emergence报告显示,有AI技能参与的新药研发成功率能从12%提高到14%。

目前,环球有近百家从事大分子药物设计的AI驱动的生物技能公司,大多处于早期临床阶段(表四)。

表四:国外AI驱动的生物技能公司及产品

在我国,未知君生物拥有超过10条药物管线,已完成对微生态治疗紧张药物形态的全面覆盖,个中已有4条管线进入临床阶段。
估量2年内会有1~2条管线进入临床II期。

表五:医药研发四个阶段

AI运用集中于靶点创造、成药分子挖掘、药物分子构造优化、药物浸染机制的探索等(表五)。
除新药研制外,AI的运用还涵盖医疗信息化、智能诊断、医学影像等多个方面,个中医疗信息化是最早开始利用AI技能的领域,医学影像则是AI发展最为迅速的领域。

展望未来,随着AI技能的不断深入运用,许多疾病的发病机制和影响成分将逐渐被揭开神秘面纱,这将为人类康健带来革命性的改进,并有望引领全体生命科学领域的系统性进步。

——工业酶的优化和设计展现广阔潜力。
在微生物里,酶扮演着风雅调控者的角色,如同一把开启生归天学反应之门的"精密工具",匆匆使生物体展现出多样化的功能和特性。
酶对付生物技能和合成生物学的所有可以想象的运用都非常主要,酶的强大是可以担保干系化学反应在极为温和的条件下也能高效进行,催化反应的速率每每可以提升几千倍到上亿倍。
工业酶是生物工业的关键生物催化剂,大致可分为碳水化合物酶、蛋白酶、脂肪酶三类,因其经济性而用场广泛。
Data Bridge Market Research 预测,2021年至2029年的复合增长率达到21%,估量到 2030 年将达到 39.8 亿美元(图六)。

当前,科学家们普遍采取定向进化和人工酶设计两种方法来增强酶的催化能力。
定向进化技能通过产生大量的随机突变和重组,模拟自然界中酶的蜕变过程,然后从这些结果中筛选出知足特定需求的酶。
这一过程可以被理解为基于一定原则的全面搜索。
2018年,加州理工学院的弗朗西斯·阿诺德教授因其在定向进化领域的精彩贡献,荣获诺贝尔化学奖。

图六:环球酶市场行业趋势

近年来,在AI预测蛋白质构造的推动下,人工设计蛋白质的技能取得了迅年夜提高。
这一进步表示在多样化的支架蛋白、小型功能蛋白以及自组装单元蛋白的AI设计上。
目前,人类已经能够通过人工智能技能,从零开始设计出全新的酶类。
2023年2月,华盛顿大学David Baker 团队在 Nature期刊揭橥论文,从头设计出人造荧光素酶,这是科学界首次基于人工智能创造出自然界不存在的酶。
这项能够从头设计具高活性和高特异性酶分子的实验成果,可以被认为是人工造酶的关键里程碑。
这一打破意味着,原则上,险些任何化学反应的定制酶都可以被设计出来。

AI在工业酶的优化和设计上不仅提高了工业酶的生产效率和催化性能,还加速了新酶的创造和设计过程。
在以酶的固定化技能为核心的酶工程中,通过对酶的构造或局部构象调度、改造,能够提高酶的活性、延长酶的半衰期、提高酶的热稳定性、延长保存期、抵御由于主要氨基酸的氧化引起的活性损失等,从而得到性子更稳定、效率更高的酶制剂。
比如在酶活性预测与改进方面,机器学习模型预测酶的活性,并识别影响酶活性的关键氨基酸残基;在酶生产过程。
AI可以通过优化发酵条件、纯化步骤和配方,提高酶的产量和降落本钱。
其余,还能设计新的酶构造,创造新酶、增强酶稳定性、酶运用开拓等。

目前,除蛋白质预测与设计、生物制药和工业酶之外,AI还在合成生物学领域的元件工程、遗传线路工程、代谢工程、基因组工程等方面展现有效的剖析和预测能力,帮助科学家更高效地设计和构建具有预定功能的生物系统,实现从基因到表型的精确掌握。

工业酶对我国至关主要。
目前我国发酵工业核心酶制剂75%以上来自国外公司,短缺关键酶;紧张发酵产品的菌种自给率,抗生素不到10%,维生素不到20%,氨基酸不到5%,益生菌不到10%;工业菌种设计所需生物元件库、酶资源库等根本数据库,以及蛋白质构造预测等软件全部依赖国外。
AI对工业酶的优化和设计将有机会对我国当前的被动格局产生重大影响。

六、当前家当环境和政策支撑

当前,社会经济发展已进入生物经济时期。
据统计,2022年环球生物技能行业市场规模达到7946亿美元,中国达到2539亿美元(按汇率6.3打算),我国2014至2022年的复合增长率达到13.87%,远高同期GDP增长率,可见势头强劲。
这得益于家当环境和政策环境的加持。

——在家当环境上。
根据干系研究,估量环球生物技能2032年市场代价将达4万亿美元,并估量到2025年,利用天生式AI技能系统研发的新药和材料比例将超过30%。
Mordor Intelligence统计数据显示,生物药市场规模估量2024年为5167.9亿美元,到2029年将达到7618亿美元,在预测期内(2024-2029年)复合年增长率为8.07%。
而在合成生物领域,据 CB Insights数据,环球合成生物学市场规模2017年至2019年的年复合增长率为28.8%。
2024年,环球合成生物学市场规模将达到189 亿美元。
AI+BT领悟发展的强劲引发市场的一系列反应。

在AI端,Google、英伟达等 AI 巨子纷纭布局生物技能家当。
2023 年以来,英伟达连投 10 家 AI 制药公司,个中多个公司都在开拓基于天生式 AI 设计药物分子的技能平台。
谷歌不仅在投资层面布局 AI 制药,还与生物科技公司 Ginkgo 建立长期互助伙伴关 系,基于 Google Cloud 助力Ginkgo 开拓的大型措辞模型,正运用于药物创造和生物安全等领域。

在BT真个医药领域,赛诺菲、默克、礼来等跨国药企和生物科技公司纷纭加速布局 AI ,医药巨子赛诺菲流传宣传要 All in AI;AI 驱动的蛋白质设计公司 Generate Biomedicines 接管了生物科技巨子安进 (Amgen)的 19 亿美元投资,用于开拓蛋白质疗法;承接 DeepMind 创新研究成果的 Isomorphic Labs 也在 2023 年底官宣与诺华、礼来开 展 AI 药物开拓计策互助等。
在海内,生物医药是我国生物技能行业支柱之一,市场规模占总市场规模比重的24.28%(约为3899亿元)。
药物牧场,胜普泽泰,瑞健医药,智睿医药等资深药企已纷纭加入AI制药领域。
凯赛生物、华大基因等都在布局人工智能板块。

成本、技能、运用等浩瀚力量的加入,加速AI生物技能创新以及运用落地的扩大。
AI+BT对家当界而言已经不是考虑是否布局的问题,而是如何计策战术谋划的问题。

——在政策环境上。
在AI+BT领域的政策支撑方面,天下各紧张国家都出台了一系列干系政策,个中美国是最为全面的国家之一。
比如美国能源部在2023年就发布《面向科学、能源和安全的人工智能》,专门提及人工智能赞助生物技能的发展(表四)。
路透社宣布,2024年5月15日,美国参议院跨党派人工智能事情组公布《推动美国AI创新》(Driving U.S. Innovation in Artificial Intelligence)。
报告中建议美国政府应采纳紧急财政拨款等方法,迅速达到国家安全委员会(NSCAI)所建议的资金投入标准:每年至少投入320亿美元用于非国防领域的人工智能研究与发展,并支持人工智能在前辈制造业、合成化学以及生物技能等领域的实际运用。
这将是一笔弘大的投入,目的便是确保美国技能独领环球(图六)。

图七:美国人工智能国家计策策动路径

(引用:丁佳豪,赵程程.中美人工智能国家计策策动路径比较)

表六:美国人工智能用于科学、能源和安全领域的预期结果

我国在AI+BT方面的政策,除生物经济十四五方案外,还有2022年科技部等六部委颁发《关于加快场景创新以人工智能高水平运用促进经济高质量发展的辅导见地》,特殊提出要重点环绕新药创制、基因研究、生物育种研发、新材料研发、深空深海等领域,实现重大科学问题和创造的研究打破。
2023年颁布《天生式人工智能做事管理暂行办法》,又提出要鼓励天生式人工智能技能在各行业、各领域的创新运用等。
此外,各省市也紧跟国家政策方向,因时制宜出台扶持政策(图七)。

在AI+BT领域,中美两国展示出计策布局和发展方向的不同。
中国的计策是通过国家层面的支持和投资,全面推进AI技能的发展,包括大规模资金投入、培植研究中央,以及通过法规和政策支持AI技能的商业化运用。
与此相对,美国的AI计策更侧重于私营部门的创新与互助。
积极推动AI技能在国防、民用和商业领域的运用。

中国在国家层面的统筹和资金投入上表现出更集中和有力的态势;美国则更强调利用其强大的技能创新生态系统和私营部门的动力。
这两种策略反响了对经济、技能发展和运用的不同视角。

图八:中国人工智能国家计策策动路径

(引用:丁佳豪,赵程程.中美人工智能国家计策策动路径比较)

研究指出,未来环球经济活动中60%的物质产品可通过生物技能进行生产。
AI+生物技能是实现这一未来愿景的主要路径,也将是各国必争的领域。
在AI+BT这个新兴的交叉新领域,从科学、技能抵家当都有重大意义和代价,建议在现有政策根本上,考虑三点:

——AI+BT是两项颠覆性技能交叉,建议积极加大研发投入。
在美国,美国国家人工智能安全委员会(NSCAI)建议联邦政府2023财年AI预算要达到40亿美元。
并建议到2026年,AI领域的研发投入应与生物医药研究持平。
2024年5月15日,美国众议院监督和问责委员会以压倒性票数批准了更新版的《生物安全法案》,以国家安全为由哀求美公司在2032年前终止与指定中国生物技能公司的互助。
在我国,2023年,全社会研发经费投入超过3.3万亿元(企业占比77.6%,根本研究占6.65%),估计约相称于美国的一半;全社会研发经费投入强度2.64%,与发达国家仍有差距。
研发投入的不敷终将导致整体的掉队,在这样的背景下,建议管理部门要加大对此交叉学科的研发投入力度,至少与美国投入力度相匹配,抵御即将面临的技能脱钩问题。

——利用税收优惠杠杆,撬动AI+BT家当发展。
根据斯坦福大学 AI index报告(2021)的数据,在美国,揭橥AI领域论文排名第二的是企业;中国和欧洲排名第二的是政府机构。
另据美国信息技能和创新基金会(ITIF)发布的《美国人工智能政策事情情形报告》(US AI Policy Report Card),中美欧在AI研发发起机构方面存在着差异,如图八所示。
美国紧张有企业主导,我国68%由政府主导。
AI+BT是当前的蓝海,从这个角度剖析,我国落实企业是创新的主体还有很大的空间可以挖掘,建议推出更多政策支持更多企业投入到该领域;其次通过税收优惠的勉励杠杆,支持更多的企业投入到AI与BT领悟的研发投入,扶持家当的发展。

图九:中美欧AI研发发起机构占比分布

——加强人才培养和吸引天下英才。
高档教诲机构越来越重视人工智能项目,西席、家长和学生也逐渐意识到学习人工智能的主要性。
大学生对学习人工智能干系课程表现出浓厚的兴趣。
生物技能领域也呈现出类似趋势。
因此,建议中小学教诲系统充分认识到AI+BT人才的主要性,并做出积极相应。

根据美国数据,美国顶尖人工智能博士项目中,66%的毕业生是外国人;超过50%的打算机科学家也来自国外。
吸引环球人才是美国近百年来取获胜利的关键成分之一。
因此,建议我国采纳更加灵巧的移民政策,更开放的态度,吸引外国AI、BT以及其他技能领域的人才来华事情,不拘一格降人才,为我国科技奇迹做事。

21世纪被视为“生命科学的世纪”,AI 和BT的领悟则是人类历史上最主要的迁移转变点之一。
这是不容错失落的历史机遇,要实现这个目标,须要“政产学研资用”各方力量共同参与,共同推动更好发展,为我国赢得生物世纪的光明未来。