作为关注AI硬科技的头部新媒体,雷科技也应邀出席云栖大会,大会的开幕演讲由阿里集团 CEO、阿里智能云董事长兼 CEO 吴泳铭主持,而在全体主旨演讲中,最令人印象深刻的莫过于这段话:
天生式AI 改变打算架构,从 CPU 主导的打算体系到 GPU 主导的 AI 打算迁移。AI 时期将是“GPU算力为主,CPU算力为辅”的打算模式。2024年市场新增算力,超过50%的需求AI驱动产生,这一趋势将持续扩大。阿里云投资培植了大量的 AI打算根本举动步伐,依然远远无法知足客户需求。
(图源:2024云栖大会)
没错,GPU打算,便是未来。
CPU曾是数字天下的基石
在过去几十年里,从云端做事器到超级打算机,CPU一贯都充当着打算体系核心的任务。比如著名的天河一号,就采取了14336个商用途理器、7168个加速处理器和2048个自主飞腾-1000处理器,这些处理器基本是「CPU」,也便是“逻辑处理器”。
图源:维基百科
CPU紧张被设计用于处理通用打算任务,进行繁芜的逻辑运算和顺序运算。你可以将CPU看作是一个大学生,他有着足够的逻辑推算能力来处理各种繁芜的任务,但是每次只能处理一个任务,也便是所谓的「单线程」。
虽然在后续的CPU设计中,工程师通过指令集、CPU架构等办法,让CPU可以同时处理两个事情(双线程),却已然是当下的极限。而且CPU在处理任务时,仍旧须要先处理完手头的事情,再进入下一个事情流程,也便是「顺序实行」。
逻辑运算与顺序实行,构成了CPU的通用打算根本,只要你输入的程序符合CPU的运算逻辑,那么CPU所给出的打算结果都是一样的,并不会由于你利用的是AMD,他利用的是英特尔,以是你的1+1=2,他的1+1=3。
得益于强大的通用打算能力,CPU成为人类构建通用型打算中央时的首选,由于打算中央的设计初衷便是用来实行不同领域的打算任务。而做事器则是承担着为云端运用供应数据交流和打算等支持,为了使其能够适应不同类型的运用运算,通用打算能力便是关键。
图源:veer
GPU打算:从图形渲染到驱动AI
最近两年,统统都发生了翻天覆地的改变,GPU成为大多数新数据中央及超级打算机的核心,GPU算力的增长速率屡屡打破历史记录,企业猖獗采购GPU核心,搭建全新的打算矩阵,而这统统的「首恶」,便是天生式AI。
作为近年来最受关注、热度最高的前沿领域,天生式AI有一个特点,那便是对算力的胆怯需求,这个需求不仅表示在演习、优化AI大模型上,更是随着用户数量的增长飙升。天生式AI可以说是人类少有的,从涌现到遍及耗时最短的前沿科技,现如今每一个接入互联网的人,都可以通过访问通义千问等网站来利用天生式AI。
图源:通义千问
弘大的需求催生了数量浩瀚的数据中央,但是也让一部分人对此产生迷惑:为什么要选择GPU而非CPU来搭建AI数据中央?
GPU最初的设计用场是图形渲染任务,这决定了其须要更强大的并行任务处理能力。以游戏为例,当你在游戏中看到一个箱子,实际上你看到的是一个由大量三角形组成的3D模型,如果你玩过早期的3D游戏,那么你肯定会对游戏中“有棱有角”的角色有着深刻印象。
图源:推特
实际上,这个问题便是由于早期的GPU算力不敷,只能进行百位数的三角形运算,无法知足构建「光滑」模型的哀求。随着GPU的运算性能加强,当我们可以在一秒的韶光里渲染出千万级的三角形并组成3D模型,那么在游戏玩家的眼中,这个模型就有着非常真实的视觉效果,也便是「拟真级」风雅建模。
由于须要处理的任务大略(天生三角形并着色),但是任务数量却非常多(千万级),导致GPU成为一个偏科生。论对单个数据的处理能力,GPU与CPU的比拟就像是小婴儿与大学生,差异在于GPU是上千万个“小婴儿”的凑集,而CPU则是几十个大学生的凑集。
当我们须要实行一个将1000万个“三角形”从左边移动到右边的任务时,GPU和CPU谁的效率会更高?GPU的并行打算能力,也是其能够处理繁芜3D模型渲染的关键。
而在天生式AI出身后,人们创造GPU的并行打算能力,远比CPU要更适宜进行AI运算,个中的缘故原由则与AI大模型的底层构造有关。虽然在我们的眼中,AI大模型根据数据集群的不同,可以天生笔墨、图画、音乐等各种类型的结果,但是在实际运算中,所有数据实在都以一种形式存在——Token,也便是「最小语义单元」。
当你输入一段笔墨时,运用程序会将笔墨拆解为恒河沙数的Token,然后再丢到处理核心中进行打算。这个过程是否很眼熟?没错,全体逻辑与GPU渲染一个箱子实在是一样,将一个任务拆分成大量的小任务,然后根据AI模型的逻辑推理来整合结果并输出答案。
可以说,在AI时期的数据中央里,GPU便是全体AI算力矩阵的核心,其主要性要远远超过CPU,而节制着最前辈GPU的厂商,将成为半导体领域的无冕之王。
GPU为王、CPU为辅,群雄逐鹿AI打算
在目前的AI市场中,大多数人都认可一个不雅观点:英伟达便是AI算力的代名词。不管是每秒可以进行数十万亿次浮点运算的H100,还是目前最强的消费级AI显卡RTX 4090,都让英伟达成为商业领域和消费领域无可争议的NO.1。
特殊是在消费领域,英伟达已经成为个人AI打算机的唯一选择,其背后的缘故原由便是英伟达的「杀手锏」——CUDA。CUDA是由NVIDIA开拓的并行打算平台和编程模型,他的浸染是许可开拓者利用英伟达GPU的强大并行打算性能来实行通用打算任务。
图源:英伟达
看完上一章节的朋友,估计会有点蒙,为什么要用GPU来实行通用打算任务?这不是CPU的事情吗?没错,通用打算任务确实是CPU的强项,但是俗话说得好:三个臭皮匠,顶个诸葛亮。当GPU的并行算力强大到一定程度,那么只要有一个可以进行任务转换的模型,就可以将GPU算力利用在通用打算任务里。
与此同时,英伟达还为CUDA供应了丰富的工具和库,以及各种运算模型,让利用英伟达GPU的开拓者可以大幅度节省开拓韶光,并且更好地发挥GPU性能。正是利用CUDA对并行算力的支配,使得英伟达GPU可以在个人电脑里有效实行各种通用打算任务,为用户供应足以支撑本地AI大模型支配的AI算力。
那么AMD就没有类似的工具吗?实在是有的,名为ROCm,ROCm的前身Radeon Open Compute实在早在2016年就已经发布,紧张用于通用 GPU 打算(GPGPU)、高性能打算(HPC)和异构打算等领域。但是由于缺少足够的支持,以是生态规模远远无法与CUDA比较,而在天生式AI爆火之后,AMD很快就意识到了Radeon Open Compute的主要性,将其更名为ROCm并投入大量的资源进行更新。
图源:AMD
作为一个AMD显卡用户,其实在过去的两年里是可以明显感想熏染到AMD在AI领域的进步,曾经只能通过转译办法运行本地AI模型的AMD显卡,如今已经可以借助ROCm的工具,实现原生本地AI模型支配和运算,效率和算力都有着质的变革。
虽然还无法与CUDA比较,但是已经让人看到了些许的希望,更何况从价格上来说,性能附近的AMD显卡价格每每只要英伟达显卡的80%乃至70%。这也意味着AMD只要可以办理通用打算模型的问题,那么就可以为个人及小型企业供应更具性价比的选择,吃下相称一部分AI显卡市场。
不过在ROCm成熟之前,英伟达都仍旧会是消费级AI市场的最佳选择。
与消费级市场不同的是,AMD在做事器市场的增长却十分迅猛,Data Center Dunamics的数据显示,2024年第一季度,AMD的数据中央业务创下内部收入的新记录,同比增长达38%。而在第二季度,AI做事器的出货量同比增长41.5%,占整体出货量的12.2%。
虽然从整体的市场份额来看,英伟达仍旧霸占着90%以上的市场,但是AMD也并非唯一的寻衅者。
谷歌前段韶光推出的TPU(Tensor Processing Unit)芯片就专门用于加速机器学习和深度学习任务,采取Arm架构设计,在性能和能效上都有出色表现,已经被利用在谷歌的多项AI做事中。
而英特尔则是通过收购Habana Labs拿到了Gaudi AI加速器,结合新一代至强处理器的AI加速功能,紧密布局CPU AI领域。这个市场的规模同样不小,由于并非所有数据中央都以AI为核心运用,新一代CPU数据中央可以更好地兼顾通用型打算任务和AI打算任务,减少重复培植数据中央的本钱与掩护花销。
此外,英特尔也一贯在关注移动PC的AI需求,这是英伟达目前最为弱势的市场,由于英伟达GPU虽然有着出色的AI算力,代价却是极高的功耗,无法知足移动PC的长续航哀求,这就为英特尔等厂商留下了可乘之机。
在今年的IFA上,英特尔就推出了内置新一代NPU(AI加速核心)的酷睿Ultra 200v系列处理器,供应强大算力支持的同时还兼顾了长续航等哀求,与高通等新一代Arm PC处理器在AI PC市场展开激烈争夺。
短韶光来看,英伟达在AI算力市场的上风仍旧巨大,但是长远来看,群狼环伺之下的AI市场,英伟达双拳难敌四手。诸如移动PC、智能终端等英伟达的弱势市场,很快就会被其他厂商瓜分干净,而关键的做事器市场也并非无忧无虑,AMD的MI300系列AI显卡份额增长迅速,已经足够引起英伟达的警觉。
不过,竞争所带来的创新与发展,才是科技进步的关键,随着AI领域的竞争加剧,实际上也在推动AI本钱的低落,让AI技能得到更快、更广泛的运用。末了,我想用吴泳铭师长西席演讲中的一句话来作为结尾:
AI驱动的数字天下连接着具备AI能力的物理天下,将会大幅提升全体天下的生产力,对物理天下的运行效率产生革命性的影响。
一个崭新的天下,近在咫尺。