从2009年阿里云写下飞天第一行代码,迄今已过去十五年,经历了互联网企业腾飞和传统企业深入数字化转型的两次云打算浪潮之后,眼下我们已经进入第三次浪潮:云与AI领悟的新阶段。犹如潮涌,AI的涌现并不是颠覆前两次的家当逻辑,而是前期在云上的技能积累会在AI根本举动步伐阶段加速开释平台代价。
下一个十五年,不难预期:云将是AI的后盾与燃料库。
这一点在网络的发展进程中也有迹可循。2000年前后,海内互联网刚兴起不久,是由运营商供应网络根本举动步伐,人们的需求只是发发邮件、买买东西;当云打算与大数据到来,网络进入SDN时期,支撑网络游戏、直播、算法推举的兴起;现在我们正经历AI智算时期,智能驾驶、LLM演习推理等,对网络的哀求与过去更是截然不同。
如何能够匹配AI时期下超大规模算力需求,让性能极致发挥?阿里云已经有了答案。
为匹配AI时期的网络哀求,阿里云去年研发出大规模集群架构HPN7.0,支持万卡集群式打算。据今年云栖大会最新公布,HPN7.0让模型端到端演习性能提升10%以上,目前它实施前后端网络分离技能,前端400G网络带宽供应高速存储访问和节点通信;后端3.2T GPU互联网络,可知足大规模AI打算需求。
实际上,阿里云早在2021年就在研究第一代万卡集群HPN6.0,当时紧张知足自动驾驶客户对视觉模型演习的需求,彼时大模型还没有如此遍及。此外,阿里云2022年10月在业内最早提出MaaS模型即做事理念,并引领了理念潮流。这些均表明,阿里云在AI底层和中间层AI infrastructure(简称“AI Infra”)方面一贯保持着前瞻性思考与布局。
在云与AI密不可分的时期,超前布局让阿里云快速赢得了大量新的企业客户,像智能驾驶、具身智能机器人等与云厂商有共创能力的创新者。AI Infra竞争也将掀起新一轮行业变革。
加法与减法的对碰
智能的迁跃在新能源汽车上表现尤为明显,其对智能根本举动步伐的需求也更强烈。
在9月19日杭州云栖大会上,驾驶号称“环球首款AI汽车”P7+参会的小鹏汽车董事长何小鹏预测,端到端大模型对自动驾驶领域的代价在于,未来可以让每一个人在每一个城市都像老司机那样开车。
小鹏汽车董事长何小鹏
在常规理念中,代码富集意味着功能强大,但通过端到端(End-to-End)的神经网络代码建立了感知—决策—实行一体化,把这三步骤凑集在同一个大模型中去做,彻底改变了过去的串联式架构。实际效果是:端到端“绕开”了舆图数据,可根据摄像头、传感器实时采集的图像数据,直接天生车辆的加速、转向、刹车旗子暗记,让汽车反应更顺滑。
在此背景下,代码将进一步缩减。以特斯拉FSD v12.5.1版本为例,原来30多万行的C++代码砍到只剩下3000行。但与此同时,马斯克从英伟达手里又团购了35万张显卡,以支持更快的数据处理。算力做加法,这也是让前端能逐渐变得更加简洁的根本条件。
过去两年,小鹏汽车也一贯在加码算力,其与阿里云共建的智算中央的算力储备扩展超4倍至2.51Eflops,以前须要一周完成的自动驾驶大模型演习,如今通过智算中央可以缩短到用一小时完成。为加速端到端大模型、提升自动驾驶的上限,何小鹏表示将连续深化与阿里云的AI算力互助,估量每年投入35亿元用于研发,个中7亿元划拨给算力演习,并加速端到端大模型的落地。
小鹏汽车从2015年在阿里云开户,2019年车联网研发上云,到2022年与阿里云在乌兰察布建成自动驾驶智算中央,再到自主研发的“全域大措辞模型”X-GPT与阿里云通义千问的领悟,全面智能化升级车载助理;此外,小鹏汽车还积极拥抱阿里云通义万相,并在研发领域引入通义灵码,实当代码评审效率的大幅提升……这家车企现已All in AI,在制造、车联网、自动驾驶、智能座舱、官网数字营销多个领域与阿里云资源深度绑定。
另一家车企吉利也在智驾的路上飞奔,其与阿里云已互助9年之久,通过采取稠浊云架构,线下专有云支配1000台做事器+20P存储、线上7万核公共云ECS+28P存储。在智能驾驶场景,吉利利用了飞天专有云、标杆算力平台PAI灵骏+OSS+大数据+数据库;智能座舱则通过阿里云的EGS+DeepGPU加速引擎,将吉利自研大模型推理上云,加速效果提升40%,并调用通义大模型API接口。同时它借助通义万相VL功能,支持智能座舱舱外识物,利用通义千问Plus,支持客户情绪闲聊。
图片来源:unsplash
据行业内测算,传统燃油车有大约3万个零部件、整车芯片大约有500颗;而新能源AI汽车的零件只有不到2万个,芯片量却达5500颗旁边。一加一减之间,汽车的交互办法与生产逻辑已被改变,对专有芯片、大规模算力集群和云原生数据库的依赖进一步增强。
据最新,英伟达广泛覆盖汽车领域的NVIDIA DRIVE Orin系统级芯片,已实现与阿里云通义千问多模态大模型Qwen2-VL的深度适配,并运用于斑马智行的智能座舱场景中。大模型接入汽车座舱,拓展人机交互边界,已成趋势。
“万卡时期”的全栈创新
大模型虽火,但并不算成熟。市情上的大模型险些每天都会因各种缺点造成演习中断,而演习时效对业务创新具有决定性意义,演习太慢、总是中断,创新效率就难以提升。人们每每添加更多的GPU来增强演习时效。像Meta演习Llama模型时用的是1.6万卡算力集群,大概每隔两三个小时全体演习任务就要重新开始,回到上一个Checkpoint。
从128张卡到1024张卡,从千卡到万卡,再到十万卡,“万卡堆叠”在理论上看似大略,单个GPU算力乘以GPU规模即构成整体算力。然而在实际运行中,当卡的规模急剧扩大时,很难再担保这种理论上的线性比,会产生算力“衰减”,这些都是运营难点。
这时候,网络在这个集群中发挥着重要的浸染,由于网络在“梯度同步”过程中须要韶光,且需大量数据交流,这个韶光是非直接决定了GPU在打算过程中的等待韶光,导致传统网络集群不再适用于AI打算。
对此,上面提到的阿里云HPN7.0高性能网络架构提出了一个创新性设计,它采取单层千卡、两层万卡、存算分离的架构,专门为AI打算所设计,支持十万卡集群。两层网络不仅减少了时延,还简化了网络连接的数量和拓扑,从而找到了最优解。
阿里云过往长期积累的规模上风也正支撑着新一轮技能上风——这次云栖大会上最新发布的 Qwen2.5–72B 性能超越 Llama 3.1 405B,同时模型算力本钱再次低落,通义千问三款主力模型最高降幅 85%。AI根本举动步伐一定会更强大,不仅要走得好,也要走得起,由此才能推动更多创新,在这一方向上阿里云也在加速。
在阿里云CTO周靖人看来,AI技能变革触达了打算机体系的方方面面,须要对全栈进行全方位的创新。不仅是网络,还包括做事器、存储、数据处理、模型演习和推理平台的技能架构体系,都须要环绕AI做全面升级,“阿里云正在环绕AI时期,树立一个AI根本举动步伐的新标准。”
阿里云CTO周靖人
阿里巴巴集团CEO、阿里云智能集团董事长兼CEO吴泳铭在云栖大会上分享,过去一年阿里云投资新建了大量的AI算力,但还是远远不能知足客户的兴旺需求。这更武断了阿里云未来的投资力度。
详细看,在做事器端,阿里云最新上线的磐久AI做事器支持单机16卡GPU、共享显存1.5TB,并供应基于AI算法的GPU故障预测,准确率达92%。AI时期将从CPU核心过渡到以GPU为主的打算实例,须要支持环球各地的异构芯片,面对比CPU时期更多的架构创新,磐久做事器便是专为AI深度优化,在芯片的快速适配、散热上做了优化处理。
在存储上,阿里云CPFS文件存储在经历过去一年景长已变成一项全托管做事,免去客户运维事情。它目前扩容到了每秒高达20TB的带宽,在设计上采取了存储的梯度架构,可把热度最高的数据放在延迟最低的存储上。个中CPFS与统一存储数据湖OSS之间的数据传输速率达到每秒100GB。这些设计都是为AI智算设计。
以上包括磐久AI做事器、HPN网络、CPFS存储,再加上容器做事ACS,一起构成了阿里云AI算力平台灵骏,在AI Infra层面打造出一个更适宜GPU打算和AI模型演习的根本举动步伐。阿里云与复旦大学共建的云上智算平台CFFF、与小鹏汽车在乌兰察布共建的自动驾驶智算中央,都属于灵骏的家当端运用。
目前,以AI开拓和运用落地的全栈能力可以通过PAI和阿里云百炼这两个平台对外落地。在云栖大会上,两者均有新的做事升级发布:PAI模型演习全面提升了稳定性,千卡规模集群故障分钟级自动创造,覆盖故障达98.6%;百炼2.0专属版本在云栖大会上发布,专门针对政企客户做了利用优化。
正是由于以上各类创新使得通用大模型及根本算力迎来多轮贬价,降落了企业AI开拓本钱,对付各行业AI渗透率的提升至关主要。
回顾早期云打算,因托管层级的不同被分为IaaS、PaaS、SaaS层。现在这个架构因AI向上延伸至MaaS开源,向下延伸到芯片层、异构算力。AI不仅拓展了云的边界,也勉励云再做一次物理级别的全栈升级变革。如今,真正到了考验云厂商创新能力的时候。
下一个十五年, “AI+云”的根本举动步伐之上,新的浪潮奔涌而来。
中国云打算风雨十五载,我们以云打算三次浪潮为主线,以三篇稿件系统复盘并思考家当与云打算交融的过去、当下与未来。
前文回顾:
系列之一《回看十五年,云打算的底色》
系列之二《回看十五年,传统企业上云潮》
(本文首发于钛媒体APP)