以大模型为代表的AI技能,正在重构云打算,不仅局限在算力层。
大模型须要巨大的打算资源来进行演习和推理,算力需求指数级增长增加,但云打算是一个工程和生态体系,做智算云不能只做算力,与之干系联的软硬件技能栈都须要做一次升级,商业和家当逻辑也处于动态变革中。
中国工程院院士郑纬民针对海内云打算与算力家当提出四点建议,一是面向国产算力,建立完善的软硬协同生态;二是面向算力互联,形成算力联网统一调度;三是面向算力互通,构建统一的编程框架和编译软件;四是加强云打算领域软硬件的自主创新能力。
对付天翼云来说,其“国云”定位也有多主要求。中国电信董事长柯瑞文表示,国云的发展已经走出了一条符合自身特点的道路。从中国电信的实践来看,既要把握趋势也要结合实际,趋势指云打算和人工智能的发展方向,结合实际则是指中国电信的主责主业、资源禀赋、军队构造和义务任务。
在数字中国峰会期间,中国电信天翼云宣告,2024年年底智算规模将达到21EFLOPS,上海的万卡集群已经建成投产,北京的万卡集群也将在6月份上线。同时天翼云发布了智算云体系,涵盖算力、平台、数据、模型、运用等方面,并且强调自主创新的主要性。
值得一提的是,本次大会上国资监管云中心节点暨国资央企智算云调度管理平台正式上线。以中国电信京津冀智能算力中央为根本,辐射全国,支持国资监管各种运用系统全面上云和智能化升级,由天翼云作为紧张支持厂商。
算力是紧张问题,但不是全部
“每一家AI独角兽的背后都能看到头部云厂商的身影。Ai是由算力、平台、数据、模型、安全、运用,还有终端等要素组成的繁芜家当链,所谓云智一体,云绝对不仅仅是底座,而是发挥发展赋能加速的全链条带动浸染。“中国电信集团有限公司总经理助理,天翼云科技有限公司董事长、总经理胡志强表示。
拆解来看,承载是指云可以供应丰富的算力资源;赋能是指为AI从业职员供应工具、数据、模型、环境等平台化的能力;加速是助力AI的商业化落地。目前来看,头部云做事商更有能力拉通家当链各个环节,推动大模型家当链的商业闭环。
当前智算云体系仍有不少问题待办理,首先是算力的高质量供给,也是家当当前面临的最大问题。一方面,业内是已经涌现了多个万亿级参数的根本模型,10万亿参数模型也即将涌现,面对指数级的算力需求,须要单集群超大规模的算力供给。
另一方面,大模型训推一体,哀求高端和低端算力在同一个资源池支配,对异构算力管理和资源调度能力提出了很高的哀求。
其次是基于云平台能力实现跨层协同和优化。Ai大模型技能栈非常繁芜,万亿参数以上的模型演习必须要从云侧的根本举动步伐、资源调度以及AI侧的演习框架、推理框架、模型算法、向量数据库等多个维度进行跨层级协同与优化,并形成平台化的做事能力。
第三是办理兼容性问题,推进国产算力规模运用。目前国内外AI芯片设计的差异性,以及软件栈的不同,跨生态迁移难度较大,必须要加速开拓端到真个工具链,并通过算子优化、并行加速等技能来办理算效问题,实现国产算力从可用到好用。
安全体系和管理体系也须要与时俱进,在演习推理和传输过程中,海量数据的安全和隐私保护问题面临更为严厉的寻衅,同时大模型的繁芜构造和黑箱机制也带来了内容安全领域的新寻衅。
此外,AI运用创新的重心正在向端侧转移,但无论是PC、手机还是XR设备,在算力、功耗、交互等各个方面,都还没有办法完备实现和云侧媲美,因此云端一体已经成为了AI终端厂商的优选办理方案。
末了是家当生态的深度协同,大模型层出不穷,但是站在家当发展的角度,在技能共研、数据共享,业务场景等方面共创,才能推动全体家当链的康健发展。
“国云”如何做智算云?
柯瑞文表示,天翼云作为国云的框架从基本成型到全面成型,“息壤”“云骁”“慧聚”三大平台的建成标志着天翼云作为国家云已经超越向智能云发展的拐点,进入了新的发展阶段。国云的发展已经走出了一条符合自身特点的道路。
天翼云做智算云的自身特点可以概括为两点,云网领悟和自主创新,其智算云体系由算力根本举动步伐、智算平台能力、星辰大模型能力、数据要素能力等组成。
一是在智算平台能力方面,通过“息壤”“云骁”“慧聚”平台升级,不断提升算力调度能力、集群加速能力和多模型做事能力,供应自主可控智算做事,知足大模型演习及推理需求。
一体化打算加速平台“云骁”,具备超大规模集群管理、运营和算力加速能力,可供应通智超一体化做事,集“异构打算+高速存储+无损网络+算力加速+高效运营”于一体;一站式智算做事平台“慧聚”,是为大模型演习、推理、运用供应全栈工具链的智算做事平台,构建了模型演习、模型推理、运营运维、生态平台、智算容器、AI框架六大功能模块;算力分发网络平台“息壤”,天翼云占领了算力插件、算力网关、算数协同等一系列关键技能,支持第三方算力与天翼云自有算力并网。
二是在星辰大模型能力方面,基于“通用大模型、行业大模型、垂直运用大模型”技能迭代,持续完善大模型能力,提升措辞、视觉和多模态大模型的认知水平和推理性能。
三是在数据要素能力方面,通过“星海”“灵泽”“银河”平台升级,不断提升企业内部数据、政府公共数据、跨境数据等数据要素的管理、流利和运用创新能力,全面确保安全可靠。
四是生态互助,中国电信在研发开源、运用处景、数据要素、发卖渠道等,与互助伙伴实现资源共享。
据理解,中国电信下一步将在自研AI框架、算子加速库,推进大规模GPU集群算子与国产芯片加速框架适配方面做更多技能事情,同时今年将在云、大数据、人工智能三大领域以及新型工业化与聪慧城市两大重点运用领域,新开放超300个场景,与家当伙伴打造繁荣生态。
(本文首发于钛媒体APP,作者 | 张帅,编辑 | 盖虹达)