靠GPU赚得盆满钵满的英伟达,正在遭受反扑。

从谷歌的TPU、苹果的M1和M2、微软Maia 100和Cobalt 100、Meta的MTIA、亚马逊的Trainium和Inferentia、特斯拉的Dojo,到英特尔的FPGA系列、AMD的MI300系列……巨子们一次次冲击着英伟达的帝国围墙。

近期,苹果在一篇技能论文中表示,支撑其人工智能系统AppleIntelligence的两个人工智能模型,是在谷歌设计的云端芯片上进行预演习的。

谷歌设计的芯片是TPU(Tensor Processing Unit,张量处理单元),这是谷歌专门为加速机器学习运用中的矩阵运算而设计的一种定制化DSA(Domain Specific Architecture,领域特定架构)芯片。
自2015年推出以来,谷歌的TPU已经发展到第六代,成为了对标英伟达AI芯片的强力替代方案之一。

回国6年干出一个AI芯片准独角兽专访中昊芯英首创人杨龚轶凡

在中国,在AI竞速的大时期里,芯片自研的急迫感更重。
国产GPU、AI芯片从业者和科技厂商们无不在找寻打破口。

中昊芯英(杭州)科技有限公司(下称“中昊芯英”)是个中一员。
创始人杨龚轶凡曾在谷歌TPU核心研发团队参与过TPU v2/3/4的设计与研发事情。

2017年,杨龚轶凡见证团队研发的TPU芯片演习出了Transformer框架。
TPU和Transformer为自然措辞处理(NLP)领域带来了革命性的变革,也开启了当代大规模预演习模型的时期。

杨龚轶凡从中看到AI的未来,也看到了作为AI根本举动步伐AI芯片的代价:“以前的打算是一块芯片上跑一个运用或多个运用,现在是一个运用跑在一千块乃至上万块芯片上,这是人类打算历史上的大变革。
该变革给了所有技能迭代的空间及机遇。

2018年,杨龚轶凡归国组建中昊芯英的核心创始团队,并于2020年落地杭州,产品线紧张环绕人工智能芯片,特殊是TPU芯片展开。
历经了近五年的研发,2023年下半年,基于全自研GPTPU架构的高性能TPU人工智能芯片霎时®实现量产。
2024年被杭州市创业投资协会认定为杭州市准独角兽企业。

中昊芯英也是初创芯片公司中,少数已实现盈利的。
2023年,中昊芯英的整体发卖额达4.85亿元,归母净利润为8132.64万元。
据理解,中昊芯英目前的客户以政府、运营商、企业为主,多为互助共建智算中央。
近日,中昊芯英又宣告与上市公司艾布鲁旗下子公司星罗智算科技(杭州)有限公司达成了计策互助。
目前,中昊芯英已经完成了Pre-B、Pre-B+轮融资。

但是,在GPU处于绝对垄断地位确当下,GPU的通用性和天生式AI上的强大性能已经由广泛验证。
比拟之下,TPU紧张针对机器学习和深度学习任务,对付如图形渲染、物理仿照等打算任务并不善于。

TPU能否成为GPU的替代方案?如何构建和优化环绕TPU的软件生态系统?TPU有可能成为国产AI芯片的新机遇吗?带着疑问,时期周报走进中昊芯英,与创始人及CEO杨龚轶凡进行了面对面访谈。

TPU,AI芯片新解法?

时期周报:GPU和TPU各具上风,中昊芯英为何会选择专注在TPU赛道上跑?

杨龚轶凡:GPU 具有大量构造较为大略的并行处理单元,适宜处理高度并行的任务,如图形渲染和科学打算,因此被广泛运用于打算机图形学、游戏开拓、视频编码/解码、深度学习演习和推理。

TPU特殊适宜于处理矩阵乘法等常见于神经网络的操作,紧张用于机器学习和深度学习模型的演习和推理,特殊是利用 TensorFlow 框架的任务。

起先,非深度学习模型如GBM(Gradient Boosting Machine)和Random Forest等,在GPU上展现出的性能更好,这是由于TPU的通用打算能力有限,它的设计更针对深度学习任务,以是从前的表现不是很突出。
然而,近年来,无论是AI小模型还是AI大模型,险些无一例外地转向了深度学习,尤其是那些以Attention机制和矩阵乘法(MatMul)作为核心运算的模型,这正好是TPU所善于的领域。

随着技能的发展,TPU在相同制造工艺、能耗和芯片尺寸下,比较GPU能供应3到5倍的性能提升。
这意味着,在相同的条件下,TPU架构能够以更高的效率完成模型演习,从而显著提升性价比。
在AI领域,尤其是深度学习模型的演习和支配,性价比是决定模型能否广泛落地的关键成分。

因此,从长远来看,TPU比GPU在AI赛道上更具竞争力。
虽然未来的AI模型大概不完备遵照现有的Transformer解码器架构,乃至可能涌现新的根本运算会取代MatMul,但深度学习无疑仍是AI领域的主导力量。
深度学习的某个分支将承载着未来100%的AI运用,这一点是毋庸置疑的。

生态难题能解?

时期周报:如今,主流的AI框架都供应了GPU加速的支持,但是TPU之前是谷歌专门为TensorFlow和自身的云平台设计的,其硬件和软件的可用性可能不如广泛支持各种深度学习框架和平台的GPU,中昊芯英打算如何办理这一问题?

杨龚轶凡:TPU的观点在国外正在得到关注与遍及,并未局限于谷歌的围墙内。
许多初创企业虽未直接冠以TPU之名,但其设计理念与TPU颇为相似。
例如,专注于开拓高性能AI芯片的初创公司Groq所开拓的LPU(Language Processing Uni),从其技能白皮书中可以看出,其芯片架构与TPU异曲同工。
环球范围内,TPU及其类似技能的公司如雨后春笋般呈现,不断推动着技能的边界。

其余,软件栈也不是一成不变的。
曾经,CUDA与盛行的开源机器学习库PyTorch紧密相连,为GPU供应高性能打算能力。
然而,随着TPU等非GPU架构的兴起,软件栈开始适应多平台需求,PyTorch 2.0及后续版本已将TPU作为标准分类纳入支持范围,这意味着开拓者在利用PyTorch时,可以无缝切换至TPU。

随着软件栈的不断更新与优化,以及硬件领域的持续改造,我认为全体行业对TPU的收受接管程度将日益提高。

时期周报:英伟达构建了一套全栈式办理方案,结合硬件、软件和做事,形成闭环的生态系统,覆盖从边缘设备到数据中央的各种运用处景。
未来中昊芯英是否将构建自己的全栈式的TPU产品和技能?

杨龚轶凡:在AI赛道,芯片企业一定是向着全栈办理方案迈进的,而且是软硬件一体协同。

当前,业界普遍支持PyTorch框架,因其低迁移本钱吸引了大量用户。
然而,随着用户基数的扩大和行业办理方案的深化,软硬件一体化公司的上风开始凸显,能够供应从根本模型做事、开源模型、到模型预演习的全面支持。

未来,软硬件一旦达到高度协同,芯片的性价比将有望实现2到3倍的飞跃。

时期周报:此前业内认为,撤除产品本身,生态才是英伟达最大的护城河。
英伟达又利用CUDA平台建立了弘大的开拓者生态系统,这是难以“突围”英伟达的缘故原由。
您认为该如何破局?

杨龚轶凡:我从其余一个角度去回答这个问题。
作甚软件生态?目前软件栈AI的框架最盛行的是PyTorch,CUDA是在PyTorch下面一层。
如果利用GPU, PyTorch就必须链接到CUDA接口上,选择GPU,必须支持CUDA。

随着韶光的迁移,在PyTorch2.0往后,TPU已经是个标准的分类了,在 PyTorch里面也已经有了很好的支持了,而且TPU相对大略,不必像GPU那样承担繁重的CUDA兼容性包袱,反而可以采纳更为简洁和高效的软件栈。

据估算,TPU的软件生态构建事情量仅为CUDA的三十分之一,这不仅降落了人工本钱,还使得其办理方案在支持度和通用性上更具上风。

现在大家都支持PyTorch,由于PyTorch平台用户的迁移本钱较低。
但当用户获取量越来越多,开始深入行业办理方案的时候,这就会变成是我们的强项了,核心在于我们是真正的做软硬件一体化的公司,我们能够供应行业大模型的根本模型做事、根本模型的开源、根本模型预演习,当我们把模型的全体软件栈框架搭好后,那么行业客户就可以基于自身行业数据,在我们的这个框架上调用接口,就可以完成模型的二次演习。
这样就可以把模型运用在详细场景里面去替代生产力了。

商业路径几何?

时期周报:我们理解到中昊芯英在金融、医疗、教诲等领域布局了预演习大模型,作为一家芯片公司,为何入局大模型?

杨龚轶凡:我们希望实现软硬件的一体化协同,通过演习根本模型,并将其开源,同时配套完善相应的软件框架,如此一来,我们为客户供应了完全的办理方案。
这一过程被比喻为“钥匙工程”:客户准备和整合自身数据,通过我们交付的接口即可启动模型演习。

这些开源模型不仅仅是技能上的打破,更是芯片公司的核心资产。
类似于CUDA这样的软件生态系统,是芯片公司技能护城河的主要组成部分。
CUDA为英伟达的GPU构建了一个强大的软件开拓平台,使得开拓者能够轻松利用GPU的打算能力进行AI运用开拓。
但如今,CUDA在AI软件生态中的统治地位正在受到寻衅,PyTorch框架与微软的互助,正致力于在其内部开拓替代CUDA的底层架构,这意味着CUDA在AI领域的影响力正在逐渐减弱。

因此,芯片公司通过造就开源模型,构建自己的软件生态系统,能够吸引开拓者环绕这些模型进行运用开拓和优化,进一步巩固和扩大自己的市场地位。

时期周报:当下很多芯片公司还处于亏损,为什么中昊芯英能够在相对短韶光实现盈利,模式是若何的?

杨龚轶凡:首先是由于我们创始团队对付做AI芯片有一种崇奉,这也是我们创业的核心的原动力。

当时我们创业可以选择在硅谷,也可以选择在中国。
我们那时在硅谷隐约感想熏染到了中美未来科技博弈的不可避免,在海内研发国产化自主可控的AI芯片,不仅能带动经济效益,还能带动社会效益。

彼时,AI企业只能运行较小规模的模型。
摆在芯片厂商面前的选择,一是做用于推理场景的“小芯片”,如果做“大芯片”,则多数厂商会选择做GPU,由于GPU的通用性很强,更受推广。

而由于我们一贯集中在AI芯片TPU的赛道,如今AI赛道的爆发,对TPU而言便是核心市场的爆发。
我们会将所有的上风资源、研发能力和精力集中在这一块,推动全体大模型的落地和行业发展。

2023年下半年我们的产品落地,当年整体发卖额达4.85亿元,归母净利润达8132.64万元。

目前,我们已与青海·海东“丝绸云谷”低碳算力家当园、中国联合网络通信有限公司深圳市分公司、新华三集团等各地政府、运营商、企业互助。
个中,2023年,中昊芯英与青海亿众数字能源科技有限公司联合签约,在青海·海东“丝绸云谷”家当园中推动设立“唐古拉”AI算力实验室,为项目搭建AI打算底座,该项目总投资约230亿元,分两期培植,是海内首个完备定位于“大算力+大模型”形态的大型人工智能打算中央。