明星芯片企业Cerebras带着它餐盘大小的芯片来了,这次有16个!

更大、更快、更好用

周一,Cerebras公布了其用于深度学习的Andromeda AI超级打算机。
据称,该打算机在16位半精度下能供应超过1 ExaFLOP,相称于每秒100亿亿次运算的算力!

Andromeda是一个由16台Cerebras CS-2打算机连接起来的集群,拥有1350万个AI核心,远远超过环球超算TOP500冠军Frontier的870万个核心。

该打算机还采取了18,176个AMD Epyc中心处理单元的芯片。

1000000万亿次/秒运算Cerebras超级计算机造世界最大年夜核心AI集群

Andromeda由Cerebras晶圆级引擎Wafer Scale Engine(WSE-2)供应核心算力。

处理器是由被称为晶圆的硅盘制成的。
在芯片制造过程中,一块晶圆被分割成几十个长方形,然后每个长方形被变成一个单独的处理器。

但是,Cerebras另辟路子,没有将晶圆分割成几十个小处理器,而是将其变成一个拥有数万亿晶体管的大处理器。

WSE-2是有史以来最大的芯片,包含2.6万亿个晶体管,组成85万个内核,面积超过46225平方毫米。
Andromeda超级打算的芯片拼起来,有16个餐盘那么大!

比较之下,英伟达最大的GPU只有540亿个晶体管,面积为815平方毫米。

用大芯片赚足眼球后,Cerebras打起了Andromeda的三大招牌。

首先,Andromeda运行AI任务的设置非常大略。
在严格的数据并行模式下,Andromeda实现了CS-2大略单纯的模型分配,以及从1到16个CS-2的单键扩展。

Cerebras表示,用户只需3天韶光,就可以在不对代码做任何改动的条件下,组装完成16个CS-2,进行AI任务处理。

其次,它的编程很大略。
Cerebras的编译器处理了所有的细节和蔼后事情,用户只需输入一行代码,指定在多少个CS-2上运行,然后就大功告成了。

Andromeda可由多个用户同时利用,这意味着该超算不仅可以供一个用户从事一项事情,还可以同时做事于16个不同的用户从事16项不同的事情,事情效率和灵巧度瞬间拉满。

更主要的是,这个别系展示了近乎完美的线性可伸缩性。

「近乎完美」的可伸缩性

近几年,神经网络的规模一贯在稳步增长。
在过去的一年里,OpenAI的GPT-3自然措辞处理程序,一度以1750亿参数成为天下上最大的神经网络,后来很快被谷歌的1.6万亿参数模型Switch Transformer超过。

如此弘大的模型会碰着算力瓶颈问题,系统需求已经远远超出了单个打算机系统的处理能力。
单个GPU的内存约为16GB,而GPT-3等模型所需的内存每每高达几百TB。

像过去一样,纯挚进行大略粗暴的算力扩展,已经难以知足需求。

因此,系统集群变得至关主要。
而如何实现集群,是一个最关键的问题。
要让每台机器都保持劳碌,否则系统的利用率就会低落。

Cerebras 正是为理解决这个问题。

与任何已知的基于GPU的集群不同,Andromeda在GPT级大型措辞模型中展现了「近乎完美」的可伸缩性。
在GPT-3、GPT-J和GPT-NeoX中,Andromeda的处理能力随CS-2数量的增加呈现了近乎完美的线性增长。

这意味着,在集群中每增加一台CS-2打算机,整体的演习韶光会以近乎线性的趋势减少。

做到这一点,离不开芯片与存储、分解和集群技能的协同事情。

Weight Memory & MemoryX:实现极速扩展

MemoryX是一种内存扩展技能,它使模型参数能够存储在芯片外,并有效地流式传输到 CS-2,实现同在芯片上那样的性能。

这一架构灵巧性极强,支持4TB到2.4PB的存储配置,2000亿到120万亿的参数大小。

而通过软件实行模式Weight Memory,可以将打算和参数存储分解,使规模和速率得以独立且灵巧地扩展,同时办理了小型处理器集群存在的延迟和内存带宽问题。

终极,WSE 2可以供应高达 2.4 PB 的高性能内存,CS-2 可以支持具有多达 120 万亿个参数的模型。

Cerebras SwarmX:供应更大、更高效的集群

这是一种人工智能优化的高性能通信构造,可将 Cerebras的芯片内构造扩展到芯片外,从而扩展AI集群,而且使其性能实现线性扩展。

终极,SwarmX 可以将CS-2 系统从2个扩展到192 个,鉴于每个 CS-2 供应85万个 AI 优化内核,Cerebras 便可连接 1.63 亿个 AI 优化内核集群。

同时,Cerebras WSE-2基于细粒度数据流架构,其 85万个 AI 优化打算内核可以单独忽略零。

Cerebras 架构独占的数据流调度和巨大的内存带宽,使这种类型的细粒度处理能够加速所有形式的稀疏性。
这些都是其他硬件加速器,包括GPU,根本无法做到的事情。

Cerebras表示,可以演习超过90%的稀疏性模型,达到最前辈的精度。

目前,包括美国阿贡国家实验室、AMD和剑桥大学等多名用户已经利用了Andromeda超算系统,都对其近乎完美的线性可紧缩性能力赞不绝口。

个中,与阿贡国家实验室互助的基于HPC的COVID-19研究还入选有「超算领域的诺贝尔奖」之称的戈登·贝尔奖。

拥有天下最大的芯片和协同技能,Cerebras能否寻衅目前超算Top 1的Frontier?我们拭目以待。

参考资料:

https://arstechnica.com/information-technology/2022/11/hungry-for-ai-new-supercomputer-contains-16-dinner-plate-size-chips/

https://www.forbes.com/sites/karlfreund/2022/11/14/cerebras-builds-its-own-ai-supercomputer-andromeda/?sh=2794ece11057