未来十年,是AI算力的「超摩尔时期」。

要说2020年,AI领域最火的是什么?

毫无疑问是GPT-3,它能写小说、能与人谈天、还能下象棋...... 曾被冠以最「全能」措辞模型的称号。

而火极一时GPT-3仅演习本钱就在460万美元以上,微软还为其建了一个5亿美元的超算中央,装载了1万张英伟达GPU。

中国要做GPT3昇腾黑科技曝光24倍机能提升释放算力狂魔

演习GPT-3花费了它355个GPU年的算力,实属「富人的游戏」!

1750亿参数,GPT-3能取得惊人的造诣,靠的不仅是算法的提升,还有「算力的加成」。

在「秀算力」这件事上,近几年一个叫MLPerf的AI性能基准测试,常常跃入人们的视线。

就在6月30日,国际威信AI基准测试MLPerf公布最新一期榜单。

国外,英伟达、谷歌等「算力」大厂的表现,可谓是赚足了眼球。

在海内,鹏城实验室和北京大学联合团队基于华为昇腾AI根本软硬件平台,在MLPerf基准测试中同样取得精良的表现。

测试结果显示,昇腾根本软硬件平台集群性能同比提升2.4倍!

千P「云脑」再进化:给AI硬件插上翅膀

AI打算基准评测组织MLPerf成立于2018年5月,由图灵奖得主大卫·帕特森(David Patterson)发起,学术界和工业界联合制订和推广。

它席卷了AI行业中的70多个有名企业和机构,会员包括华为、谷歌、英特尔、英伟达、微软、脸书等,目的是供应AI软硬件系统的通用Benchmark评测基准。

MLPerf是当今威信性最大、影响力最广的国际AI性能基准测试,相称于AI技能领域的「晴雨表」。

MLPerf Training测试中,鹏城实验室基于华为昇腾AI根本软硬件平台鹏城云脑II,实现了同比性能大幅增长。

该平台是唯一拥有自主知识产权的全栈系统,成绩稳居天下第一阵营。

从MLPerf1.0的评测结果可以看出,在昇腾硬件基本不变的情形下,通过软件和系统级优化,

「Resnet50单卡演习的性能」,在一年的韶光内提高了82%。

再看,「Resnet50集群演习的性能」在一年的韶光内提高了240%,韶光开销仅为0.65min。

先说硬件实力。

硬件便是我们熟知的鹏城实验室与华为共建鹏城云脑Ⅱ。

采取搭载鲲鹏、昇腾处理器的Atlas 900集群,算力为1000P(每秒百亿亿次打算)。

硬件设备「杠杠的」,那么如何在硬件不变情形下,也能实现2.4倍性能的提升。

答案是,鹏城实验室这次集群性能的性能飞升,并不是紧张靠硬件的加持,而是软件!

软件提升让算力爆发,这便是所谓的「根深叶茂」。

那么,这次软件和系统级上的优化在哪?

鹏城实验室田永鸿教授先容道,「鹏城实验室利用华为人工智能全栈的办理方案,在今年的MLPerf评测中之以是能够取得如此精良的成绩,个中关键成分便是CANN。

2.4倍性能提升!
CANN开释「算力狂魔」

什么是CANN?

为理解决算力本钱高、模型开拓效率低的问题,CANN (Compute Architecture for Neural Networks) 是华为针对AI场景推出的异构打算架构。

它通过供应多层次的编程接口,支持用户快速构建基于昇腾平台的AI运用和业务,极大的开释了昇腾处理器的性能潜力。

昇腾AI全栈图

早在2018年,华为就发布了异构打算架构CANN 1.0。

当前,CANN 3.0是最新版本,目前已经统一了编程架构,做到了端边云全场景协同。

CANN 3.0现在的架构功能十分完善,对外供应适配不同硬件、不同 OS 的驱动,支持NPU+CPU异构通信。

对内可实现Stream、内存等底层管理,丰富的加速库支持算子/标量/向量等通用打算,能高效完成图像和视频数据的预处理,实行引擎为深度神经网络打算供应了实行上的保障。

CANN为用户供应可以快速构建AI运用和业务的多层次编程接口有:

1、统一的编程措辞:供应一套标准的ACL编程接口,为开拓者屏蔽底层处理器的差异,提升用户APP编程易用性;

2、统一的网络构图接口:供应标准的昇腾打算AIR,支持多框架,让用户可以快速支配神经网络业务;

3、高性能打算引擎以及算子库:通过高性能编译引擎、实行引擎、调优引擎和预置高性能算子库,支撑用户快速支配神经网络业务、降落支配本钱并最大程度发挥昇腾打算能力;

4、根本做事:驱动、虚拟化、媒体、凑集通信等能力。

在这次MLPerf评测中,对付鹏城实验室精良性能的表现,鹏城实验室MLPerf评测卖力人徐鹏翔老师,为我们首次曝光了本次评测所利用CANN的三个黑科技:

1、算子领悟性能优化

2、多流水快速启动提升有效算力

3、集群系统性能优化方案

接下来,带你一睹为快。

三个AI黑科技

黑科技一:算子领悟性能优化

如何理解算子领悟性能优化?

普通来讲就好比做菜,数据好比食材,算子好比制作工序。

普通厨师须要6道工序才能做出佳肴,而精良厨师将这6道工序「浓缩」成3道,能够有效提升制作效率。

那么,如何进行工序有效领悟将磨练厨师的技艺。

CANN的算子领悟优化技能便是厨师的这项「分外技艺」。

在不影响结果精度的条件下,有效减少中间数据的搬出、搬入的韶光开销,降落数据拷贝成为打破任务瓶颈的关键。

最新CANN 3.0,1000+算子库让神经网络「瞬时」加速。

根据图的特点和打算资源的分配情形,CANN可以自动进行图的拆分和领悟,只管即便减少和HostCPU的交互,交互少了,打算资源就能持续保持高强度运转。

此外,算子领悟能够增强数据打算和搬运的灵巧度,降落系统调度和任务头尾的额外开销。

黑科技二:多流水快速启动提升有效算力

打算启动时,过长的数据载入操作会延长后续打算流水的启动速率。

就好比手机充电电量达到20%才能开机一样让人无法接管。

而CANN架构中,算子编译器自动多流水快速启动方案很好地办理了这个问题。

所谓的快速启动,便是把数据分成多个片段,当一段数据载入完毕之后,打算就会开始。

与此同时,后续的数据也还在马一直蹄地载入。

每当一段数据载入完成且流水空闲时,都会再次启动打算。

由此,昇腾芯片多流水并行能力就可以得到充分的发挥,从而实现流水之间的无缝衔接。

黑科技三:集群系统性能优化方案

横扫人类棋手的「围棋大师」AlphaGo可以利用AI从巨大空间中找到最佳落子点。

同样是利用AI搜索算法,集群系统也可以在无数可能性中找到流水的最佳并行方案。

这样就可以在深度学习的大规模集群演习任务中,实现参数同步流水与打算流水最佳并行。

从而最大化地消减演习拖尾韶光开销,提升集群演习的线性度。

这三个黑科技可以从算子层面到系统整体层面实现端到端优化,为Atlas 900演习集群供应有效算力的持续爆发。

三个黑科技,让CANN打开了算力魔盒,为AI硬件插上了翅膀。

华为轮值董事长胡厚崑在2021天下人工智能大会开幕式曾表示,「只有根本打得牢,根技能扎得深,运用创新跑得快,才有人工智能家当的参天算夜树和生态的持续繁荣。

鹏城实验室能够在最新MLPerf基准测试中实现2.4倍性能提升,正是由于异构打算架构CANN这3个黑科技扎下了深根。

只有根本打得牢,根技能扎得深,才有人工智能的繁荣发展。

总之,技能要扎到根,根深才能叶茂。

—完—

欢迎点赞~ 关注 新智元 及时理解人工智能新动态~