昨日,在清华大学主楼举办的第三届未来芯片论坛为AI芯片界献上一份大礼——《人工智能芯片技能白皮书(2018)》(以下简称《白皮书》)!

该白皮书集成了中国工程院院士尤政、清华大学微电子所所长魏少军等21位国内外高校顶级研究学者和家当界资深专家,融入10余位IEEE Fellow的聪慧结晶,首次整合国际化学术和家当资源携手发布,是未来芯片技能高精尖创新中央的倾力之作。

《白皮书》首次对“AI芯片”这一观点提出了得到广泛认可的定义,办理了目前行业大热但尚无统一定论的问题——究竟什么是AI芯片?

对此,《白皮书》集中磋商了通用芯片、端侧芯片和神经形态打算芯片三类AI芯片,对AI芯片从技能趋势抵家当趋势做了全面解读,不仅居高临下地对AI芯片领域的创新成果和家当现状进行通盘梳理,客不雅观阐述AI芯片存在的技能难题,还就未来风险提出预判,并首次提出了“AI 芯片基准测试和发展路线图”。

年度最有价值AI芯片白皮书21位学界大年夜牛联手出品人人都能看懂

只管此前AI芯片趋于火热,并没有从技能的内涵、脉络、标准以及发展趋势等方面进行深入专业阐述的研究报告,《白皮书》的发布补充了这一空缺。

因此,智东西对《白皮书》进行抽丝剥缕,提炼和解读了对行业最有代价的六大干货,包括三类AI芯片的运用处景、三大趋势、基准测试和发展路线图、两类瓶颈、四大存储技能和五类新兴打算技能,力求帮助产学界干系人士更为清晰的看到AI芯片目前的发展全貌以及未来趋势。

在智东西头条号对话框回答“芯片白皮书”,获取该白皮书中文版下载链接!

环绕云端和边缘打算,三类AI芯片加速进行时

只管如今科技界险些无人不知AI芯片,但目前关于AI芯片的定义还没有一个严格和公认的标准。

《白皮书》在“AI芯片的关键特色”一章中开篇引用业界对AI芯片的宽泛定义:“只要面向人工智能(AI)运用的芯片都可称之为AI芯片”。

紧接着,该文直接点明磋商的三类AI 芯片:

(1)经由软硬件优化可以高效支持 AI 运用的通用芯片,例如 GPU。

(2)二是侧重加速机器学习算法的芯片,这也是目前 AI 芯片中最多的形式。

(3)三是受生物脑启示设计的神经形态打算芯片。

在对当下谈到AI芯片就不得不谈的新型打算范式、演习和推断、大数据处理能力、数据精度、可重构能力以及软件工具进行清晰的阐述后,该文直指AI芯片紧张面向的云端和边缘两大目标领域。

1、云端AI打算:大厂云集,FPGA崛起

在云端,通用GPU如英伟达的GPU芯片被广泛运用于深度神经网络(DNN)演习和推理,比较CPU可实现10-100吞吐量,是当前AI演习领域利用最广泛的平台。

此外,许多公司开始设计专用芯片以达到更高效率,比如谷歌打造了利用专用架构ASIC芯片Google TPU,能高效支持云端演习和推理。
此外,我国百度、阿里、华为也分别宣告自研云端AI芯片。

科技巨子纷纭跨界造芯,芯片巨子和芯片创企自然也不甘其后。
英特尔推出Nervana神经网络处理器 (NNP),Graphcore、Cerebras、Wave Computing、寒武纪及比特大陆等创企也纷纭加入沙场。

由于既支持大规模并行的硬件设计,比GPU推断的延时和功耗更低,又能很好支持不同的数值精度,适宜低精度推断, 具有可编程能力的FPGA在云端推断也逐渐霸占一席之地。
赛灵思、英特尔等厂商推出了专门针对 AI 运用的FPGA硬件和软件工具。

2、边缘AI打算:自动驾驶和手机沙场火热

随着AI运用生态的爆发,人们对许多AI运用有了更高需求。
针对高度须要低延迟、带宽和隐私的运用,如自动驾驶、可穿着、移动手机等五花八门的终端运用处景,芯片厂商和终端厂商都开始发力。

在自动驾驶领域,英特尔MobileEye芯片和英伟达NVIDIA Drive P系列可以支持半自动驾驶和完备自动驾驶。
在智好手机方面,已有苹果、华为、高通、联发科和三星等大厂推脱手机AI芯片。

其余,地平线、寒武纪等创企纷纭入局终端AI芯片,包括ARM、Synopsys等传统的IP厂商也开始为智能摄像头、无人机、工业和做事机器人等物联网设备开拓专用IP产品。

3、云和真个合营

目前云和边缘设备在AI运用每每是合营事情,常日是在云端演习神经网络,然后在云端或边缘设备上进行推断。
边缘设备能力在增强,云的便捷也在向数据源头靠拢,未来数据本地化处理是大势索取,云和边缘设备以及连接他们的网络可能会构成一个巨大的 AI 处理网络。

4、“仿生电脑”神经形态芯片

在GPU、FPGA、ASIC芯片在市场上得到越来越多运用的同时,一种仿照生物脑的电子芯片——神经形态芯片正在兴起,《白皮书》特意将其单独放在一章进行详细先容。

神经形态打算的算法模型大致可分为人工神经网络 (Artificial Neural Network, ANN)、脉冲神经网络 (Spiking Neural Network, SNN) ,以及其他延伸出的具有分外数据处理功能的模型。
个中ANN是目前机器学习特殊是深度学习利用的紧张模型。

神经形态芯片有受生物脑启示的众核构造、事宜驱动,采取数据流的办法表 达神经网络的连接关系,具有低功耗、低延迟、高速处理、时空联合等特点,可实现任意神经元间可缩放、高并行的神经网络互联,在智能城市、自动驾驶的实时信息处理、人脸深度识别、语音识别等领域都有出色的运用。

目前神经形态芯片在传统 CMOS 工艺下的物理构造较为成熟,但对付可以仿真大规模神经网络而言存在散热问题、互联和同步问题、过于单一的神经形态算法等带来的寻衅。

对基于忆阻器交叉阵列的神经形态芯片而言, 它们既存在交叉阵列的规模、突触的连接办法和泄电流的掌握等物理构造问题,在算法方面同样面临寻衅,目前SNN干系算法还在研究阶段,该算法取得新的进展还需韶光。

AI芯片架构设计趋势

《白皮书》第五章针对目前AI芯片架构设计的趋势进行总结和梳理,总要包括三个方面:一是云端AI打算对存储、性能和灵巧性的需求提升,二是边缘设备将能耗效率推向极致,三是软件成为定义AI芯片能力的关键。

1、云端演习和推断:大存储、高性能、可伸缩

英伟达V100 GPU和谷歌Cloud TPU是目前云端商用AI芯片的标杆,从中看到云端AI芯片在架构层面的几个发展趋势:

(1)存储的需求(容量和访问速率)越来越高。

(2)处理能力推向每秒千万亿次(PetaFLOPS),并支持灵巧伸缩和支配。

(3)专门针对推断需求的 FPGA 和 ASIC。

2、边缘设备:提高效率到极致

比较云端运用,边缘设备的运用需求和场景更为繁芜,目前边缘设备AI芯片的关键任务是提高“推断”效率,衡量 AI 芯片实现效率的一个主要指标是能耗效率TOPs/W。

当前有效的方法紧张有如下几点:

(1)降落推断的量化比特精度,《白皮书》称这是最有效的方法。

(2)结合一些数据构造转换来减少运算量。

(3)减少对存储器的访问,这也是缓解冯·诺伊曼“瓶颈”问题的基本方法。

(4)运用各种低功耗设计方法。

(5)从全体系统的角度考虑架构的优化,各部件协同浸染以达到最佳效率。

3、软件定义芯片

软件是实现不同AI任务的核心,因此AI芯片必备的特性是能实时动态改变功能来合营软件的打算芯片,可重构打算基数也因此被公认为是打破性的下一代集成电路技能和非常适宜AI芯片设计的技能。

例如清华大学微电子所设计的AI芯片 Thinker通过三个层面的可重构打算技能来合营软件,这三个层面分别是打算阵列重构、存储带宽重构和数据位宽重构。

AI芯片基准测试和发展路线图

对付产学界来说,客不雅观的评估方法和发展路线图都不可或缺,然而当前AI芯片领域有着越来越多的研发团队,却缺少统一威信的干系标准。

这是《白皮书》最重磅的新内容,放在末了一章压轴出场。
《白皮书》第九章开篇写道,在AI芯片开拓热潮中,客不雅观评估AI芯片的基准测试(Benchmark)和可靠预测A芯片发展路径的路线图(Roadmap)都是必不可少的主要事情。

基准测试旨在供应客不雅观评估和比较不同AI运用的芯片。
针对目前已经涌现的用来实现不同形式的神经形态打算和机器学习加速的各种材料、器件和体系构造,清楚定义一组性能哀求和量化参数,对付进行基准测试和辅导研究方向非常主要。

其余,一个基于技能、设计或运用的共性明确路线图不仅可以供应衡量技能发展的指标,还有助于确定研究差距和关键寻衅。

《白皮书》认为,普适的“最佳”器件、架构或算法很难找到,一些新兴器件可能在非布尔架构中表现得更好。
对基准测试和路线图的磋商必须考虑到 与打算本身干系的能量、性能和准确度、工艺进步和创新引入未来的芯片对硬件平台性能的改变、新AI算法的不断引入等各种成分。

为了应对这些寻衅,《白皮书》提出人们须要网络一组架构级功能单元,确定定量和定性的优值 (Figures of Merits, FoM)并开拓丈量 FoM 的统一方法,并对为AI芯片开拓统一的基准测试方法提出许多详细的建议。

AI芯片的两大技能寻衅

AI算法和运用的快速发展对AI硬件产生更高的需求,但在当前的技能框架下,AI芯片还存在着一些瓶颈。
《白皮书》第四章对当前AI芯片紧张存在的两大困境进行剖析,并给出一定的办理思路。

1、冯诺依曼瓶颈

提高 AI 芯片性能和能效的关键之一在于支持高效的数据访问。
在AI芯片实现中,基于冯·诺 伊曼体系构造,供应运算能力相对大略易行,但由于运算部件和存储部件存在速率差异,访问存储器的速率跟不上运算部件花费数据的速率,形成长期困扰打算机体系构造的冯·诺伊曼“内存墙”问题。

《白皮书》对此提出两种办理思路:一是通过减少神经网络的存储需求等办法减少访问存储器的数量;二是只管即便拉近存储设备和运算单元的“间隔” 以降落访问存储器的代价。

2、CMOS工艺和器件瓶颈

构建打算系统的根本是CMOS技能的芯片,但目前CMOS器件的横向尺寸靠近几纳米,层厚度只有 几个原子层,会导致显著的电流泄露,降落工艺尺寸缩小的效果,而且其纳米级晶体管的能耗非常高,很难实现密集封装。

其余,越来越多的数据对存储提出跟高哀求,目前DRAM技能已靠近极限,是NAND闪存,DRAM和 非易失落存储技能的主力NAND闪存都是独立于打算核心的,和打算核心进行数据交流的韶光和能耗代价非常大。
目前能够和打算核心紧耦合的片上存储器的唯一方案是SRAM,其容量为兆级。

在打算架构和器件层面,须要具有生物系统优点而规避速率慢等缺陷的器件和材料。
近年来, 可以存储仿照数值的非易失落性存储器兼具存储和处理数据能力,可以破解传统打算体系构造的一些基本限定,有望实现类脑突触功能。

AI芯片中四类存储技能

数据访问是提高AI芯片性能和能效的关键要素,因此AI芯片对存储技能提出越来越细化的需求。
《白皮书》第六章不仅先容了AI芯片中常用的三类存储技能,还就新兴非易失落存储(NVM)技能进行答疑解惑。

1、AI友好型存储器

近期,由于AI和大数据处理对高带宽、大存储容量的内存需求,GPU、FPGA和ASIC等面向数字神经网络的加速器急迫须要AI友好型存储器,

2、片外存储器

由于高密度的单元构造特点,DRAM和NAND闪存常日被用作具有相对较大容量的片外存储器。
最近,三星已经开拓出 96 层 3D NAND。

3、片上(嵌入式)存储器

中期,基于存内打算的神经网络可以为规避冯·诺依曼瓶颈问题供应有效的办理方案,个中SRAM由于能连接逻辑和存储器电路,且与逻辑器件完备兼容,已成为不可或缺的片上存储器。

4、新兴存储器

末了,新兴NVM技能将供应更好的存储速率和低功耗,能显著改进用于商业和嵌入式运用的 AI 友好型存储器。
基于忆阻器的神经形态打算可以仿照人类的大脑,是AI芯片远期办理方案的候选之一。

五大新兴打算技能

只管成熟的CMOS器件已经被用于许多新的打算范例,但新兴器件有望在未来更好地显著提高系统性能并降落电路繁芜性,办理上述各类瓶颈。

《白皮书》第七章就对近内存打算、存内打算、基于新型存储器的人工神经网络、生物神经网络和对电路设计的影响五点来磋商,给读者关于AI芯片前沿打算技能的启示。

1、近内存打算

近存储器打算可以通过将存储器层置于逻辑层顶部而进一 步实现高性能并行打算。

2、存内打算(In-memory Computing)

最新进展已证明存内打算具有逻辑运算和神经网络处理的能力,可显著降落功耗和延迟。

3、基于新型存储器的人工神经网络

铁电存储器(FeRAM)、相变存储器(PCM)等新兴非易失落性存储器件可用于构建待机功耗极低的存储器阵列,它们都可能成为仿照存内打算的根本技能,既能实现数据存储功能,又能参与数据处理。

4、生物神经网络

一种更具生物启示性的方法是采取脉冲神经网络等,更严格地仿照大脑的信息处理机制。
IBM TrueNorth和最近宣告的英特尔Loihi展示了利用CMOS器件的仿生脉冲神经网络硬件实现。
虽然这种技能还处于早期阶段,但它代表了AI芯片的一个很有前景的长期方向。

5、对电路设计的影响

仿照电路操作也 给外围电路的设计带来了新的寻衅,使得实现高精度仿照状态编程须要花费更多周期和能效,因此编程电路和算法的优化尤为主要。
其余优化尺寸大小、在很大的丈量范围内精确丈量电流值也是须要办理的问题

结语:AI芯片身肩重担,道阻且长

AI芯片是AI技能发展的基石,是推动全体半导体领域技能进步的主要力量,不过目前AI芯片尚处于“婴儿期”。

今年的AI芯片被炒到一个高潮,海内的百度、阿里,国外的谷歌、苹果、微软、脸书、亚马逊全部官宣进入沙场,各家AI算法创企和传统半导体企业纷纭宣告跨行造AI芯片,这些努力会将AI芯片的发展推向一个全新的高度。

没人知道现在探索的道路究竟是否是最精确的道路,也没人知道AI芯片的泡沫何时分裂、多少公司会在竞争中溃败,但在愈发激烈的竞争一定会加速AI芯片以及AI算法的发展,为全体人类社会的发展带来福音。