编译 | ZeR0
编辑 | 漠影
智东西10月12日宣布,微软与NVIDIA今日公布由DeepSpeed和Megatron演习出的Megatron-Turing自然措辞天生模型(MT-NLG)。
这是迄今最大、最强大的AI单体Transformer措辞模型,作为微软Turing-NLG 17B和NVIDIA Megatron-LM模型的继续者,MT-NLG模型包括5300亿个参数,参数数量比OpenAI GPT-3的3倍还多。
其演习在560台NVIDIA DGX A100做事器上进行。在阅读理解、知识推理、自然措辞推理和词义消歧等一系列自然措辞任务中,MT-NLG均实现了超高准确性。
““我们本日得到的质量和结果是在解开AI在自然措辞中全部承诺道路上迈出的一大步。”NVIDIA加速打算产品管理和营销高等总监Paresh Kharya、微软图灵团队项目经理Ali Alvi在一篇博客文章中写道,“DeepSpeed的创新和Megatron-LM有利于现有和未来的AI模型开拓和使大型AI模型更低本钱、更快的演习。”
一、演习大量措辞模型的两大紧张寻衅
近年来,基于Transformer的自然措辞处理(NLP)措辞模型在大规模打算、大型数据集以及演习这些模型的高等算法和软件的推动下取得了快速进展。
具有大量参数、更多数据和更长演习韶光的措辞模型,会得到更丰富、更细致的措辞理解能力,包括能提炼书本要点、自动天生对话、机器翻译、语义搜索、自动补全代码编程等。
在最前辈的NLP模型中,参数的数量以指数速率增长是不足为奇的。
NLP模型参数规模增长趋势
然而,演习这些模型具有寻衅性,缘故原由有二:
1)纵然是最大的GPU,也不可能在内存中匹配这些模型的参数。
2)如果不特殊把稳优化算法、软件和硬件堆栈,那么所需的大量打算操作可能会导致不切实际的长演习韶光。
通过紧密互助,NVIDIA与微软将最前辈的GPU加速演习根本举动步伐与前辈的分布式学习软件堆栈相结合,实现了前所未有的演习效率。
他们用数千亿token构建了高质量的自然措辞演习语料库,并联合开拓了演习配方,提高了优化效率和稳定性。基于Transformer的105层MT-NLG在一些零样本或少样本设置方面改进了此前最前辈的模型,并进一步提升了模型规模和质量。
二、破解大模型寻衅,将大算力与前辈软件结合
MT-NLG模型由NVIDIA A100张量核心GPU和HDR InfiniBand网络驱动。NVIDIA Selene、微软Azure NDv4等前辈超算集群有足够的打算能力,可在合理的韶光框架内演习模型与数万亿参数。而要发挥这些超级打算机的全部潜力,须要实现超过数千个GPU的并行性,在内存和打算上都是高效和可扩展的。
单独而言,现有的并行策略(好如数据、流水线或张量Tensor切片)在内存和打算效率方面存在权衡,不能用于这种规模的模型演习。
1)数据并行实现了良好的打算效率,但它复制模型状态,不能利用聚合的分布式内存。
2)张量切片须要GPU之间的大量通信,当高带宽NVLink不可用时,这限定了超过单节点的打算效率。
3)流水线并行可以有效地跨节点扩展。然而,为了打算效率高,它须要大的单次演习用的样本数(batch size)、粗粒度并行和完美的负载平衡,这险些是不可能的。
通过将NVIDIA Megatron-LM和微软DeepSpeed结合,研究团队建了一个高效、可扩展的3D并行系统,能够将数据、流水线和基于张量切片的并行性结合在一起,以应对这些寻衅。
结合张量切片和流水线并行,研究团队可以在它们最有效的区域内进行操作。更详细来说,该系统利用Megatron-LM的张量切片在节点内扩展模型,并利用DeepSpeed的流水线并行性在节点之间扩展模型。
例如,对付5300亿参数的模型,每个模型replica超过280个NVIDIA A100 GPU,在一个节点中有8路张量切片和35路跨节点的流水线并行性。然后研究团队利用DeepSpeed的数据并行性进一步扩展到数千个GPU。
MT-NLG模型演习是在基于NVIDIA DGX Superpod架构搭建的Selene超级打算机上以稠浊精度完成的,该超算由560台DGX A100做事器供应支持,并以完全的胖树(Fat-tree)配置与HDR InfiniBand联网。
每个DGX A100有8个NVIDIA A100 80GB GPU,通过NVLink和NVSwitch完备连接。微软Azure NDv4云超级打算机也利用了类似的参考架构。
研究团队考虑了在Selene上的280、350和420 DGX A100做事器上的5300亿参数模型的端到端吞吐量,不雅观察到迭代韶光分别为60.1、50.2和44.4秒。每个GPU分别对应126、121和113 TFLOPS。
三、基于The Pile构建演习数据集
研究团队利用了transformer解码器的架构,它是一个由5300亿参数组成的基于从左到右天生的transformer措辞模型,层数、隐蔽维度和把稳力头分别为105、20480和128。
他们采取8路张量和35路流水线并行。序列长度为2048,全局batch size为1920。在最初的120亿个演习token中,研究团队将batch size从32开始逐步增加32,直到达到末了的1920个。团队在演习中利用了10亿token来预热学习率。
他们紧张是基于开源AI研究机构EleutherAI创建的The Pile数据集建立了MT-NLP演习数据集。与所有AI模型一样,MT-NLP必须通过输一系列案例来“演习”数据点之间的语法、句法规则等模式。
Pile覆盖了学术资源(如Arxiv、PubMed)、社区(StackExchange、维基百科)、代码库(Github)等,微软和英伟达表示他们对这些资源进行了管理,并结合了大型网页凑集Common Crawl的过滤快照。为了多样化演习,他们还网络了RealNews和CC-Stories数据集。
在构建演习数据集时,文档重复数据删除是必要的,由于相同的内容可能涌如今不同数据集的多个文档中。因此微软和英伟达在文档级利用模糊重复数据删除过程,利用最小哈希LSH打算稀疏文档图和个中的连接组件,以识别重复文档。
然后,当从每个连接组件中的重复文档中选择一个代表性文档时,他们利用基于数据集质量的优先级顺序,末了用基于n-gram的过滤将下贱任务数据从演习数据集中去除,以避免污染。
末了,研究团队得到了15个数据集,统共包含3390亿token。在演习过程中,他们选择根据图2中给出的可变采样权值将数据集稠浊成异构batch,重点是高质量的数据集。其演习模型利用2700亿token。
用于演习MT-NLG的数据集。前11行来自Pile数据集,后面是CC快照、RealNews和CC Stories数据集。
四、在多项任务展示出更强准确性
最近在措辞模型方面的研究表明,一个强大的预演习模型常日可以在大量的NLP任务中有竞争力地实行,而无需进行微调。
为了理解扩展措辞模型如何增强其零样本或少样本学习能力,研究团队评估了MT-NLG,并证明了它在多个类别的NLP任务中建立了新的顶级结果。为确保评估的全面性,他们选择了5个领域的8个任务:
1)在文本预测任务LAMBADA中,该模型预测给定段落的末了一个单词。
2)在RACE-h和BoolQ阅读理解任务中,模型根据给定的段落天生问题的答案。
3)在PiQA、HellaSwag和Winogrande的知识推理任务中,每个任务都须要一些超越措辞统计模式的知识知识来办理。
4)对付自然措辞推理,两个硬基准测试ANLI-R2和HANS针对过去模型的范例失落败案例。
5)词义消歧任务WiC从高下文评估多义理解。
为了鼓励可复现,研究团队基于开源项目lm-evaluation-harness建立了评估设置,并根据任务进行了适当的变动,使其设置与之前的事情更紧密地同等。他们在没有搜索最佳样本数量的情形下,在零样本、小样本和少样本的设置下评估MT-NLG。下表显示了准确性度量的结果。
经比较,MT-NLG在大多数任务的零样本、小样本和少样本评估中均表现出更快的学习能力。
除了报告基准任务的汇总指标,研究团队还定性地剖析了模型输出,并不雅观察到纵然符号严重稠浊,模型仍可以从高下文推理出基本的数学运算,虽然还不是非常准确,但该模型彷佛超越了算术的影象。
研究团队还展示了来自HANS任务的示例,个中他们将包含大略语法构造的任务作为问题提出,并提示模型给出答案。只管构造很大略,但现有的自然措辞推理(NLI)模型在处理此类输入时常常碰着困难。经由微调的模型常常从NLI数据集中的系统性偏差中创造某些句法构造和隐含关系之间的虚假关联。MT-NLG在没有微调的情形下在这种情形下表现得很有竞争力。
五、大模型的忧患:偏见、高本钱与高能耗
虽然大模型正在推动措辞天生的发展,但它们也存在从其演习数据中获取刻板印象和偏见的问题。微软和NVIDIA称他们“致力于办理这个问题”,并鼓励“连续进行研究,以帮助量化模型的偏差。”
微软和NVIDIA表示在生产中利用Megatron-Turing“必须确保采纳适当的方法,以减轻和最小化对用户的潜在侵害”,所有事情应遵照微软负任务的AI原则。
除了潜在偏见外,大模型的本钱高昂问题为研究设置了门槛。以拥有1750亿参数的OpenAI GPT-3模型为例,其演习数据集规模高达45TB,足以填满90个500GB的硬盘。
一位人士称,2017年至2019年期间,AI演习本钱低落了为原来的1/100,但总数仍超过大多数初创公司的打算预算。这种不平等方向于那些能够得到大量资源的公司,而捐躯了小企业家的利益,巩固了在位者的上风。
例如,OpenAI的GPT-3在演习期间估计须要每秒3.1423^23次浮点运算(FLOPS)。假设OpenAI在NVIDIA V100 GPU上保留了28 TFLOPS(每秒28万亿次浮点运算),V100单次演习就须要花费460万美元。一台拥有15TFLOPS算力的NVIDIA RTX 8000 GPU要便宜得多,但完成这项演习须要665年。
微软和英伟达称在演习MT-NLP时,他们不雅观察到每台GPU运算速率有113-126TFLOPS。其本钱可能高达数百万美元。
另据Synced的一份报告估计,华盛顿大学研究职员开拓的假新闻检测模型的演习用度为2.5万美元,谷歌花了大约6912美元来演习措辞模型BERT,以提高谷歌搜索结果的质量。
在处理TB或PB规模的数据集时,存储本钱也会迅速增加。举个极度的例子,据CrowdStorage称,特斯拉自动驾驶团队积累的数据集——1.5PB的视频片段——在微软Azure存储3个月须要花费超过6.75万美元。
AI模型演习对环境的影响也受到关注。2020年6月,马萨诸塞大学阿默斯特学院的研究职员发布了一份报告估计,演习和搜索一个特定模型所需能耗涉及约62.6万磅的二氧化碳排放,险些相称于美国汽车均匀生命周期排放量的5倍。
好在FLOPs和基本机器学习操作的本钱在过去几年一贯不才降。OpenAI在2020年的一项调查创造,自2012年以来,演习一个模型在盛行的基准ImageNet上对图像进行分类时达到同样的性能所需的打算量每16个月就减少了为原来的1/2。其他最近研究表明,大型措辞模型并不总是比小型模型更繁芜,这取决于用来演习它们的技能。
结语:大算力+大模型的上风正日益显现
当前AI发展速率远远超过了摩尔定律,超大规模AI模型带来的性能上风愈发显现出来,新一代GPU的更快互连速率带来了打算能力的提升,同时软件创新正在将这两种趋势结合起来,进一步推动优化和效率提升。
在这股热潮中,将NVIDIA Selene或微软Azure NDv4这样的超级打算机与NVIDIA Megatron-LM和微软DeepSpeed的软件打破结合而演习出的大模型MT-NLG,是一个相称好的例子。而微软和NVIDIA展现出的技能思路,有望推动大模型演习在更快的同时,本钱变得更低。
“我们期待MT-NLG将如何塑造来日诰日的产品,并勉励社区进一步推动自然措辞处理(NLP)的边界。这段旅程很长,还远远没有完成,但我们对未来的可能性和前景感到愉快。”NVIDIA加速打算产品管理和营销高等总监Paresh Kharya和微软图灵团队项目经理Ali Alvi在博客中写道。
不过,大模型是否是AI措辞模型发展精确的道路,仍是一个悬而未决的问题。美国康奈尔大学的自然措辞处理研究员和数据科学家Maria Antoniak表示,只管本日一些最好的基准测试性能评分来自大型数据集和模型,但将大量数据投入模型的回报是不愿定的,大模型表现很好的一些任务是非常构造化的,这些任务能否勾引我们真正理解措辞还有待磋商。
来源:NVIDIA developer blog、VentureBeat