5月24日,36氪“新质生产力·AI Partner大会”于北京环球贸易中央正式拉开帷幕。
大会聚焦AI场景与运用端,分为“AI能为我们做什么”和“我被AI赋能了”两大篇章。
现场汇聚来自蚂蚁集团、遐想、OPPO、百度、英特尔等企业的AI领域先锋者,以“赋能者”与“被赋能者”的不同视角,共同磋商AI技能如何“爆改”千行百业。

北京智源人工智能研究院副院长兼总工程师 林咏华

2024年,AI技能走向运用落地的原野,模型参数正式迈入万亿时期,对AGI的探索从措辞跨入多模态。

技能和运用的进展喜人,但发展的掣肘,从技能黑箱,转移到了资源花费。
据OpenAI测算,环球AI演习所用的打算量均匀每3.43个月便会翻一倍。
在乐不雅观估计下,仅海内大模型的演习与推理,就会产生1.1-3.8万台高性能AI做事器的算力需求。

北京智源人工智能研究院林咏华大年夜模型背后的数据与算力寻衅  新质分娩力AI Partner大年夜会

而模型演习,又是吃数据的黑洞。
研究机构Epoch AI认为,对数据需求急剧增加,以至于可用于演习的高质量文本可能会在2026年耗尽。

过去一周,北京智源人工智能研究院副院长兼总工程师林咏华,被大模型贬价的刷了屏。
这位智源研究院的副院长兼总工程师、IBM中国研究院成立以来的首位女性院长认为,贬价的压力,实质上是资源的压力,一方面来自模型演习,另一方面来自模型支配。

2021年,智源研究院就发布了中国首个、环球最大的万亿参数规模的模型“悟道2.0”。
2022年加入智源后,林咏华对中国的AI资源和生态有了更为深刻的洞察和见地。

在主题为《大模型背后的数据与算力寻衅》的演讲中,林咏华认为,AI背后最主要的资源是数据和算力,当下,中国AI行业须要办理的不仅仅是资源储备的问题,还有生态共建的问题,高下游须要以开源开放的心态培植生态。

“数据、算力,这里面有很多的问题,有很多事情须要办理,它是技能的基座,我们也希望通过开源开放跟大家一起共筑好基座。
”她总结。

以下为林咏华演讲实录,经36氪编辑整理:

大家早上好,智源研究院除了运用不做,包括大模型算法、数据、评测、算力在内的各种问题,我们都探索、研究、打破,我们是实实在在的AI赋能者。

本日给大家带来的题目是《大模型背后的数据与算力寻衅》。

人工智能大模型背后最主要的资源是:算法、数据、算力。
近两年,各种开源算法,迭代不穷,算法资源不断呈现。
比较起算法,我们看到用于演习的数据、算力已经成为大模型发展的资源瓶颈。

数据的问题有三个部分:数据的数量、数据的质量、及如何利用数据。

首先是数据的数量。
现在环球的大模型背后都离不开一个数据集Common Crawl。
得益于17年前一群志愿者,他们以公益的办法在环球不断爬取网页、积累数据,至今积累了超过2500多亿的网页,并以免费办法供应给环球研究和开拓者利用。
无论是OpenAI还是Meta,都是基于这个数据集进行措辞模型演习。
没有17年前开启的这个持续不断的数据集积累事情,本日的大模型不会发展这么快。
除了网页文本数据,其它诸如图文、视频、书本、代码等都是打造大模型很主要的“原材料”,但这些数据远远不足。
尤其各个团队在今年纷纭开始多模态模型、文生视频模型的演习,就更须要高质量的图文对,和视频数据。
此外,当前国外能够有的开源数据集,95%以上的都是英文内容,中文干系的数据非常少。

当我们考虑把通用模型落地行业,必需用该行业的大量知识来对通用模型进行持续演习。
但这个行业的专业知识在哪里?行业知识的数据并不是指企业数据、业务数据,而是这个行业领域的大量书本、文献等数据。
针对行业的领域数据,当前也是十分分散和匮乏。

第二,数据质量问题。
GPT-4o发布后,MIT Technology Review的文章指出,GPT-4o的分词器演习所用的中文数据大量充斥了中文垃圾网站的信息,例如该分词器模型中最长的100个中文词语中有超过90个来自垃圾网站。
这在行业内引起关注,OpenAI演习GPT-4o用的中文语料质量堪忧。
实在,在我们调研剖析Common Crawl这一环球最大的数据集,也创造了该数据集的中文数据的类似质量问题。

除了数据集的内容质量问题,还会涌现其它数据质量问题。
例如,如果数据来源是一些扫描图片,OCR进行笔墨、尤其公式和图表转换,也存在识别质量的问题;当前用于跨模态学习的图文对、视频笔墨对则每每存在对图片或视频的笔墨描述质量拙劣等浩瀚问题。
若用于演习的数据集质量低,将会大大摧残浪费蹂躏算力,并且很大程度会影响模型的天生内容安全问题,因此质量是在数据里面十分主要的一点。

第三,数据利用问题。
演习数据是用来让机器进行学习,而不是做内容的二次分发、给人类进行直接阅读和利用。
在现有法律体系下,对付让机器进行“学习”的数据这一新型的利用办法,并没有干系的定义。
大模型的开拓须要利用高质量数据,如何平衡数据版权问题与高质量数据的“机器学习”利用?

面对数据的这几个问题,智源研究院一贯希望能探索出一条让全体家当有更多高质量数据可利用的路。

首先,我们摸索出三种数据的共享利用办法,并实现在数据平台上。
智源研究院联合全国数十家头部互联网企业、大模型企业、数据供应企业等,还有中心、北京市各方机构一起努力打造的。

这三种利用办法包括,一是完备开源下载,这对所有的开拓者、科研事情者都是很主要的,对没有版权或者弱版权的数据我们做了大量的安全过滤、质量过滤,整理到开源网站上,目前有2.4T数据,这个事情我们将持续坚持做好。

二是鼓励更多的机构把数据贡献出来,在同盟内部进行共享,我们打造了积分共享机制,鼓励企业贡献数据,进行质量评定后,通过质量系数乘数据量,得到积分。
贡献数据的企业可以用积分在高质量数据池中,选择其余一个企业在同盟内贡献的数据,打造“共建-共享”积分利用数据的互助模式。
当前已经有近30家企业跟我们一起做这个事情。
我们期待有更多企业能加入进来,跟我们一起“共建-共享”。

三是针对有版权要求的高质量数据,我们打造了“数算一体”的利用办法。
高质量有版权的数据的处理、演习等都和算力平台在同一个安全域,严格保障数据的利用可控不出域。
大模型团队可以在这个平台上利用这些数据,对数据进行二次加工,进行模型演习,演习完成后不能带走数据,但可以带走模型,让数据供应方减少对数据安全的担忧。

我们针对不同的数据情形,构建推广这三种不同的数据利用办法。
希望帮助大模型家当尽快办理“数据难题”。
没有好的高质量数据,无法做出更好的模型供用户利用。

除了数据的问题,我们这几天还被各个大模型企业的贬价乃至免费的刷屏。
这背后是算力本钱的压力,一方面是支配的本钱;另一方面是演习的本钱。

我们本日面临的算力难题,是算力增长赶不上大模型对算力的须要。
从去年到今年,英伟达,AMD、英特尔的单芯片算力增长基本达到2倍。
但即便是2倍单芯片算力增长,依然赶不上模型参数量、演习数据量须要的算力增长。

而我们当前面临的寻衅是AI算力培植不敷,和国际比较海内单芯片算力还有差距,其余,现在海内各种AI芯片的生态是割裂的。
各个芯片厂商的硬件架构、指令集、编译器、算子库等都不一样,导致上层算法的迁移本钱十分高。
如果算法开拓团队碰着某个算子在目标芯片平台上缺失落的话,或许要等待厂商开拓好一段韶光,将延误全体开拓周期。

我们面临AI芯片生态割裂的问题,是否可以参考已经发展了数十年的通用途理器CPU的生态构建方法?CPU有各种不同的架构和不同的指令集(包括x86、ARM、MIPS等)。
GCC作为开源统一编译器,向下各个芯片厂商分别进行移植支持,上层的C/C++措辞开拓者只须要开拓同一套C/C++措辞的算法库或运用代码,而不须要考虑底层是什么芯片。
通过GCC各个芯片版本的编译器,就可以编译得到目标芯片上面的二进制代码。

那我们在AI芯片领域,是否有这样的措辞和开源的编译器呢?答案是有的。
当前,开源领域有面向AI算子库开拓的开源编程措辞Triton,包括它的开源编译器。
当前Triton已被英伟达、英特尔、AMD以及海内多个芯片厂商支持。

因此,以前是各个厂商须要打造自己的编译器、算子库,追赶不同的算法迭代。
现在将变成其余一种生态模式,由开源社区打造统一的、各种AI算法的算子库,芯片厂商只须要移植和优化好Triton编译器。
智源研究院联同多个团队、芯片厂商一起正在打造的基于Triton的通用算子库。

我们希望通过打造统一开源开放的软件生态,帮助多元AI芯片接入到各种框架、支撑各种AI运用。
我们在6月2日会举行第一次Triton中国生态meetup,这对未来以更低本钱利用算力有着重要意义。

本日给大家分享的是智源研究院为AI大模型赋能的两个资源,即数据、算力,我们希望通过开源开放和大家共筑技能基座,赋能AI大模型家当的发展。