01

斯坦福AI团队被曝抄袭中国国产大模型

近日,斯坦福AI团队被曝出了抄袭事宜,而且抄袭的还是中国国产的大模型成果,模型构造和代码,险些千篇一律!

斯坦福的Llama3-V项目在5月29日发布,流传宣传仅需500美元就能演习出一个性能超越GPT-4V、Gemini Ultra、Claude Opus等的多模态大模型。
然而,一位网友创造,Lama3-V的模型构造和代码与出自清华系明星创业公司面壁智能的MiniCPM-Llama3-V 2.5险些千篇一律,只是变量名有所变革。

反转斯坦福AI团队被曝抄袭中国大年夜模型

面对抄袭的指控,斯坦福团队选择了删库跑路,目前在GitHub和HuggingFace上的干系项目均显示404,无法访问。

面壁智能的MiniCPM-Llama3-V 2.5项目具有独特的功能,如识别清华简--一种罕见的中国古代笔墨。
Llama3-V在未公开的实验性特色上与MiniCPM-Llama3-V 2.5表现出高度相似的行为,这些特色是根据MiniCPM-Llama3-V 2.5团队内部数据演习的。

面对抄袭的质疑,斯坦福团队最初辩称,他们的事情早于面壁智能的MiniCPM,只是利用了他们的tokenizer,然而,随后他们在Medium上的声明被删除,且最新的回应也被撤回。

02

面壁智能李大海回应

套壳征象难规避

对付抄袭事宜,面壁智能CEO李大海在朋友圈发文称,团队核实创造Llama3V展现出和小钢炮一样的清华简识别能力,连做错的样例都千篇一律,而这一演习数据尚未对外公开。

他表示,清华简的识别能力是团队耗时数月,从卷帙浩繁的清华简中一个字一个字扫描下来并逐一进行数据标注从而领悟进模型中的。
在对两个模型进行高斯扰动验证后创造,它们在精确和缺点表现方面都高度相似。

业内关于“套壳”的争议由来已久。
有人认为,开源就该被充分利用;有人则表示,闭源才是自主研发,参考开源便是套壳。

实际上,如今所有大模型都源于2017年谷歌大脑团队发布的Transformer神经网络架构,这些包含模型架构和算法的设计决定了模型如何处理输入数据并天生输出。
在此根本上,厂商在大规模的数据上对大模型进行预演习,来提高模型的泛化能力,加速后续的学习任务推进。
因神经网络架构和预演习这两项事情打造难度高、投入金额大、耗费数据量多,每每被称作大模型的内核。

而大模型的“壳”一样平常指调优。
调优是指对已经预演习过的模型进行进一步的演习。
这个过程常日是有监督的,须要利用标注好的数据来辅导模型的学习。
调优的目标是调度模型参数,使其更好地适应特界说务的需求。

为了进一步理解大模型套壳,必须差异“外壳”与“内核”的差异。

谷歌Transformer 的原始架构包含两个核心组件——编码器(Encoder)与解码器(Decoder),编码器卖力理解输入文本,解码器卖力天生输出文本。
在 Transformer 的原始架构上“魔改”衍生出三个变体架构——只采取编码器(Encoder-only),只采取解码器(Decoder-only),以及两者的稠浊体(Encoder-Decoder)。

Transformer的模型架构图,左侧为Encoder,右侧为Decoder。
图片来自谷歌论文

在 2020 年之前,NLP 的模型研究基本都是环绕算法展开,基于 BERT、T5 与 GPT 架构的模型百花齐放。
这一期间模型参数较小,基本都在 10 亿以内量级。
个中,谷歌 BERT 的表现独领风骚,基于 BERT 架构的模型一度在阅读理解的竞赛排行榜中屠榜。

直到 2020 年,OpenAI 发布一篇论文,首次提出了 Scaling Laws(尺度定律),NLP 的研究才正式进入大模型时期——大模型基于“大算力、大参数、大数据”,模型性能就会像摩尔定律一样持续提升,直到“智能呈现”的时候。

从大模型的进化脉络来看,本日所有的模型都是在“套壳” Transformer 以及其三个变体架构。

当然,Transformer 也有“不愿套壳”的寻衅者。
比如,2023 年 12 月 5 日,两位分别来自卡内基梅隆大学与普林斯顿大学的教授,发布了一款名为“Mamba”(曼巴)的新架构,在措辞建模性能媲美 Transformer 的同时,还办理了一些扩展性的局限。
但这个新架构的详细表现,还须要韶光的考验。

模型架构选择只是第一步。
百川智能创始人、CEO 王小川在一个月前的2023甲子引力年终盛典年夜将大模型演习比作“炒菜”,模型架构只是一个菜谱。
要想得到一盘完全的菜,还须要烹饪,也便是大模型演习的过程;以及食材,也便是数据。

大模型的烹饪过程可以粗略地分为预演习(Pre Train)与微调(Fine-Tune)两大阶段。

值得关注的是,我国大模型培植浪潮中,只管已有浩瀚国产佳构,但仅约十分之一的模型因此自主研发的预演习框架为根本。
其余九成的模型则在现有开源模型根本上进行了轻微调度。
至于部分闭源大型模型公司,如百度、智谱AI和月之暗面等,其技能细节尚未对外透露。

根据理解,我海内自主研发预演习框架的大规模模型企业仅有约5家。
另一类大规模模型企业则是从零开始完成整体预演习流程,仅对预演习框架部分参数做了调度,我们可将其称为“仿效型”。

结果便是,现在市情上有越来越多创业公司供应大同小异的模型。
这乃至衍生出如旧金山的 Martian 一样平常,专门为须要用 AI 做事的企业探求“平替”方案的创业公司。

但投资人并不喜好这种被欺骗的觉得,斯坦福AI团队这次近乎直接“搬用”的套壳行为大概率是为了融资套现,而在还原全体事情始末的过程中,面壁智能这家海内AI企业也开始浮出水面。

03

华为哈勃入股的AI公司

面壁智能是一家“清华系”人工智能大模型创业公司,核心科研成员来自清华大学NLP(自然措辞处理)实验室,是海内最早一批做预演习大模型的团队之一,自研了百亿参数预演习措辞大模型CPMviniCPM是其端侧模型。

2023年11月,面壁智能推出了对标GPT-3.5水平的多模态大模型CPM-Cricket。
今年2月,面壁智能的开源端侧模型MiniCPM面市,作为其“大模型+Agent(智能体)”双引擎计策的关键一步。

官网显示,面壁智能成立于2022年8月,当时获近千万种子轮融资,又在2023年3月时完成数千万天使轮融资。

今年4月11日,面壁智能宣告,已完成新一轮数亿元融资,知乎作为计策股东持续跟投。
本轮融资完成面壁智能将进一步推进人才引入,加固大模型发展的底层算力与数据根本,推动大模型高效演习快步落地。
新一轮投资方还包括春华创投、华为哈勃、北京市人工智能家当投资基金等。

2023年,知乎计策投资面壁智能,双方展开模型共建,同年4月推出联合研发的中文大模型“知海图AI”。
2024年3月,知乎推出基于“知海图A!”的全新社区原生AI功能“创造·AI搜索”。

能赢得如此多机构投资者和海内巨子的青睐,面壁智能究竟有何过人之处呢?

04

把参数做小的大模型企业

昔时夜模型公司都在卷大参数时,面壁智能却在尽可能把参数做小。

在通往 AGI 的路上,绝大多数公司的路线是不断做大参数,但面壁智能却走了一条相反的路线--尽可能把模型参数做小。

在2024年2月1日的发布会上,面壁智能对标Mistral发布了演习数据规模近1T、参数规模仅2B的模型——聚焦于适配端侧硬件的端侧大模型MiniCPM-2B。
目前,MiniCPM-2B在比GPU打算吞吐量低的CPU上可实现运行,有效降落了推理本钱。
同时,即便将大小压缩75%,MiniCPM的性能也能做到基本无损耗。

面壁智能表露,这次发布的海内MiniCPM 2四款模型,整体对标的是谷歌Gemma-7B、OpenAI GPT-4V、Mistral-7B、Llama2等国外开源模型。
MiniCPM 2模型在同等性能参数更小、同等参数性能更强,超越Mistral-7B、谷歌Gemma、Llama2-13B、 ChatGLM3-6B等,并且170万tokens的推理本钱仅需1元。

这个结果戳穿了这样一个事实:很多超大参数的大模型,它们的模型效率或许并没有最大化。

「我们希望探索模型性能的天花板。
」 面壁智能联合创始人刘知远教授称。
他认为,从技能研判而言,2023 年 ChatGPT 和 GPT-4 的推出,表明大模型技能路线已经基本确定,接下来便是要探索其科学机理,并极致地优化效率,

他表示,在 Mistral-68 的同一模型水平下,面壁智能团队的模型参数量是最小的。
这或许意味着模型的效率被提升到了最高水平。
「我以为我们做了一件挺牛的事。
」 他笑着说。

05

端侧大模型成喷鼻香饽饽

面壁团队认为,MiniCPM的市场竞争上风紧张有三点:一、算法优化,自创“型沙盒”实验,高效训模;二、本钱优化,支持在CPU上跑推理、在消费级显卡上做高效演习与微调;三、数据管理,已经形成从数据管理到多维评测的闭环,牵引型快速迭代。
普通来讲,面壁智能选择了端侧大模型这条细分赛道。

端侧大模型(Edge Al models),也便是只在设备本地(如智好手机、loT设备、嵌入式系统等)运行的大模型,过去一两年来非常盛行。
详细表现在,终端设备厂商,如苹果、光彩、小米、OV等,AI公司如商汤科技,都推出了自研的纯端侧大模型。

以手机为例,过去的一年里,国内外包括苹果、三星、华为、VIVO等大部分的手机厂商都在研究一门新的学问:怎么将大模型落地到端侧?而他们之以是这么做,目的也很明确既为了在行业瓶颈节制市场打破的主要筹码,又为了知足用户A需求,带来改造终真个利用体验。

大模型可以被称为一种暴力美学,一样平常认为,目前主流云端大模型的参数量在千亿级别,算法性能随着演习时长和数据集的增加而增长。
这些基于云端大模型的App,须要调用海量的做事算力来进行数据传输,本钱和安全性是做事商不能回避的问题。

此前有手机厂商透露,调用一次云端大模型的均匀本钱在1.2分到1.5分公民币,假设每个品牌都有上亿的用户量,每人每天调用10次,那么积攒下来的算力本钱是惊人的;如果按次数或月租向用户进行收费,在功能同质化的情形下,用户的利用意愿也会很难担保。

而从当下的实际运用体验看,端云协同、云端大模型,才是大模型在端侧的主流形式。
比如目前很盛行的“手机拍照一键擦除背景人物”,仅靠端侧大模型的打算能力是无法实现的,须要端云协同来完成。
再如公函写作、长文要点总结、PDF要点择要等,端侧大模型要么无法完成,比如光彩OPPO端侧大模型都不支持PDF文本择要,小米MiLM的支持度和天生效果也不足好。
终极,用户还是要访问GPT-4、文心一言、智谱清言、讯飞星火、KIMI等云端大模型的网页/APP,来知足一些繁芜AIGC任务需求。

因此,这次斯坦福AI团队抄袭事宜虽让我们看到了面壁智能的精良,但离端侧大模型真正落地,恐怕还有很长一段路要走。