AI奇点网-AI资讯特刊丨11月9日

▷公众年夜众号菜单栏点击「干货在这」◁

免费领取海量AI绘画深度教程

11月6日,伴随OpenAI庆祝ChatGPT上线一周年暨开拓者大会,我们迈过了「AI元年」。

轮番碾压ChatGPTAI大年夜模型跑分作弊的事终于有人敢说了

今年层出不穷的AIGC工具和软件,让大家的事情效率提升了不止一点点。

上半年,大模型满天飞,下半年,运用纷纭落地。

但凡轻微大一点的互联网公司,没有推出“自研大模型”,创始人名字都得倒着写。

最近,手机厂商和芯片大厂纷纭进场打榜,发布会一开,个个都是「超过式打破」,每家都是「排行第一」。

要么是冲破了Benchmark测评基准的历史记录;要么是在前边加多少前缀,比如实现了「×亿内」参数量的第一名。

在这里,EVA就不点名了。

在愉快于技能进展迅速之余,有一些人创造了一点非常——

EVA曾经将“AI大模型打榜”这种行为誉为「不服跑个分3.0时期」。

关注手机圈的家人们,都经历过“娱乐兔”和DxOMark这两个「跑分大战」的阶段。

越来越多人开始发出疑问,措辞模型测评Benchmark这种东西,到底靠不靠谱?

直到近日,知乎上有一个帖子引起了大家的广泛关注。

文章标题是:《如何评价天工大模型技能报告中指出很多大模型用领域内数据刷榜的征象?》

是的,便是所谓的“大模型刷榜”。
但凡经历过一些电商圈毒打的家人,都该当听说过“刷评”“刷赞”这种行为。

如果将AI转为人类的角度理解,已知消费者对商批驳价敏感,商家发动几百个人,为自己的商品进行不同办法的“刷榜”,终极营造一个非常卓越的靓丽评论区与舆情环境。

我们绕回来,海内AI模型公司昆仑万维的「天工」大模型团队,在上个月发布了一篇技能论文。

论文当中,揭开了多家大模型“刷榜”的机制。

AI大模型如何“刷榜”?

论文本身,实在是先容天工的自研大模型Skywork-13B。

按照老例,新出身的大模型须要阐明自己的研究方法,作者表示在盛行的措辞模型测评基准上,他们的模型在很多中文的分支任务上取得了“业内最佳”。
此外,他们还引入了一种新的测评方法——与测评题目的“标准答案”进行查重。

有趣的是,这篇论文还利用同样的机制验证了许多主流大模型的真实效果,指出了一些很有名气的开源国产大模型存在“投契取巧”的嫌疑。

我们来看论文里边的这个表格:

这里边有几家模型,大家多少都有所耳闻。
比如:智谱AI的ChatGLM、百川的Baichuan 2、复旦的MOSS、Meta的LLaMa……

论文作者在演习大模型的时候利用了一种考验机制,为了验证业内几个有名大模型回答数学问题的答案相似度,他先利用GPT-4天生了答案样本,人工核对了回答的精确性,并且让其他的模型也对这些题目天生回答。

作者将数学题册的演习集问题与答案,与大模型们天生的答案进行比对,用统计学的方法,打算里边的逐字逐句与GPT-4答案以及数学题演习集的吻合率。

结果他得到了一个“惊人的结论”——

如果大模型没有用测试集进行针对性演习,那么吻合率的数值该当趋于零。

翻译过来的“大口语”便是:

如果有的大模型在演习时,提前拿着Benchmark基准测试的题目和答案作为“学习资料”,想借由此来刷高分,那么统计学出来的数字就会发生非常。

好的,都是哪些模型有非常呢❓

在上边的表格里,作者已经用灰色特意圈出来了。

换而言之,如果你在期末考之前,提前拿着考试题答案进行复习和背诵,然后上考场应试,那么由于回顾+赶韶光,你写出来的答案理论上会十分靠近于“官方答案”。

这就好比大模型在演习时就进行了一轮又一轮针对Benchmark“完美押题”的开卷考试,强制“影象”。

我再举一个比较旧调重弹的例子:

已知物理低温下CPU的性能可以更好地开释,于是乎,大家都把手机放进冰箱进行跑分。
这里还不包括提前针对Benchmark软件的预设程序进行“专属优化”。

EVA须要强调的是,这种论证机制仍不敷以证明大模型在演习时候存在“押题”或者“造假”。

此外,让AI大模型按照开拓商想要的方向进行回答,也不止这一种方法。

EVA就曾碰着过,谈天机器人在回答到一半的时候,忽然换了一个回答。

这就能阐明,为什么会有许多家人在看完某场模型发布会,然后自己亲自体验后,觉得彷佛跟官方宣扬的不是那么一回事儿?

怎么看待大模型“刷榜”?

事实上,针对新发布大模型进行“刷榜”,每每有其个中无奈的商业逻辑——须要对投资人的期望给予足够的正向反馈,或者面对用户时展示自己的技能实力。

看完知乎全文,有网友对此评论道:终于有人敢将“底细”公之于众了。

还有网友表示:大模型的智力水平,最好的办法便是盲训(zero-shot)和寻衅一些险些不可能涌如今测试集的题目。

智商不足的EVA仔细想了一下,某“高智商贴吧”彷佛又盘踞了高地?

一位答主在知乎上回答称,他希望让大家理性看待“刷榜”这个事情,事实上很多模型和GPT-4的差距还很大。

这一点,360创始人周鸿祎曾经在今年5月初,某家大模型公司开完发布会之后,揭橥过类似的不雅观点。

他说:“不经由两年模拟期就说「超越」GPT,那叫「吹牛」。

【本文来自丨AI奇点网丨全网账号同名丨欢迎搜索关注】

AI奇点网丨供应1000+款AI效率工具丨AIEVA.CN丨欢迎访问