值得把稳的是,这是海内大模型首次在SuperCLUE中文基准测试中超越GPT-4 Turbo实现登顶。
注:比拟模型数据均来源于SuperCLUE,SenseChat V5和Yi-Large取自2024年5月11日,别的所有模型取自2024年4月30日。由于部分模型分数较为靠近,为了减少问题颠簸对排名的影响,本次测评将相距0.25分区间的模型定义为并列,以上排序不代表示实排名。「日日新5.0」文科能力国内外第一
SuperCLUE综合性测评基准4月评测集,有2194道多轮简答题,覆盖理科与文科两大能力,包括打算、逻辑推理、代码、长文本在内的根本十大任务。
在本次测评中,SenseChat V5在各项能力上表现较为均衡,尤其在长文本、天生创作、角色扮演、安全能力、工具利用上处于环球领先位置。
在文科任务上SenseChat V5表现十分出色,以82.20分取得国内外最高分;理科任务上SenseChat V5以76.78分取得海内最好成绩。
SenseChat V5在文科任务上表现出色,取得82.20的高分,国内外模型中排名第一,较GPT-4-Turbo-0125高4.40分。个中,知识百科(82.4)、长文本(79.2)、角色扮演(80.4)、语义理解(81.6)、天生创作(79.4)、传统安全(90.2)均刷新海内最好成绩。
图说:SuperCLUE官方测评“日日新5.0”长文本示例
图说:SuperCLUE官方测评“日日新5.0”天生创作示例SenseChat V5在理科任务上表现不俗,取得76.78分,海内模型中排名第一。个中,打算(80.6)、逻辑推理(73.8)、工具利用(80.8)均刷新海内最好成绩。
图说:SuperCLUE官方测评“日日新5.0”逻辑推理示例SuperCLUE:SenseChat V5所有能力均超过海内模型均匀线
SuperCLUE事情组创造,将SenseChat V5与海内大模型均匀得分比拟,SenseChat V5在所有能力上均高于均匀线,展现出较均衡的综合能力,尤其在打算(+16.15)、逻辑推理(+18.89)、代码(+19.06)、长文本(+21.16)能力上远赶过均匀线15分以上。
比拟数据来源:SuperCLUE, 2024年4月30日
在与国外代表大模型比拟时SuperCLUE的事情组创造,SenseChat V5在文科类中文任务上好于国外大模型,尤其在长文本、天生创作能力较为领先。
中国首个GPT-4 Turbo级别的大模型
4月23日,商汤科技正式发布全新大模型日日新5.0(SenseChat V5),采取稠浊专家架构(MoE),参数量高达6000亿,支持200K的高下文窗口。
这次SenseChat V5模型能力显著提升,其背后是演习数据的全面升级与演习方法的有效提升,以及商汤AI大装置SenseCore算力举动步伐与算法设计的联合调优。
在数据方面,SenseChat V5采取了新一代数据生产管线,生产了10T tokens的高质量演习数据。通过多个模型进行数据的过滤和提炼,显著提升了预见质量和信息密度;基于风雅聚类的均衡采样确保对天下知识覆盖的完全性。同时,SenseChat V5还大规模采取了思维型的合成数据(数千亿tokens量级),这对付模型在逻辑推理、数学和编程等方面的能力提升起到了关键浸染。
SenseChat V5采取了自研的多阶段演习链路,包括三阶段预演习、双阶段SFT和在线RLHF。通过在每个阶段设定更加清晰聚焦的目标,实现更敏捷的调优,也避免了不同目标之间的相互滋扰。
个中在预演习阶段,分阶段培养模型的根本措辞和知识能力、长文建模能力、以及繁芜逻辑推理能力(规模化采取合成数据);在 SFT 阶段,把任务指令遵照和对话体验优化分解到双阶段进行;在 RLHF 阶段,采取统一的多维度褒奖模型和动态系统提示词对多维度偏好进行打分,从而更好地实现模型在多个维度和人类期望对齐。