AI考生高考成绩公布国产大年夜模型总分数学分数跨越GPT4o

大模型数学成绩都不及格

今年高考结束后，司南评测体系OpenCompass选取6个开源大模型和GPT-4o，开展了语文、数学、英语全卷能力测试。
评测采取全国新课标I卷，参与评测的开源模型的开源韶光均早于高考，确保考试“闭卷”性。
同时，成绩由具有高考评卷履历的西席人工评判，靠近真实阅卷的标准。

这6个大模型分别是阿里巴巴开源的Qwen2-57B和Qwen2-72B、上海人工智能实验室开源的“诗人·浦语”2.0文曲星、智谱AI开源的GLM-4-9B、零一万物开源的Yi-1.5-34B、法国企业Mistral开源的Mixtral 8x22B。
由于无法确定闭源大模型的更新韶光，为公正起见，这次评测没有纳入商用闭源模型，只引入GPT-4o作为评测参考。

由于受测的开源模型均为大措辞模型，在评测过程中，仅输入笔墨题干（数学包含2道带图试题），英语听力部分（分值30分）不纳入这次评测。

结果，阿里Qwen2-72B以总分303分排名第一，个中语文124分（满分150分），数学70分（满分150分），英语109分（满分120分）；GPT-4o以总分296分位居第二，个中语文111.5分，数学73分，英语111.5分；“诗人·浦语”2.0文曲星以0.5分之差排名第三，个中语文112分，数学75分，英语108.5分。

7个大模型的语数外得分情形

可以看到，“AI考生”三甲都善于文科，语文和英语成绩优秀，然而它们的数学推理能力有待提升，高考数学成绩都不及格。
目前，数学是所有大模型的短板，得益于上海人工智能实验室在数学推理上的投入，“诗人·浦语”2.0文曲星在高考中得到75分，在所有受测模型中位居榜首，但仍存在较大的提升空间。

阅卷老师点评“考生”表现

与以往多采取高考客不雅观题评测大模型的办法不同，在这次测试中，研究团队利用了语数外三科的全卷试题，既有选择、填空等“答案唯一性”题目，也包括简答、阅读理解、作文等主不雅观题，在更靠近真实高考的环境中测试模型能力。

为贴近高考评卷模式，研究团队约请多位有阅卷履历的高中西席对主不雅观题答案评分，每份考卷至少由3人分别打分。
碰着评分悬殊的情形，老师们会进行复核，只管即便做到评分公道，为人工智能学术界和家当界供应更有代价的参考指标。

与真实的高考一样，所有大模型答卷均进行了匿名处理，避免阅卷西席产生“先入为主”的不雅观念。
在完成所有大模型答卷的评分事情后，阅卷西席才被奉告所评“考生”的真实身份是大模型。

对付这些“AI考生”的语数外水平，老师们给出了中肯的评价——

语文评卷显示，大模型的当代文阅读理解能力普遍较强，但是不同模型的文言文阅读理解能力差距较大。
大模型写的作文更像问答题，虽然有针对性，但缺少润色，险些不用人类考生都会利用的举例论证、引用论证、名人名言等手腕。
多数大模型不理解“本体”“喻体”“暗喻”等语文观点。
对付文章中的一些“潜台词”，大模型还无法完备理解。

7个大模型的语文各题型得分情形

数学评卷显示，大模型的主不雅观题回答相对缭乱，而且解题过程有迷惑性，乃至涌现过程缺点但得到精确答案的情形。
大模型的公式影象能力很强，但无法在解题过程中灵巧利用。

7个大模型的数学各题型得分情形

大模型的英语整体表现良好，然而部分模型由于不适应一些题型，在七选五、完形填空等题型上得分较低。
大模型写的英语作文普遍存在因超出字数限定被扣分的情形，而人类考生大多由于字数不足被扣分。

7个大模型的英语各题型得分情形

栏目主编：黄海华

来源：作者：俞陶然

每期AI知识网

AI考生高考成绩公布国产大年夜模型总分数学分数跨越GPT4o

介绍积分墙代码,技术背后的商业逻辑与用户体验优化

韩国Rui Covery妥妥的三次元美男居然也疑似虚拟直播