SEAL 排行榜显示,OpenAI 的 GPT 系列 LLM 在其用于人工智能模型排名的四个初始领域中的三个领域排名第一,Anthropic PBC 广受欢迎的 Claude 3 Opus 在第四个领域排名第一。
Google LLC 的 Gemini 模型也表现出色,在个中几个领域与 GPT 模型并列第一。

Scale AI表示,它之以是创建SEAL排行榜,是由于现在有数以百计的LLM可供公司利用,而人工智能的表现却缺少透明度。
这些排行榜由 Scale AI 的安全、评估和对齐实验室(Safety, Evaluations, and Alignment Lab)开拓,并声称通过谢绝透露其用于评估 LLM 的提示的性子来保持中立性和完全性。

该公司指出,虽然也有其他对LLM进行排名的努力,如MLCommons的基准和斯坦福HAI的透明度指数,但其在人工智能演习数据方面的专业知识意味着它在战胜人工智能研究职员所面临的一些寻衅方面具有独特的上风。
例如,Scale AI指出,MLCommon的基准是公开的,因此公司可以对其模型进行专门演习,以准确相应他们利用的提示。

SEAL 开拓了私有的评估数据集,以保持其排名的完全性,听说其测试是由经由验证的领域专家创建的。
此外,所利用的提示和给出的排名都经由仔细评估,以确保其可信度,同时通过公布所利用评估方法的明确阐明来确保透明度。

Scale AI宣告首个大年夜措辞模型排行榜 对特定领域的AI模型机能进行排名

Scale AI 表示,在 Scale Coding 领域,每个模型都要在随机选择的提示上与评估中的其他模型进行至少 50 次比较,以确保结果的准确性。
编码评估试图评估每个模型天生打算机代码的能力,排行榜显示,OpenAI 的 GPT-4 Turbo Preview 和 GPT-4o 模型与Google的 Gemini 1.5 Pro(I/O 后)并列第一。

之以是将它们并列第一,是由于 Scale AI 只声称其评估分数的置信度为 95%,而且前三名之间的差距很小。
只管如此,GPT-4 Turbo Preview 彷佛略胜一筹,得到了 1155 分,GPT-4o 以 1144 分位居第二,Gemini 1.5 Pro(Post I/O)得到了 1112 分。

在多措辞领域,GPT-4o 和 Gemini 1.5 Pro(Post I/O)并列第一,得分分别为 1139 分和 1129 分,GPT-4 Turbo 和 Gemini Pro 1.5(Pre I/O)紧随其后,并列第三。

GPT-4o 在\"大众指令跟踪\公众领域也名列前茅,得到 88.57 分,GPT-4 Turbo Preview 以 87.64 分名列第二。
结果表明,Google在这一领域仍需努力,由于 OpenAI 最靠近的竞争对手是 Meta Platforms 公司的开源 Llama 3 70b Instruct(得分 85.55)和 Mistral 公司的 Mistral Large Latest LLM(得分 85.34)。

末了,Scale AI 测试了 LLM 的数学能力。
事实证明,Anthropic 的 Claude 3 Opus 以 95.19 的高分拔得头筹,无可争议地得到了第一名,超过了 95.10 的 GPT-4 Turbo Preview 和 94.85 的 GPT-4o。

这些比较很故意思,但彷佛还不能解释全部问题,由于有很多备受瞩目的龙8国际娱乐城彷佛没有被纳入评估范围。
例如,AI21实验室公司的Jurassic和Jamba以及Cohere公司的Aya和Command LLM在所有四项评估中都明显缺席,埃隆-马斯克(Elon Musk)的天生式人工智能初创公司xAI Corp.建立的Grok模型也是如此。

好是,Scale AI 可能会办理LLM排行榜不完全的问题。
该公司表示,它打算每年多次更新排行榜,以确保其与时俱进。
它将在\公众可用时\公众添加新的前沿模型。
此外,它还操持在排行榜上添加新的领域,力争成为最值得相信的大模型第三方评估机构。