开撕！CohereLabs的ShivalikaSingh等人发了一篇研究报告

蚁工厂 2025-05-01 16:53:25

开撕！Cohere Labs的Shivalika Singh等人发了一篇研究报告《The Leaderboard Illusion》（arxiv.org/pdf/2504.20879），炮轰大模型排行榜LMArena 存在系统性问题，并导致排行榜结果扭曲。昨天Andrej Karpathy的博文也是因为这个有感而发。

主要的问题是：

1. Chatbot Arena 允许某些提供商在公开发布前私下测试多个模型变体，并选择表现最好的版本提交到排行榜。例如，Meta 在发布 Llama-4 前测试了 27 个私密变体。

2. 专有模型提供商（如 Google 和 OpenAI）获得了大量数据，分别占 Arena 总数据的 19.2% 和 20.4%，而 83 个开放权重模型仅获得 29.7% 的数据。

3. 尽管 Chatbot Arena 的动态特性使得完全过拟合变得困难，但作者发现 Arena 的提示分布存在长期变化和重复性，这使得模型可以通过学习这些模式来提高表现。

4. Chatbot Arena 的模型淘汰政策导致了大量模型被“静默淘汰”，即这些模型的采样率被降低到接近零，而没有通知提供商。

图2/3则是LMArena 的回应。上次Llama-4得分的虚高对其可信度还是有影响的。

AI创造营

0 阅读：0

感谢大家的关注

作者最新文章

1

数据库教程-DB-TUTORIAL地址：dunwu.github.io/db-t

2

开源交互式 C 语言教程 ( learn-c.org ) ，英文，图为机翻。直接

3

通过 Cherry Studio 首次注册硅基流动并授权登录的新用户可得20元体

4

如何在没有操作系统时运行C语言的 printf？ popovicu.com/po

5

来自华中科技大学的研究者发了一篇MCP的综述论文arxiv.org/pdf/25

6

Secretary - 社交媒体内容分析助手github.com/zkd8907

7

The-Book-of-Secret-Knowledgegithub.com/t

8

抽奖赠书携手送出 3 本《自制深度学习推理框架》截止 2025.5.4 1

9

Tiny Agents: a MCP-powered agent in 50 l

10

Echo：开源硬件音乐播放器github.com/amachronic/echo

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

一图解读：十款手机配置，各显神通，你更喜欢哪款？

2

存一张美得很人山人海的（AI

3

【王腾官宣REDMI旗舰小平板：手感非常好，性能非常强，配置非常满】王腾在微博上

4

刘强东还能不能撑住！美团王兴放话“不惜一切代价”狙击京东，这边京东外卖日单量破2

5

荣耀宣布2100起售之后我估计友商集体沉默了，已经不是掀桌子那么简单，而是全部

6

618iPhone手机哪款值得入手啊？

7

看来Mate系列才是真旗舰，昨天发布的Pura80系列虽然影像牛的不行，但有一点

8

左边是我花了5499国补价买到的iPhone16Pro，右边是苹果直营店里

9

华为又有几款平板要开始鸿蒙5公测了，如果不是游戏用户，可以升级体验体验，毕竟视频

10

2025年5月OPPO四款手机推荐，性能与颜值并存！618你会选购哪款呢？

科技最新文章

1

正式官宣！荣耀MagicV5发布会定档，配置全面曝光搭载骁龙8至尊版、

2

我去，华为Mate70Pro价格这么坚挺，基本没怎么跳水，Mate系列的保值率

3

这些年用了很多个手机，发现一个规律，买1000元的手机只能用一年，一年一到，各种

4

华为Mate80的配置实在是太诱人！全系都换成直屏了，而且采用侧边超声波指纹

5

这些年用了很多个手机，发现一个规律，买1000元的手机只能用一年，一年一到，各种

6

回收一个iPhone13Pro循环1546次，电池健康92我问他有没

7

不懂就问：小伙伴们，同为618＋国补后价格为3199元，12+512G版本的荣耀

8

在犹豫荣耀300系列跟荣耀Magic7系列如何选？荣耀300系列定位荣耀数字

9

华为于2024年11月就已经上市了mate70pro，华为mate80Pro也即

10

马斯克刚刚宣布："星链"卫星通信系统已在伊朗投入使用。要知道这对于伊朗当地的通信