开撕!CohereLabs的ShivalikaSingh等人发了一篇研究报告

又仁看科技 2025-05-01 16:53:25

开撕!Cohere Labs的Shivalika Singh等人发了一篇研究报告《The Leaderboard Illusion》(arxiv.org/pdf/2504.20879),炮轰大模型排行榜LMArena 存在系统性问题,并导致排行榜结果扭曲。昨天Andrej Karpathy的博文也是因为这个有感而发。

主要的问题是:

1. Chatbot Arena 允许某些提供商在公开发布前私下测试多个模型变体,并选择表现最好的版本提交到排行榜。例如,Meta 在发布 Llama-4 前测试了 27 个私密变体。

2. 专有模型提供商(如 Google 和 OpenAI)获得了大量数据,分别占 Arena 总数据的 19.2% 和 20.4%,而 83 个开放权重模型仅获得 29.7% 的数据。

3. 尽管 Chatbot Arena 的动态特性使得完全过拟合变得困难,但作者发现 Arena 的提示分布存在长期变化和重复性,这使得模型可以通过学习这些模式来提高表现。

4. Chatbot Arena 的模型淘汰政策导致了大量模型被“静默淘汰”,即这些模型的采样率被降低到接近零,而没有通知提供商。

图2/3则是LMArena 的回应。上次Llama-4得分的虚高对其可信度还是有影响的。

AI创造营

0 阅读:0
又仁看科技

又仁看科技

感谢大家的关注