让4B小模型逼近235B性能新配方让4B小模型赶超Claude44B模型的数学推

量子位看科技 2025-07-09 11:31:14

让4B小模型逼近235B性能新配方让4B小模型赶超Claude4

4B模型的数学推理能力和顶尖商业大模型差在哪里?

香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方:

通过Scaling RL,Polaris让4B模型的数学推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一众商业大模型,如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

并且,Polaris-4B的轻量化允许在消费级显卡上部署。

了解更多细节,欢迎点击文章👇

0 阅读:1
量子位看科技

量子位看科技

感谢大家的关注