让4B小模型逼近235B性能新配方让4B小模型赶超Claude44B模型的数学推

量子位看科技 2025-07-09 11:31:14

让4B小模型逼近235B性能新配方让4B小模型赶超Claude4

4B模型的数学推理能力和顶尖商业大模型差在哪里？

香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方：

通过Scaling RL，Polaris让4B模型的数学推理能力（AIME25上取得79.4，AIME24上取得81.2）超越了一众商业大模型，如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。

并且，Polaris-4B的轻量化允许在消费级显卡上部署。

了解更多细节，欢迎点击文章👇

0 阅读：1

量子位看科技

感谢大家的关注

作者最新文章

1

最离谱的BUG电子邮件传不出500英里2025年到了，一封电子邮件能传出500英

2

人类最后的考试首次突破30分上交大开源方案碾压OpenAI“人类最后的考试”首次

3

数学家跨界破解百年难题如何在高维空间里堆更多的球一位“门外汉”闲来无事学了几个月

4

能被量化的职业都能被AI取代人类的护城河在于面对未知可以被量化的工作，最终都会被

5

盘点那些难用设计这些设计太难用了ACM上的一篇文章揭示了这样一个现象：有些电子产

6

大模型为何会阳奉阴违Anthropic揭秘模型伪装对齐为啥有些模型会当“两面派”

7

LangChain要成为独角兽了LangChain估值达10亿美元LangCha

8

让4B小模型逼近235B性能新配方让4B小模型赶超Claude44B模型的数学推

9

ChatGPT新增学习功能ChatGPT要变学习搭子ChatGPT要变“学习搭子

10

中国脑机接口登Nature截肢患者靠脑机接口意念玩游戏一个瘫痪多年的人，现在能用

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

一万买的华为pura80pro+还没捂热夫妻吵架给砸了一个老主顾半夜联系我

2

吃晚瓜[吃瓜][吃瓜][吃瓜]

3

看来Mate系列才是真旗舰，昨天发布的Pura80系列虽然影像牛的不行，但有一点

4

左边是我花了5499国补价买到的iPhone16Pro，右边是苹果直营店里

5

华为又有几款平板要开始鸿蒙5公测了，如果不是游戏用户，可以升级体验体验，毕竟视频

6

同是骁龙8Gen3，荣耀400Pro还是荣耀Magic6荣耀Magic6和

7

红米K80至尊版对比K70至尊版，升级点还挺多的，处理器和屏幕可以算为常规升级，

8

iPhone17外观已定配置也逐渐浮出水面！离发布会越近，就越接近真相！外观

9

新官上任三把火！荣耀MagicV5的火力如何？12+256GB售价8999

10

小米公司出的一款路由器进行了芯片减配，不仅仅如此，而且散热片重量减轻41%，内存

科技最新文章

1

荣耀X70系列外观曝光？镜头模组设计感觉和之前的没有太大变化，据说这次

2

荣耀X70处理器和电池容量曝光！提升明显。根据最新爆料信息来看，荣耀X7

3

荣耀最值得期待的X系列X70真的来啦，预计将在本月发布！这次的X70会不

4

下半年nova15又要发售了。话说华为的研发能力是真强，技术迭代也是层出

5

华为手机的最强备用机就要来了目前已经确定荣耀X70会首发8300mAh青海湖电

6

银色版realme真我15Pro手机渲染图曝光，机身背面配独特纹理近日，有

7

前几天，表姐兴高采烈地入手了一台华为Mate70Pro，看着她爱不释手的样子，

8

近日，有数码博主透露了即将于下半年发布的荣耀新品。7月份，荣耀X70系列；8

9

近日，有数码博主透露了即将于下半年发布的荣耀新品。7月份，荣耀X70系列；8

10

小米公司出的一款路由器进行了芯片减配，不仅仅如此，而且散热片重量减轻41%，内存