人类最后的考试首次突破30分上交大开源方案碾压OpenAI“人类最后的考试”首次

量子位看科技 2025-07-09 18:33:26

人类最后的考试首次突破30分上交大开源方案碾压OpenAI

“人类最后的考试”首次突破30分，还是咱国内团队干的！

该测试集是出了名的超难，刚推出时无模型得分能超过10分。

直到最近，最高分也不过26.9，由Kimi-Research和Gemini Deep Research并列取得。

现在，上海交大联合深势科技团队突然发布了一项新研究，在“人类最后的考试”（HLE，Humanity’s Last Exam）上一举拿下32.1分，创下新纪录。

在这项研究中，团队推出工具增强推理智能体X-Master、多智能体工作流系统X-Masters。

划重点：还直接把这套方案给开源了。

网友们纷纷感叹现在AI竞赛太激烈，一天一个样。

另外值得一提的是，这项研究使用了DeepSeek-R1-0528作为驱动智能体的推理模型，由此也有网友表示：

“R1在函数调用上表现仍欠佳，而且在这项研究里甚至没有针对这一点进行微调。但即便如此，只要给它搭配合适的框架，它在HLE这个难度很高的测试中就能拿到32%的成绩。

“虽然大家可能会习惯性地称R1为‘最佳基础模型’，但我觉得这其实是给V4打下了基础。我敢肯定，V4一出来就会自带智能体功能。”

接下来，我们具体来看X-Master和X-Masters👇

0 阅读：0

猜你喜欢

现在中国人的命是空调给的，这句话绝非危言耸听！如果再不保护环境，人类距离自己把自

现在中国人的命是空调给的，这句话绝非危言耸听！如果再不保护环境，人类距离自己把自

【258评论】【138点赞】

中国科技什么时候可以超越美国?

中国科技什么时候可以超越美国?

【3评论】

美国

这就是你的博帝当之无愧的门面担当✨💅

这就是你的博帝当之无愧的门面担当✨💅

【1评论】

王一博

俄军攻入新经济城，突破红军城外围堡垒之一！苏梅地区2025年7月7日苏梅安全

俄军攻入新经济城，突破红军城外围堡垒之一！苏梅地区2025年7月7日苏梅安全

【2评论】【7点赞】

俄军乌军安全区装甲车

空调发明者，到底是是不是造福人类呢？一年比一年热，不是因为空调多的原因，因为埋藏

空调发明者，到底是是不是造福人类呢？一年比一年热，不是因为空调多的原因，因为埋藏

【2评论】【2点赞】

空调

这TM是人类的语言么？

这TM是人类的语言么？

【16评论】【1点赞】

公务员

有人疼才显得多么出众

有人疼才显得多么出众

【2评论】【46点赞】

量子位看科技

感谢大家的关注

作者最新文章

1

最离谱的BUG电子邮件传不出500英里2025年到了，一封电子邮件能传出500英

2

人类最后的考试首次突破30分上交大开源方案碾压OpenAI“人类最后的考试”首次

3

数学家跨界破解百年难题如何在高维空间里堆更多的球一位“门外汉”闲来无事学了几个月

4

能被量化的职业都能被AI取代人类的护城河在于面对未知可以被量化的工作，最终都会被

5

盘点那些难用设计这些设计太难用了ACM上的一篇文章揭示了这样一个现象：有些电子产

6

大模型为何会阳奉阴违Anthropic揭秘模型伪装对齐为啥有些模型会当“两面派”

7

LangChain要成为独角兽了LangChain估值达10亿美元LangCha

8

让4B小模型逼近235B性能新配方让4B小模型赶超Claude44B模型的数学推

9

ChatGPT新增学习功能ChatGPT要变学习搭子ChatGPT要变“学习搭子

10

中国脑机接口登Nature截肢患者靠脑机接口意念玩游戏一个瘫痪多年的人，现在能用

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

一万买的华为pura80pro+还没捂热夫妻吵架给砸了一个老主顾半夜联系我

2

吃晚瓜[吃瓜][吃瓜][吃瓜]

3

看来Mate系列才是真旗舰，昨天发布的Pura80系列虽然影像牛的不行，但有一点

4

左边是我花了5499国补价买到的iPhone16Pro，右边是苹果直营店里

5

华为又有几款平板要开始鸿蒙5公测了，如果不是游戏用户，可以升级体验体验，毕竟视频

6

同是骁龙8Gen3，荣耀400Pro还是荣耀Magic6荣耀Magic6和

7

红米K80至尊版对比K70至尊版，升级点还挺多的，处理器和屏幕可以算为常规升级，

8

iPhone17外观已定配置也逐渐浮出水面！离发布会越近，就越接近真相！外观

9

新官上任三把火！荣耀MagicV5的火力如何？12+256GB售价8999

10

小米公司出的一款路由器进行了芯片减配，不仅仅如此，而且散热片重量减轻41%，内存

科技最新文章

1

荣耀X70系列外观曝光？镜头模组设计感觉和之前的没有太大变化，据说这次

2

荣耀X70处理器和电池容量曝光！提升明显。根据最新爆料信息来看，荣耀X7

3

荣耀最值得期待的X系列X70真的来啦，预计将在本月发布！这次的X70会不

4

下半年nova15又要发售了。话说华为的研发能力是真强，技术迭代也是层出

5

华为手机的最强备用机就要来了目前已经确定荣耀X70会首发8300mAh青海湖电

6

银色版realme真我15Pro手机渲染图曝光，机身背面配独特纹理近日，有

7

前几天，表姐兴高采烈地入手了一台华为Mate70Pro，看着她爱不释手的样子，

8

近日，有数码博主透露了即将于下半年发布的荣耀新品。7月份，荣耀X70系列；8

9

近日，有数码博主透露了即将于下半年发布的荣耀新品。7月份，荣耀X70系列；8

10

小米公司出的一款路由器进行了芯片减配，不仅仅如此，而且散热片重量减轻41%，内存