人类最后的考试首次突破30分上交大开源方案碾压OpenAI“人类最后的考试”首次

量子位看科技 2025-07-09 18:33:26

人类最后的考试首次突破30分上交大开源方案碾压OpenAI

“人类最后的考试”首次突破30分,还是咱国内团队干的!

该测试集是出了名的超难,刚推出时无模型得分能超过10分。

直到最近,最高分也不过26.9,由Kimi-Research和Gemini Deep Research并列取得。

现在,上海交大联合深势科技团队突然发布了一项新研究,在“人类最后的考试”(HLE,Humanity’s Last Exam)上一举拿下32.1分,创下新纪录。

在这项研究中,团队推出工具增强推理智能体X-Master、多智能体工作流系统X-Masters。

划重点:还直接把这套方案给开源了。

网友们纷纷感叹现在AI竞赛太激烈,一天一个样。

另外值得一提的是,这项研究使用了DeepSeek-R1-0528作为驱动智能体的推理模型,由此也有网友表示:

“R1在函数调用上表现仍欠佳,而且在这项研究里甚至没有针对这一点进行微调。但即便如此,只要给它搭配合适的框架,它在HLE这个难度很高的测试中就能拿到32%的成绩。

“虽然大家可能会习惯性地称R1为‘最佳基础模型’,但我觉得这其实是给V4打下了基础。我敢肯定,V4一出来就会自带智能体功能。”

接下来,我们具体来看X-Master和X-Masters👇

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注