高考结束,大模型做高考数学题的完整评测结果也如约而至,其实让大模型去做高考试题已

用户_988205 2025-06-12 22:15:28

高考结束,大模型做高考数学题的完整评测结果也如约而至,其实让大模型去做高考试题已经成了AI媒体的传统艺能,比起很多带有明显猴戏成分的评测项目,「做试卷」的参考价值的确还是要强不少的。 在去年上海人工智能实验室的评测里,语数英三科都有,能参与测评的样本不算多,总分排名前三的是Qwen2、GPT 4o和上海人工智能实验室自家的开源大模型,他们的共性是在数学这门学科上的表现都很糟糕,最高的也只有75分。 然而今年的测评结果,也直接印证了大模型能力在过去一年里进步究竟有多神速,总体看下来,我就感觉到快。 先说结果,按机器之心的测评来看,Gemini以145分——几乎是去年的一倍——位列第一,豆包、DeepSeek仅以1分之差并列第二,前三名的分数非常接近。 怎么说呢,这个排名既有情理之中,也有意料之外。 情理之中的部分,是Gemini 2.5 pro的表现确实很强,不光是机器之心这边,在卡兹克等多个媒体评测里也很能打,这1分之差,也是依靠着带有主观性的解答题拉开的。 再就是DeepSeek的成绩也相当稳定,虽然平时我们说平时使用它的幻觉率很高,但真到了考验大模型能力的实战上,别人一点也不含糊。 然后就是意料之外的部分了,GPT o3成为了唯一一个在客观题上丢分的大模型,在一众满分里显得十分扎眼,不过这可能也是IP受限的缘故,没办法发挥出它的真正水准。 最重要的来了,人畜无害的豆包成功反掉了所有人的直觉,在机器之心和卡兹克两家不同的测评里都拿到了并列第二的成绩,且跟头名Gemini的差距小到几乎可以忽略不计。 机器之心这边甚至还做了两次测试,一次调用了API接口,另一次直接用产品,结果豆包在两次测试里表现差别很小,作为参考,混元等大模型前后差距很明显,也就是说平日里调用API和直接用产品之间,体感上可能是完全不同的。 业界对字节AI业务的印象,通常还停留在它善于思考「怎么用」这个命题上,坐拥一个国民级的内容平台,豆包也很自然地成为了国内最接近All in one形态的AI产品,只是对于它的能力放在大模型多如繁星的国内,究竟处于一个怎样的地位,除了测评里那些冷冰冰的数据外,恐怕多数人都还是茫然的。 更何况豆包这次给人带来的惊喜不止是成绩,两次测评结果几乎无异,也意味着豆包数千万日活用户都在「所见即所得」,这一点很重要,尤其是在所谓AI杀手级应用诞生前夕,培养C端用户对AI大模型能力的认知,是一个断然不能缺失的环节。 哪怕大模型的迭代是一场无止境的无限游戏,所有领先和落后都可以是暂时性的,那豆包眼下的测试结果也足够有鼓舞价值,比如我一直说DeepSeek最出色的贡献,其实是把大模型推到了一个人尽皆知的通用商品定位上,那豆包便证明了,国内AI公司跳脱出硬蹭DeepSeek那套叙事后,也能把大模型做得风生水起,甚至把模型能力打到第一梯队上去。 还是那句话,对竞争对手最大的尊重不是「拿来主义」,而是创造一个良性公平的竞争环境,否则就会陷入跳蚤效应的怪圈里,通过给自己不断设限的心理暗示,扼杀掉所有创造的可能性。 更何况关于AI的竞争才刚刚开始,所有成王败寇的结果都言之尚早,在正式交卷前,专注眼下才是最重要的事情。

0 阅读:0
用户_988205

用户_988205

感谢大家的关注