Qwen成绩高是提前看过题Qwen2.5数据污染
数学能力,全靠记忆?
一篇来自复旦大学的最新研究发现:Qwen2.5在数学题上的好成绩,其实很大程度上是因为提前见过题!
当他们使用训练时未接触过的基准测试中进行评估时,Qwen2.5的表现出现了急剧下降。
为验证这一点,研究团队把MATH 500基准测试的原题截断 40 %/60 %/80 %提供给Qwen2.5,看模型能否补全余下文字和答案。
结果发现,Qwen2.5-Math-7B成功重构了缺失的40%题目,准确率达54.6%,答题正确率为53.6%。
相比之下,Llama3.1-8B仅达到3.8%和2.4%。这种差距只能说明一个问题:Qwen很可能早就见过这些题。
为了进一步验证,他们用一个更干净的新数据集LiveMathBench(202505版)来测试。
结果Qwen2.5的完成率直接掉到0%,准确率只有2%,和Llama差不多。
为什么会这样?答案可能藏在它的训练数据里:Qwen2.5在大型在线数据集上进行了预训练,而这些数据里包含了很多GitHub上的题库和答案。
也就是说,即使是训练期间随机或错误的奖励信号,只要模型提前见过数据,结果也会被掺水。
为获取可信的评估依据,研究团队还创建了RandomCalculation数据集,能生成任意长度与难度合成算术问题。
在这个新数据集上,Qwen2.5的表现会随着题目变难而变差。只有正确的奖励信号能提升表现,反之,随机奖励会让训练不稳定,甚至越练越差。
可控的RLVR实验证实了这些结果:只有正确奖励能带来稳定提升,随机或反向奖励要么无法提升表现,要么会主动降低表现。
这也意味着,之前那些仅需极少甚至无需外部监督就能实现显著改进,甚至随机或错误的奖励信号也能增强推理表现的研究结论,可信度可能还需要再重新检验。
论文地址: