[LG]《Reverse-Engineered Reasoning for Open-Ended Generation》H Wang, H Que, Q Xu, M Liu... [ByteDance Seed] (2025)
深度推理范式在可验证领域已见成效,但开放式创作任务中缺乏明确奖励信号使传统方法难以奏效。逆向推理(REER)创新性地从高质量结果“反推”潜在思考轨迹,开辟了深度推理训练的新路径。
• REER将深度推理视为基于输出质量的搜索问题,以生成轨迹使参考答案困惑度最低,采用无梯度局部搜索迭代细化思考步骤,实现规模化合成。
• 通过网络爬取16000+问答对,合成20000条涵盖25类主题的深度推理轨迹,构建公开数据集DeepWriting-20K,填补开放式生成领域数据稀缺。
• 基于Qwen3-8B模型微调所得DeepWriter-8B,在长文本生成、实际问答和专业写作等多维基准上表现优异,超越开源对手且媲美甚至优于GPT-4o、Claude 3.5等顶尖闭源模型。
• 设计巧妙注入人类思维模式(如“嗯…或许”、“等等,有点…”),提升模型创造力和自我反思能力,尤其对文学艺术类写作贡献显著。
• 消融实验显示,逆向合成数据和迭代优化对性能提升不可替代,反映结构化、细粒度推理路径对复杂任务的核心价值。
• 混合训练策略有效避免过拟合,保持模型多领域常识与开放式生成能力的平衡,助力通用推理技能的内化。
心得:
1. 从输出到推理的逆向思考框架突破了传统正向训练的瓶颈,提供了一条高效且可规模化的深度推理构建新途径。
2. 结合困惑度作为轨迹质量指标,实现了非可验证任务下的推理轨迹搜索,开创了用生成模型自我指导推理过程的范例。
3. 注入多样化、自然的人类思维表达,显著提升了模型在创造性与结构性任务中的表现,体现认知多样性对生成质量的深远影响。
详情见🔗
大语言模型深度推理开放式生成自然语言处理机器学习人工智能