[LG]《Reverse-EngineeredReasoningforOp

[LG]《Reverse-Engineered Reasoning for Open-Ended Generation》H Wang, H Que, Q Xu, M Liu... [ByteDance Seed] (2025)

深度推理范式在可验证领域已见成效，但开放式创作任务中缺乏明确奖励信号使传统方法难以奏效。逆向推理（REER）创新性地从高质量结果“反推”潜在思考轨迹，开辟了深度推理训练的新路径。

• REER将深度推理视为基于输出质量的搜索问题，以生成轨迹使参考答案困惑度最低，采用无梯度局部搜索迭代细化思考步骤，实现规模化合成。

• 通过网络爬取16000+问答对，合成20000条涵盖25类主题的深度推理轨迹，构建公开数据集DeepWriting-20K，填补开放式生成领域数据稀缺。

• 基于Qwen3-8B模型微调所得DeepWriter-8B，在长文本生成、实际问答和专业写作等多维基准上表现优异，超越开源对手且媲美甚至优于GPT-4o、Claude 3.5等顶尖闭源模型。

• 设计巧妙注入人类思维模式（如“嗯…或许”、“等等，有点…”），提升模型创造力和自我反思能力，尤其对文学艺术类写作贡献显著。

• 消融实验显示，逆向合成数据和迭代优化对性能提升不可替代，反映结构化、细粒度推理路径对复杂任务的核心价值。

• 混合训练策略有效避免过拟合，保持模型多领域常识与开放式生成能力的平衡，助力通用推理技能的内化。

心得：

1. 从输出到推理的逆向思考框架突破了传统正向训练的瓶颈，提供了一条高效且可规模化的深度推理构建新途径。

2. 结合困惑度作为轨迹质量指标，实现了非可验证任务下的推理轨迹搜索，开创了用生成模型自我指导推理过程的范例。

3. 注入多样化、自然的人类思维表达，显著提升了模型在创造性与结构性任务中的表现，体现认知多样性对生成质量的深远影响。

详情见🔗

大语言模型深度推理开放式生成自然语言处理机器学习人工智能

0 阅读：0

人性到底有多复杂？