[LG]《Reverse-EngineeredReasoningforOp

爱生活爱珂珂 2025-09-14 05:41:11

[LG]《Reverse-Engineered Reasoning for Open-Ended Generation》H Wang, H Que, Q Xu, M Liu... [ByteDance Seed] (2025)

深度推理范式在可验证领域已见成效,但开放式创作任务中缺乏明确奖励信号使传统方法难以奏效。逆向推理(REER)创新性地从高质量结果“反推”潜在思考轨迹,开辟了深度推理训练的新路径。

• REER将深度推理视为基于输出质量的搜索问题,以生成轨迹使参考答案困惑度最低,采用无梯度局部搜索迭代细化思考步骤,实现规模化合成。

• 通过网络爬取16000+问答对,合成20000条涵盖25类主题的深度推理轨迹,构建公开数据集DeepWriting-20K,填补开放式生成领域数据稀缺。

• 基于Qwen3-8B模型微调所得DeepWriter-8B,在长文本生成、实际问答和专业写作等多维基准上表现优异,超越开源对手且媲美甚至优于GPT-4o、Claude 3.5等顶尖闭源模型。

• 设计巧妙注入人类思维模式(如“嗯…或许”、“等等,有点…”),提升模型创造力和自我反思能力,尤其对文学艺术类写作贡献显著。

• 消融实验显示,逆向合成数据和迭代优化对性能提升不可替代,反映结构化、细粒度推理路径对复杂任务的核心价值。

• 混合训练策略有效避免过拟合,保持模型多领域常识与开放式生成能力的平衡,助力通用推理技能的内化。

心得:

1. 从输出到推理的逆向思考框架突破了传统正向训练的瓶颈,提供了一条高效且可规模化的深度推理构建新途径。

2. 结合困惑度作为轨迹质量指标,实现了非可验证任务下的推理轨迹搜索,开创了用生成模型自我指导推理过程的范例。

3. 注入多样化、自然的人类思维表达,显著提升了模型在创造性与结构性任务中的表现,体现认知多样性对生成质量的深远影响。

详情见🔗

大语言模型深度推理开放式生成自然语言处理机器学习人工智能

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注