【后训练知识蒸馏:监督式蒸馏vs.合成数据蒸馏vs.在线策略蒸馏】●知

爱生活爱珂珂 2025-02-08 09:33:12

【后训练知识蒸馏:监督式蒸馏 vs. 合成数据蒸馏 vs. 在线策略蒸馏】

● 知识蒸馏三种方式:

- 监督式蒸馏:让小模型直接学习大模型的输出概率分布

- 合成数据蒸馏:用大模型生成高质量训练数据来教小模型

- 在线策略蒸馏:让小模型边学边实践,通过即时反馈不断改进

● 每种方法的特点:

- 监督式就像填鸭式教育,直接告诉答案

- 合成数据像准备精心设计的习题

- 在线策略则更像启发式教学,在实践中学习

《Post-Training Distillation for LLMs》

0 阅读:1
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注