【后训练知识蒸馏:监督式蒸馏 vs. 合成数据蒸馏 vs. 在线策略蒸馏】
● 知识蒸馏三种方式:
- 监督式蒸馏:让小模型直接学习大模型的输出概率分布
- 合成数据蒸馏:用大模型生成高质量训练数据来教小模型
- 在线策略蒸馏:让小模型边学边实践,通过即时反馈不断改进
● 每种方法的特点:
- 监督式就像填鸭式教育,直接告诉答案
- 合成数据像准备精心设计的习题
- 在线策略则更像启发式教学,在实践中学习
《Post-Training Distillation for LLMs》
【后训练知识蒸馏:监督式蒸馏 vs. 合成数据蒸馏 vs. 在线策略蒸馏】
● 知识蒸馏三种方式:
- 监督式蒸馏:让小模型直接学习大模型的输出概率分布
- 合成数据蒸馏:用大模型生成高质量训练数据来教小模型
- 在线策略蒸馏:让小模型边学边实践,通过即时反馈不断改进
● 每种方法的特点:
- 监督式就像填鸭式教育,直接告诉答案
- 合成数据像准备精心设计的习题
- 在线策略则更像启发式教学,在实践中学习
《Post-Training Distillation for LLMs》
作者最新文章
热门分类
科技TOP
科技最新文章