[LG]《ForTIFAI: Fending Off Recursive Training Induced Failure for AI Models》S Z Shabgahi, P Aghazadeh, A Mirhosseini, F Koushanfar [UC San Diego & Stanford University] (2025)
ForTIFAI提出了一种创新训练策略,有效延长生成模型在递归自训练环境下的稳定性,缓解“模型崩溃”难题。
• 现象描述:生成模型反复以自身输出为训练数据,导致性能递减、分布多样性丧失,称为模型崩溃,且仅1%合成数据就可能引发。
• 关键发现:模型对自生成数据过度自信,放大采样偏差,逐代加剧分布收缩,尾部信息逐渐消失。
• 技术突破:设计了Truncated Cross Entropy(TCE)损失函数,动态屏蔽高置信度预测的损失贡献,促使模型关注低置信度、长尾样本,有效维持数据多样性。
• 理论支持:基于高斯模型数学推导,TCE通过放大尾部方差,抵消采样偏差导致的方差坍缩,稳定训练过程。
• 评估框架:模拟真实场景下人类与机器生成数据混合递增,提出知识保留测试(KR-test)衡量模型事实记忆能力,结合数学推理、常识推断、语法一致性等多维度评测。
• 实验验证:在Wikitext、Imagination-of-Web等多模态数据集及LLaMA、Gemma、GMM、VAE等多种模型上,TCE显著延长模型“失效时间”2.3倍以上,减少KL散度漂移,保持生成质量与多样性。
• 泛化潜力:方法简单易实现,适配跨语言、图像及混合生成模型,具备广泛推广价值。
心得:
1. 模型训练中,过度自信反而是质量恶化的根源,合理引导学习信号关注不确定性区域能有效防止性能坍缩。
2. 递归自训练的反馈机制本质上是分布收缩的动态过程,适当“截断”损失对高置信样本的影响,能维持分布尾部活力。
3. 评估合成数据影响需结合知识保持与多样性指标,单纯基于语言流畅度或相似度的传统指标不足以揭示模型崩溃风险。
详细阅读🔗arxiv.org/abs/2509.08972
生成模型模型崩溃训练策略人工智能自监督学习损失函数大语言模型