腾讯混元将图像生成训练时间减半腾讯混元开源图像生成高效强化方案
图像生成不光要好看,更要高效。
混元基础模型团队提出全新框架MixGRPO,该框架通过结合随机微分方程(SDE)和常微分方程(ODE),利用混合采样策略的灵活性,简化了MDP中的优化流程,从而提升了效率的同时还增强了性能。
基于MixGRPO,研究人员提出了一个更快的变体MixGRPO-Flash,在保持相近性能的同时进一步提升了训练效率。
MixGRPO在人类偏好对齐的多个维度上均表现出显著提升,效果和效率均优于DanceGRPO,训练时间降低近50%。值得注意的是,MixGRPO-Flash可将训练时间进一步降低71%。