deepseek提出的GRPO算法效果很好不过存在一些训练不稳定性的问题。
中科院大学等机构提出了一种新的算法GMPO,通过将GRPO的算术平均值目标替换为几何平均值,并优化了裁剪策略,成功解决了GRPO的训练不稳定性问题 。
论文:arxiv.org/pdf/2507.20673
参考实现:github.com/callsys/GMPO
deepseek提出的GRPO算法效果很好不过存在一些训练不稳定性的问题。
中科院大学等机构提出了一种新的算法GMPO,通过将GRPO的算术平均值目标替换为几何平均值,并优化了裁剪策略,成功解决了GRPO的训练不稳定性问题 。
论文:arxiv.org/pdf/2507.20673
参考实现:github.com/callsys/GMPO
作者最新文章
热门分类
科技TOP
科技最新文章