deepseek提出的GRPO算法效果很好不过存在一些训练不稳定性的问题。中科

蚁工厂 2025-08-02 19:50:21

deepseek提出的GRPO算法效果很好不过存在一些训练不稳定性的问题。

中科院大学等机构提出了一种新的算法GMPO,通过将GRPO的算术平均值目标替换为几何平均值,并优化了裁剪策略,成功解决了GRPO的训练不稳定性问题 。

论文:arxiv.org/pdf/2507.20673

参考实现:github.com/callsys/GMPO ​​​

0 阅读:0
蚁工厂

蚁工厂

感谢大家的关注