deepseek提出的GRPO算法效果很好不过存在一些训练不稳定性的问题。中科

蚁工厂 2025-08-02 19:50:21

deepseek提出的GRPO算法效果很好不过存在一些训练不稳定性的问题。

中科院大学等机构提出了一种新的算法GMPO，通过将GRPO的算术平均值目标替换为几何平均值，并优化了裁剪策略，成功解决了GRPO的训练不稳定性问题。

论文：arxiv.org/pdf/2507.20673

参考实现：github.com/callsys/GMPO

0 阅读：0

感谢大家的关注

作者最新文章

1

快手和人大提出了ARPO算法，一种专为训练多轮基于大语言模型的智能体制定的强化学

2

stackoverflow发布了2025年开发者调查报告图1 最流行的语言。图2

3

2025 最新校招面试题合集github.com/0voice/Campus_r

4

tldr，一个类似于man命令，但更容易理解、更多示例的工具github.com

5

阿里CFO首谈4000亿投向AI与内需业内的基本都知道阿里在AI上的投入很大。

6

Cline的真实世界数据，Qwen3 Coder 、kimi k2的“diff

7

智谱还搞了个50元一个月一万亿token的畅玩包..不知道速度啥的咋样

8

大模型看病和医生看病各有优劣，大模型看病的优点是可以随叫随到、随时听你补充信息，

9

妹子一觉醒来发现自己的照片被推送了6000万次

10

过去几天里，智谱发布了 GLM 4.5 / GLM-4.5-Air阿里发布了 W

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

科技TOP

1

哈哈哈昨晚三星发布会我是真的看爽了！三星折叠屏比直板更轻薄GalaxyZF

2

2025下半年新机打架谁是你的菜？

3

荣耀线下店基本全面铺货，趁着周末去摸了摸荣耀X70，跟我想的有点不一样上手真

4

论手感的话，个人感觉还得是钛金属，大家觉得呢？[思考]

5

三星折叠屏比直板更轻薄刷到三星的全球新品发布会，又被三星的折叠屏手机硬控了，知道

6

很庆幸买了荣耀400Pro，没买华为Nova14Pro。最近换手机，在华为Nov

7

目前来看，iPhone17系列只要你不选标准版，大概率是怎么选都不会后悔，当然

8

9月份集体硬刚iPhone？你更期待哪款？9月份就是新一轮旗舰机，集体硬刚i

9

比亚迪APP征集全新名称了，目前看了一下，提到比较多的就是“迪家”，确实简单好记

10

红米新机Redmi15外观渲染图曝光：后置三摄采用纵向排列的矩形Deco今

科技最新文章

1

荣耀最新旗舰荣耀Magic8系列配置预测，为了满足消费者的需求，这次的荣耀Mag

2

目前最值得入手的3款荣耀手机1、荣耀400Pro，相对上一代产品升级到了满

3

预1500元以内，这3款手机的性能和续航“最强”，轻松用五年红米Turbo3

4

荣耀的10,000mAh电池手机要来了！更让人吃惊的是他的厚度将控制

5

华为Mate80系列爆料来啦～📱据博主透露，新机将搭载低轨卫星通讯，户外没

6

一加要站起来了！这不得卖爆？新款一加Ace6爆料也来了，超声波指纹、金属中框

7

罗永浩连怼网友罗永浩怎么了罗永浩连续发微博怼网友，他怎么了

8

三星这波系统升级真的让人又爱又恨啊！昨天看到推送通知马上就点了更新，结果

9

华为Mate60Pro，12+512GB，薄荷绿色。搭载HarmonyOS

10

iPhone17Pro传言：1.铝金属中框2.抗反射显示屏