LLM的强化学习训练最近进展很快,SOTA模型在各种推理benchmark上的表现确实亮眼。但更值得关注的其实是另一条信息——从Rutgers到Alibaba再到HKUST,这些研究团队正在攻克的是RL领域的一个老大难:怎么控制好熵,同时避免模型退化成毫无用处的确定性输出。
三篇新论文给出了不同角度的解法:CE-GPPO、EPO和AsyPPO。虽然切入点各有不同,但合在一起就能发现它们正在重塑大规模推理模型的训练方法论。下面详细说说这三个工作到底做了什么。
标准PPO在熵控制上的失效先说policy entropy这个概念。熵衡量模型输出的随机性或者说多样性程度——高熵对应探索不同解法,低熵则是锁定单一策略。经典PPO算法的做法很简单:importance sampling ratio超出(1−ε, 1+ε)范围就直接clip掉。
这样的话问题出在哪?PPO的clipping会把低概率token的梯度信息扔掉,而这些token在推理任务里恰恰很关键。比如让模型做AIME 2025的题目,或者让它完成一个30轮的科学实验,那些探索性的、概率不高的路径往往藏着突破口。标准PPO的策略感觉这个路径"太冒险了,clip掉算了",结果就是:
熵坍缩:模型太快变成确定性的,卡在平庸策略上出不来;熵爆炸:模型乱探索,根本收敛不了
具体例子就是在ScienceWorld这种多步骤、稀疏reward的环境里跑一下原版PPO就知道了,entropy会剧烈震荡,模型啥也学不到。
CE-GPPO:有界梯度恢复机制快手提出的CE-GPPO(Controlling Entropy via Gradient-Preserving Policy Optimization)核心思路是用有界的方式把被clip掉的梯度拿回来。
Token的四类划分CE-GPPO按概率和advantage把token分成四类:
PAHP (Positive Advantage, High Probability):模型喜欢的、该强化的token
NALP (Negative Advantage, Low Probability):差的探索token,要抑制
PALP (Positive Advantage, Low Probability):好的探索token,这是论文说的金子
NAHP (Negative Advantage, High Probability):高概率但该减少的token
标准PPO直接clip掉PALP和NALP,这样梯度信号全丢了,而CE-GPPO用系数α₁和α₂把它们重新引入:

stop-gradient操作允许独立调节α₁(exploitation强度)和α₂(exploration强度)。设α₁=0、α₂=1就退化成DAPO的clip-higher trick,但CE-GPPO的框架灵活得多。

实验结果:在DeepSeek-R1-Distill-Qwen-7B上测试,CE-GPPO在AIME24达到66.0(DAPO是59.7),AIME25拿到51.4(DAPO是48.7)。最优配置是α₁=0.75、α₂=1,这个设置鼓励PALP token的探索,同时温和约束NALP token避免过度探索。
为什么work理论依据:CE-GPPO的梯度幅度被bounded在α₁(1−ε)或α₂(1+ε)范围内,trust region不会被破坏。但关键是从那些有信息价值的token里恢复了signal。
训练曲线的数据很说明问题,CE-GPPO的entropy保持得相当稳,不像GRPO那样先暴跌再爆炸。
EPO:针对多轮交互的时序平滑EPO(Entropy-regularized Policy Optimization)是Rutgers和Adobe的工作,针对的场景完全不同,它主要研究的是那种需要30多步action才能拿到success/fail信号的多轮交互环境。
级联失效的两个阶段EPO发现了所谓的exploration-exploitation cascade failure,分两个phase:
Phase 1(步骤0-40):稀疏reward导致早期过度探索。agent乱试一通,养成一堆坏习惯
Phase 2(步骤40+):早期的混乱会propagate到后续步骤。entropy一直很高,agent持续震荡,根本形成不了连贯策略
根本原因是传统entropy regularization对时序不敏感,每个timestep都是单独处理的。但在多轮任务里,早期选择会cascade影响整条trajectory的结果。
EPO的方案:历史熵锚定EPO的核心创新是entropy smoothing regularizer。不是简单加个loss项,而是维护一个历史窗口,记录过去训练步骤的平均entropy。smoothing loss会惩罚偏离:

这样就给entropy加了"护栏",通常设κl=0.8、κr=1.2,不会让它跑偏太远。完整loss是:

动态系数β_k按指数schedule变化,早期训练时较小(温和平滑),后期逐渐增大(强力稳定)。这直接对抗两阶段级联失败。
实验结果:ScienceWorld上,PPO+EPO比vanilla PPO提升152.1%(96.8 vs 38.4平均成功率)。ALFWorld上GRPO+EPO有19.8%提升,稳定性很好。
一个反理论的发现流行的entropy decay schedule在多轮环境里不管用。大家都被教育要"早期探索、后期利用",但EPO的实验数据表明,对于稀疏reward的agent来说这策略有问题。episode内部过早exploit会锁定糟糕的初始action,错误会波及整个run。正确做法是在trajectory所有步骤保持稳定的exploration pressure,再配合一点smoothing。
AsyPPO:小规模critic集成方案HKUST、Mila和Alibaba合作的AsyPPO(Asymmetric Proximal Policy Optimization)解决的是另一个问题:让critic在LLM规模的RL训练里重新变得可用。
小模型能指导大模型吗经典PPO用对称actor-critic架构:actor 14B参数,critic也是14B。GRPO这类新方法干脆扔掉critic,改用group-average baseline。虽然work但丢失了proper value estimation带来的稳定性和bias reduction。
AsyPPO提出了一个问题:1.7B或4B的小critic能不能guide 14B的大actor?然后给出了答案:可以,但前提是方法得对。
集成策略单个小critic不行,value estimate太noisy。AsyPPO用两个小critic,在disjoint的prompt-level数据分片上训练。每个问题的rollout responses一半给Critic 1,一半给Critic 2。这保证:
多样性:从不同response distribution学习
同步性:看到相同prompts,保持calibration
corrected advantage用两个critic的value estimate平均值:

这里δ_t^mean来自V₁和V₂的均值,比单个critic的bias要小。
基于不确定性的门控AsyPPO把inter-critic disagreement当signal用。每个state算critic之间value的标准差,然后:
Advantage Masking:σ_t很低的state(critic强烈一致),mask掉advantage。这些是boring的、over-visited的state,没有学习信号,不值得花梯度更新
Entropy Filtering:σ_t很高的state(critic强烈disagree),从entropy regularization里filter掉。这些是ambiguous或noisy的state(比如filler token "umm"、"well"),exploration没意义
loss变成:

I_A mask低σ state,I_H从entropy里filter高σ state。
实验结果:AsyPPO在math benchmarks(AIME24/25、MATH-500等)上比GRPO提升约3%,内存占用比对称PPO少20%。最优配置是两个4B critic guide一个14B actor。更多critic有帮助但两个就够拿到主要收益了。
非对称架构为什么现在可行上面几个方法的关键点是pretrained LLM有丰富的representational prior。哪怕1.7B的预训练模型,也有足够world knowledge去evaluate 14B actor的behavior。这在经典RL(Atari、MuJoCo)里不成立,因为那些agent都是从零开始学,所以可以非对称actor-critic setup是LLM时代独有的可行方案。

这三篇论文其实构成了一个coherent narrative:
CE-GPPO:恢复被clip token的梯度,在单个训练步内控制entropy,平衡PALP(exploration)和NALP(exploitation)
EPO:用历史平滑在训练步之间控制entropy,防止多轮场景的cascade failure
AsyPPO:用小型ensemble高效恢复critic,再利用critic uncertainty做learning signal的门控(mask boring state、从entropy里filter noisy state)
后续方向下一步应该可以把这些方法组合起来。比如:
在AsyPPO的uncertainty-filtered updates里用CE-GPPO的α₁、α₂调节
把EPO的历史平滑应用到CE-GPPO的gradient-preserved entropy上
把AsyPPO的critic ensembles扩展到多轮agent场景,配合EPO的trajectory-aware loss
三种方法都在解决同一个核心问题:更聪明地判断何时、如何让模型exploration vs exploitation。只是角度不同——gradient(CE-GPPO)、时序(EPO)、critic uncertainty(AsyPPO)。这些细节上的差异,决定了模型是停在平庸水平,还是能真正crack掉AIME难题或者reliable地控制机器人。
https://avoid.overfit.cn/post/f7fe0bdff36c4c7a906c9ee678df11a4
作者:Aditya Dubey