大模型强化学习不能真正最大化「模型生成正确答案的概...
在大模型时代,从代码生成到数学推理,再到自主规划的 Agent 系统,强化学习几乎成了「最后一公里」的标准配置。直觉上,开发者真正想要的其实很简单:让模型更有可能生成「正确轨迹」。从概率角度看,这等价于最大化正确输出的概率,也就是经典的最大似然(Maximum Likelihood)目标。
然而,一项来自 CMU、清华大学、浙江大学等研究机构的最新工作指出了一个颇具颠覆性的事实:
现实中广泛使用的强化学习,并没有真正在做最大似然优化。严格的理论分析显示,强化学习只是在优化最大似然目标的一阶近似 —— 距离我们以为的最优训练目标,其实还差得很远。
论文标题:Maximum Likelihood Reinforcement Learning
论文链接:https://arxiv.org/abs/2602.02710
项目地址:https://zanette-labs.github.io/MaxRL/
Github 地址:https://github.com/tajwarfahim/maxrl
在代码生成、数学推理、多步决策这些任务中,我们已经形成了一种几乎默认的共识:只要反馈是二值的、过程是不可微的,就用强化学习。
强化学习这套范式,支撑了从 AlphaGo 到大语言模型推理能力提升的一系列关键进展。
从端到端的角度看,强化学习就是给定一个输入,模型隐式地诱导出一个「成功概率」. 如果不考虑可微性约束,最自然、也最原则性的目标,就是最大似然。
但论文研究团队发现:基于期望奖励的强化学习,其实只是在优化最大似然目标的一阶近似。更具体地说,最大似然目标在总体层面可以展开为一系列以 pass@k 事件为基的项,而标准强化学习只优化了其中的一阶项。
简单来说,强化学习并没有真正最大化「模型生成正确答案的概率」,而是在优化一个与真实似然存在系统性偏差的替代目标。
这也解释了一个广泛存在却难以言说的现象:强化学习早期进展迅速,但越到后期,性能提升越困难。
研究团队针对这一新发现,对「基于正确性反馈的强化学习」进行了重新刻画,论文的主要贡献如下:
将基于正确性的强化学习形式化为一个潜变量生成的最大似然问题,并证明标准强化学习仅优化了最大似然目标的一阶近似。
提出了一族以计算量为索引的目标函数,通过对 pass@k 事件进行 Maclaurin 展开,在期望回报与精确最大似然之间实现连续插值。
推导出一种简单的 on-policy 估计器,其期望梯度与该计算量索引的似然近似目标完全一致,这意味着增加采样真正改善了被优化的目标本身。
https://s3.bmp.ovh/2026/02/13/VFGBHNSP.jpg
https://s3.bmp.ovh/2026/02/13/wvLHEIwK.jpghttps://s3.bmp.ovh/2026/02/13/muW4K0gi.jpg
页:
[1]