大模型强化学习不能真正最大化「模型生成正确答案的概...

寂静回声 · 发表于 2026-2-13 11:50:00

在大模型时代，从代码生成到数学推理，再到自主规划的 Agent 系统，强化学习几乎成了「最后一公里」的标准配置。

直觉上，开发者真正想要的其实很简单：让模型更有可能生成「正确轨迹」。从概率角度看，这等价于最大化正确输出的概率，也就是经典的最大似然（Maximum Likelihood）目标。

然而，一项来自 CMU、清华大学、浙江大学等研究机构的最新工作指出了一个颇具颠覆性的事实：

现实中广泛使用的强化学习，并没有真正在做最大似然优化。严格的理论分析显示，强化学习只是在优化最大似然目标的一阶近似 —— 距离我们以为的最优训练目标，其实还差得很远。
论文标题：Maximum Likelihood Reinforcement Learning
论文链接：https://arxiv.org/abs/2602.02710
项目地址：https://zanette-labs.github.io/MaxRL/
Github 地址：https://github.com/tajwarfahim/maxrl

在代码生成、数学推理、多步决策这些任务中，我们已经形成了一种几乎默认的共识：只要反馈是二值的、过程是不可微的，就用强化学习。

强化学习这套范式，支撑了从 AlphaGo 到大语言模型推理能力提升的一系列关键进展。

从端到端的角度看，强化学习就是给定一个输入，模型隐式地诱导出一个「成功概率」. 如果不考虑可微性约束，最自然、也最原则性的目标，就是最大似然。

但论文研究团队发现：基于期望奖励的强化学习，其实只是在优化最大似然目标的一阶近似。更具体地说，最大似然目标在总体层面可以展开为一系列以 pass@k 事件为基的项，而标准强化学习只优化了其中的一阶项。

简单来说，强化学习并没有真正最大化「模型生成正确答案的概率」，而是在优化一个与真实似然存在系统性偏差的替代目标。

这也解释了一个广泛存在却难以言说的现象：强化学习早期进展迅速，但越到后期，性能提升越困难。

研究团队针对这一新发现，对「基于正确性反馈的强化学习」进行了重新刻画，论文的主要贡献如下：

将基于正确性的强化学习形式化为一个潜变量生成的最大似然问题，并证明标准强化学习仅优化了最大似然目标的一阶近似。
提出了一族以计算量为索引的目标函数，通过对 pass@k 事件进行 Maclaurin 展开，在期望回报与精确最大似然之间实现连续插值。
推导出一种简单的 on-policy 估计器，其期望梯度与该计算量索引的似然近似目标完全一致，这意味着增加采样真正改善了被优化的目标本身。

		自动登录	找回密码
密码			立即注册

大模型强化学习不能真正最大化「模型生成正确答案的概...

浏览过的版块