机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 32|回复: 0

大模型强化学习不能真正最大化「模型生成正确答案的概...

[复制链接]

2万

主题

3万

帖子

20万

积分

超级版主

Rank: 8Rank: 8

积分
205303
发表于 昨天 11:50 | 显示全部楼层 |阅读模式
在大模型时代,从代码生成到数学推理,再到自主规划的 Agent 系统,强化学习几乎成了「最后一公里」的标准配置。

直觉上,开发者真正想要的其实很简单:让模型更有可能生成「正确轨迹」。从概率角度看,这等价于最大化正确输出的概率,也就是经典的最大似然(Maximum Likelihood)目标。

然而,一项来自 CMU、清华大学、浙江大学等研究机构的最新工作指出了一个颇具颠覆性的事实:

现实中广泛使用的强化学习,并没有真正在做最大似然优化。严格的理论分析显示,强化学习只是在优化最大似然目标的一阶近似 —— 距离我们以为的最优训练目标,其实还差得很远。
论文标题:Maximum Likelihood Reinforcement Learning
论文链接:https://arxiv.org/abs/2602.02710
项目地址:https://zanette-labs.github.io/MaxRL/
Github 地址:https://github.com/tajwarfahim/maxrl

在代码生成、数学推理、多步决策这些任务中,我们已经形成了一种几乎默认的共识:只要反馈是二值的、过程是不可微的,就用强化学习。

强化学习这套范式,支撑了从 AlphaGo 到大语言模型推理能力提升的一系列关键进展。

从端到端的角度看,强化学习就是给定一个输入,模型隐式地诱导出一个「成功概率」. 如果不考虑可微性约束,最自然、也最原则性的目标,就是最大似然。

但论文研究团队发现:基于期望奖励的强化学习,其实只是在优化最大似然目标的一阶近似。更具体地说,最大似然目标在总体层面可以展开为一系列以 pass@k 事件为基的项,而标准强化学习只优化了其中的一阶项。

简单来说,强化学习并没有真正最大化「模型生成正确答案的概率」,而是在优化一个与真实似然存在系统性偏差的替代目标。

这也解释了一个广泛存在却难以言说的现象:强化学习早期进展迅速,但越到后期,性能提升越困难。

研究团队针对这一新发现,对「基于正确性反馈的强化学习」进行了重新刻画,论文的主要贡献如下:

将基于正确性的强化学习形式化为一个潜变量生成的最大似然问题,并证明标准强化学习仅优化了最大似然目标的一阶近似。
提出了一族以计算量为索引的目标函数,通过对 pass@k 事件进行 Maclaurin 展开,在期望回报与精确最大似然之间实现连续插值。
推导出一种简单的 on-policy 估计器,其期望梯度与该计算量索引的似然近似目标完全一致,这意味着增加采样真正改善了被优化的目标本身。




回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2026-2-14 19:16 , Processed in 0.118502 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表