机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 28|回复: 0

基于自回归的大模型天生缺陷

[复制链接]

2万

主题

3万

帖子

21万

积分

超级版主

Rank: 8Rank: 8

积分
214472
发表于 5 小时前 | 显示全部楼层 |阅读模式
当今大语言模型(不论是 ChatGPT 还是 DeepSeek)的基础是自回归(Autoregressive, AR)架构,也就是常说的 “预测下个token”。虽然 AR 架构已经取得了巨大的成功,但有几个本质性的天花板难以突破:
1) 推理延迟。 AR 架构每次推理只预测下一个token,这意味着:
推理延迟 = 推理步数 × 单步延迟 = 输出词元数 × 单步延迟.
对于 AR 模型来说,单步延迟主要受限于从显存中读取之前的内容(KV 缓存)。所以,每读一次 KV 缓存只计算一个新token是很浪费的。
2) 可控性。,AR 架构主要兼容使用提示词的控制方式。提示词与其它信息处于同等地位,因此 AR 受制于指令失效的问题。
3) 模态局限性, AR 架构主要用于预测离散模态,生成图像、视频、空间位置、机器人动作等连续模态则需要搭载扩散生成头,不利于架构统一。

随着 Stable Diffusion 等潜在扩散模型(Latent Diffusion Model, LDM),通过在低维潜在空间中执行扩散过程,实现高效且可控的图像生成模型的发布,Diffusion在图像和视频生成中确立了统治地位。《万字长文详解稳定扩散模型》https://zhuanlan.zhihu.com/p/669570827
2022-2023 年,大家自然想把它迁到文本上,以期解决以上三个问题:
1) 低延迟, Diffusion 可以蒸馏成一步生成模型(如 Consistency Model),读一次 KV 缓存同时输出多个token,大幅降低推理延迟。
2) 高可控,Diffusion 有 Classifier Guidance 以及 Classifier-Free Guidance 等成熟技术,可以强化指令跟随的质量。
3) 多模态,Diffusion 已经是连续模态的主流范式,若将离散模态连续化,则可以统一架构,同时不会损失任何信息,反之则不然。
尽管上述愿景富有吸引力,但早期的实验结果并不理想,且随着模型规模的扩大,性能差距愈发明显。例如,参数量扩展至 1B 的连续扩散模型 Plaid,其性能仅与 100M 参数的 AR Transformer 相当,而 Diffusion-LM 等模型甚至难以在无条件情况下生成通顺句子。

传统扩散模型在语言任务上的局限性,促使研究社区转向一种 “离散 Diffusion”,也就是从初态(全 [MASK] 或者词表中均匀随机)出发,每步以一个小概率替换部分token。2024 年,离散 Diffusion 取得了显著进展,尤其是初始为全 [MASK] 态的 Masked Diffusion 家族最为突出,把与 AR 的 PPL 差距缩到 10 以内。近期的里程碑是 Block Diffusion,它把数据每 4–32 个 token 分一块,块内是 MDLM,块间是 AR,PPL 只比 AR 差 3 左右。
Diffusion 扩散模型越像自回归模型,性能就越接近自回归模型, 这逐渐成为IT界的共识。
在扩展 DLM 规模时,IT界普遍采用 Block Diffusion,平均每次推理能预测接下来 32 个token中的 4 个。这其实与 DeepSeek-V3 的多token预测(multi-token prediction)技术不谋而合。
然而,Masked Diffusion 在逼近自回归模型性能的同时,也弱化了 Diffusion自身扩散模型的特色,牺牲了以上三个核心潜力中的两个:推理延迟与多模态能力。
Masked Diffusion 的得失引出一个核心问题:如果 Diffusion 这种扩散模型必须依赖模仿自回归模型才能提升性能,其作为独立语言模型架构的独特价值便有待商榷了。
未来的语言模型发展趋势正指向多种架构优势互补的组合,而非单一范式的垄断。与其将 Diffusion 扩散模型强行 “改造” 成自回归模型的离散生成模式,不如彻底释放其连续架构的原生潜力。



回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2026-5-8 18:36 , Processed in 0.100300 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表