基于自回归的大模型天生缺陷

寂静回声 发表于 2026-5-8 13:00:31

当今大语言模型（不论是 ChatGPT 还是 DeepSeek）的基础是自回归（Autoregressive, AR）架构，也就是常说的 “预测下个token”。虽然 AR 架构已经取得了巨大的成功，但有几个本质性的天花板难以突破：
1) 推理延迟。 AR 架构每次推理只预测下一个token，这意味着：
推理延迟 = 推理步数 × 单步延迟 = 输出词元数 × 单步延迟.
对于 AR 模型来说，单步延迟主要受限于从显存中读取之前的内容（KV 缓存）。所以，每读一次 KV 缓存只计算一个新token是很浪费的。
2) 可控性。，AR 架构主要兼容使用提示词的控制方式。提示词与其它信息处于同等地位，因此 AR 受制于指令失效的问题。
3) 模态局限性， AR 架构主要用于预测离散模态，生成图像、视频、空间位置、机器人动作等连续模态则需要搭载扩散生成头，不利于架构统一。

随着 Stable Diffusion 等潜在扩散模型（Latent Diffusion Model, LDM），通过在低维潜在空间中执行扩散过程，实现高效且可控的图像生成模型的发布，Diffusion在图像和视频生成中确立了统治地位。《万字长文详解稳定扩散模型》https://zhuanlan.zhihu.com/p/669570827
2022-2023 年，大家自然想把它迁到文本上，以期解决以上三个问题：
1) 低延迟， Diffusion 可以蒸馏成一步生成模型（如 Consistency Model），读一次 KV 缓存同时输出多个token，大幅降低推理延迟。
2) 高可控，Diffusion 有 Classifier Guidance 以及 Classifier-Free Guidance 等成熟技术，可以强化指令跟随的质量。
3) 多模态，Diffusion 已经是连续模态的主流范式，若将离散模态连续化，则可以统一架构，同时不会损失任何信息，反之则不然。
尽管上述愿景富有吸引力，但早期的实验结果并不理想，且随着模型规模的扩大，性能差距愈发明显。例如，参数量扩展至 1B 的连续扩散模型 Plaid，其性能仅与 100M 参数的 AR Transformer 相当，而 Diffusion-LM 等模型甚至难以在无条件情况下生成通顺句子。

传统扩散模型在语言任务上的局限性，促使研究社区转向一种 “离散 Diffusion”，也就是从初态（全或者词表中均匀随机）出发，每步以一个小概率替换部分token。2024 年，离散 Diffusion 取得了显著进展，尤其是初始为全态的 Masked Diffusion 家族最为突出，把与 AR 的 PPL 差距缩到 10 以内。近期的里程碑是 Block Diffusion，它把数据每 4–32 个 token 分一块，块内是 MDLM，块间是 AR，PPL 只比 AR 差 3 左右。
Diffusion 扩散模型越像自回归模型，性能就越接近自回归模型，这逐渐成为IT界的共识。
在扩展 DLM 规模时，IT界普遍采用 Block Diffusion，平均每次推理能预测接下来 32 个token中的 4 个。这其实与 DeepSeek-V3 的多token预测（multi-token prediction）技术不谋而合。
然而，Masked Diffusion 在逼近自回归模型性能的同时，也弱化了 Diffusion自身扩散模型的特色，牺牲了以上三个核心潜力中的两个：推理延迟与多模态能力。
Masked Diffusion 的得失引出一个核心问题：如果 Diffusion 这种扩散模型必须依赖模仿自回归模型才能提升性能，其作为独立语言模型架构的独特价值便有待商榷了。
未来的语言模型发展趋势正指向多种架构优势互补的组合，而非单一范式的垄断。与其将 Diffusion 扩散模型强行 “改造” 成自回归模型的离散生成模式，不如彻底释放其连续架构的原生潜力。
https://s3.bmp.ovh/2026/05/08/o8lCexly.jpg

页: [1]

机械荟萃山庄's Archiver

基于自回归的大模型天生缺陷