基于自回归的大模型天生缺陷
当今大语言模型(不论是 ChatGPT 还是 DeepSeek)的基础是自回归(Autoregressive, AR)架构,也就是常说的 “预测下个token”。虽然 AR 架构已经取得了巨大的成功,但有几个本质性的天花板难以突破:1) 推理延迟。 AR 架构每次推理只预测下一个token,这意味着:
推理延迟 = 推理步数 × 单步延迟 = 输出词元数 × 单步延迟.
对于 AR 模型来说,单步延迟主要受限于从显存中读取之前的内容(KV 缓存)。所以,每读一次 KV 缓存只计算一个新token是很浪费的。
2) 可控性。,AR 架构主要兼容使用提示词的控制方式。提示词与其它信息处于同等地位,因此 AR 受制于指令失效的问题。
3) 模态局限性, AR 架构主要用于预测离散模态,生成图像、视频、空间位置、机器人动作等连续模态则需要搭载扩散生成头,不利于架构统一。
随着 Stable Diffusion 等潜在扩散模型(Latent Diffusion Model, LDM),通过在低维潜在空间中执行扩散过程,实现高效且可控的图像生成模型的发布,Diffusion在图像和视频生成中确立了统治地位。《万字长文详解稳定扩散模型》https://zhuanlan.zhihu.com/p/669570827
2022-2023 年,大家自然想把它迁到文本上,以期解决以上三个问题:
1) 低延迟, Diffusion 可以蒸馏成一步生成模型(如 Consistency Model),读一次 KV 缓存同时输出多个token,大幅降低推理延迟。
2) 高可控,Diffusion 有 Classifier Guidance 以及 Classifier-Free Guidance 等成熟技术,可以强化指令跟随的质量。
3) 多模态,Diffusion 已经是连续模态的主流范式,若将离散模态连续化,则可以统一架构,同时不会损失任何信息,反之则不然。
尽管上述愿景富有吸引力,但早期的实验结果并不理想,且随着模型规模的扩大,性能差距愈发明显。例如,参数量扩展至 1B 的连续扩散模型 Plaid,其性能仅与 100M 参数的 AR Transformer 相当,而 Diffusion-LM 等模型甚至难以在无条件情况下生成通顺句子。
传统扩散模型在语言任务上的局限性,促使研究社区转向一种 “离散 Diffusion”,也就是从初态(全 或者词表中均匀随机)出发,每步以一个小概率替换部分token。2024 年,离散 Diffusion 取得了显著进展,尤其是初始为全 态的 Masked Diffusion 家族最为突出,把与 AR 的 PPL 差距缩到 10 以内。近期的里程碑是 Block Diffusion,它把数据每 4–32 个 token 分一块,块内是 MDLM,块间是 AR,PPL 只比 AR 差 3 左右。
Diffusion 扩散模型越像自回归模型,性能就越接近自回归模型, 这逐渐成为IT界的共识。
在扩展 DLM 规模时,IT界普遍采用 Block Diffusion,平均每次推理能预测接下来 32 个token中的 4 个。这其实与 DeepSeek-V3 的多token预测(multi-token prediction)技术不谋而合。
然而,Masked Diffusion 在逼近自回归模型性能的同时,也弱化了 Diffusion自身扩散模型的特色,牺牲了以上三个核心潜力中的两个:推理延迟与多模态能力。
Masked Diffusion 的得失引出一个核心问题:如果 Diffusion 这种扩散模型必须依赖模仿自回归模型才能提升性能,其作为独立语言模型架构的独特价值便有待商榷了。
未来的语言模型发展趋势正指向多种架构优势互补的组合,而非单一范式的垄断。与其将 Diffusion 扩散模型强行 “改造” 成自回归模型的离散生成模式,不如彻底释放其连续架构的原生潜力。
https://s3.bmp.ovh/2026/05/08/o8lCexly.jpg
页:
[1]