机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 50|回复: 0

深度剖析了当前生成式AI发展的核心困境

[复制链接]

2万

主题

3万

帖子

20万

积分

超级版主

Rank: 8Rank: 8

积分
200272
发表于 3 天前 | 显示全部楼层 |阅读模式
当大模型参数量冲向万亿级,GPT-5、GEmini3Pro等模型不断刷新性能上限时,生成式AI行业也正面临前所未有的瓶颈。Transformer 架构效率低、算力消耗惊人、与物理世界脱节等问题日益凸显,通用人工智能(AGI)的实现路径亟待突破。中兴通讯近期发布的论文《下一代生成式AI大模型计算范式洞察》,深度剖析了当前 AI 发展的核心困境,同时勾勒出更具潜力的前沿探索方向,为行业发展提供了重要参考。



2020 年,OpenAI 揭示了大模型规模扩展定律(Scaling Laws):大语言模型的最终性能取决于计算量、参数量和训练数据量的堆叠扩展。拥有 175B 参数量的 GPT-3 模型在自然语言理解、知识问答等多项任务中,取得了远超同期模型的性能。近年来,以 DeepSeek-V3、GPT-4o、Llama4、Qwen3、Grok4 为代表的大模型无不在证明这个定律。
构建一款先进的基础大模型,需要堆叠数十万卡算力、收集数百 TB 海量语料,基于自回归(AR)Transformer 架构,采用预训练(Pre-training)和后训练(Post-training)等手段,完成其内部近万亿参数量的训练。整个训练过程沉没成本极为高昂,如 X.AI 的 Grok4 模型,在 2 个 150 MW 功率的数据中心构建的 20 万卡分布式集群里,耗时半年才完成预训练。因此,大语言模型的预训练探索和实践主要在工业界完成,而学术界只能集中在理论层面的研究和较小规模(参数量 < 7B)的实践。然而,尽管当前架构仍有一系列算法、硬件、工程、成本等瓶颈问题,但达成通用人工智能(AGI)的愿景以及 Scaling Law 的有效性使得产业界不断增大投入,模型规模持续增加的趋势短期内难以改变。


Transformer 架构的计算效率低,访存需求大。特别是基于 Decode-only 的自回归结构算术强度仅为 2,即每读取 1 字节数据只能完成 2 次计算。卷积神经网络(CNN)高达数百的算术强度,其高数据复用率可充分满足 GPU / 特定领域架构(DSA)的矩阵乘加单元需求;而 Transformer 架构因数据搬移开销较大,导致模型算力利用率(MFU)较低。同时,当前硬件难以并行运算 Transformer 架构中的 Softmax、Layer-norm、Swish 等特殊非线性算子。总之,大语言模型架构对先进工艺和高带宽存储器(HBM)的依赖大、工程成本高,这是阻碍其规模应用、性能进一步提升的关键瓶颈。


当前大语言模型在实践过程中大量存在幻觉、可解释性差等问题,这些问题在 Scaling Law 不断提升模型能力的过程中被掩盖。但 Transformer 自回归架构的核心是 “Next Token Prediction”,导致部分 AI 科学家如 Yann Lecun 等认为,从稀疏编码和等价映射原理看,现有大语言模型难以真正理解物理世界。目前的神经网络(大语言模型等)根本缺陷:
1)神经元不具备内在学习、记忆、决策能力,智能只出现在网络的宏观层面;
2)当前生成式AI的进步严重依赖于 “暴力缩放”。
3)缺乏具身性与层次性。因此,关于物理世界映射、世界模型构建的路线,在学术界仍有很大争议。



针对前文所述问题,学术界和工业界基于自回归 LLM 开展了一系列算法、系统、硬件的改进和优化工作。

算法层面:精准突破效率瓶颈
文档理解、代码分析、检索增强生成(RAG)等应用场景要求模型支持长上下文输入,而以 DeepSeek-R1 为代表的推理模型又要求模型支持长思维链输出。序列长度增加会导致自注意力机制计算复杂度呈 O (N2)上升。因此,分组查询注意力(GQA)、多头潜在注意力(MLA)等注意力机制的改进,以及以 Flash-Attention 为代表的算子优化,已被广泛采用,Linear-attention、RWKV、Mamba 等线性注意力机制崭露头角。此外,旋转位置编码(RoPE)插值方案被进一步优化,部分注意力机制如原生稀疏注意力(NSA)、混合块注意力(MoBA),以及针对多卡场景的长上下文推理框架(如 Ring-attention、Tree-attention),也被用来降低计算量。



Decode-Only 架构中典型的运算过程是矩阵向量乘法(GEMV),该运算数据搬移频繁、计算效率低,既消耗算力,又占用带宽。
利用硬件原生 FP8、FP4、MXFP 等低精度数据类型进行模型量化,既能够有效减少内存带宽需求,又可以等效增加芯片算力利用率。现有研究证明,4-bit 量化拥有相对最优扩展率,在推理场景中已得到实际应用。然而,量化引入的误差,难免导致模型能力下降,同时非线性层的量化 / 反量化操作也有额外开销。因此,量化技术只能缓解计算和带宽瓶颈。


循环式 Transformer 架构,例如 Universal Transformer、混合专家(MoE)Universal Transformer(MoEUT)等,通过跨层共享参数实现深度递归。这类架构引入循环神经网络的递归表达能力后,通过参数共享使权重可支持多次计算,从而有效提升算术强度,在内存带宽受限时提升系统性能。然而,当前这种架构的实验规模较小,其扩展后的表达能力和稳定性尚不明确。


产业界正在探索不以 Next-Token Prediction 为核心的下一代 AI 大模型范式。基于能量、动力学等第一性原理的模型由于能有效表述各种分布并在物理系统中自然演化,有望成为下一代 AI 大模型的核心架构。例如,由 Hinton 提出的玻尔兹曼机,受统计物理中伊辛模型和玻尔兹曼分布的启发,引入了随机、递归的神经网络,能够学习数据的潜在分布,解决复杂组合优化问题。后续的受限玻尔兹曼机和深度置信网络,促进了人工智能技术的快速发展,并促进了生成式模型在图像生成、自然语言处理和强化学习等领域中的广泛应用。
然而,这些基于能量、动力学原理的模型在现有冯・诺依曼计算机上运行时,其能耗和计算效率仍面临显著挑战。这是因为,基于布尔逻辑的确定性计算架构,在处理基于统计和概率的生成式模型时面临以下两个关键问题:其一,互补金属氧化物半导体(CMOS)器件的物理特性限制了其在随机过程模拟方面的硬件实现能力;其二,在面对自然语言处理中的语义模糊性、动态环境下的实时决策等非确定性需求时,现有计算范式效率显著下降。这一瓶颈催生了面向统计和概率等新型计算范式的需求:通过算法和硬件联合设计,打破存储器与运算器分离的传统流程。



两大模型发展方向
其一,可能仍是 Transformer,但不再是 Next Token Prediction 自回归。从更高抽象空间、更强表达能力、长期学习能力的目标出发,设计新一代模型结构,代表工作包括:
(1)Diffusion LLM 架构,代表模型包括 LLaDA、Mercury 等,通过扩散方法将自回归模型串行化生成过程,改进为从粗粒度到细粒度的并行化生成过程。在相同计算资源和模型规模下,这种架构能够提升 10 倍以上的推理吞吐量,将计算能耗减少到原架构的 1/10,同时提升模型的逆向推理能力和上下文关注长度等指标性能;
(2)联合嵌入预测架构,代表模型包括联合嵌入预测模型(JEPA)、大型概念模型(LCM)等,通过将语言、图像、视频等数据编码到高层潜空间中,学习世界模型级别的抽象表示,并在表示空间中通过基于能量的模型替代基于概率的模型进行预测,从而有效提升模型的表达效果与规划能力。



其二,基于物理第一性原理,从计算基材特性出发,根据物理过程的动力学特性、能量变化趋势设计模型架构和数据流,代表工作包括:
(1)液态神经模型(LFM),代表模型包括液态结构状态空间模型(LSSM),其核心原理是液态时间常数(LTCN)模型,这是一种由小型生物神经动力学模型启发的新型时间连续循环神经网络(RNN),可以通过反向传播进行训练,并在时间序列预测任务中表现出良好的边界和稳定动态特性、卓越的表达能力和较高的内存效率。
(2)以 Hopfield 网络、受限玻尔兹曼机(RBM)、深度置信网络(DBN)等为代表的基于能量的模型(EBM),为概率密度估计和表示学习提供了一种统一的框架。这类模型的理论基础都可追溯到统计物理中的自旋玻璃模型。EBM 通过定义能量函数来表示所希望学习的概率分布,因而也可作为生成模型来学习数据分布并生成与训练数据类似的新样本。与显式定义概率分布的模型相比,EBM 具有更大的灵活性,能够建模更加复杂的依赖关系。
近年来,基于能量的模型理论仍在不断发展,同时也面临不少挑战。其中,配分函数的计算和采样效率问题仍是制约模型应用的主要瓶颈。此外,能量函数的设计缺乏系统的指导原则,往往需要依赖经验和启发式方法。同时,模型的理论性质如表达能力、泛化性能亦缺乏更深入的研究。


在未来 AI 计算中,相较于算力,能耗将成为更为根本的限制。现有生成式AI计算低效的根本原因是,神经网络的实现依赖于传统冯・诺依曼计算架构通过二进制操作 “模拟” 神经网络的计算。这种方法实质上是使用高精度的逻辑计算来处理仅需低精度的人工智能任务,大量能量被用于数据搬移和纠错,导致资源的低效利用。







回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-12-16 00:41 , Processed in 0.113262 second(s), 19 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表