机械荟萃山庄

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 98|回复: 0

老牌大模型杀手更新

[复制链接]

2万

主题

2万

帖子

19万

积分

超级版主

Rank: 8Rank: 8

积分
194435
发表于 10 小时前 | 显示全部楼层 |阅读模式
至今为止 Transformer大模型 架构依然是 AI 模型的主流架构,自从其确立了统治地位后,号称 Transformer 杀手的各类改进工作就没有停止过。
在一众挑战者中最具影响力的自然是 2023 年社区爆火的基于结构化的状态空间序列模型(SSM)架构的 Mamba。
在 Mamba 问世后,涌现出了超多在不同任务上使用 Mamba 的工作以及一些改进工作,诞生了了 MoE-Mamba、Vision Mamba、VMamba、U-Mamba、MambaByte、MambaOut 等多项工作,被称为「Transformer 最有力的继任者」。
在 2024 年,在 Mamba 发布的半年后,Mamba-2 正式发布,拿下了顶会 ICML 2024。核心层是对 Mamba 的选择性 SSM 的改进,速度提高了 2-8 倍,同时在语言建模方面继续与 Transformers 竞争。
就在最近,Mamba 的第三代迭代工作 Mamba-3 悄悄的出现在了 ICLR 2026,正在盲审环节。
在 2024 年,在 Mamba 发布的半年后,Mamba-2 正式发布,拿下了顶会 ICML 2024。核心层是对 Mamba 的选择性 SSM 的改进,速度提高了 2-8 倍,同时在语言建模方面继续与 Transformers 竞争。
但 Mamba-2 除了让第一代 Mamba Out 之外,似乎没能获得现象级的关注。
就在最近,Mamba 的第三代迭代工作 Mamba-3 悄悄的出现在了 ICLR 2026,正在盲审环节。

Mamba-3 在三个关键领域相对于 Mamba-2 引入了重大改进:
梯形离散化(Trapezoidal Discretization)
研究团队使用梯形法对底层的连续时间动力系统进行离散化。最终得到的递推形式是 Mamba-2 递推结构的一个更具表达力的超集,并且可以被视为一种卷积。
之前的状态更新只考虑区间起点的信息,而现在会同时结合起点和终点。
研究团队将这种新的离散化方式与作用于 B、C 的偏置项结合使用,发现这种组合在经验上可以替代语言建模中的短因果卷积。

复数化状态空间模型(Complexified State-Space Model)
通过将 Mamba-3 底层的状态空间模型视为复值结构,研究团队实现了相比 Mamba-2 更具表达力的状态更新机制。
这种更新规则在设计上仍保持训练和推理的轻量级特性,同时克服了当前许多线性模型在状态追踪能力上的不足。研究团队指出,这种复数更新机制等价于一种数据依赖的旋转位置编码,因此可以高效计算。

多输入多输出状态空间模型(MIMO SSM)
为了提升解码阶段的 FLOP 利用效率,研究团队将状态更新方式从基于外积(outer-product)的形式转换为基于矩阵乘法的形式。从 SSM 的信号处理基础来看,这一转变正对应于从单输入单输出(SISO)动态系统向多输入多输出(MIMO)动态系统的泛化。
Mamba-3 可以多通道同时更新状态,极大提升 GPU 并行吞吐效率。
MIMO 形式尤其适合推理阶段,因为其额外的表达能力允许在状态更新中投入更多计算量,而无需增加状态大小,从而不影响速度。
同时,研究团队也对整体架构进行调整,使其更贴近基线 Transformer 架构。Mamba-3 用更常见的 QK-normalization 替换了输出前投影归一化机制,并将短卷积设为可选项。

Mamba-3 的高效长序列处理能力,使它非常适合应用于长文档理解、科学时间序列、基因建模等场景 —— 这些领域正是 Transformer 因上下文受限而表现不佳的地方。
由于其线性时间推理且延迟稳定,它同样非常适合用于实时交互场景,例如聊天助手、机器翻译和语音接口,这些任务更看重响应速度而非模型规模。
此外,得益于其友好的硬件特性,Mamba-3 有潜力未来运行在本地设备或边缘侧,在无需依赖云端的情况下执行大模型推理。

评分

参与人数 1威望 +3 收起 理由
Architect + 3

查看全部评分

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|机械荟萃山庄 ( 辽ICP备16011317号-1 )

GMT+8, 2025-10-16 20:59 , Processed in 0.088548 second(s), 20 queries , Gzip On.

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表