Transformer架构面临挑战:新型架构Mamba展现潜力(更新)

Transformer架构统治AI领域多年,但其二次方复杂度在处理长序列时存在效率瓶颈。新型架构Mamba的出现,为这一问题提供了新的解决方案。

Mamba采用选择性状态空间模型,在保持高性能的同时实现了线性复杂度,在处理长文本和长视频时效率显著提升。

研究人员认为,Mamba等新型架构可能在未来与Transformer形成互补,推动AI技术进一步发展。

具体而言,Transformer架构在处理长序列时的计算复杂度为O(n²),即序列长度增加一倍,计算量增加四倍。这意味着当上下文长度达到数十万token时,计算和内存开销会变得极其巨大。Mamba架构通过选择性状态空间模型(Selective State Space Model)将复杂度降低到O(n),使得处理超长序列成为可能。在实际测试中,Mamba在处理100万token的序列时,推理速度比同等规模的Transformer快5倍以上,内存占用仅为后者的四分之一。

Mamba的核心创新在于其“选择性”机制。与传统的状态空间模型不同,Mamba能够根据输入内容动态调整其状态更新策略,选择性地记忆或遗忘信息。这使得模型既能保持对关键信息的长期记忆,又能高效地过滤无关信息。在语言建模任务中,Mamba-3B的性能与同等参数量的Transformer模型相当,但在推理效率上具有显著优势。

不过,Transformer架构并不会被Mamba完全取代。业内专家认为,未来的AI模型可能会采用混合架构,将Transformer的注意力机制与Mamba的状态空间模型相结合,取长补短。已有研究团队提出了Jamba等混合架构,在多项任务中展现出了优于纯Transformer和纯Mamba模型的性能。这一方向的发展值得持续关注。