Transformer架构面临挑战：新型架构Mamba展现潜力（更新）

Wired 2025年08月09日 16:23 2,822 次阅读

Transformer架构统治AI领域多年，但其二次方复杂度在处理长序列时存在效率瓶颈。新型架构Mamba的出现，为这一问题提供了新的解决方案。

Mamba采用选择性状态空间模型，在保持高性能的同时实现了线性复杂度，在处理长文本和长视频时效率显著提升。

研究人员认为，Mamba等新型架构可能在未来与Transformer形成互补，推动AI技术进一步发展。

具体而言，Transformer架构在处理长序列时的计算复杂度为O(n²)，即序列长度增加一倍，计算量增加四倍。这意味着当上下文长度达到数十万token时，计算和内存开销会变得极其巨大。Mamba架构通过选择性状态空间模型（Selective State Space Model）将复杂度降低到O(n)，使得处理超长序列成为可能。在实际测试中，Mamba在处理100万token的序列时，推理速度比同等规模的Transformer快5倍以上，内存占用仅为后者的四分之一。

Mamba的核心创新在于其“选择性”机制。与传统的状态空间模型不同，Mamba能够根据输入内容动态调整其状态更新策略，选择性地记忆或遗忘信息。这使得模型既能保持对关键信息的长期记忆，又能高效地过滤无关信息。在语言建模任务中，Mamba-3B的性能与同等参数量的Transformer模型相当，但在推理效率上具有显著优势。

不过，Transformer架构并不会被Mamba完全取代。业内专家认为，未来的AI模型可能会采用混合架构，将Transformer的注意力机制与Mamba的状态空间模型相结合，取长补短。已有研究团队提出了Jamba等混合架构，在多项任务中展现出了优于纯Transformer和纯Mamba模型的性能。这一方向的发展值得持续关注。

原文来源： Wired

Transformer架构面临挑战：新型架构Mamba展现潜力（更新）

大模型

快速导航

Transformer架构面临挑战：新型架构Mamba展现潜力（更新）

相关推荐

大模型训练成本持续攀升:GPT-5训练成本或超10亿美元

ChatGPT如何助你从创意激荡到结构化行动计划？

OpenAI如何推动企业级AI发展：商业创新新机遇？

Codex 推出灵活计费模式： ChatGPT 商业版便于团队启动和扩展

大模型

快速导航