Transformer遭亲爹挑战：五大死穴与未来之争

AITNT 2026-05-28 30 8

AI 大模型深度学习技术突破

5月5日，旧金山，一场名为「后Transformer时代」的擂台辩论赛，让统治AI架构近十年的Transformer首次被其缔造者送上了被告席。这不是比喻，而是真正的拳击式擂台——Transformer联合发明人Łukasz Kaiser亲自下场辩护，对面三位挑战者包括另一位联合发明人Llion Jones、Pathway首席科学官Adrian Kosowski和Liquid AI首席技术官Matthias Lechner。现场坐满研究者和投资人，输赢不靠投票，靠掌声计分器决定。这场80分钟的硬碰硬，直指AI架构的核心地基是否已经松动。

挑战者们拆解出Transformer的五大死穴，每一个都直击设计层面的硬伤。首先是O(n²)复杂度问题：当输入序列长度增加时，注意力机制的计算量呈平方级增长，这就像图书馆管理员面对一亿本书，每次查询都要翻遍所有卡片，效率无法承受。其次是「土拨鼠之日」式的记忆缺陷——Transformer每次推理时权重完全冻结，今天聊十小时学到的新知识，下次会话启动时全部清零。工业界用RAG和长上下文KV Cache来缓解，但挑战者认为这如同用昂贵算力贴创可贴，而非架构级解法。此外，还包括持续学习能力缺失、推理能力受限以及训练成本高昂等痛点。

Kaiser的辩护策略出人意料地坦诚。他没有否认任何问题，而是抛出一句核心论断：「除非Post-Transformer证明更好的scaling曲线，否则Transformer仍然是主流。」这句话将举证责任推回挑战者。所谓scaling曲线，就是投入更多算力和数据后AI能力提升的效率。Transformer统治近十年，根本原因不是它没缺陷，而是它的scaling曲线至今未被任何架构超越。Kaiser强调，并行性是硬道理——Transformer的并行训练能力让它在算力堆叠上占尽优势，这是OpenAI敢砸几十亿美元训练GPT、Anthropic持续扩大Claude规模的底气。他进一步指出，挑战者需要的不只是五篇论文，而是一条可验证的、更高效的scaling曲线。

这场辩论的意义远超技术本身。它标志着AI架构演进的一个关键拐点：当统治十年的架构开始被其创造者审视，意味着整个行业正在寻找下一个突破口。对从业者而言，短期内的实用建议是继续深耕Transformer生态，因为其成熟度和工具链短期内无可替代；但长期来看，关注BDH、液态神经网络等新架构的scaling曲线进展至关重要。未来几年，AI架构可能不会出现一夜之间的颠覆，但这场擂台赛已经为后Transformer时代埋下了种子——谁能在记忆、推理和scaling效率上实现真正突破，谁就将定义下一个十年的AI范式。

原文链接： https://www.aitntnews.com/newDetail.html?newId=25551

本文由 Zyentor（智元界） 原创发布

查看全部原创 · 技术论坛讨论

讨论 (0 条)

登录后参与讨论