5月5日,旧金山,一场名为「后Transformer时代」的擂台辩论赛,让统治AI架构近十年的Transformer首次被其缔造者送上了被告席。这不是比喻,而是真正的拳击式擂台——Transformer联合发明人Łukasz Kaiser亲自下场辩护,对面三位挑战者包括另一位联合发明人Llion Jones、Pathway首席科学官Adrian Kosowski和Liquid AI首席技术官Matthias Lechner。现场坐满研究者和投资人,输赢不靠投票,靠掌声计分器决定。这场80分钟的硬碰硬,直指AI架构的核心地基是否已经松动。
挑战者们拆解出Transformer的五大死穴,每一个都直击设计层面的硬伤。首先是O(n²)复杂度问题:当输入序列长度增加时,注意力机制的计算量呈平方级增长,这就像图书馆管理员面对一亿本书,每次查询都要翻遍所有卡片,效率无法承受。其次是「土拨鼠之日」式的记忆缺陷——Transformer每次推理时权重完全冻结,今天聊十小时学到的新知识,下次会话启动时全部清零。工业界用RAG和长上下文KV Cache来缓解,但挑战者认为这如同用昂贵算力贴创可贴,而非架构级解法。此外,还包括持续学习能力缺失、推理能力受限以及训练成本高昂等痛点。
Kaiser的辩护策略出人意料地坦诚。他没有否认任何问题,而是抛出一句核心论断:「除非Post-Transformer证明更好的scaling曲线,否则Transformer仍然是主流。」这句话将举证责任推回挑战者。所谓scaling曲线,就是投入更多算力和数据后AI能力提升的效率。Transformer统治近十年,根本原因不是它没缺陷,而是它的scaling曲线至今未被任何架构超越。Kaiser强调,并行性是硬道理——Transformer的并行训练能力让它在算力堆叠上占尽优势,这是OpenAI敢砸几十亿美元训练GPT、Anthropic持续扩大Claude规模的底气。他进一步指出,挑战者需要的不只是五篇论文,而是一条可验证的、更高效的scaling曲线。
这场辩论的意义远超技术本身。它标志着AI架构演进的一个关键拐点:当统治十年的架构开始被其创造者审视,意味着整个行业正在寻找下一个突破口。对从业者而言,短期内的实用建议是继续深耕Transformer生态,因为其成熟度和工具链短期内无可替代;但长期来看,关注BDH、液态神经网络等新架构的scaling曲线进展至关重要。未来几年,AI架构可能不会出现一夜之间的颠覆,但这场擂台赛已经为后Transformer时代埋下了种子——谁能在记忆、推理和scaling效率上实现真正突破,谁就将定义下一个十年的AI范式。