Transformer八子Lukasz Kaiser：单卡5090复刻所有研究

Transformer架构的奠基人之一Lukasz Kaiser在最新一期播客中抛出了一系列令人深思的观点。作为改变世界的“Transformer八子”成员、前Google Brain核心科学家，他直言不讳地指出，当前AI的发展正进入一个奇特的阶段：模型在泛化，但方式却像“外星人”一样难以理解。更令人震撼的是，他透露一块RTX 5090显卡（约200 Teraflops算力）已经可以复刻当年Transformer论文的所有研究，而当年他们8个人使用的八卡机器整机算力仅70-80 Teraflops，这意味着个人开发者在家中就能重现改变AI历史的实验。Kaiser对Transformer架构的未来持开放态度。他认为，虽然Transformer尚未达到“所有人都能感受到的完美境界”，但后Transformer架构的竞争仍未明朗。对于多模态模型，他给出了尖锐批评：目前的Transformer以线性方式切割图像，无法以每毫秒吸收一张高分辨率图像的速度运行，这种架构设计本质上就行不通。他举例说，模型能解决其他领域的极端难题，但面对几何题时却显得毫无空间理解能力，直到它“见”了更多几何数据后才突然破解——这种泛化方式完全不同于人类思维。在AI编程领域，Kaiser分享了自己的实践：他完全抛弃了传统代码编辑器，直接告诉AI去修改代码。他认为，这种工作方式反而让思维更加敏捷，因为研究人员必须保持对全局的绝对控制，以防范智能体随时可能“脱缰跑偏”。他甚至观察到，这种高度专注的状态在研究人员中引发了一种轻度的“精神狂热”。对于长上下文问题，他给出的解决方案出奇地“原始”：把内容写进文件，让AI用grep查找，再让它写索引文件——这种五年前会被视为拙劣应付的手段，如今却成了实用方案。关于模型规模之争，Kaiser明确反对“小模型将取代大模型”的流行观点。他认为，一两年前流行的“大语言模型已走到头”的说法过于乐观，真正解决重大问题时，依然没有东西能替代那些庞大的“巨无霸”模型。对于AI编程的未来，他指出悬念不在于OpenAI与Anthropic谁输谁赢，而在于如何将这种能力延伸到其他行业和岗位。他乐观地认为编程市场足够大，容得下多个优秀的产品，但真正的挑战是如何让非技术人员也能受益于这些工具。这些观点为AI从业者提供了极具价值的思考方向，尤其是在硬件能力大幅提升的背景下，个人研究者参与前沿探索的门槛正在急剧降低。

Transformer八子Lukasz Kaiser：单卡5090复刻所有研究

相关推荐

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%

YouMind 1.0发布：打破AI创作同质化困局

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%