Transformer架构的奠基人之一Lukasz Kaiser在最新一期播客中抛出了一系列令人深思的观点。作为改变世界的“Transformer八子”成员、前Google Brain核心科学家,他直言不讳地指出,当前AI的发展正进入一个奇特的阶段:模型在泛化,但方式却像“外星人”一样难以理解。更令人震撼的是,他透露一块RTX 5090显卡(约200 Teraflops算力)已经可以复刻当年Transformer论文的所有研究,而当年他们8个人使用的八卡机器整机算力仅70-80 Teraflops,这意味着个人开发者在家中就能重现改变AI历史的实验。Kaiser对Transformer架构的未来持开放态度。他认为,虽然Transformer尚未达到“所有人都能感受到的完美境界”,但后Transformer架构的竞争仍未明朗。对于多模态模型,他给出了尖锐批评:目前的Transformer以线性方式切割图像,无法以每毫秒吸收一张高分辨率图像的速度运行,这种架构设计本质上就行不通。他举例说,模型能解决其他领域的极端难题,但面对几何题时却显得毫无空间理解能力,直到它“见”了更多几何数据后才突然破解——这种泛化方式完全不同于人类思维。在AI编程领域,Kaiser分享了自己的实践:他完全抛弃了传统代码编辑器,直接告诉AI去修改代码。他认为,这种工作方式反而让思维更加敏捷,因为研究人员必须保持对全局的绝对控制,以防范智能体随时可能“脱缰跑偏”。他甚至观察到,这种高度专注的状态在研究人员中引发了一种轻度的“精神狂热”。对于长上下文问题,他给出的解决方案出奇地“原始”:把内容写进文件,让AI用grep查找,再让它写索引文件——这种五年前会被视为拙劣应付的手段,如今却成了实用方案。关于模型规模之争,Kaiser明确反对“小模型将取代大模型”的流行观点。他认为,一两年前流行的“大语言模型已走到头”的说法过于乐观,真正解决重大问题时,依然没有东西能替代那些庞大的“巨无霸”模型。对于AI编程的未来,他指出悬念不在于OpenAI与Anthropic谁输谁赢,而在于如何将这种能力延伸到其他行业和岗位。他乐观地认为编程市场足够大,容得下多个优秀的产品,但真正的挑战是如何让非技术人员也能受益于这些工具。这些观点为AI从业者提供了极具价值的思考方向,尤其是在硬件能力大幅提升的背景下,个人研究者参与前沿探索的门槛正在急剧降低。
Transformer八子Lukasz Kaiser:单卡5090复刻所有研究
AITNT
8天前
14
23
本文由 Zyentor(智元界) 原创发布,转载请注明出处。
欢迎在 技术论坛 讨论本文相关内容