让机器人递一杯水,这个对人类而言再简单不过的动作,却是当前具身智能领域的一道难关。传统模型需要将动作切分成几十帧,逐帧预测手的位置——0.1秒后手在哪,0.2秒后手在哪。结果模型记住的是手指每帧挪动几毫米,而不是抓住杯子这个目标。一旦换张桌子、换个杯子,节奏稍稍变化,模型就会翻车。这种逐帧填空式的学习方式,从根本上限制了机器人在真实世界中的泛化能力。
自变量机器人团队近日发布的WALL-WM世界模型,给出了一个反常识的解法:将预测单位从时间帧切换为语义事件。模型不再追问0.1秒后的画面,而是直接想象抓住杯子那一刻的场景,跳过中间所有冗余帧,并同步生成抵达那个事件的动作序列。研究团队在论文中指出,文本、视觉、动作这三类信息在高维空间中拥有不同的流形几何和时间尺度——文本是高层低熵的语义意图,视觉是连续演化的高维观察,动作则受物理世界强约束。如果强行将三者压入同一个共享空间,预训练表示很容易偏离原本的先验几何,这也是当前很多VLA模型在真机上表现远不如底座VLM水平的原因。
WALL-WM的核心架构分三层运作。第一层是事件指令入口,直接告诉模型下一步要做什么,比如抓起杯子或放进篮子。第二层是事件世界模型,围绕这个事件预演画面中的变化:物体怎么动,场景怎么变,机械臂如何参与。第三层是多视角时空融合,将头部相机、腕部相机等不同视角的信息统一起来,让模型在执行前先看清现场。在推理阶段,WALL-WM支持两种模式:事件模式根据事件描述输出长度可变的动作,更贴近语义事件的自然展开;统一模式则在没有外部规划器时,让机器人一边看一边想一边控制,在线生成中间推理并输出固定长度的动作块。
这项研究的意义在于,它重新定义了机器人理解世界的基本单位。当机器人学会以事件为锚点来规划动作,它就能像人类一样抓住重点,灵活应对物理世界中的各种变化。目前该模型已在论文中公开,未来有望推动具身智能从实验室走向更复杂的真实场景。对于AI从业者而言,WALL-WM提供了一个新的思考方向:与其让模型在时间轴上逐帧填坑,不如教会它识别那些真正重要的语义转折点。