2022年的一个普通午后,世界动作模型第一次在真实无人货柜中睁开双眼。它看到的不是实验室里擦拭干净的理想场景,而是玻璃门被推开合上、手在货架间进进出出、瓶罐被抓起挪动放回的动态过程。对于X-Era Lab首席科学家王可泽来说,这是一个明确的转折点——解决非常底层、非常硬核问题的时代已经醒来。这家从创业之初就选择少有人走路径的公司,正在用500万次真实交互,攀登物理AGI那座高峰。

X-Era Lab的答案是打造一个真正以世界动作模型为内核的物理基座模型:从视觉、语言等多模态输入,到预测物理过程、动作及各种反馈。与行业流行的VLA路线不同,王可泽认为VLA适合快速验证和任务适配,但并非物理AGI终局。他们坚持用真实世界的数据训练模型,哪怕这些数据不干净、不标准、充满噪音和长尾事件。这种坚持让他们的模型成为当下少有的、可在真实场景中落地并实现迁移和泛化的物理模型。半年后,英伟达发布了思路高度同源的DreamZero,印证了这条路径的前瞻性。

在具身智能走入深水区的当下,大脑成为制约通用化的关键卡点。与语言大模型不同,具身数据必须主动采集和设计场景获得。X-Era Lab选择到生活中去,在零售、工业等场景中反复打磨,构建起模型闭环(感知-预测-控制自成一体)、数据闭环(真实业务每天回流4D数据)和商业闭环(算法直接变成收入再反哺迭代)的三环飞轮。据36氪了解,X-Era Lab目前拥有行业最高的世界模型算法收入和最丰富的4D真实数据采集量,搭载其大脑的机器人即使只有千台,收入也能迈向数亿规模。

当所有人质疑世界模型落地遥不可及时,X-Era Lab已经在真实场景中给出答案。他们不是从开始就讲世界模型故事的团队,而是在各种真实场景里反复打磨、构建起可迁移和泛化的物理模型。王可泽认为,经过了压力还能长期坚持做出来的东西,才是真正的具身智能底座模型。对于AI从业者来说,这个案例提供了一个重要启示:在具身智能领域,真实世界的数据和场景打磨,可能比仿真环境中的论文指标更接近通用智能的本质。未来,随着细分赛道机器人放量,这种从真实交互中长出的物理AGI,或将重新定义人机协作的边界。