在具身智能领域,世界模型生成的数据能否真正服务于机器人训练,一直是行业的核心争议。2026年5月,深度机智(DeepCybo)用一次断崖式夺冠给出了肯定答案。在WorldArena Track 2 Data Engine赛道中,其Z-WM模型以88.5分的成绩领先第二名30.5分,不仅刷新了榜单纪录,更证明了合成数据在物理仿真环境中的闭环有效性。这一成绩发生在公司成立一周年之际,也是对创始人陈凯提出的“基于人类第一视角数据构建具身基座模型”路线的最好回应。
WorldArena Track 2的评估标准极为苛刻:模型需根据指令生成未来的合成视频观察流,这些数据直接注入下游机器人策略网络,并在物理仿真中执行闭环抓取任务。最终得分对应的是合成数据对任务成功率的提升幅度。Z-WM的领先意味着其生成数据已具备较强的物理一致性和任务有效性,可以真正用于具身模型训练。此前在Track 1(考察感知质量和动作响应)中,Z-WM已以64.96分超越前榜首WorldScape v0.2。此次在Track 2登顶,标志着深度机智在感知质量、动作响应、物理有效性三个维度上形成系统性领先。值得一提的是,Z-WM在仅使用语言驱动的情况下,在Track 1总榜中位列第八,超越一众采用“语言+动作”联合方案的模型,说明其数据管线已让模型内化了对物理常识的理解。
支撑这些成果的是深度机智独特的技术路线。公司不做本体堆量或遥操数据,而是围绕“人类第一视角”数据构建完整体系。其核心判断是:具身智能走向通用化的瓶颈在于机器人缺乏对物理世界的根本理解。传统路线让机器人学“怎么做”,结果是拟合轨迹、机械复现;深度机智的回答是“先理解世界,再驱动行动”。为此,公司建立了ICDC情境数采体系,强调动作发生时的前因后果,而非单纯的轨迹复刻。围绕这一范式,深度机智已构建起数十万小时级的人类第一视角多模态数据集DeepAct,覆盖真实世界中的多元物理交互场景。通过Egocentric2Embodiment等数据转化管线,这些数据被转化为包含时空关系、物体属性、力学信息和推理过程的结构化监督数据,用于训练基座模型。2026年3月,公司在中关村论坛上发布了国内首个以人类学习范式构建的具身基座模型PhysBrain 1.0。
从Track 1到Track 2,深度机智完成了具身基座能力的两级验证:先证明“生成得像”,再证明“生成得有用”。对于AI从业者而言,这一成绩的启示在于:数据范式的选择比算力堆砌更重要。人类第一视角数据天然携带空间关系、时序逻辑和因果推理,是真正的“物理常识载体”。未来,随着DeepAct数据集的持续扩充和PhysBrain体系的迭代,深度机智有望在更复杂的任务场景中验证其通用性。对于关注具身智能的开发者,建议关注其开源数据管线和技术白皮书,理解如何将人类经验转化为机器人可学习的结构化知识——这可能是通往通用机器人的关键路径。