2026 年,机器人正在准备走进家庭,和人类同处一个屋檐下。
但在这背后,一个难以忽略的现实是:当前几乎所有具身智能模型的训练中,“人”是缺席的。
模型已经学会了抓取水杯、折叠衣物、执行一条条指令,却几乎无法理解坐在沙发上的人此刻是疲惫还是焦躁。
然而对于人类来说,有时递过一杯水的时机与方式,可能比“递水”这个动作本身更重要。
这个问题吸引了两位学者:冯瑶和刘淼的注意。在他们看来,具身智能要真正落地生活场景,必须把对“人”的理解加入模型。对物体的操作能力和对人的理解需要同步推进,而非先后分离。
冯瑶目前是斯坦福大学的博士后,明年即将入职清华人工智能学院任教。她在博士阶段师从计算机视觉领域的重要学者 Michael J. Black,在德国马普所专注"人"的数字化建模,用算法重建人体的三维形态、动作与姿态,让机器理解人类身体如何在空间中移动、交互。到斯坦福后转入机器人方向,试图把对人的理解带进物理世界。
而刚从海外回国的刘淼,目前担任清华大学人工智能学院的助理教授。他在过去三年在 Meta GenAI 参与了 Llama 3 与 Llama 4 等多模态大模型的研发,博士期间在佐治亚理工学院研究第一视角视觉与具身感知。
虽然两人的研究路径不同,但他们看到了同一块缺失:当前的具身智能训练中,"人"并没有被放在一个重要的位置。无论是对人体进行三维建模,还是用第一视角数据训练模型,画面中的"人"往往只是背景而非交互主体。模型学会了识别场景中的一切物体,却读不懂对面那个人的状态、意图与需求。
于是他们决定一起创业——
打造一种以人为中心(Human-Centric)的全新具身模型范式,让机器人真正理解“人”的行为、意图、记忆与偏好,并最终在真实的共处场景中建立信任。
在这场对话中,我们的问题始终围绕“人”展开:机器人该如何捕捉需求、推断意图,进而赢得信任?答案可能藏在尚未成型的数据范式里,可能指向仍在探索的模型架构,也可能依赖一套需要彻底重构的评测体系……
一切还在探索之中。
以下是我们的对话:
为什么是“人”?从大模型到具身智能的转向
DeepTech:
两位为什么会选择具身智能这个方向进行研究?
刘淼:
其实我在博士阶段做的就是机器人方向,比如基于第一视角视觉(egocentric vision),结合 learning from demonstration 或 imitation learning,让机器人通过模仿学习去完成更接近人类的操作任务。
当时受限于项目条件,我们更多只能做一些偏“纯视觉”的研究。后来在 Meta 工作期间,由于研究方向相对自上而下(top-down),个人能够选择的空间比较有限,这条路径依然没有被系统性推进。
但我心里其实一直没有放下具身智能。我始终希望有机会把“让机器人真正像人一样在物理世界中行动”这
件事做好。
冯瑶:
我的路径和刘淼有些不同。我的出发点就是“人”,在博
士阶段,我在德国主要的工作是做“人”的建模,比如什么是好的 human representation(人体表征),以及如何从网络数据中理解人类行为。我也尝试过结合大模型做行为理解,但这些大多在“数字世界”里完成。
但纯数字环境的问题在于缺乏真实的交互感,也很难评估模型是否真的“理解了人”。因为缺少可靠的 benchmark。
后来我去了斯坦福,加入机器人团队,把这些关于“人”的建模放到物理世界中验证。我逐渐意识到:
只有当模型既能理解人类行为,又能驱动一个实体在真实世界中与人交互时,我们才真正有机会判断它是否“做对了”。
而机器人就像一个天然的测试平台。你让它去行动、去互动,很多问题会立刻暴露出来,推动研究从“看起来有效”转向“真正可用”。
DeepTech:
刘淼老师之前在 Meta GenAI 参与过 Llama 3/4 等大模型训练,那是纯粹的数字世界;但具身智能需要处理复杂的物理世界。除了热爱,这种转变背后还有什么原因?
刘淼:
费曼有一句很有名的话:
“What I cannot create, I do not understand.”
(我无法创造的东西,我就无法真正理解。)
但在今天这个时代,这句话其实可以被“反过来”看。一个模型即使能够生成文本、图像甚至视频,也不意味着它真正理解了物理世界。
什么才算真正的理解?一个标准是:它能否在物理世界中行动,并理解行动带来的后果。包括物理规律、因果关系,以及“动作如何改变环境”。这正是具身智能被重视的原因:只有进入真实世界、与环境交互,模型才可能形成类似人类的“世界模型”。
更重要的是,现实世界不只是由物体构成的,它更是一个“有人存在的世界”。当前的大模型在“理解人”上很有限。它们能识别动作、服饰、年龄,但很难理解情绪、意图,以及“心智理论”。
如果把这些模型直接放进真实环境与人类互动,它们很难稳定工作。这个世界从来不是空的物理空间,而是充满人的世界。忽略这一点,具身智能走不远。这也是我在 Meta 时逐渐意识到的局限,所以我回国后,希望在这些方向上继续探索。
DeepTech:
相比海量的第三视角数据,你所研究的第一视角数据的不可替代性在哪里?
刘淼:
第一视角最核心的独特性是
“具身性”(embodiment)
:感知和动作紧密耦合。感知驱动动作、动作改变环境、环境反过来影响下一步的观测。这种闭环是第一视角天然具备的,也更符合人类的感知和行为方式。
另外,长时间的第一视角视频还隐含了人类的认知层级:它记录了你的意图(视线主动聚焦在哪里)、探索路径(如何寻找目标),以及到达目标后如何利用环境完成任务。
这对应了机器学习中的“探索与利用”的权衡(exploration vs. exploitation)。第一视角数据天然把两者结合在了一起,对机器人学习非常有价值。
DeepTech:
如果放在一个具体任务中,基于第一视角和第三视角的数据,机器人实际表现会有什么差别?
刘淼:
以厨房场景为例,比如洗菜或切菜。从第三视角看,你能大致判断这个人在做什么。是站在水池边或案板前,知道是洗菜或切菜。
但很多关键细节是捕捉不到的:具体洗到哪个位置、哪只手握菜、哪只手开水龙头,或者切菜时的角度、双手配合、切到哪一步。这些细粒度的动作信息,第三视角很难获取。
而第一视角能直接对齐“手—眼—动作”的关系,这对机器人学习可执行的操作策略非常关键。
DeepTech:
冯瑶老师,从 DECA、PIXIE 这样的人体重建工作,到语言模型相关研究,再到近一两年的人形机器人控制,这条路径其实跨度很大。你的研究思路是怎样的?
冯瑶:
我一直想构建一个真正的“实体智能体”,它能够像人一样存在和行动。
从这个目标往回看,第一步一定是理解“人本身”。早期的工作,比如 DECA、PIXIE,关注的是如何在数字世界中重建人,也就是学习一个有效的 human representation,以及从大规模互联网数据中提取人的行为模式。
但一个很自然的问题是:学到这些表示之后,下一步该做什么?大约在 2022 年,大模型的出现让我很快意识到,这类模型在建模和推理能力上是一个非常关键的突破。于是我们开始尝试把大模型和此前的人体表示结合起来,让模型不仅能“看到人”,还能在语义层面理解人类行为
独家|两位清华教授联手创业,要打造以人为中心的具身模型范式
AITNT
20天前
7
5
本文由 Zyentor(智元界) 原创发布,转载请注明出处。
欢迎在 技术论坛 讨论本文相关内容