独家｜两位清华教授联手创业，要打造以人为中心的具身模型范式

2026 年，机器人正在准备走进家庭，和人类同处一个屋檐下。
但在这背后，一个难以忽略的现实是：当前几乎所有具身智能模型的训练中，“人”是缺席的。
模型已经学会了抓取水杯、折叠衣物、执行一条条指令，却几乎无法理解坐在沙发上的人此刻是疲惫还是焦躁。
然而对于人类来说，有时递过一杯水的时机与方式，可能比“递水”这个动作本身更重要。
这个问题吸引了两位学者：冯瑶和刘淼的注意。在他们看来，具身智能要真正落地生活场景，必须把对“人”的理解加入模型。对物体的操作能力和对人的理解需要同步推进，而非先后分离。
冯瑶目前是斯坦福大学的博士后，明年即将入职清华人工智能学院任教。她在博士阶段师从计算机视觉领域的重要学者 Michael J. Black，在德国马普所专注"人"的数字化建模，用算法重建人体的三维形态、动作与姿态，让机器理解人类身体如何在空间中移动、交互。到斯坦福后转入机器人方向，试图把对人的理解带进物理世界。
而刚从海外回国的刘淼，目前担任清华大学人工智能学院的助理教授。他在过去三年在 Meta GenAI 参与了 Llama 3 与 Llama 4 等多模态大模型的研发，博士期间在佐治亚理工学院研究第一视角视觉与具身感知。
虽然两人的研究路径不同，但他们看到了同一块缺失：当前的具身智能训练中，"人"并没有被放在一个重要的位置。无论是对人体进行三维建模，还是用第一视角数据训练模型，画面中的"人"往往只是背景而非交互主体。模型学会了识别场景中的一切物体，却读不懂对面那个人的状态、意图与需求。
于是他们决定一起创业——
打造一种以人为中心（Human-Centric）的全新具身模型范式，让机器人真正理解“人”的行为、意图、记忆与偏好，并最终在真实的共处场景中建立信任。
在这场对话中，我们的问题始终围绕“人”展开：机器人该如何捕捉需求、推断意图，进而赢得信任？答案可能藏在尚未成型的数据范式里，可能指向仍在探索的模型架构，也可能依赖一套需要彻底重构的评测体系……
一切还在探索之中。
以下是我们的对话：
为什么是“人”？从大模型到具身智能的转向
DeepTech：
两位为什么会选择具身智能这个方向进行研究？
刘淼：
其实我在博士阶段做的就是机器人方向，比如基于第一视角视觉（egocentric vision），结合 learning from demonstration 或 imitation learning，让机器人通过模仿学习去完成更接近人类的操作任务。
当时受限于项目条件，我们更多只能做一些偏“纯视觉”的研究。后来在 Meta 工作期间，由于研究方向相对自上而下（top-down），个人能够选择的空间比较有限，这条路径依然没有被系统性推进。
但我心里其实一直没有放下具身智能。我始终希望有机会把“让机器人真正像人一样在物理世界中行动”这
件事做好。
冯瑶：
我的路径和刘淼有些不同。我的出发点就是“人”，在博
士阶段，我在德国主要的工作是做“人”的建模，比如什么是好的 human representation（人体表征），以及如何从网络数据中理解人类行为。我也尝试过结合大模型做行为理解，但这些大多在“数字世界”里完成。
但纯数字环境的问题在于缺乏真实的交互感，也很难评估模型是否真的“理解了人”。因为缺少可靠的 benchmark。
后来我去了斯坦福，加入机器人团队，把这些关于“人”的建模放到物理世界中验证。我逐渐意识到：
只有当模型既能理解人类行为，又能驱动一个实体在真实世界中与人交互时，我们才真正有机会判断它是否“做对了”。
而机器人就像一个天然的测试平台。你让它去行动、去互动，很多问题会立刻暴露出来，推动研究从“看起来有效”转向“真正可用”。
DeepTech：
刘淼老师之前在 Meta GenAI 参与过 Llama 3/4 等大模型训练，那是纯粹的数字世界；但具身智能需要处理复杂的物理世界。除了热爱，这种转变背后还有什么原因？
刘淼：
费曼有一句很有名的话：
“What I cannot create, I do not understand.”
（我无法创造的东西，我就无法真正理解。）
但在今天这个时代，这句话其实可以被“反过来”看。一个模型即使能够生成文本、图像甚至视频，也不意味着它真正理解了物理世界。
什么才算真正的理解？一个标准是：它能否在物理世界中行动，并理解行动带来的后果。包括物理规律、因果关系，以及“动作如何改变环境”。这正是具身智能被重视的原因：只有进入真实世界、与环境交互，模型才可能形成类似人类的“世界模型”。
更重要的是，现实世界不只是由物体构成的，它更是一个“有人存在的世界”。当前的大模型在“理解人”上很有限。它们能识别动作、服饰、年龄，但很难理解情绪、意图，以及“心智理论”。
如果把这些模型直接放进真实环境与人类互动，它们很难稳定工作。这个世界从来不是空的物理空间，而是充满人的世界。忽略这一点，具身智能走不远。这也是我在 Meta 时逐渐意识到的局限，所以我回国后，希望在这些方向上继续探索。
DeepTech：
相比海量的第三视角数据，你所研究的第一视角数据的不可替代性在哪里？
刘淼：
第一视角最核心的独特性是
“具身性”（embodiment）
：感知和动作紧密耦合。感知驱动动作、动作改变环境、环境反过来影响下一步的观测。这种闭环是第一视角天然具备的，也更符合人类的感知和行为方式。
另外，长时间的第一视角视频还隐含了人类的认知层级：它记录了你的意图（视线主动聚焦在哪里）、探索路径（如何寻找目标），以及到达目标后如何利用环境完成任务。
这对应了机器学习中的“探索与利用”的权衡（exploration vs. exploitation）。第一视角数据天然把两者结合在了一起，对机器人学习非常有价值。
DeepTech：
如果放在一个具体任务中，基于第一视角和第三视角的数据，机器人实际表现会有什么差别？
刘淼：
以厨房场景为例，比如洗菜或切菜。从第三视角看，你能大致判断这个人在做什么。是站在水池边或案板前，知道是洗菜或切菜。
但很多关键细节是捕捉不到的：具体洗到哪个位置、哪只手握菜、哪只手开水龙头，或者切菜时的角度、双手配合、切到哪一步。这些细粒度的动作信息，第三视角很难获取。
而第一视角能直接对齐“手—眼—动作”的关系，这对机器人学习可执行的操作策略非常关键。
DeepTech：
冯瑶老师，从 DECA、PIXIE 这样的人体重建工作，到语言模型相关研究，再到近一两年的人形机器人控制，这条路径其实跨度很大。你的研究思路是怎样的？
冯瑶：
我一直想构建一个真正的“实体智能体”，它能够像人一样存在和行动。
从这个目标往回看，第一步一定是理解“人本身”。早期的工作，比如 DECA、PIXIE，关注的是如何在数字世界中重建人，也就是学习一个有效的 human representation，以及从大规模互联网数据中提取人的行为模式。
但一个很自然的问题是：学到这些表示之后，下一步该做什么？大约在 2022 年，大模型的出现让我很快意识到，这类模型在建模和推理能力上是一个非常关键的突破。于是我们开始尝试把大模型和此前的人体表示结合起来，让模型不仅能“看到人”，还能在语义层面理解人类行为