你可能觉得今年人形机器人的 demo 已经看麻了。但 Ted Xiao 说,哪怕是最粗糙的那一条,放在两年前都能让全场研究者惊掉下巴,因为那时候没人相信这事真能成。
Ted Xiao
曾任 Google DeepMind Staff Research Scientist 及技术负责人,一待就是 8 年,参与了
RT-1、RT-2、SayCan 以及 Open X-Embodiment
等具有行业定义意义的机器人基础模型项目。如今,他已加入由亚马逊创始人杰夫・贝佐斯亲自掌舵的新型 AI 初创公司 —— Project Prometheus,致力于突破具身智能在大规模环境下的推理与控制难题。
在最近的一次访谈中(来自 RoboPapers),Ted Xiao 以亲历者视角,系统回顾了过去近十年来具身智能领域的变革,复盘了每个关键决策背后的思考过程 —— 那些在论文里看不到的犹豫、转折与顿悟时刻。
视频链接:http://youtube.com/watch?v=etPqBphTgmE&t=1101s
这篇文章整理了 Ted 讲的机器人学习三个时代:
存在性证明时代、基础模型时代、Scaling 时代

Ted 会告诉你,为什么他们团队曾经陷入「Code Yellowish」状态,一年半不发论文,只闷头收集数据;在强化学习被寄予厚望的时期,为什么他们会大胆推进当时不被看好的模仿学习;以及为什么把视觉语言模型直接当机器人策略骨架的 VLA 路线,他们本可以早至少一年动手,却硬是晚了一步?
如果你关心 AI,关心机器人,或者只是好奇「这波浪潮是怎么起来并持续演进的」,这个故事值得细读。
存在性证明时代:
端到端学习,真的能行吗?
2015、2016 年,DQN(Deep Q-Networks)和 AlphaGo 相继问世,证明了端到端数据驱动方法的惊人普适性。与此同时,机器人硬件其实早已成熟 —— 斯坦福几十年前的双臂移动操作系统已能完成各种家务,瓶颈始终是背后那个必须介入的人类智能。
于是一个听起来很疯狂的问题出现了:
将强化学习等数据驱动方法直接应用于真实机器人系统,会发生什么?
Ted 就是被这个问题吸引进来的。他加入了当时不到 20 人的 Google Brain 机器人团队,做一件听起来很枯燥的事:把一批 KUKA 机械臂摆进房间,让它们 24 小时不间断抓取物体,跑在线强化学习。
这件事的难点,比想象中要大得多。
Atari 和 Go 的成功,依赖于清晰离散的动作空间 —— 游戏手柄上那几个按键,棋盘上有限的落子位置。而真实机械臂面对的,是一个高维、连续的动作空间:六七个关节的角度、末端执行器的位姿、夹爪的力度…… 加上从摄像头以较高频率传入的图像观测,无论是状态空间还是动作空间的维度,都远超游戏场景。直接套用为 Atari 设计的 value-based RL 方法,是行不通的。
团队提出的解法是
QT-Opt
—— 用交叉熵方法(CEM)来近似求解 Bellman 更新中的 Q 值最大化问题,从而处理机器人连续动作空间。QT-Opt 不仅仅是算法创新,还需要构建一整套系统:24 小时运行的机械臂农场(arm farm)、评估系统、控制栈等。例如,他们实现了「并发 RL」(concurrent RL),让机器人在执行动作的同时进行推理,而不是「停顿 - 观察 - 推理 - 执行」的串行模式。为了缩小仿真与真实环境的域差异,他们训练了 CycleGAN 将仿真图像转换为逼真的真实风格图像,使策略能在仿真中训练后较好地迁移到真实世界。
这套「机械臂农场」系统最终证明了一件事:端到端机器人学习在真实世界里不是玩具,它能 work。
抓取跑通之后,下一个问题自然来了:能不能同时学会多个任务?
这一时期团队展开了一批方向各异的探索:
BC-Z
是其中一项代表工作 —— 第一个大规模、多任务、语言条件化的模仿学习策略。
MT-OPT
则是 QT-Opt 的多任务扩展,尝试把大量技能压缩进同一套神经网络权重里,探索一个网络能否同时「记住」多种行为。
另一条更有野心的路线是
Learning from Play
。它的出发点是:能不能让人类随心所欲地操作机器人,不设定明确目标,只是「玩」—— 然后用 Hindsight Experience Relabeling 从这些无结构的轨迹中提取有意义的经验?Ted 形容这个方向在当时非常好玩。
探索越多,一个问题变得越来越清晰:
强化学习这条路正在遭遇收益递减

Ted 展示了一张学习曲线图:RL 线确实在往右上爬,但背后是整个分布式系统的运维噩梦 —— 一部分数据来自仿真,一部分来自真实机器人,策略 checkpoint 会过期,控制器代码一旦改了某个 bug,之前采的数据就可能报废。「RL is Painful」。与此同时,模仿学习虽然开箱即用,但准确率始终卡在 60%、70%、80%,死活上不去。
两条路都不对劲。团队进入了一种被称为「Code Yellowish」的状态 —— 不是危及存亡的 Code Red,而是「研究方向出问题了,得停下来还研究债」。
于是,团队做了一个在当时看来极其反主流的决定:停掉所有论文发表,花一年半时间,什么都不做,只攒数据。 他们雇了近 10 名专业操作员,用远程操控(teleop)方式,在微型厨房环境里收集了几百种不同任务的高质量专家演示,最终攒下约 87,000 条轨迹。这在今天看来或许规模不大,但在当时是一个孤注一掷的赌注 —— 赌的是「离线高质量数据 + 监督学习」这条被整个领域视为「第一章玩具」的路,能不能在真实机器人上 scale。
之所以说反主流,是因为当时的学术信仰很明确。Ted 回忆,2016 年伯克利的第一门机器人学习课上,老师首先讲 BC,然后就是「为什么 BC 不行」——compounding errors、分布偏移,结论是:BC 只能解决玩具问题, 其余都得靠 RL。这种「BC 到 70%,RL 才能带你到 90%」的信念,几乎就是当时的铁律。
但就在那段「Code Yellowish」的沉寂期里,团队的一位基础设施大神 Yao Lu 把整个训练器从底层重写了一遍。重写之后,BC 突然不再撞墙了 —— 它从 80% 的天花板一路冲到 90%、95%,而且随着真实世界数据的增加,还在继续提升。
那一刻,数据说话了。大规模模仿学习不仅能 work,而且就是他们要的那张「配方」(recipe)。 团队由此退出 Code Yellowish,带着信心把 teleop 数据规模再推一个数量级,目标是在微型厨房里解决数千种任务。
这个阶段可以被总结为「slowing down to speed up」:放慢发 paper 的速度,还清技术债,反而为后面的爆发攒下了最稀缺的资产 —— 不是某个算法,而是高质量、可 scale 的真实机器人数据。
至此,第一个时代「存在性证明」完成了它的使命。它证明了端到端学习在真实机械臂上能跑通,也证明了数据才是当时的真正瓶颈。这个认知,直接把机器人学习推进了下一个时代:基础模型时代。
基础模型时代:
借 LLM 的东风
2022 年前后,机器人学习领域遭遇了一场来自外部