具身智能来时路：谷歌RT1、2，SayCan作者Ted Xiao复盘机器人学习三大时代

你可能觉得今年人形机器人的 demo 已经看麻了。但 Ted Xiao 说，哪怕是最粗糙的那一条，放在两年前都能让全场研究者惊掉下巴，因为那时候没人相信这事真能成。
Ted Xiao
曾任 Google DeepMind Staff Research Scientist 及技术负责人，一待就是 8 年，参与了
RT-1、RT-2、SayCan 以及 Open X-Embodiment
等具有行业定义意义的机器人基础模型项目。如今，他已加入由亚马逊创始人杰夫・贝佐斯亲自掌舵的新型 AI 初创公司 —— Project Prometheus，致力于突破具身智能在大规模环境下的推理与控制难题。
在最近的一次访谈中（来自 RoboPapers），Ted Xiao 以亲历者视角，系统回顾了过去近十年来具身智能领域的变革，复盘了每个关键决策背后的思考过程 —— 那些在论文里看不到的犹豫、转折与顿悟时刻。
视频链接：http://youtube.com/watch?v=etPqBphTgmE&t=1101s
这篇文章整理了 Ted 讲的机器人学习三个时代：
存在性证明时代、基础模型时代、Scaling 时代
。
Ted 会告诉你，为什么他们团队曾经陷入「Code Yellowish」状态，一年半不发论文，只闷头收集数据；在强化学习被寄予厚望的时期，为什么他们会大胆推进当时不被看好的模仿学习；以及为什么把视觉语言模型直接当机器人策略骨架的 VLA 路线，他们本可以早至少一年动手，却硬是晚了一步？
如果你关心 AI，关心机器人，或者只是好奇「这波浪潮是怎么起来并持续演进的」，这个故事值得细读。
存在性证明时代：
端到端学习，真的能行吗？
2015、2016 年，DQN（Deep Q-Networks）和 AlphaGo 相继问世，证明了端到端数据驱动方法的惊人普适性。与此同时，机器人硬件其实早已成熟 —— 斯坦福几十年前的双臂移动操作系统已能完成各种家务，瓶颈始终是背后那个必须介入的人类智能。
于是一个听起来很疯狂的问题出现了：
将强化学习等数据驱动方法直接应用于真实机器人系统，会发生什么？
Ted 就是被这个问题吸引进来的。他加入了当时不到 20 人的 Google Brain 机器人团队，做一件听起来很枯燥的事：把一批 KUKA 机械臂摆进房间，让它们 24 小时不间断抓取物体，跑在线强化学习。
这件事的难点，比想象中要大得多。
Atari 和 Go 的成功，依赖于清晰离散的动作空间 —— 游戏手柄上那几个按键，棋盘上有限的落子位置。而真实机械臂面对的，是一个高维、连续的动作空间：六七个关节的角度、末端执行器的位姿、夹爪的力度…… 加上从摄像头以较高频率传入的图像观测，无论是状态空间还是动作空间的维度，都远超游戏场景。直接套用为 Atari 设计的 value-based RL 方法，是行不通的。
团队提出的解法是
QT-Opt
—— 用交叉熵方法（CEM）来近似求解 Bellman 更新中的 Q 值最大化问题，从而处理机器人连续动作空间。QT-Opt 不仅仅是算法创新，还需要构建一整套系统：24 小时运行的机械臂农场（arm farm）、评估系统、控制栈等。例如，他们实现了「并发 RL」（concurrent RL），让机器人在执行动作的同时进行推理，而不是「停顿 - 观察 - 推理 - 执行」的串行模式。为了缩小仿真与真实环境的域差异，他们训练了 CycleGAN 将仿真图像转换为逼真的真实风格图像，使策略能在仿真中训练后较好地迁移到真实世界。
这套「机械臂农场」系统最终证明了一件事：端到端机器人学习在真实世界里不是玩具，它能 work。
抓取跑通之后，下一个问题自然来了：能不能同时学会多个任务？
这一时期团队展开了一批方向各异的探索：
BC-Z
是其中一项代表工作 —— 第一个大规模、多任务、语言条件化的模仿学习策略。
MT-OPT
则是 QT-Opt 的多任务扩展，尝试把大量技能压缩进同一套神经网络权重里，探索一个网络能否同时「记住」多种行为。
另一条更有野心的路线是
Learning from Play
。它的出发点是：能不能让人类随心所欲地操作机器人，不设定明确目标，只是「玩」—— 然后用 Hindsight Experience Relabeling 从这些无结构的轨迹中提取有意义的经验？Ted 形容这个方向在当时非常好玩。
探索越多，一个问题变得越来越清晰：
强化学习这条路正在遭遇收益递减
。
Ted 展示了一张学习曲线图：RL 线确实在往右上爬，但背后是整个分布式系统的运维噩梦 —— 一部分数据来自仿真，一部分来自真实机器人，策略 checkpoint 会过期，控制器代码一旦改了某个 bug，之前采的数据就可能报废。「RL is Painful」。与此同时，模仿学习虽然开箱即用，但准确率始终卡在 60%、70%、80%，死活上不去。
两条路都不对劲。团队进入了一种被称为「Code Yellowish」的状态 —— 不是危及存亡的 Code Red，而是「研究方向出问题了，得停下来还研究债」。
于是，团队做了一个在当时看来极其反主流的决定：停掉所有论文发表，花一年半时间，什么都不做，只攒数据。他们雇了近 10 名专业操作员，用远程操控（teleop）方式，在微型厨房环境里收集了几百种不同任务的高质量专家演示，最终攒下约 87,000 条轨迹。这在今天看来或许规模不大，但在当时是一个孤注一掷的赌注 —— 赌的是「离线高质量数据 + 监督学习」这条被整个领域视为「第一章玩具」的路，能不能在真实机器人上 scale。
之所以说反主流，是因为当时的学术信仰很明确。Ted 回忆，2016 年伯克利的第一门机器人学习课上，老师首先讲 BC，然后就是「为什么 BC 不行」——compounding errors、分布偏移，结论是：BC 只能解决玩具问题，其余都得靠 RL。这种「BC 到 70%，RL 才能带你到 90%」的信念，几乎就是当时的铁律。
但就在那段「Code Yellowish」的沉寂期里，团队的一位基础设施大神 Yao Lu 把整个训练器从底层重写了一遍。重写之后，BC 突然不再撞墙了 —— 它从 80% 的天花板一路冲到 90%、95%，而且随着真实世界数据的增加，还在继续提升。
那一刻，数据说话了。大规模模仿学习不仅能 work，而且就是他们要的那张「配方」（recipe）。团队由此退出 Code Yellowish，带着信心把 teleop 数据规模再推一个数量级，目标是在微型厨房里解决数千种任务。
这个阶段可以被总结为「slowing down to speed up」：放慢发 paper 的速度，还清技术债，反而为后面的爆发攒下了最稀缺的资产 —— 不是某个算法，而是高质量、可 scale 的真实机器人数据。
至此，第一个时代「存在性证明」完成了它的使命。它证明了端到端学习在真实机械臂上能跑通，也证明了数据才是当时的真正瓶颈。这个认知，直接把机器人学习推进了下一个时代：基础模型时代。
基础模型时代：
借 LLM 的东风
2022 年前后，机器人学习领域遭遇了一场来自外部

具身智能来时路：谷歌RT1、2，SayCan作者Ted Xiao复盘机器人学习三大时代

讨论 (0 条)