具身大模型R1时刻：LIBERO终结者，99.9%背后的物理推理新范式

机器人拉个拉链，到底需不需要“脑子”？
过去几年，从OpenVLA到π0、π0.5，具身大模型已经能让机器人把指令和动作连得有模有样。
但一旦包的位置挪了几厘米，或者光照暗了一点，它们往往就会“大脑宕机”。
究其原因，是因为这些机器人大多在玩“连连看”：
看到观察结果，直接输出动作。
它们只是记住了轨迹，却并不理解背后的物理逻辑。
现在，一种让机器人“先想明白，再稳定行动”的新范式来了。
由
至简动力、北大、港中文
联合提出的
LaST-R1
，首次将
隐空间
物理推理
塞进了强化学习的闭环。
同时，LaST-R1作为LaST₀基座模型的物理世界后训练范式，LaST₀首创面向机器人的隐空间物理思维链推理，并已中稿ICML2026 Spotlight（top 2.2%）。
它的表现有多夸张？
仿真满分级别
：在LIBERO benchmark上，仅靠1条轨迹预热，平均成功率就冲到了
99.9%
；
真机性能起飞
：在真实抓取、旋转等复杂任务中，比目前最强的SOTA模型π0.5还要高出
22.5%
。
强化“物理推理”
：即便换了物体、背景或光照，它依然能稳如老狗，不再是单纯的动作复刻，而是真正学会了在隐空间里进行“物理思考”。
这个让机器人长出“物理脑”的LaST-R1，到底是怎么炼成的？
那个让环境反馈同时优化“怎么想”和“怎么动”的
LAPO
算法又藏着什么玄机？
我们顺着这篇论文，深挖了一下这套能让机器人“深思熟虑”的后训练黑科技。
具身大模型的隐形天花板：只会模仿，不懂物理
尽管从OpenVLA到π0.5，具身大模型已经完成了图像、语言与动作的初步对齐。
但在实际落地中，工业界发现了一个致命的“幻觉”：
能模仿，不等于能在物理世界泛化。
这就导致了极差的泛化性。
打个比方，机器人可能记住了100种拉拉链的轨迹，但只要拉链的角度偏转15度，或者光照发生变化，单纯靠“观察→动作”的端到端映射就会失效。
核心问题在于，现有的VLA模型缺少一个
“思考”
的中间层——即让机器人在行动之前，对物理世界进行推理。
过去，学术界也曾尝试引入思维链（CoT）来解决推理问题。
但对于机器人操作而言，语言推理往往太慢且颗粒度太粗，你很难用文字精准描述“拉链咬合时的细微阻力反馈”。
LaST-R1的核心突破，就是放弃了低效的语言CoT，转而
在隐空间（Latent Space）中构建物理推理链。
它不再让机器人看到图像就“闭眼”出动作，而是
先在隐性空间里建模场景的结构、物体的物理关系以及未来的动态变化。
然而，要让机器人学会这种“思考”，仅靠静态的模仿学习（SFT）是不够的。
目前的强化学习（RL）方法大多像是一个只看结果的严厉教练：它只告诉机器人动作成没成功（优化Action Space），却无法指导机器人“刚才那下你是怎么想的”。
针对这一痛点，该团队提出的
LAPO（Latent-to-Action Policy Optimization）
算法，正式将“思考过程”拉进了强化学习的优化闭环。
它让环境反馈不仅优化动作，也优化机器人行动前的“物理思考”。
不只练“手”更要修“脑”：如何让机器人强化模型的物理推理？
近日，
至简动力、香港中文大学、北京大学计算机学院多媒体信息处理国家重点实验室
，提出了一种面向机器人操作的自适应物理隐空间推理强化学习框架——
LaST-R1（Reinforcing Robotic Manipulation via Adaptive Physical Latent Reasoning）。
它希望通过强化学习后训练，让具身大模型不仅学会生成动作，也学会在行动前，进行面向物理世界的隐空间推理。
△LaST-R1 概览。
(a) 不同于仅严格优化动作的 vanilla RL 基线方法，
(b) 我们的方法利用 LAPO 联合优化自适应 latent CoT 与物理执行过程。通过连接认知推理与控制，LaST-R1 实现了
(c) 更快的收敛速度、更高的仿真成功率，
以及 (d) 更强的真实世界泛化能力。
与以往主要优化
action space
（动作空间，即机器人所有可执行指令的集合）的具身大模型RL不同，LaST-R1的核心思想是：
机器人不应只从图像和指令直接预测下一步动作，而应先在
latent space
（隐空间，可以理解为机器人大脑里的“隐性认知层”）中理解场景结构、物体关系和物理动态，再生成更稳定、精准的动作。
换句话说：
LaST-R1不只优化机器人的“手”，也优化它的“脑”。
具体来看，LaST-R1构建了一个面向
latent reasoning-before-acting
策略的强化学习后训练框架，核心由三步组成：
1、物理隐空间推理建模（Physical Latent Reasoning）
传统具身大模型往往直接从observation生成action，动作前缺少可建模、可优化的物理推理过程。
LaST-R1在模型推理中引入
latent CoT
：生成动作前，先在latent space中建模当前场景、物体关系和未来物理动态。
相比语言推理，latent reasoning更适合承载连续、高频、难以语言化的物理信息。
2、隐空间推理与动作生成的联合强化优化（Latent-to-Action Policy Optimization）
传统具身大模型RL多数只优化动作结果：哪个action带来更高reward，就强化哪个action。
LaST-R1提出
LAPO
，把环境奖励同时作用于
latent reasoning
和
action generation
：成功轨迹不仅强化正确动作，也强化动作之前的“好推理”；失败轨迹不只修正动作结果，也反向调整内部物理推理空间。
让reward真正塑造动作背后的reasoning process。
3、自适应latent CoT推理机制（Adaptive Latent CoT）
不同任务决策需要不同长度的思考。
LaST-R1引入
adaptive latent CoT
：简单状态下，模型可以快速结束推理并执行；拉拉链、擦花瓶、拧瓶盖等复杂接触式操作，则分配更长reasoning horizon。
在交互中学会：什么时候该多想，什么时候该立刻执行。
LaST-R1改变的是具身大模型后训练的优化对象：从只优化动作，转向同时优化动作背后的物理推理。
研究团队在仿真和真机环境中都进行了系统验证。
在仿真LIBERO benchmark上，LaST-R1仅依赖
1条轨迹
完成warm-up，随后通过在线RL优化，最终取得
99.9%
平均成功率，并相比Action-Only+PPO展现出更快收敛和更高最终性能。
在真机部署中，LaST-R1仅使用
30条轨迹
warm-up，再通过RL后训练将平均成功率从
52.5%
提升到
93.75%
，显著超过使用
100条专家轨迹
的π0.5（
71.25%
）。
更重要的是，在真实扰动条件下，LaST-R1仍保持较小性能下降，说明其学习到的不是单一场景中的动作轨迹，而是更可迁移的空间语义和物理动态理解。
上述结果意味着，具身大模型强化学习的重点正在发生变化——
机器人不再只是

具身大模型R1时刻：LIBERO终结者，99.9%背后的物理推理新范式

讨论 (0 条)