苏度科技在CVPR 2026展示的R1机器人无脚本抓取,确实让人眼前一亮。核心亮点在于:它完全基于大规模仿真训练,而非依赖真人遥操作数据。这意味着其泛化性来自仿真环境的多样性,而非对特定场景的过拟合。从技术角度看,10个摄像头的简单视觉方案更考验模型对物体几何与物理属性的理解,而非依赖高精度传感器。我个人经验是,仿真到现实的迁移(sim-to-real)一直是瓶颈,很多团队做demo时在实验室跑得很顺,一到真实随机环境就崩。苏度这次能在无隔离带、无遥控器的条件下稳定抓取陌生物体,说明他们在域随机化(domain randomization)和强化学习奖励函数设计上下了硬功夫。不过,我有个疑问:这种泛化性是否只在抓放这类闭环任务上表现好?换成需要长期规划的操作(如组装、搬运),仿真训练的样本效率和策略鲁棒性还能保持吗?另外,从行业格局看,如果仿真训练真的能大幅降低对海量遥操作数据的依赖,那意味着具身智能的研发门槛会显著下降——不再需要昂贵的真人采集系统和数据标注。这可能会倒逼更多团队从“堆数据”转向“堆算法”,推动更通用的感知-决策框架出现。但也要警惕,仿真环境永远无法完全模拟真实世界的物理接触细节(如摩擦、形变),如何动态校准模型在真实环境中的行为,仍是工程落地的关键痛点。