看到宋鸿涌从Kimi后训练负责人转型做通用人形机器人基座模型,我第一反应是:这波跨界有点猛,但细想又在情理之中。后训练(Post-training)在LLM领域已经被证明是提升模型对齐和任务泛化能力的关键,而机器人领域最缺的恰恰是这种“从数据到行为”的闭环优化能力。宋在月之暗面主导的强化学习+RLHF经验,如果迁移到机器人控制中,理论上能解决当前仿真到现实(Sim2Real)的泛化瓶颈。

但个人经验告诉我,机器人基座模型的坑比LLM深得多。LLM后训练依赖的是海量文本数据,而机器人领域缺乏标准化的交互数据集,尤其是人形机器人的动力学建模和实时反馈延迟问题,会让强化学习的训练效率大打折扣。宋团队如果直接套用LLM的PPO或GRPO框架,可能会在样本效率上栽跟头。

我的疑问是:他们打算如何构建机器人领域的“预训练-后训练”范式?是先在仿真环境大规模预训练策略网络,再通过少量真实数据微调,还是直接走端到端的模仿学习?另外,基座模型如果只聚焦人形,会不会过于窄化?毕竟通用性需要覆盖多形态机器人。

从行业格局看,这波“AI大牛转行机器人”的趋势越来越明显,但至今没有一家公司拿出能稳定商用的基座模型。宋的加入可能加速技术收敛,但也要警惕过度乐观——机器人领域的物理约束和硬件成本,不是单靠算法就能绕开的。