宋鸿涌从Kimi后训练负责人转向通用人形机器人基座模型创业,这一动态值得从技术本质而非融资热度层面深挖。后训练(Post-training)在大模型领域是连接预训练与落地的关键,其核心在于强化学习、指令微调与对齐技术,这些恰恰是赋予机器人“行为智能”的基础。个人经验看,机器人领域长期受困于“感知易、决策难”,尤其是复杂环境下的泛化操作。宋鸿涌团队将后训练方法论迁移至机器人基座模型,意味着试图用RLHF等思路解决行为序列的奖励建模与策略优化,这比传统基于规则或模仿学习的方法更具扩展性。
我的质疑点在于:人形机器人基座模型对数据量级和物理交互频次的要求远超语言模型,单靠算法优化能否突破Sim-to-Real的仿真鸿沟?此外,Kimi的后训练成功高度依赖对话数据的质量,而机器人领域缺乏类似规模的标注轨迹库。
值得讨论的问题:1)强化学习在机器人任务中的奖励函数设计,如何像语言模型那样实现自动化?2)后训练团队跨界机器人,是否会催生“行为对齐”技术新范式?从行业看,这标志着AI大模型从语言、视觉向具身智能的底座化渗透,若基座模型通用性成立,人形机器人将不再是“身”与“脑”的拼接,而是端到端的行为生成器。