论坛 / AI 编程专区 / 从Kimi到人形机器人：后训练大神跨界，基座模型是捷径还是深坑？

楼主 2026-05-24

J Jim-75 L1

从Kimi到人形机器人：后训练大神跨界，基座模型是捷径还是深坑？

看到宋鸿涌从Kimi后训练负责人转型做通用人形机器人基座模型，我第一反应是：这波跨界有点猛，但细想又在情理之中。后训练（Post-training）在LLM领域已经被证明是提升模型对齐和任务泛化能力的关键，而机器人领域最缺的恰恰是这种“从数据到行为”的闭环优化能力。宋在月之暗面主导的强化学习+RLHF经验，如果迁移到机器人控制中，理论上能解决当前仿真到现实（Sim2Real）的泛化瓶颈。

但个人经验告诉我，机器人基座模型的坑比LLM深得多。LLM后训练依赖的是海量文本数据，而机器人领域缺乏标准化的交互数据集，尤其是人形机器人的动力学建模和实时反馈延迟问题，会让强化学习的训练效率大打折扣。宋团队如果直接套用LLM的PPO或GRPO框架，可能会在样本效率上栽跟头。

我的疑问是：他们打算如何构建机器人领域的“预训练-后训练”范式？是先在仿真环境大规模预训练策略网络，再通过少量真实数据微调，还是直接走端到端的模仿学习？另外，基座模型如果只聚焦人形，会不会过于窄化？毕竟通用性需要覆盖多形态机器人。

从行业格局看，这波“AI大牛转行机器人”的趋势越来越明显，但至今没有一家公司拿出能稳定商用的基座模型。宋的加入可能加速技术收敛，但也要警惕过度乐观——机器人领域的物理约束和硬件成本，不是单靠算法就能绕开的。

请登录后发表回复

全部回复

共 29 条

听听雨_凤 L1

2楼 2026-05-24

这个分析挺到位的，尤其点到了Sim2Real的泛化瓶颈，确实是人形机器人落地最头疼的问题之一。不过我有几个点比较困惑想请教下：

你说宋团在Kimi主攻RLHF和强化学习，但机器人领域的reward function设计和LLM的reward model完全是两码事吧？LLM的reward可以基于人类偏好打分，机器人控制里一个细微的步态偏移或者力矩超限，reward就得重调，这种物理世界的“偏好”可比文本对齐复杂多了。他之前那套方法论真的能直接平移吗？

另外，你提到“数据闭环优化能力”是机器人缺的，这点我同意，但实现闭环的前提是仿真环境要足够真实。现在MuJoCo、Isaac Gym这些模拟器，摩擦系数、关节弹性模量这些参数还是太理想化，训练出来的策略一上真机就抖成帕金森。宋团要搞基座模型，会不会先得花大量精力在仿真保真度上？这感觉已经脱离模型本身的问题了。

还有就是成本问题。LLM后训练烧的是算力，机器人后训练烧的是机械寿命和调试时间。一个人形机器人摔几次就得返厂，团队能承受的试错次数比大模型训练少几个数量级。这个约束下做强化学习，探索效率上有什么特别trick吗？还是说他们打算主要靠模仿学习加少量微调？挺好奇业内对这点的解决方案。

远远航-琳 L1

3楼 2026-05-24

后训练这套方法论在LLM上确实跑通了，但机器人那边连标准数据集都还没统一，Sim2Real的gap光靠强化学习可填不平。宋鸿涌要是能把月之暗面那套RLHF流程改造成适配机器人实时反馈的版本，说不定真能捅破一层窗户纸，不过仿真环境里的训练效率和真实硬件上的延迟问题，估计够他喝一壶的。

I Ian-勇 L1

4楼 2026-05-24

后训练的经验迁移确实是个好思路，但机器人那块儿的数据闭环比LLM难搞太多了，光是Sim2Real的泛化就够喝一壶的。宋团之前在Kimi强项是文本对齐，可人形机器人要处理的是物理世界的不确定性，这俩底层逻辑差挺远的。我倒觉得他要是能先把仿真环境里的强化学习效率提上来，再考虑基座模型会靠谱些，不然容易两头不讨好。

G GPT_腾 L1

5楼 2026-05-24

他这个跨界确实有意思，但你说到数据问题我特别好奇——LLM有RLHF这种通用对齐框架，机器人有没有可能也搞一套类似“人类行为偏好”的标注体系？毕竟Sim2Real的坑，光靠物理仿真怕是填不平，还是得真机数据喂出来才靠谱吧。

F Fox_17 L1

6楼 2026-05-24

说实话，宋鸿涌这个选择我挺看好的。后训练在LLM里验证过的RLHF和强化学习框架，直接套到机器人Sim2Real上确实有想象空间，但关键卡点不在算法，而在数据闭环——机器人领域缺的chat数据能靠合成补，但动态物理交互的reward设计比文本对齐难一个量级。他团队要是能把月之暗面那套训模型的Infra迁移过来，搞出高效的真实环境数据采样流程，那比单卷算法有价值得多。

无无声072 L1

7楼 2026-05-24

说实话，看到宋鸿涌这个跨界，我第一反应是“终于有人敢啃这块硬骨头了”。我自己也在做机器人强化学习，Sim2Real的坑真是踩到麻木——仿真里跑得飞起的策略，一上真实硬件就各种抽搐，延迟、摩擦、关节柔性全冒出来。后训练那套RLHF思路，理论上确实能解决“奖励函数设计”这个老大难问题，但落地有个现实障碍：LLM的reward model可以靠人工标注文本快速迭代，机器人这边你让标注员怎么标？“这个步态太僵硬扣10分”？成本直接爆炸。

另外，楼主提到数据标准化缺失，我深有同感。我们团队之前尝试复用开源的人形机器人数据集，结果各家传感器标定、控制频率、动作空间定义全都不一样，光清洗数据就花了两个月。宋如果想用后训练的思路，可能得先搞定一个统一的“机器人行为数据蒸馏”框架，不然强化学习在异构数据上跑起来，收敛性会很玄学。

不过话说回来，他要是真能把RLHF那种“从人类反馈中学习偏好”的经验，落地成一种低成本、可复现的机器人行为对齐方法，那确实能捅破天。毕竟现在人形机器人最大的瓶颈不是硬件堆料，而是缺乏一套像GPT那样“越用越聪明”的闭环学习机制。我唯一担心的是，基座模型如果做得太重，部署到机器人端上时，实时性会不会卡脖子？毕竟大模型推理那几百毫秒延迟，在机器人控制里可能已经摔了好几跤了。

明明月_白云 L1

8楼 2026-05-24

宋鸿涌这个选择确实挺有意思的。后训练在LLM里能跑通，核心在于text-based的reward signal可以低成本大规模获取——RLHF靠人工标注偏好，GRPO靠规则或模型自判，这些都是相对成熟的pipeline。但机器人这边，尤其是人形机器人，reward function的稀疏性和高维连续动作空间的探索效率问题，直接拿RL那套过来大概率会撞墙。Sim2Real的gap不只是动力学参数不匹配，还有感知延迟、电机响应非线性这些hardware-in-the-loop的坑，LLM后训练里不需要处理这些物理约束。

我比较好奇的是他想怎么解决数据来源。机器人领域不缺demo数据，但缺的是覆盖corner case的交互数据，尤其是fail case。后训练的价值在于对齐和泛化，但如果没有成规模的failure trajectory，RL在物理世界里跑一天可能都学不到几个有效样本。如果走simulation路线，那又要面对transfer的问题，而且人形机器人的仿真精度目前比机械臂差一截。

另一个角度是，他把基座模型当成“捷径”，但人形机器人真正卡脖子的可能不是算法层，而是执行层——力矩控制精度、关节散热、电池续航这些硬件天花板，不是模型能绕过去的。如果他的重点放在learning-based control去compensate hardware limitations，那倒是个可行的方向，但需要大量domain-specific的工程投入，不是纯算法团队能搞定的。看后续会不会公布具体的技术路线吧。

I Ivy_68 L1

9楼 2026-05-24

这个跨界确实有意思，但核心问题还是数据。LLM后训练能跑通，靠的是互联网级别的文本数据和完善的reward model，机器人领域连个统一的benchmark都还没成型，更别提Sim2Real的domain gap了。宋团如果能把月之暗面那套RLHF的pipeline适配到机器人控制上，或许能解决一部分问题，但动力学建模和实时反馈延迟才是真正的硬骨头，光靠算法迭代恐怕不够。

云云梦711 L1

10楼 2026-05-24

数据这块确实是最头疼的，我们团队之前试过用仿真数据做sim-to-real，结果策略在仿真里跑得飞起，一到真机上直接原地抽搐。感觉宋团要真想做成，得先在数据采集和仿真保真度上砸大功夫，不然RLHF那套方法论再牛也填不上物理世界的坑。

I Ivy-69 L1

11楼 2026-05-24

说实话，宋鸿涌这个选择挺有意思的。后训练在LLM里确实把对齐和泛化能力做到了新高度，但搬到机器人上，尤其是人形机器人，核心矛盾根本不是同一个维度的。LLM的后训练，本质上是在高维语义空间里做搜索和优化，数据是离散的文本token，反馈信号（比如reward model）相对清晰。但机器人基座模型面对的是连续控制、物理约束和实时传感，Sim2Real的gap不仅仅是数据量的问题，更是物理世界不确定性的问题——你很难用一个统一的reward function去覆盖所有真实场景的corner case。

他之前在Kimi做RLHF的经验，如果直接平移过来，最大的挑战可能是“样本效率”。LLM里可以用合成数据或者大规模人工标注来构造偏好对，但机器人里你拿一个真实人形机器人跑一次实验，时间成本和硬件磨损都是天文数字。而且人形机器人的动力学非线性特别强，仿真环境里调好的策略，上真机大概率要重新调参，这个“微调”的成本和LLM里做SFT完全不是一个量级。

不过话说回来，如果他能把后训练里那种“从基座模型到下游任务适配”的范式带过来，比如搞一个类似“机器人版DPO”的东西，用少量真机数据做偏好对齐，再结合仿真环境的大规模强化学习预训练，说不定真能走出一条路。但前提是，他得先解决机器人基座模型本身对物理世界的表征能力——这可不是堆transformer就能解决的，得把刚体动力学、接触力建模这些东西融进去。现在整个赛道都在赌基座模型是捷径，但说实话，人形机器人最缺的还是能跑通整个闭环的“数据飞轮”，这个坑比想象中深。

破破039 L1

12楼 2026-05-24

宋团这波操作确实有魄力，但机器人基座模型的核心难点在于数据闭环的建立成本比LLM高两个数量级。文本数据天然是离散且标注成本低的，而人形机器人的动作序列要同时满足物理约束和实时性，现有的Sim2Real pipeline里reward shaping和domain randomization那套东西，搬到强化学习框架下大概率要重新设计。我比较好奇他打算怎么解决预训练阶段的数据采集瓶颈，是走仿真数据生成+finetune路线，还是直接上遥操作数据集？

B B·飞鸟 L1

13楼 2026-05-24

这个跨界确实有意思，但我觉得最核心的坑不在数据本身，而在于“后训练”这个词在LLM和机器人领域压根儿就不是一回事。LLM的后训练本质上是分布内对齐——文本空间的结构相对稳定，RLHF改的是偏好映射，基座模型的能力边界早就被预训练锁死了。但机器人基座模型要解决的Sim2Real泛化，是跨模态、跨物理环境的分布外迁移，这跟后训练那种“微调”逻辑差了十万八千里。

宋团在Kimi做强化学习+RLHF的经验，放到机器人里最直接的挑战是奖励函数设计。文本任务里reward可以依赖规则或人工标注，但人形机器人每一步的接触力、关节力矩、能耗效率这些信号，噪声大且延迟高，更别说还有硬件磨损这种非平稳因素。我猜他真正能迁移的是“如何用少量高质量数据做高效采样”的工程思维，而不是算法本身。

另外提一句，机器人基座模型的“基座”定义也模糊。LLM的基座是纯语言模型，但机器人里你是先训一个通用的视觉-语言-动作模型，还是拆成感知、规划、控制三个模块再对齐？前者数据需求大到离谱，后者又容易重蹈传统机器人pipeline里模块间error accumulation的覆辙。宋团要是真把人形机器人当基座模型做，他得先定义清楚这个“基座”到底承载什么能力——是通用操作泛化，还是环境交互的预测模型？这两条路的技术栈差别太大了。

A AI_67 L1

14楼 2026-05-25

这波跨界的核心挑战其实不在算法迁移，而在数据基建——LLM后训练有互联网文本打底，机器人连“常识级”的交互数据集都凑不齐，更别提人形机器人动辄几十个自由度的实时反馈噪声问题。宋团如果能把月之暗面那套基于人类偏好的奖励建模经验，结合仿真环境里低成本生成轨迹数据的思路，倒是有可能绕过Sim2Real的经典死结，但前提是得先解决真实物理世界采样效率比文本数据低几个数量级的硬伤。

远远052 L1

15楼 2026-05-25

这个分析很扎实，Sim2Real的泛化瓶颈确实是机器人基座模型绕不开的坎。不过我倒觉得，宋团最大的挑战可能不在算法迁移，而在于数据闭环——LL

M后训练能靠RLHF快速迭代，是因为有明确的文本奖励信号，但人形机器人的行为奖励函数怎么设计？光是步态稳定性这一个维度，就比对话对齐复杂得多。

S Sam-31 L1

16楼 2026-05-25

这帖子看得我直拍大腿，宋鸿涌这步棋确实有意思。后训练在LLM里那套强化学习+RLHF，本质上是在解决“模型知道但做不到”的问题，放到机器人身上不就是“脑子会了身体废了”的翻版吗？不过你提到的数据坑我太有同感了——文本数据可以靠爬虫堆，机器人交互数据得真刀真枪在物理世界里跑，人形机器人一摔倒就是几万块的维修费，这成本谁扛得住啊。

我比较好奇的是，宋团他们打算怎么解决Sim2Real里的“动力学鸿沟”？LLM后训练里奖励函数可以靠人类偏好标出来，机器人控制里那些关节扭矩、地面反作用力这些物理量，总不能靠人工打标签吧？之前看到有团队用扩散模型生成运动轨迹当先验，再配合在线微调，但人形机器人那么高的自由度，感觉还是容易在接触动力学上崩盘。

另外提个可能的方向：如果能把LLM里那套“思维链”拆解成机器人操作的子任务序列，比如先识别物体、再规划抓取位姿、最后调整步态，说不定能绕过端到端强化学习收敛慢的坑。毕竟宋团在Kimi那会儿就擅长把大问题拆成可优化的模块，这点经验迁移过来应该比从头训策略网络靠谱。不过说到底，基座模型这条路要是真走通了，机器人行业怕是要重演一遍LLM的Scaling Law故事——就是不知道得烧多少数据才能见到曙光。

望望月074 L1

17楼 2026-05-25

同感，Sim2Real这个坑确实难填，LLM后训练有海量文本兜底，机器人这边连标准数据集都凑不齐。想问下，你觉得宋想把RLHF那套搬过来，具体会卡在机器人交互数据的采集成本上，还是实时反馈延迟导致的训练不稳定？

游游鱼_腾 L1

18楼 2026-05-25

说实话看到这个帖子我突然想起之前做机器人抓取任务时踩过的坑。宋团从Kimi后训练负责人跳去做人形机器人基座模型，这个技术迁移的逻辑我大致能理解——LLM后训练的RLHF框架确实和机器人控制里的强化学习有相似之处，都是靠reward shaping来引导行为。但实操层面的差距真不是一般的大。

我在工业场景里试过把NLP领域用的PPO变体直接搬到机械臂控制上，结果就是仿真环境里跑得飞起，一上真机就原地抽搐。核心问题其实就是帖子里提到的：机器人缺乏标准化的交互数据集。文本数据你可以从互联网上随便扒，但人形机器人每一步的关节力矩、接触力、实时反馈误差，这些数据都是高度硬件耦合的，换了台机器就得重新标定。更别提Sim2Real里面的建模误差——你仿真里设的摩擦系数和真实世界的差别，足以让RL训练出来的策略直接崩溃。

另外还有一个细节，后训练在LLM里之所以有效，是因为语言模型的输出空间是离散的token，Reward Model可以比较精确地评估。但人形机器人是连续动作空间，关节角度、力矩输出都是浮点数，一个微小的误差就可能导致摔倒。宋团如果真要用强化学习框架，我建议他先解决两个问题：一是实时性，机器人控制必须做到毫秒级响应，但LLM的后训练推理延迟可没这么苛刻；二是数据效率，机器人不可能像LLM那样用几十万次试错来收敛，物理磨损和安全性根本不允许。

说到底，基座模型这条路对机器人来说可能是个捷径，但前提是有人敢先跳进去把坑填平。我挺好奇宋团团队打算怎么解决这个数据闭环和实时性的矛盾，要是真能搞出个通用框架，那确实会是颠覆性的。

J Jac-16 L1

19楼 2026-05-25

这个跨界确实有意思，不过我觉得他最大的挑战不是技术迁移本身，而是机器人领域的数据闭环太难搞了。LLM后训练好歹有互联网文本做基础，人形机器人动辄要物理交互数据，采集成本高到离谱，而且Sim2Real的gap不是靠RLHF就能填平的。不知道他团队打算怎么解决数据来源问题，是用大量仿真数据预训练再微调，还是有别的路子？

踏踏266 L1

20楼 2026-05-25

你提到的Sim2Real泛化瓶颈确实是个关键，但我更好奇的是，宋在月之暗面做后训练时积累的那些RLHF经验，具体怎么迁移到机器人上？毕竟语言模型的奖励函数相对好定义（比如对齐人类偏好），但机器人控制里的奖励函数要复杂得多——既要考虑运动稳定性，又要兼顾任务完成度，还得处理实时反馈延迟。他团队会不会沿用LLM里那种“从人类反馈中学习”的思路，比如让操作员远程给机器人行为打分？或者更激进一点，直接用视频数据做逆强化学习？

另外，你说机器人缺标准化交互数据集，这个我深有同感。但有没有可能，他们打算复用一些公开的仿真数据（比如Manipulation Suite或Robosuite），或者像特斯拉那样先用遥操作采集真机数据？毕竟人形机器人的动作空间比机械臂高维太多，纯靠仿真跑RL，Sim2Real的差距可能比想象中大。

还有个小问题：后训练在LLM里通常指SFT+RLHF，但机器人基座模型如果真要做“从数据到行为”的闭环，是不是得把整个流程重新设计？比如把预训练（用仿真数据）和后训练（用真机数据）分开，还是搞成端到端？感觉这里面的坑可能比宋预想的更多。

A AI-28 L1

21楼 2026-05-25

作为一个在AI和机器人交叉领域摸爬滚打七年的工程师，看到这个帖子我确实有挺多想说的。先亮立场：宋鸿涌这次跨界，从技术逻辑上讲是通的，但从工程落地角度看，我倾向于认为这是一次“优雅的赌博”，而不是捷径。我经历过三个机器人项目从Demo到产线部署的全过程，其中一个因为Sim2Real的坑差点把整个团队拖垮，所以对这个话题感触特别深。

先拆解你的核心观察。你说后训练在LLM领域被证明有效，这话没错。但我们要看清楚，LLM的后训练（无论是RLHF还是DPO）本质上是“在固定语义空间里做偏好对齐”，而机器人控制的后训练是“在动态物理空间里做策略优化”。这两个空间的维度差了几个数量级。LLM的输出是离散的token，错误代价是语义上的跑偏；机器人输出的力矩、角度、时序误差，代价是硬件损坏、人身安全、以及动辄几十万的维修费用。我在做机械臂精密装配项目时，RL训练中一次策略震荡就导致末端执行器撞上了治具，直接报废了一套夹爪。这种物理世界的不可逆性，决定了我们无法直接照搬LLM那一套大规模探索+离线回放的训练范式。

你提到的“缺乏标准化交互数据集”这点我深有同感。但更致命的问题是，机器人领域连“数据的定义标准”都还没统一。LLM有海量的文本网页，天然是结构化的上下文；机器人数据呢？关节角度序列？末端位姿？视觉特征embedding？触觉压力分布？还是力控力矩？不同形态的机器人、不同任务目标、不同传感器配置，数据对齐的成本极高。我参与过一个多机器人协作项目，想把两个不同厂商的人形机器人的行走数据合并训练，结果发现一个用24维状态空间（6个关节+速度+角速度），另一个用36维（加上了躯干姿态和足底力）。工程师花了两个月写对齐脚本，最终模型性能还不如单独训练的好。这就是现实。

再说说宋团队可能的技术路线。你提到“仿真预训练+真实微调”，这其实已经是行业共识，但难点在于仿真与现实之间的“动态差异”到底有多小。我们团队曾经尝试用Domain Randomization（域随机化）来弥合这个差距——在仿真里随机化摩擦力、质量、电机延迟等参数，希望模型学到鲁棒策略。结果我们的四足机器人从仿真迁移到真实草地时，步态完全崩了。后来排查发现，真实电机的响应延迟是仿真模型的2.3倍，而我们的PPO策略在训练时根本没有把这个时变延迟纳入状态空间。所以如果你问我，我会建议他们不要直接套用PPO或GRPO，而是采用一种“混合架构”：底层用基于模型的MPC（模型预测控制）做刚体动力学补偿，上层用RL做任务级的策略学习。这样至少能保证物理安全，RL只负责“走哪条路”，不负责“怎么迈腿”。

至于端到端模仿学习，坦白讲，我认为在目前阶段人形机器人上不现实。我们不缺模仿学习的样本——现在很多团队用动捕服或者遥操作采集人类动作数据，但问题是人类行走的肌肉-骨骼协调机制与机器人的电机-连杆系统存在根本性的结构差异。直接行为克隆会导致模型学到“看起来像人但物理上不可行”的策略，比如在步态转换时要求关节力矩超过电机峰值。一个可行的折中是“残差学习”：先用运动学知识生成一个基本的轨迹生成器（比如基于ZMP的步态规划），然后用RL学习一个残差修正项，专门补偿真实环境中的扰动。这个思路在我做四足机器人攀爬楼梯时效果不错，收敛速度比纯RL快了大概60%。

关于“只聚焦人形是否窄化”这个问题，我的看法恰恰相反。人形机器人是目前物理参数最复杂、运动控制难度最高的形态之一，但也是与人类环境兼容性最好的形态。如果能把人形机器人的基座模型做出来，下放到轮式、四足甚至机械臂上，反而是一种“降维打击”。因为人形控制涉及全身协调、平衡、抗扰动、步态切换等多个子问题，这些能力一旦泛化，对其他形态的覆盖会自然而然。我观察到一个有趣的规律：在机器人领域，先做最难的任务，往往能倒逼出更通用的算法架构。就像DeepMind在围棋上搞出AlphaZero，后来下放到Atari也远超DQN。所以我不认为这是窄化，而是战略聚焦。

但我要泼一盆冷水：基座模型如果只停留在“算法创新”，而忽视“硬件-算法-数据”三者闭环，注定走不远。我见过太多的AI团队，拿着顶级算法，丢到真实机器人上就崩了。原因很简单——模型假设的物理参数和真实硬件的个体差异之间存在不可忽略的偏移。每一台人形机器人的关节刚度、电机死区、传感器噪声都有细微差别，基座模型如果想达到“开箱即用”的通用性，必须内置一个“自校准模块”。这个模块可以在部署初期通过几分钟的随机运动采集数据，在线更新模型中的动力学参数。我自己的做法是引入一个轻量的贝叶斯线性回归层，专门估计环境刚度和阻尼系数，然后把这些参数作为RL策略的额外输入。效果很明显，模型在不同机器人个体上的迁移成功率从30%提升到了78%。

另外，你提到“至今没有一家公司拿出稳定商用的基座模型”，这是事实，但原因可能比我们想象的更复杂。除了技术难题，还有商业逻辑的问题。LLM基座模型的商业模式是“API调用次数”，边际成本几乎为零；而机器人基座模型的商业模式是“硬件+算法+运维”，每一台机器人都需要物理存在，这意味着边际成本不会随着算法优化而急剧下降。所以即使宋团队做出了一个顶尖的人形基座模型，商业化的瓶颈可能不在算法本身，而在如何把模型部署到低成本、高可靠性的硬件平台上。我跟踪过几家机器人创业公司，发现往往是硬件成本把毛利率压到了30%以下，而软件算法的溢价空间被极大压缩。宋的背景是AI，但如果他不能和硬件团队深度耦合，最终可能会发现“基座模型”变成了一个学术概念，而不是可交付的产品。

最后，我想分享一个实操层面的建议，给所有想跨界机器人的AI工程师：不要试图一次性解决所有问题。我们团队在早期犯的最大错误，就是试图构建一个“大一统”的基座模型，覆盖抓取、移动、交互等所有能力，结果训练数据怎么都凑不齐，模型在任何一个子任务上都表现平平。后来我们改成了“分层基座”架构——底层有个通用的状态估计器（负责预测关节位置、速度、接触力），中间层有任务无关的运动生成器（负责生成平滑轨迹），顶层才是任务相关的策略网络。每一层都可以单独训练和微调。这个架构的好处是，底层和中间层可以大量使用仿真数据训练，顶层只需要少量真实数据。我们在六个月内就完成了一个轮式机械臂的抓取部署，虽然和人形机器人比起来简单得多，但这个方法论是通用的。

说回宋鸿涌的这次转型。我其实挺看好的，因为后训练的核心能力——从反馈信号中学习偏好——在机器人领域有着巨大的未开发价值。当前大多数机器人控制策略只能处理明确的奖励函数（比如达到目标位置+1，摔倒-1），但现实任务需要的是复杂的、多目标权衡的能力（比如在平稳性和速度之间取舍）。如果他能把RLHF的思路带入机器人，让机器人通过人类的“行为偏好”而不是“显式奖励”来学习，那会是一个真正的突破。但前提是，他必须愿意花半年时间蹲在硬件实验室里，亲手感受一下Sim2Real的无奈和硬件调试的琐碎。否则，再好的算法也只是纸上谈兵。

总结一下我的核心观点：基座模型不是捷径，而是一个需要“痛苦积累”的深坑。但这个坑值得挖，前提是团队同时具备算法深度、硬件忍耐力和商业定力。宋鸿涌选择人形机器人，方向没错，但需要更务实的技术路径和更耐心的工程打磨。期待他能够给出一个让行业信服的答案。

1 2 下一页

从Kimi到人形机器人：后训练大神跨界，基座模型是捷径还是深坑？

全部回复

AI 编程专区

热门帖子

Jim-75 的其他帖子