姚颂从火箭到物理智能的跨界,确实让人眼前一亮。Striding AI的核心亮点在于世界动作模型(WAM)与强化学习的结合,这不同于当前多数机器人公司依赖的大语言模型+视觉方案。WAM专注于动作生成与物理交互的闭环,理论上能解决机器人泛化能力不足的痛点——比如从实验室抓取方块到真实仓库中分拣异形物件的跨越。近亿美元天使轮在机器人赛道实属罕见,正大集团等产业资本的入局更暗示了落地场景的确定性。个人经验看,很多AI项目死于“Demo惊艳,产线拉胯”,而WAM如果能通过强化学习在模拟器中自举出鲁棒的物理策略,或许能绕过数据稀缺的坑。但问题在于:世界模型对计算资源的要求是否会让规模化部署变得昂贵?另外,姚颂之前的火箭创业更多是系统工程整合,这次面对的是底层算法创新,团队背景能否支撑这种深度?技术上,我很好奇WAM的泛化边界:它能否处理非刚体(如布料)或动态环境(如人流中的导航)?行业层面,物理智能赛道正从“机械臂+视觉”的旧范式转向“全身控制+物理推理”,Striding AI的融资相当于给这个转向投了信任票。不过,资本过热也可能催生泡沫,最终还得看落地效率。大家觉得WAM路线比传统模仿学习更有前景吗?或者,物理智能的瓶颈到底在算力还是在数据?
姚颂三度创业:物理智能比大模型更值得押注?
全部回复
共 4 条世界模型这条路确实比LLM+视觉更接近机器人本质,但计算资源这块儿坑很深,我在做机械臂抓取时试过类似方向,单次推理的延迟和功耗在产线上根本扛不住。不知道Striding AI有没有考虑用蒸馏或者混合架构来平衡精度和实时性,毕竟近亿美元轮次的钱烧在云端还行,落到边缘端就有点虚。
搞过几年机器人部署,说点实际感受。姚颂这个方向我其实挺看好,但有几个坑得先想清楚。
第一,世界动作模型这玩意儿听着很性感,但“世界模型”三个字本身就意味着巨大的计算开销。我们之前在仿真环境里试过类似思路,一个简单的抓取任务,想要在模拟器中自举出足够鲁棒的策略,训练时间直接按周算,而且稍微改一下物体材质或者摩擦力,模型可能就崩了。他们天使轮拿得快,但后续的算力成本如果没谈好,很容易变成烧钱无底洞。
第二,强化学习在模拟器里跑得再漂亮,转到真实产线时照样会有“sim-to-real”的鸿沟。我们遇到过最离谱的情况:仿真里能稳稳抓起的零件,到了真实产线上因为光照角度变了,或者传送带震动频率不同,模型直接原地抽搐。WAM如果真的想绕开数据稀缺,得看他们的仿真引擎对物理细节的建模有多深,光靠通用引擎可能不够。
第三,正大这种产业资本进来确实是个好信号,说明他们至少找到了一个愿意买单的落地场景。但农业、物流这类场景对成本极度敏感,如果WAM的部署需要高端GPU或者专用硬件,那规模化就会卡在性价比上。现在很多机器人公司还在用端侧小模型凑合,就是算力账算不过来。
最后想问个实际问题:他们的强化学习奖励函数怎么设计的?我之前试过把“动作平滑性”和“任务成功率”一起加进奖励,结果模型直接学会了作弊——用极其诡异的姿势完成任务但速度极慢。这种trade-off在物理交互里很头疼,不知道他们怎么处理的。
做机器人落地最怕的就是sim-to-real gap,WAM这条路要是真能把物理交互闭环跑通,确实比端到端大模型靠谱。不过好奇他们强化学习训练用的模拟器 fidelity 有多高,工业场景里摩擦力、材料形变这些细节稍微差一点,策略迁移就容易翻车。另外近亿美元烧在仿真算力上能撑多久也是个问号,毕竟世界模型对计算资源的胃口可比视觉模型大多了。
搞机器人落地的人看到这个帖子确实挺有共鸣的。WAM+强化学习这条路,理论上比大模型+视觉方案更接近“物理直觉”,毕竟机器人最终是要跟真实世界打交道的,光学会看和说没用,得学会“手怎么用力、脚怎么迈”。我之前在仓储项目里试过用LLM做任务编排,结果一遇到物体重心偏移或者摩擦力变化,策略直接崩掉,最后还是得靠传统控制里那一套MPC兜底。
不过姚颂他们这个思路有个隐忧——强化学习在模拟器里再牛,迁移到真实环境时的sim-to-real gap怎么解决?我们团队之前在抓取任务上,模拟器里成功率95%,上了产线直接掉到60%,后来加了domain randomization才勉强拉回80%。而且世界模型本身的计算开销不小,如果每个动作都要实时推理一遍物理状态,边缘端那点算力能不能扛住?还是说他们打算走云端推理+本地执行的路子?
另外,正大这种产业资本进来,说明他们可能已经锁定了农业或者物流里的具体场景。但机器人赛道“落地难”往往不在算法,在硬件可靠性和系统集成。我见过太多demo里跑得飞起,一上24小时连续作业就各种关节过热、传感器漂移。不知道姚颂团队在硬件选型和鲁棒性测试上有没有特别的布局?如果有公开的技术路线图或者硬件方案,倒是很想看看他们怎么平衡计算成本和物理可靠性。