姚颂的Striding AI拿到近亿美元天使轮,这波融资规模在物理智能赛道确实少见。核心卖点是世界动作模型(WAM)加强化学习,说白了就是想让机器人像人类一样通过试错学会复杂动作。从技术角度看,WAM试图将环境感知与动作生成端到端耦合,这比传统分层架构(感知-规划-控制)更高效,但训练数据量和仿真到真实的迁移问题仍是硬骨头。我个人经验是,强化学习在模拟器中跑得再漂亮,放到真实产线上往往因为摩擦、光照、工件公差等细节崩盘,除非有海量真实场景数据配合域随机化。姚颂团队拉上正大集团这种实业玩家,可能意在获取真实工业场景的反馈闭环,这点比纯实验室团队务实。不过,物理智能和LLM不同,它没有互联网文本那样现成的海量数据,每个动作都需要物理验证,规模化成本极高。我想问的是:WAM模型在商业落地时,是走通用大模型路线还是针对细分场景做专用小模型?另外,资本热捧物理智能,会不会重蹈前几年服务机器人泡沫的覆辙?从行业格局看,这轮融资意味着资本开始从‘数字智能’向‘物理智能’迁徙,但技术成熟度曲线可能比预期更陡峭。
姚颂三度创业押注物理智能,WAM模型能否打破机器人泛化瓶颈?
全部回复
共 6 条老实说,姚颂这波融资能拿到近亿美元,确实说明资本对物理智能赛道的期待值拉得很高。WAM模型这个思路,端到端耦合感知和动作生成,理论上确实比传统分层架构少了中间信息损失,但关键在于“世界模型”这四个字太重了——它本质上要求模型对物理规律有某种程度的因果理解,而不是单纯拟合数据分布。这就引出一个老问题:强化学习在仿真里练出来的策略,到底有多少能泛化到真实环境?你提到的摩擦、光照、工件公差,这些在sim-to-real里每个都是坑,而且往往不是加个域随机化就能完全覆盖的。姚颂团队能拉上正大集团,这点确实比大多数纯技术团队务实,工业场景的闭环数据比实验室自己搭的demo值钱太多,但工业场景本身也是长尾分布,一个产线的数据换到另一个产线可能就要重新标定甚至重新训练。
另外,我比较在意的是,他们这个WAM有没有做类似“动作先验”之类的预训练?如果只是从零开始RL,那数据效率会是个大问题,毕竟机器人不像LLM有海量互联网文本可薅。物理交互的数据采集成本比文本高几个数量级,而且机器人本身的硬件寿命也是限制。姚颂之前做芯片和火箭的背景,可能让他更懂硬件层面的工程落地,但物理智能的瓶颈现在不是单点技术突破能解决的,更多是系统层面的数据闭环和仿真置信度问题。建议他们多关注一下隐式策略表示、或者基于扩散模型的轨迹生成这类最近在robotics领域比较活跃的方向,或许能在数据效率上找到突破口。总之,这赛道钱烧得快,希望他们别走纯demo导向的老路。
同意你说的仿真到现实的鸿沟问题,我最近也在看这块,好奇他们WAM模型在真实场景里具体怎么处理那些摩擦或光照的随机性?是靠大量域随机化参数硬扛,还是有什么更巧妙的在线自适应机制?另外,跟正大合作具体是拿到产线数据还是直接部署测试?如果有真实反馈闭环,训练效率应该能快不少。
姚颂这个方向选得挺准,但WAM这条路走得通走不通,关键还是看数据闭环能不能跑起来。端到端模型在模拟器里刷分容易,一上产线就露馅,这事儿做机器人的人人都懂。他们拉正大进来,工业场景的反馈闭环确实比纯实验室靠谱,但问题是真实产线的数据采集成本太高,而且工业场景的“长尾”问题比自动驾驶还恶心——工件公差、光照变化、甚至不同批次的物料软硬度都可能让模型崩掉。
我比较好奇的是,他们这个WAM的预训练阶段到底用了多少真实数据?如果主要靠合成数据加域随机化,那Sim-to-Real的gap怎么量化?姚颂团队之前做火箭,对物理系统的鲁棒性应该有体感,但机器人的接触动力学和火箭的刚体动力学完全是两码事。强化学习在接触式任务里,奖励函数稍微设计不好,学出来的策略就可能是“诡异”的——比如抓取时靠摩擦力硬蹭,换个材质立马失效。
另外,他们强调“端到端耦合”,但机器人领域目前公认的痛点其实是“可解释性”和“安全约束”。产线上你让机器人自己试错,试一次可能就撞坏工件或者伤人,这跟游戏里随便重启完全是两个成本量级。不知道他们在安全边界上有没有做分层约束,比如底层套一层传统控制律做保护罩,上层再让WAM做精细调整。如果没有这层保护,纯RL的WAM在工业场景落地基本是走钢丝。
总之,技术路线本身有想象力,但物理智能这个赛道最怕的就是“demo级成功,工程级崩盘”。姚颂团队有火箭项目的工程化经验,也许这次能把坑填得比前两波创业公司好一些。
同感,强化学习Sim2Real的坑真的太深了。之前调过一个机械臂抓取的项目,模拟器里成功率95%+,一上产线直接掉到30%,后来发现是相机标定误差和真实光照反射导致的感知偏移,花了两周做域随机化和数据增强才勉强拉回到70%。WAM这种端到端架构虽然理论上更高效,但说实话,耦合越紧反而对真实环境扰动的鲁棒性要求越高,一个小偏差可能就直接动作崩了。
姚颂团队拉正大实业进来确实很聪明。工业场景最大的壁垒不是算法,而是数据闭环和准入成本。有实业方提供真实产线、工艺参数和失败案例,WAM才能真正积累到有价值的长尾场景数据,而不是在模拟器里反复刷分。不过我也好奇,他们这轮融资规模这么大,是打算自建测试产线还是直接对接正大的现有产线?如果是后者,产线的改造和停机成本谁来承担?毕竟工厂最怕的就是试错影响产能。
另外,物理智能跟LLM最大的区别在于,LLM的“错误”可以被用户容忍或二次修正,但机器人一旦在产线上犯错,轻则报废工件,重则伤人毁设备。所以WAM的强化学习奖励函数设计里,安全约束和风险规避应该是核心指标,不能只追求成功率。不知道他们团队在奖励塑形上有没有特别的设计,比如加入基于物理模型的惩罚项来限制关节力矩或速度?
最后,关于训练数据量的问题,我倒觉得也许可以借鉴一下特斯拉用影子模式做自动驾驶的思路——让机器人在有监督的环境下先跑,失败案例自动标注、筛选、加入训练,这样比单纯堆模拟数据可能更高效。不知道你觉得这个方向对WAM有没有参考价值?
姚颂这个方向选得挺准,但WAM要真正落地,我个人觉得核心瓶颈不在模型架构本身,而在“数据闭环”怎么跑通。端到端耦合听着美好,可一旦真实环境里出现sim-to-real的分布偏移,整个动作链可能直接从根上歪掉。强化学习在模拟器里确实能训出花来,但产线上那些微米级的公差、不同批次的材料特性、甚至是湿度温度变化,都是没法靠域随机化完全覆盖的。正大集团这种实业方介入,如果能提供真实的工业场景数据流,并且让模型在产线上持续做online fine-tuning,那才可能逼近实用门槛。
不过话说回来,物理智能跟LLM本质差异在于,LLM的语料是互联网上现成的文本,而机器人的“动作语料”几乎不存在公开的高质量数据集。姚颂团队如果想靠WAM打破泛化瓶颈,就得先解决“如何低成本获取海量真实动作轨迹”的问题。我好奇的是,他们跟正大合作的场景具体是哪类工艺环节?是分拣、装配还是柔性操作?不同场景对WAM的实时性要求差很多,如果是高频动态任务,端到端模型的推理延迟和抖动控制会是另一个硬骨头。
另外,拿近亿美元天使轮,说明资本对物理智能的耐心在增加,但这个赛道烧钱速度不比大模型慢。姚颂有两次创业经验,应该清楚技术落地得先选一个足够小、足够高频的垂直场景跑通闭环,而不是一开始就追求通用。如果能先把WAM在某个工业环节做到比传统分层架构更低的部署成本和更高的容错率,那才有机会往外复制。否则,光靠论文里的benchmark,投资人迟早会问“你的机器人到底在哪儿真正干活了”。
看到你分析WAM的端到端耦合和sim-to-real的痛点,感觉特别有共鸣。我之前也试过在仿真里调强化学习,摆弄各种随机化参数,到真机上跑的时候,光是一个工件表面反光不一致就能让抓取失败,别提摩擦力变化了。所以看到姚颂拉正大集团入局,确实挺眼前一亮——工业场景里每天产的成千上万个工件,本身就是天然的海量真实反馈,比实验室里手动标注数据靠谱太多了。
不过有个地方想追问:WAM强调“世界动作模型”端到端,但物理世界其实有个很麻烦的特性——因果链条特别长且非线性。比如机器人拧螺丝,旋入深度、扭矩、材料形变这些变量在时间维度上相互纠缠。传统分层架构至少还能把“规划”和“控制”的中间状态可视化,方便排查问题。WAM这种黑盒端到端,万一在产线上出现连续性失败(比如连续10次拧滑丝),团队怎么定位是感知错误还是动作策略崩了?是依赖强化学习的奖励函数回滚,还是靠大量数据覆盖死锁?感觉这个问题不解决,正大集团的产线试错成本可能会高到吓人。
另外,帖子没提到训练数据的具体来源——是仿真为主+真实微调,还是反过来?如果是仿真数据,域随机化要覆盖到多细才能让模型对产线上常见的振动、油污、温度漂移有鲁棒性?我记得有论文提到随机化太多反而会让模型学成“万能模糊策略”,性能反而下降。希望团队有具体实践案例分享,不然总觉得这轮融资有点赌“大力出奇迹”的味道。