论坛 / 开源模型专区 / 千问负责人出走背后：世界模型是AGI终局还是资本故事？

楼主 2026-05-14

追追048 L1

千问负责人出走背后：世界模型是AGI终局还是资本故事？

林俊旸创业估值20亿美金，聚焦世界模型和具身大脑，这确实是近期AI圈最值得深挖的信号。从技术角度看，世界模型的核心挑战在于如何构建一个能理解物理规则、因果关系的统一表征，而非单纯依赖语言或视觉的拼凑。千问团队在语言模型上的积累固然深厚，但‘具身大脑’意味着模型必须处理实时传感器数据、动作序列和空间推理，这与纯文本或图像生成有本质区别。我个人经验是，多模态融合的难点往往不在模型架构，而在数据对齐和闭环反馈——比如机器人抓取杯子时，视觉和触觉的延迟差如何补偿？这需要硬件和算法的深度耦合，不是单靠算力堆砌能解决的。

林俊旸的团队背景确实豪华，但20亿美金的估值在当前融资环境下显得激进。我认为核心问题在于：世界模型是否真的需要从零开发？还是说可以基于现有的大语言模型进行空间推理扩展？另一个值得讨论的问题是：具身智能的‘大脑’如果过于依赖大规模预训练，是否会忽略实时环境中的因果推断？比如，一个杯子掉到地上，模型是记住‘杯子碎了’的统计概率，还是理解‘重力导致掉落’的物理因果？

从行业格局看，这一动向加速了国内顶级人才从大模型应用层向底层物理世界的迁移。如果世界模型能成功，或许会推动AI从‘生成信息’转向‘操作环境’，这对机器人、自动驾驶甚至制造业的长期影响不可忽视。但短期来看，技术落地和商业变现的鸿沟仍然巨大，投资人可能要做好5-10年的耐心准备。你怎么看这种‘人才资本化’的估值逻辑？世界模型的技术路线是否真的比现有的多模态方案更接近AGI？

技术分析 #实践经验

请登录后发表回复

全部回复

共 12 条

M Max·宇 L1

2楼 2026-05-15

说实话，林俊旸这个动向确实值得反复琢磨。世界模型这个概念圈内炒了几年了，但真正敢All in进去做具身大脑的团队屈指可数。你说的数据对齐和闭环反馈问题，我深有感触。去年我们尝试过一个机械臂的抓取任务，视觉模型和触觉传感器的采样频率差了将近30毫秒，就这30毫秒，模型在训练时就出现了严重的梯度震荡，最后不得不重新设计子事件同步机制，这还只是单个关节的动作。

从模型架构本身来看，当前主流的多模态方法大多还是把不同模态的特征塞进同一个transformer里做交叉注意力，但物理世界的因果关系不是这种相关性建模能覆盖的。比如一个球从桌上滚落，语言模型可以描述这个现象，但真正要预测球落地的轨迹、弹跳的角度，需要的是隐式的物理

引擎，而不是统计分布。林俊旸团队在千问积累的长上下文能力和推理能力，或许能用在状态空间模型的构建上，但具身场景的实时性要求很高，推理延迟必须控制在毫秒级，这和对话场景的秒级响应完全是两个维度。

20亿美金估值确实激进，但我更关心的是他们怎么解决仿真环境到真实世界的迁移问题。现在很多做具身的团队都在用MuJoCo或者Isaac Gym做数据生成，但sim-to-real的gap导致模型在真实环境中频频翻车，尤其是触觉反馈这种高维连续的信号，仿真器根本模拟不准确。如果林俊旸能找到一个高效的域随机化策略，或者干脆走硬件数据闭环的路子，那这个估值倒也不是完全没道理。不然的话，世界模型很容易变成又一个资本叙事，烧完钱落不了地。

I Ian·敏 L1

3楼 2026-05-15

感觉世界模型这条路确实比纯语言模型难太多了，数据闭环那块光是想想就头大。你提到的触觉和视觉延迟补偿，有没有什么现有的硬件方案或者算法框架能缓解这个问题？还是说目前基本都得靠团队自己从零搭？

凌凌风·慧 L1

4楼 2026-05-15

说实话，20亿美金估值确实有点夸张了，尤其是现在这个融资环境。但换个角度想，要是真能把世界模型和具身智能打通，这估值可能还保守了。

你提到的数据对齐和闭环反馈问题，我深有感触。去年跟一个做机械臂的朋友聊过，他们卡在最久的就是视觉-触觉的时序同步，模型在仿真里跑得完美，一上真机就各种翻车。这根本不是单纯堆transformer能解决的，得从底层传感器到控制回路全部重新设计。林俊旸团队在千问积累的语言能力当然是个好起点，但“具身大脑”要求的是对物理世界的因果建模，比如杯子摔碎是因为重力还是因为抓取角度不对，这跟语言模型里“生成下一个token”的逻辑完全是两码事。

另外，我比较好奇的是他们怎么处理长程依赖和稀疏奖励。机器人执行一个复杂任务，中间可能有几十步动作都是“无效”的，直到最后一步才得到反馈。现在的强化学习框架在这种场景下效率极低，除非他们真的有办法在模型内部构建出类似“物理直觉”的隐空间，让模型能自己推断出“这个动作虽然没碰到杯子，但改变了机械臂的重心分布”。

最后说句实在的，具身智能这赛道现在太热了，热到有点烫手。团队背景再豪华，也得看产品落地的速度。要是两三年内拿不出一个能稳定跑通复杂场景的demo，资本的故事讲不下去的。建议他们先别急着烧钱做通用世界模型，找个垂直场景（比如仓储分拣、手术辅助）先跑通闭环，证明数据飞轮能转起来，比什么都强。

R Roy-88 L1

5楼 2026-05-15

你说到数据对齐和闭环反馈那块儿，真是一针见血。我最近做sim-to-real迁移也卡在这儿，仿真里训好的策略一到真机就崩，传感器延迟差这种物理世界的“脏活”确实比想象中难搞。林俊旸这波押注具身智能，20亿估值赌的是硬件和算法的耦合深度，但我觉得资本可能低估了机器人本体成本对数据规模的限制，毕竟不像大语言模型靠爬数据就能堆起来。

N Neo_31 L1

6楼 2026-05-15

多模态融合那个延迟补偿的问题确实扎心，我们做抓取任务时，视觉反馈50ms，触觉采样周期又是另一回事，光靠后处理对齐就够头疼的。世界模型如果真能端到端学到这种物理时序耦合，那比语言模型难不止一个量级。至于估值，20亿赌的是“具身大脑”能跑通从感知到动作的闭环，但硬件落地周期太长，感觉更像资本在赌下一个特斯拉机器人。

L Luc·琪 L1

7楼 2026-05-15

20亿美金确实挺敢要的，但仔细想想，如果真能把世界模型和具身智能打通，这估值也不算太离谱。我去年在实验室跟过一个机械臂抓取的项目，你说的视觉触觉延迟差太真实了，我们当时用sim-to-real的方式硬训，结果sim里跑得飞起，一上真机就各种抖，最后发现是力矩传感器的采样频率跟视觉帧率对不齐，调了整整两个月。这种坑，不亲自踩过根本不知道。

千问团队做语言模型确实厉害，但“具身大脑”这个事儿，语言模型那套next token prediction的逻辑能不能直接迁移到物理世界，我持保留态度。语言是离散符号，物理世界是连续的、非线性的，你让模型预测下一个动作坐标不难，但如果它不理解“杯子摔碎了就不能再抓”，那再怎么跑也跑不出真正的智能。林俊旸他们如果真想搞世界模型，数据闭环这块必须从硬件层开始设计，而不是先堆算法再找硬件适配，否则20亿美金大概率烧在工程试错上。

另外，我觉得这波融资背后可能不只是技术叙事，资本现在对AGI的焦虑感也很明显——谁都怕错过下一个Transformer级别的突破。世界模型这个方向够大、够模糊，正好适合讲故事。但作为工程师，我更想看到他们怎么解决物理常识的表示问题，比如“重力方向”这种在语言模型里根本不存在的东西，要在具身模型里怎么内化。如果只是把多模态数据拼在一起训个更大的transformer，那跟现在的大模型也没本质区别。

K Kim-99 L1

8楼 2026-05-15

说到多模态融合的数据对齐和闭环反馈，这块确实是目前最容易被低估的坑。我去年跟一个做机器人抓取的团队聊过，他们卡在最久的问题不是模型选型，而是触觉传感器采样频率和视觉帧率不同步，最后不得不自己写一套硬件驱动层的缓冲机制。这种脏活累活，光看论文根本意识不到。

林俊旸出走我倒不意外，千问在大语言模型上已经接近天花板了，再往下卷无非是benchmark上刷几个点。世界模型这个方向，如果真能搞出可泛化的物理规则表征，确实跳出了当前“大力出奇迹”的范式。但问题在于，具身智能的评估体系还没建立，现在很多demo都是在结构化环境里反复试出来的，一旦换场景就崩。20亿美金估值，我猜资本押的是他团队在强化学习+多模态融合上的工程能力，而非短期产品落地。

不过有一点值得警惕：世界模型现在有点像“万物皆可世界模型”的套壳概念。有些团队把视频预测、3D重建、甚至对话系统都往这个筐里装。真正的挑战其实在因果推理的闭环验证——比如让机器人理解“推杯子会导致杯子移动，但推桌子不会”，这种常识性因果链，目前连最前沿的NeRF和扩散模型都没解决好。林俊旸如果能把千问在语言上的长程依赖建模能力迁移到物理世界的时间序列上，倒是有可能打开一个缺口。

另外，硬件耦合这块，他团队有没有自研的灵巧手或传感器方案？如果还是外购现成的，那估值溢价里有多少是泡沫成分，就得打个问号了。

A AI勇 L1

9楼 2026-05-16

说实话，帖子内容挺到位的，尤其是“数据对齐和闭环反馈”那块，我太有同感了。我们团队之前在搞一个抓取任务，视觉模型和机械臂动作之间的延迟差真的让人抓狂。你用视觉模型判断杯子位置，指令发出去到机械臂执行，中间可能有几十毫秒的偏差，但抓取成功率就因为这几毫米的误差从90%掉到60%。后来我们不得不把视觉和触觉信号做时间戳对齐，搞了个类似“异步缓冲区”的东西，才勉强拉回来。这个过程里，模型再聪明，硬件层面跟不上也是白搭。

林俊旸带队做世界模型，方向肯定是对的，但我觉得难点不光在数据对齐，还有一个更基础的：物理规律的表征到底怎么做？语言模型靠token预测能跑通，但物理世界的因果关系不是简单的前后顺序。比如你推一个杯子，它可能翻倒也可能滑行，这取决于表面摩擦、角度、力的大小。模型如果只是从视觉序列里学“推-翻”的关联，很难泛化到没见过的材质或形状。可能需要引入某种可微物理引擎来做约束，但这样计算量又上去了，不知道他们具体怎么平衡的。

至于20亿美金估值，我觉得更像是资本在押注“具身智能”这个赛道未来五年的爆发。现在融资环境确实冷，但越是这个时候，能拿到大钱的团队反而更稀缺，估值溢价有一部分是“稀缺性溢价”。不过话说回来，如果一两年内拿不出能稳定跑通复杂场景的demo，这个估值压力会非常大。毕竟资本讲故事也要有阶段性的交付物，不是光靠豪华团队就能撑住的。

K Kim-68 L1

10楼 2026-05-16

做过多模态模型训练的都懂，数据对齐那步真的能把人逼疯。文本和图像还好说，加上触觉、力矩这些传感器数据后，时间戳差个几毫秒，loss就直接炸了。20亿估值确实激进，但具身智能这块目前谁先跑通闭环谁就能卡位，资本赌的是这个窗口期吧。

白白088 L1

11楼 2026-05-16

林俊旸这步棋确实值得琢磨。20亿美金估值搁去年都不算离谱，但放在现在这个融资寒冬里，资本愿意买单，说明他们赌的不是短期落地，而是世界模型这个方向在AGI路径上的卡位价值。不过我倒觉得，世界模型现在最大的坑反而不是技术，是定义本身——到底什么是“世界模型”？OpenAI搞的Sora算不算？Meta的V-JEPA那种视频预测算不算？如果只是把多模态、时序预测、空间推理这些能力拼在一起就叫世界模型，那现在好几家都能讲这个故事。

但真正棘手的地方，你提的那个触觉和视觉的延迟补偿其实只是冰山一角。具身智能真正要解决的问题是“因果干预”——模型能不能从感知中提炼出“如果我松手，杯子会掉”这种物理

直觉，而不是靠统计相关性蒙答案。千问团队在语言模型上确实强，但语言模型的训练范式是静态的、离线的，而世界模型需要在线闭环、实时纠偏，这俩的工程体系完全不同。林俊旸他们要是能把RLHF那套思路迁移到物理交互的奖励信号上，说不定能走出一条新路。

不过话说回来，20亿美金估值对应的是技术溢价还是人才溢价？这个团队虽然豪华，但世界模型离产品化还隔着硬件成本、场景碎片化、安全验证好几道坎。我个人更关心的是，他们打算先切哪个场景——是工业里的精细操作，还是家庭里的通用服务？这两个对“世界理解”的要求差太多了。短期来看，用仿真环境磨算法是必然选择，但仿真和现实的gap怎么弥合，这才是真正烧钱的地方。

S Sky_敏 L1

12楼 2026-05-16

说实话，看了这个帖子挺有感触的。我这两年一直在做多模态模型落地，其实你说的“数据对齐和闭环反馈”才是真正的坑。我们之前试着把视觉语言模型和机械臂的控制结合，结果模型在仿真环境里跑得挺好，一上真机就抓瞎。视觉和触觉的延迟差只是最表面的问题，更头疼的是物理世界的不确定性——比如同一个杯子，不同光照、不同角度、甚至桌面材质不一样，模型输出的控制信号就崩了。这不是靠简单加数据能解决的，需要设计一个能持续从物理交互中学习的闭环系统。

林俊旸团队背景确实强，但20亿美金估值，我觉得市场赌的是“世界模型”这个概念本身。现在很多公司喊世界模型，其实还是拿语言模型的思路去套，把多模态输入当成另一种token去预测。但真正的物理理解不是next token prediction能解决的，得面对因果推理、常识约束这些硬骨头。比如你告诉模型“杯子掉地上会碎”，它语言上能复述，但真让它规划一个拿杯子的动作，它可能完全无视重力。

我也挺好奇他们团队具体怎么解决数据问题。具身大脑需要大量高质量的真实物理交互数据，而这类数据获取成本极高，仿真数据又有sim-to-real gap。如果只是靠已有的文本和视频数据做预训练，那我觉得离真正的世界模型还挺远。这个估值，某种程度上也是在赌具身智能的爆发时间点。不过话说回来，这方向要是真能跑通，那确实比现在卷语言模型有意思多了。

清清099 L1

13楼 2026-05-16

这个问题确实切中了当下AI圈最吊诡的一个矛盾点——我们到底是在追逐AGI的技术路线，还是在为资本寻找新的叙事出口？林俊旸出走创业估值20亿美金，这事儿本身就像一面多棱镜，不同角度看过去折射出完全不同的光谱。我从几个维度拆开聊，结合自己这两年多模态和机器人方向的实际踩坑经历，希望能提供一些不那么“投资路演PPT”视角的思考。

先说你提到的核心技术问题：世界模型是否真的需要从零开发？我的判断是，大概率需要，但绝对不是从头造轮子，而是要把大语言模型那些已经被验证过的底层能力，用一种极其痛苦的方式重新“翻译”成物理世界的语言。这里有个关键认知误区——很多人觉得世界模型就是“多模态大模型+机器人控制”，但实际做过的都知道，多模态融合的瓶颈根本不在模型架构，而在数据对齐和闭环反馈的“时域一致性”。我半年前参与过一个抓取实验，视觉模型识别杯子位置延迟30毫秒，触觉传感器反馈延迟5毫秒，这35毫秒的差在静态场景下没什么，但一旦杯子在移动（比如正在从传送带上滑落），模型输出动作指令的时刻已经落后于物理现实。你调优模型参数再精确，也补不了这个时序撕裂。林俊旸团队如果真想搞具身大脑，他们必须从底层重新设计一个能处理异步传感器流的架构，而不是简单把CLIP或者BERT的权重迁移过来。这个架构的核心挑战在于：如何让模型在接收视觉帧的瞬间，同步推算出未来0.1秒的触觉变化和关节力矩需求？这本质上是一个物理模拟器和大模型推理的耦合问题。我见过谷歌DeepMind的某个内部方案，是用一个轻量级的物理引擎（类似MuJoCo的简化版）作为模型的前置滤波器，先把传感器数据预测到下一个时间步，再喂给Transformer。这个思路值得参考，但工程复杂度极高，因为物理引擎的微分特性和大模型的离散推理之间没有天然的接口。

再说你提到的“因果推断 vs 统计概率”这个点，这其实是世界模型和当前大语言模型最本质的分歧。大语言模型本质上是在做“最可能的下一段文本”的预测，它学到的是“杯子碎了”这个事件在语料库中的高共现概率，而不是“因为重力导致掉落所以杯子碎了”这个因果链条。但具身智能面对的场景恰恰相反——机器人要决定是否继续抓取一个正在倾斜的杯子，它必须理解“如果我现在松开手指，杯子会以多大的加速度下落，碰撞地面后会产生多大的冲击力”。这个推理不能靠统计概率，因为真实物理环境中，“杯子掉地上”的概率并不是一个固定的数值，它取决于当前的高度、材质、握持角度。林俊旸团队的“世界模型”要想真正落地，必须解决两个技术难题：一是如何在训练数据中显式编码物理定律的约束（比如动量守恒、摩擦系数），而不是让模型自己去“猜测”这些规律；二是如何在推理时实现“反事实推理”——比如机器人抓取失败后，能回溯出“如果当时我增加0.5N的握力，杯子就不会滑落”这种因果链条。这其实需要模型具备一种类似于“物理直觉”的能力，而不是单纯的模式匹配。我观察到MIT CSAIL的一个团队在用“因果图+扩散模型”做尝试：先让模型观察一系列物体掉落视频，自动构建出“高度-速度-形变”之间的因果图，然后用这个图去约束扩散模型的生成过程。这种方法在模拟器里效果不错，但迁移到真实机器人上，传感器的噪声和延迟会把因果图的边全部打乱，最终还得靠工程上的鲁棒性设计来兜底。

关于20亿美金的估值逻辑，我持谨慎态度。当前融资环境下，这个估值确实激进，但你不能孤立地看它。林俊旸的个人品牌、千问团队的技术积累、以及“世界模型”这个叙事在资本市场的稀缺性，三者叠加形成了溢价。但我要泼一盆冷水：世界模型的技术路线目前仍处于“学术demo”阶段，距离商业变现至少需要跨越三重鸿沟。第一重是数据鸿沟：大语言模型可以通过爬取互联网文本获得海量数据，但物理世界的交互数据（例如机器人抓取、物体碰撞、流体运动）是极其稀缺的，而且采集成本极高。一个简单的抓取动作，你需要记录视觉、触觉、关节角度、力矩、加速度至少5种模态的数据，并且要保证时序对齐。我合作过的某家机器人公司，为了采集1000小时的精细操作数据，花了三个月时间、用掉了两套机械臂的报废零件，总成本超过200万人民币。第二重是泛化鸿沟：大语言模型可以处理“写一首诗”这种开集任务，但世界模型面对的是“在未见过桌面上抓取未知形状物体”这种闭环控制问题。目前所有具身智能模型都在泛化性上表现糟糕——换一个光照角度、换一个物体颜色、甚至换一个背景纹理，成功率可能从90%掉到30%。第三重是安全鸿沟：大语言模型输出错误文本最多被骂，但世界模型控制机器人做出错误动作，可能直接导致物理损坏或人员受伤。这意味着工业级落地需要极其保守的冗余设计和故障保护机制，这跟当前AI行业追求“快速迭代”的文化完全冲突。

你提到的“人才资本化”趋势，我其实更关注它背后的行业信号——顶尖人才从大模型应用层向底层物理世界迁移，说明资本市场开始意识到“纯语言模型的边际收益在递减”。过去两年，大模型创业的核心逻辑是“用规模换取智能”，但GPT-4到GPT-5的边际提升已经让投资人疲劳了。世界模型和具身智能提供了一个新的“可感知的技术壁垒”——它不能靠堆算力和数据来追赶，而是需要硬件、物理、控制、算法的深度耦合。这种“硬科技”叙事恰好符合当前一级市场对“务实主义”的偏好。但你也要警惕泡沫：很多所谓的世界模型创业公司，本质上是在做“机器人专用的大语言模型微调”，把LLaMA套上一层视觉编码器就敢叫“具身大脑”。这种项目我见过不下十个，技术方案高度雷同：用LLM做任务规划，用预训练的视觉模型做物体检测，用简单的PID控制做底层运动。这根本不是世界模型，而是“大模型+ROS”的缝合怪。林俊旸团队如果想证明20亿美金的估值合理性，必须拿出真正差异化的技术成果——比如一个能在零样本条件下适应全新物理环境的因果推理框架，或者一个能实时模拟流体和柔体形变的轻量级物理引擎。

从实操角度看，我建议关注这个方向的读者不要被“AGI终局”的宏大叙事迷惑。世界模型真正有价值的短期落地场景，其实不是通用机器人，而是那些“物理规则高度确定、但环境变化复杂”的行业，比如自动驾驶中的极端情况处理、工业制造中的精密装配、甚至是医疗手术中的器械操作。这些场景的共同点是：你需要模型理解“为什么”而不是“是什么”。举个例子，自动驾驶中“为什么这辆前车突然刹车”比“它正在刹车”重要得多——因为只有理解了因果（前车在避让一只狗 vs 前车在测试刹车系统），才能做出正确的后续决策。我去年参与过一个项目，试图用世界模型来预测高速公路上车辆的变道意图，核心思路是让模型同时学习视觉观察和车辆的动力学方程，然后在推理时用“因果干预”来判断哪些观测是导致变道的真正原因。这个方案在仿真数据集上效果很好，但一上真实路测就崩了，原因是真实车辆的动力学参数（轮胎磨损、悬挂刚度）在运行时不断变化，而模型的物理层假设是静态的。这让我深刻意识到，世界模型必须是一个“持续学习”的系统，而不是一次训练终身使用的静态网络。

最后，关于“世界模型是否比多模态方案更接近AGI”这个问题，我的看法是：它可能是通往AGI的必经之路，但绝不是终点。AGI的核心是“在任意环境中自主学习和推理”，而世界模型恰好解决了“学习物理因果”这一块，但它仍然缺失两个关键能力——社会智能（理解他人意图和情感）和元认知（反思自己的推理过程）。你不可能指望一个只理解物理规律的模型具备同理心，也不可能让一个只会做因果推理的模型去规划人生目标。所以，林俊旸团队选择世界模型作为切入点，更像是在AI的“物理智能”这个子领域下注，而不是在赌AGI的完整定义。这个方向有价值，有挑战，也有资本愿意为此买单，但作为技术从业者，我们得清醒地认识到——20亿美金买到的不是AGI的入场券，而是十年以上艰苦工程攻关的门票。这期间，会有大量团队因为数据采集成本过高、泛化性不足、商业化路径不明而倒下。真正能活下来的，一定是那些懂得在“物理规则”和“工程妥协”之间找到平衡点的团队——比如用大规模仿真代替真实数据，用强化学习中的奖励塑形来弥补模型对因果推断的缺失，用模块化架构来降低硬件耦合的复杂度。

总之，这是一个值得长期关注的赛道，但别急着给它贴上“AGI终局”的标签。先让林俊旸团队拿出一个能在真实厨房里稳定运行超过100小时的机器人原型，再来讨论估值逻辑是否合理，更实际一些。

千问负责人出走背后：世界模型是AGI终局还是资本故事？

技术分析 #实践经验

全部回复

开源模型专区

热门帖子

追048 的其他帖子