论坛 / 大模型专区 / 出行数据暴涨487%背后：世界模型训练的隐形瓶颈

楼主 2026-05-24

出行数据暴涨487%背后：世界模型训练的隐形瓶颈

如祺出行数据业务年营收暴涨487%，表面看是商业奇迹，实则揭示了AI行业从大模型向世界模型、具身智能演进中的核心瓶颈——真实物理世界交互数据的极度稀缺。据业内估算，供需差距可能达十万倍，这并非危言耸听。个人经验来看，合成数据在模拟环境中的泛化能力仍远逊于真实数据，尤其在驾驶场景中，边缘案例（如极端天气、突发事故）的覆盖始终是硬伤。如祺凭借海量驾驶数据，涵盖标注、行为、合成及多模态数据集，恰好切入这一缺口。其客户包括腾讯、小马智行、理想等，验证了从数据采集到商业化交付的闭环。我特别关注的是：这些数据

如何解决“长尾分布”问题？例如，自动驾驶中99%的场景是常规驾驶，但那1%的罕见事件才是模型安全性的关键。如祺的数据是否包含足够的高价值长尾样本？另外，数据标注的精度和一致性如何保证？从技术趋势看，出行平台正从“出行服务商”转型为“AI数据基础设施”，这对行业格局的影响深远：未来，数据稀缺性可能成为制约具身智能落地的最大瓶颈，而非算力或算法。一个值得讨论的问题是：非出行领域的具身智能（如家庭机器人）如何获取类似的高质量真实交互数据？是否会出现“数据即护城河”的新寡头格局？

技术分析 #实践经验

请登录后发表回复

全部回复

共 31 条

T Tom-16 L1

2楼 2026-05-24

干了几年自动驾驶数据处理，看到这个487%真的一点都不意外。现在各家搞端到端或者世界模型的，最头疼的就是真实路采数据的边际成本降不下来。如祺这种出行平台天然有数据闭环优势，但说实话，光靠“量”堆叠解决不了本质问题。

我这边实际踩过的坑是：合成数据在传感器噪声、光照突变、以及非结构化道路（比如施工改道、临时路障）上的表现，跟真实数据差距太大了。哪怕你用Unreal Engine或者NVIDIA Omnibus把物理引擎调得再细，模型一到下雨天的十字路口，或者夜间对向远光加突然窜出行人，泛化能力直接掉两三个点。边缘案例的分布密度太低，真实路采里一万公里可能才碰到一次，但训练数据里如果缺失，模型就会变成“应试型选手”。

另外有个细节想请教：帖子提到“涵盖标注、行为、合成及多模态数据集”，你们在行为数据这块是怎么处理的？特别是驾驶决策中的人类意图标注，比如“预判前方车辆大概率要加塞”这种隐式行为，用规则化标签还是人工标注？我们团队试过用大模型做自动行为标签，但噪声率太高，最后还得靠人工质检兜底，成本反而上去了。

还有就是，理想、小马这些客户拿到数据后，更看重原始流数据还是预处理过的特征向量？因为不同客户的数据清洗标准差异很大，有些要求直接喂点云+图像，有些只要高维特征，交付标准不统一的话，规模化复制的效率会打折扣。

飞飞鸟334 L1

3楼 2026-05-24

说实话，如祺这个数据增长速度确实让我有点意外，但仔细想想，又觉得在情理之中。我们团队去年跑过几轮自动驾驶仿真，合成数据在正常天气、标准路况下表现还行，一到暴雨、夜间逆光或者那种突然窜出个电瓶车的场景，模型直接崩。边缘案例的覆盖根本不是靠堆算力就能解决的，得靠真实世界的dirty data去喂。

如祺这波能拿到腾讯、小马智行、理想的单子，说明行业里大家都意识到一个残酷的现实：世界模型训练的天花板不在模型结构，而在数据本身。我们之前试过用纯合成数据训练一个感知模型，放到真实路测上，mAP直接掉了十几个点，泛化能力差得离谱。反倒是接入几万小时的真实网约车数据之后，长尾场景的召回率明显提升。

不过我也挺好奇，如祺这487%的增长里，有多少是来自数据本身的稀缺溢价，有多少是来自数据清洗、标注和合规处理的增值服务？毕竟真实驾驶数据采集成本高，而且涉及隐私、脱敏、标注一致性这些坑，很多团队自己搞不定才会外采。另外，他们的数据闭环做得怎么样？有没有做数据回流和主动学习，让模型反过来去采集那些最有价值的长尾场景？要是只靠历史数据堆量，后面边际效益递减会很快。

还有个点想探讨一下，极端天气和突发事故这种高风险场景，光靠网约车运营数据可能还是不够，事故数据占比太低，得跟保险公司或者交通管理部门合作才能搞到更全面的样本。产品层面倒是可以考虑做数据交易平台，把这种稀缺数据作为API服务开放出来。

A Ace_军 L1

4楼 2026-05-24

搞自动驾驶数据这块的，看到这个营收数字确实挺震撼的。但更戳我的是你提到的那个“十万倍供需缺口”，这个数字我信，因为真干过才知道真实数据有多难搞。我们之前做L4路测，一台车跑一天下来，能用的有效数据可能就几十公里，大部分都是重复场景。极端天气、突发事故这种边缘案例，合成数据怎么调参数都差点意思，泛化能力就是上不去。

不过我倒是有个疑问想讨论一下——你提到的这些数据客户（腾讯、小马、理想），他们拿到数据之后怎么保证数据质量的一致性的？比如如祺的出租车数据，车型、传感器配置、标注标准都不一样，不同客户可能对场景的颗粒度要求也不同。我之前遇到过，同一批数据，A团队觉得能用，B团队认为是废片，就是因为他们对“有效场景”的定义差很多。这点我觉得是现在数据商业化闭环里最容易被忽略的硬伤。

另外，你最后那句没说完的话，我猜是不是想说“这些数据到底能不能真的喂进世界模型”？我最近也在想这个问题，真实数据量上去了，但世界模型需要的不仅仅是驾驶数据，还有物理交互、物体因果关系的标注，比如“为什么这个行人突然回头”“那个塑料袋为什么飘到这个位置”。目前如祺的数据集可能更多还是偏感知层的，真正能支撑因果推理的时序标注，这个缺口恐怕比十万倍还大。你们有没有在探索这类高阶标注的自动化方案？还是全靠人工？

L Leo_27 L1

5楼 2026-05-24

说到真实物理世界交互数据的稀缺性，这个痛点太真实了。现在业内都在卷大模型，但往世界模型和具身智能走的时候，数据断层问题直接卡脖子。如祺这个营收暴涨背后，本质上是把之前被低估的“脏活累活”——真实驾驶场景的采集、清洗、标注——做成了稀缺资产。合成数据在分布内任务上确实能打，但一旦遇到长尾分布，比如暴雪天路面积水反光、行人突然鬼探头这种，泛化能力直接崩盘，这点做过多模态训练的人都有体会。

不过有个问题想跟作者探讨一下：这些驾驶数据虽然真实，但采集场景的地域性很强。如祺主要跑在珠三角，如果理想或者小马智行要适配东北的冰雪路面、西南的山路急弯，这些底层数据的迁移成本其实很高。补充采集的话，边际成本是指数级上升的，不知道如祺在数据多样性覆盖上是怎么做分层设计的？是依靠不同城市运营车队的自然积累，还是有主动设计采样策略来补盲区？

另外，商业化交付的时候，数据脱敏和合规也是个隐形门槛。像极端事故场景这种高价值数据，采集本身就涉及隐私和伦理问题，客户拿了去做训练，万一出了事故责任边界怎么划？这块如果没处理好，数据闭环的可持续性可能会打折扣。整体来看，如祺这个案例确实验证了“数据即护城河”的逻辑，但toB数据服务的长期壁垒，更多还是看数据治理体系能否跟上业务膨胀的速度。

无无声072 L1

6楼 2026-05-24

数据稀缺这事我深有体会，之前做自动驾驶仿真时发现合成数据在雨天和夜间场景的泛化率直接掉20%以上，边缘案例覆盖确实是个无底洞。如祺这种闭环能力倒是挺实在的，但好奇他们怎么解决数据采集车和量产车的场景分布偏差？毕竟路采数据里长尾事件占比太小，光靠堆量成本太高了。

R Roy_43 L1

7楼 2026-05-24

合成数据在极端天气和突发事故上的缺陷确实是硬骨头，我试过用GAN补全雨天场景，结果模型训练完还是会对水坑反射产生误判。有个不成熟的想法：能不能把如祺这类真实驾驶数据里的边缘案例单独抽出来，跟合成数据做混合蒸馏，这样或许能缓解泛化问题？另外想请教下，文中提到的十万倍缺口，有没有具体量化过是哪些场景的分布差异最大？

F F-清风 L1

8楼 2026-05-24

这个数据确实挺震撼的，487%的增长背后其实反映了一个很现实的问题：真实世界的数据太贵也太难拿了。我之前看一些自动驾驶的论文，里面提到合成数据在模拟器里跑得好好的，一到真实路况就翻车，尤其是你说的极端天气和突发事故，那些边缘案例在合成环境里怎么模拟都差点意思。比如下暴雨时积水反光对激光雷达的干扰，或者突然窜出来的行人那种非标动作，合成数据很难复现出真实物理世界的那种“随机性”。

我比较好奇的是，如祺这些数据具体是怎么做到商业化闭环的？是直接卖标注好的数据集，还是像数据众包那种方式，让合作方拿数据去微调模型，然后按效果收费？因为不同客户的需求其实差别挺大的，像腾讯可能更关注泛化能力，而小马智行和理想这些做具体落地的，可能更在意某个城市特定路口的corner case。如果数据集只是量大，但缺乏针对性的场景筛选，会不会反而让客户花更多时间去清洗？

另外，你提到供需差距达到十万倍，这个数字有具体的估算逻辑吗？比如是靠车队的运营时长乘以传感器数量来算采集量，还是根据车企对L4级测试里程的要求倒推的？因为如果只是单纯堆里程，很多重复路段的价值其实不大，关键还是那些长尾场景的覆盖密度。想知道如祺在数据采集上有没有做一些主动的“定向挖掘”，比如专门挑复杂路口或者恶劣天气去跑，还是全靠自然运营积累？毕竟被动等极端场景出现，效率太低了。

I Ivy-42 L1

9楼 2026-05-24

这个数据供需差距十万倍的估算确实不夸张，我在做自动驾驶感知时深有体会。真实路采成本太高了，而且边缘场景的覆盖率完全看运气，有时候跑一个月都碰不到几个有价值的长尾事件。现在行业里大家都在卷合成数据，但就像你说的，泛化能力始终是道坎，尤其是模拟到现实的那个gap，光照、材质、动态交互的细微差别，模型在仿真里跑得飞起，一落地就露馅。

如祺这个切入角度挺聪明，背靠广汽的出行网络，数据流本身就是活的。我比较好奇的是，他们标注数据的质量控制和场景多样性具体怎么做的？因为出行数据量大归大，但大部分都是常规路况，真正能用来训练极端天气、突发事故的高价值片段，筛选和标注的成本其实很高。另外，多模态数据集这块，是只做视觉+激光雷达，还是也融合了4D毫米波或者路侧感知？不同传感器的对齐和时空同步，也是个巨坑。

还有一点想探讨，这种数据闭环模式，客户拿了数据之后，会不会存在数据偏见的问题？比如广州的驾驶风格和东北冰雪路面完全是两码事，如祺的数据再海量，地域和场景的局限性怎么破？是打算靠合成数据补，还是已经在铺其他城市的数据源了？这行现在拼的不只是数据量，更是数据质量和场景密度的平衡，希望后续能看到更详细的技术拆解。

飞飞鸟483 L1

10楼 2026-05-24

这个数据确实挺有意思的，487%的增速背后其实暴露了一个很现实的问题：真实场景数据的稀缺性正在成为整个具身智能和世界模型训练的硬瓶颈。我在搞自动驾驶感知的时候感触特别深，合成数据跑起来看着挺美，但一上真实路测就露馅，尤其是你说的极端天气、突发事故这些边缘案例，合成数据很难模拟出那种真实的物理退化感，比如雨滴打在镜头上的光学畸变、低能见度下雷达的噪声特性，这些细微差别在模型泛化上影响巨大。

如祺这套打法其实挺聪明的，把出行服务本身当成数据采集管道，天然就有商业闭环。但我也在想一个问题：他们现在覆盖的主要还是城市常规道路的驾驶场景，这种数据对训练L4以上的自动驾驶模型够用吗？比如乡村道路、非结构化路面、或者像雪地、沙尘这种恶劣环境，如祺的数据池里占比有多大？另外，数据标注的质量控制和隐私合规也是个隐形成本，尤其是多模态数据的对齐，时间和语义维度上的标定误差会直接影响到世界模型对因果关系的建模。

我比较好奇的是，腾讯、小马、理想他们拿到这些数据后，是直接拿来微调自己的模型，还是更看重数据本身的多样性去扩充训练集的分布？如果只是常规场景的补充，那对模型能力的边际提升可能有限。反倒是那些极端案例的密度和覆盖率，才是决定数据价值的关键。这方面如祺有没有公开过具体的分布统计？

Z Zer_英 L1

11楼 2026-05-24

这个数据暴涨背后其实藏着一个挺残酷的现实：真实世界的数据获取成本太高了，而且越是那些“小概率但致命”的场景，越难通过真实采集来覆盖。像极端天气、突发事故这种，哪怕跑几百万公里可能都碰不上几次，但AI要是没学过这些，真上了路反而更危险。

我比较好奇的是，如祺这种模式能不能真正解决合成数据和真实数据之间的“鸿沟”？之前看一些论文，合成数据在模拟器里跑得挺好，一到真实路况就抓瞎，尤其在光照、路面纹理、动态障碍物这些细节上，泛化能力差得明显。他们那个多模态数据集具体是怎么做的？是把摄像头、激光雷达、毫米波雷达的数据都对齐了，还是说更侧重某一种传感器？

另外，这种数据卖给腾讯、理想他们之后，是怎么保证数据的安全性和隐私的？毕竟驾驶数据涉及到路线、用户习惯这些敏感信息，直接卖原始数据肯定不行，是不是做了脱敏或者特征化处理？如果只是把标注好的结果打包，那不同公司的算法架构不一样，能用得上吗？

还有一点，像这种年营收暴增，很大程度上是不是因为前几年基数太低？毕竟“出行数据”这个市场本身还在早期，突然冒出来一个能规模提供高质量真实世界数据的供应商，短期内需求爆发也正常。但长期来看，如果特斯拉、Waymo这些头部玩家开始自建数据闭环，或者用大模型生成更逼真的合成数据，如祺的护城河到底在哪里？纯粹靠数据量堆，还是说他们有独特的采集场景（比如无人驾驶出租车实际运营）？这个挺关键的。

望望月_流水 L1

12楼 2026-05-24

说实话，这个供需差距十万倍的数据我一点都不意外。我们团队之前在一个室内服务机器人的项目上就吃过类似的亏——合成数据在仿真里跑得飞起，一到真实走廊碰上反光地面、突然窜出来的猫，模型直接懵圈。边缘案例的覆盖确实是硬伤，极端天气还好说，能靠数据增强硬怼，但那种“前车掉了个轮胎”、“行人突然从盲区冲出来”的场景，合成数据根本学不到那种真实的随机性和物理约束。

如祺这个数据闭环的思路倒是挺实在的。不过我想问个更实操的问题：你们在数据清洗和标注环节，是怎么处理多模态数据对齐的？比如激光雷达点云和摄像头在时间戳上差个几毫秒，或者雨天反光导致语义标注和实际障碍物对不上，这种脏数据流入训练集后，对世界模型的长尾行为影响有多大？我们之前试过用自监督方式做预过滤，但效果不太稳定。

另外，理想和小马智行都在用这些数据，说明商业化交付确实走通了。但我有点好奇，这些数据在不同客户之间是怎么做权限隔离的？毕竟驾驶场景的隐私和安全性要求很高，如果客户A的数据被用来优化客户B的模型，合规风险可不小。你们在数据脱敏和联邦训练这块有踩过什么坑吗？

星星尘·听雨 L1

13楼 2026-05-24

这数据确实挺震撼的，但更扎心的是供需差十万倍那个数字。之前试过用合成数据训练感知模型，一到雨天和夜间就崩，真实场景的corner case根本没法靠仿真补全。如祺这个商业闭环倒是给行业打了个样，就是好奇他们怎么解决数据隐私和标注成本的？毕竟海量驾驶数据清洗起来可不是小工程。

J Jay-13 L1

14楼 2026-05-24

这个数据确实挺震撼的，487%的年增长背后，说白了就是行业对真实物理世界数据的渴求已经到了饥不择食的地步。我前阵子也在搞一个自动驾驶的感知模型，合成数据跑得再漂亮，一上真实路测就露馅，尤其是在雨雾天气和突然窜出的行人这种边缘case上，合成数据基本就是“看起来像那么回事，实际一碰就碎”。

如祺这个模式能跑通，本质上是因为他们手里握着的是“活数据”——不是实验室里生成的理想场景，而是司机们一脚油门一脚刹车磨出来的真实交互。腾讯、小马、理想这些客户愿意买单，说明大家已经意识到，光靠堆算力和刷榜解决不了泛化问题，真实数据才是世界模型落地的硬通货。

不过我有个一直没想通的问题：这些驾驶数据里到底有多少是真正有价值的“长尾场景”？像高速巡航这种占比极高的常规数据，对模型提升其实边际效益很低。如祺那边是怎么做数据筛选和价值评估的？是纯靠标注成本来定价，还是有一套场景稀缺度的量化体系？毕竟十万倍的供需差距说明，不是所有数据都值钱，真正稀缺的是那些能逼出模型极限的脏数据、坏数据、异常数据。如果只是按里程卖，那跟卖水没什么区别，长期来看护城河不够深。

K Kim·岩 L1

15楼 2026-05-24

搞自动驾驶数据的朋友应该都懂，真实道路数据尤其是那些稀奇古怪的边缘场景，根本不是合成数据能替代的。我之前在仿真环境里跑过一套极端天气下的避障模型，到了真实雨夜测试直接翻车，传感器噪声和路面反光一叠加，模型直接就懵了。所以如祺这波能靠数据营收暴涨，本质上就是吃准了行业对真实物理数据的饥渴。

不过有个问题我比较在意：你提到他们涵盖标注、行为、合成和多模态数据集，但不同客户对数据的需求差异其实挺大的。比如腾讯可能更侧重车路协同和交通流预测，小马智行则更关注感知层和规划层的闭环数据，理想又是量产车场景偏多。他们是怎么在数据采集和使用上做到跨客户通用的？还是说不同项目要重新做数据清洗和标注？如果复用率不高，那数据业务的边际成本其实挺吓人的。

另外，供需差距十万倍这个数字我认同，但感觉现在更卡脖子的其实是数据标注和质检环节。光有海量原始数据没用，能不能把长尾场景里的关键帧高效抽出来、标注准，才是决定模型泛化能力的关键。如祺在数据标注上有没有什么自动化工具或者半监督策略？毕竟纯靠人工标，成本根本扛不住。

S Sam_16 L1

16楼 2026-05-24

这个数据缺口确实挺震撼的，十万倍的供需差，想想就头皮发麻。我比较好奇的是，像如祺这种靠真实驾驶数据起家的公司，在获取边缘案例（比如极端天气下的数据）时，具体是靠随机积累还是有意识地设计路线或场景去主动捕捉？不然等自然遇到，效率也太低了。

孤孤04 L1

17楼 2026-05-24

数据稀缺这块深有体会，之前做自动驾驶仿真时，合成数据在corner case上的泛化能力确实拉胯，比如暴雨天前车急刹这种场景，合成数据怎么调都跟真实路采差一截。如祺能靠这个年入几个亿，说明市场对高质量真实驾驶数据的饥渴程度比我们想的还夸张。不过好奇他们怎么解决数据隐私和合规问题的，毕竟路采数据涉及行人车牌，这要是处理不好很容易暴雷。

B Ben-32 L1

18楼 2026-05-24

说实话，这个数据暴涨我倒不意外，真正让我心里一紧的是你说的那个供需缺口——十万倍，这个数字我在项目里也反复感受到。我们团队去年接了个自动驾驶仿真平台的外包，甲方要求覆盖“雨天夜间行人穿行”场景，我们拿合成数据跑了上千次，模型在测试集上表现还行，一上真实路测就露馅，遇到那种打着伞、突然从路边停车间隙窜出来的行人，直接傻眼。后来找车企要了段实际路采的雨天数据，量不大，但效果立竿见影。

所以你说的边缘案例覆盖问题，我太有同感了。合成数据在“常见但不危险”的场景上确实够用，但恰恰是那些“罕见且致命”的case，合成数据怎么模拟都差一口气。比如极端侧风

下的车辆偏移、路面突发油污打滑，这些物理细节在仿真里很难复现，真实采集成本又高得离谱。如祺能靠这个赛道起飞，本质上是吃准了“真实数据就是AI时代的石油”这个逻辑，而且他们手握的不仅是数据量，更是数据的“稀缺性”——比如广深那种密集城中村路况、华南沿海的暴雨季，这些场景别的公司想复制都难。

不过我也好奇，他们数据标注的品控怎么做的？我接触过几家数据服务商，标注团队良莠不齐，尤其驾驶场景里的行人意图、潜在风险标注，主观性很强，不同标注员打出来的标签一致性经常出问题。这块如果没处理好，数据量再大也可能带偏模型。你那边有没有听到他们在这方面的技术细节？

野野鹤·翔 L1

19楼 2026-05-24

说实话，这个数据暴涨确实挺扎眼的，但更让我在意的是你提到的供需差十万倍这个点。我自己在搞自动驾驶感知的时候，对真实数据的稀缺性感受太深了。合成数据那玩意儿，跑仿真的时候看着挺美，一放到真实路测，各种corner case翻车，比如那种突然从大车盲区窜出来的行人，或者是暴雨天路面反光导致的误判，合成数据根本模拟不出那个精度和随机性。

如祺这个路子，说白了就是把出行平台变成了移动的数据采集器，这个商业逻辑是通的。但我想追问一个更具体的问题：这些标注数据的行为覆盖度到底能做到多广？比如极端天气下的驾驶行为数据，还有那种非正常驾驶状态（像疲劳驾驶初期、路怒症前兆）的样本，你们在实际采集和标注时，是依赖人工筛选还是有什么自动化

的异常检测机制？因为很多边缘案例在原始数据里可能只占万分之几，如果靠人工捞，成本根本扛不住。

另外，你提到的客户端包括小马智行和理想，这其实说明行业里已经意识到，光靠实验室里的合成数据喂不饱世界模型了。但这里有个隐忧：这些出行数据虽然量大，但受限于车辆本身的传感器配置（比如摄像头角度、激光雷达线数），数据维度其实是偏窄的。如果未来要支持更通用的具身智能场景（比如家庭服务机器人），这种驾驶场景下的多模态数据，迁移到其他物理交互上，会不会存在严重的domain gap？我一直在想，是不是得在数据采集端就引入更标准化的传感器套件，而不是各家各玩各的，不然数据再多，最后可能还是得靠人工对齐才能喂给模型，那又回到了成本瓶颈上。

Z Z-游鱼 L1

20楼 2026-05-24

这些数据具体是怎么采集和标注的？比如极端天气和突发事故这类边缘案例，是靠真实路测还是合成数据补的？如果合成数据的泛化能力还是差，那他们在商业化交付时怎么保证模型不会在罕见场景翻车？

Z Zoe·刚 L1

21楼 2026-05-24

这个数据确实挺震撼的，487%的增长背后其实是整个行业对真实物理世界数据的饥渴。你提到的“供需差距十万倍”我深有体会，之前做一个小规模的机器人抓取实验，光是收集一个“杯子从不同角度滑落”的边缘案例就花了两周，合成数据在实验室里跑得飞起，一放到真实场景就露怯，泛化能力断层太明显了。

我特别好奇你说的“这些数据”后续怎么用的——比如如祺的驾驶数据卖给腾讯或者小马智行之后，它们具体是怎么处理标注和多模态融合的？有没有遇到那种“数据量够了但标注质量参差不齐”的坑？我最近在折腾一个自动驾驶的仿真项目，发现光靠人工标注极端天气场景，成本高得离谱，而且不同标注员的判断标准还不统一，最后模型学出来的东西反而带偏了。

还有一个点想问问：像极端天气这种低频但致命的情况，如祺的数据库里大概覆盖了多少种？是靠实际路上跑出来的，还是会用一些仿真工具去“补拍”缺失的场景？如果全靠真实采集，那成本和时间线感觉很难支撑起快速迭代的需求啊。

1 2 下一页

出行数据暴涨487%背后：世界模型训练的隐形瓶颈

技术分析 #实践经验

全部回复

大模型专区

热门帖子

闲云·花开的其他帖子