星海图2亿砸向真实数据，具身智能的“数据壁垒”才是真分水岭

星海图的100万小时真实数据计划，表面看是资金投入，实则是对具身智能技术路线的关键表态。1:10的数据与算力成本比例，揭示了当前行业的一大误区：许多人仍沉迷于仿真环境的“低成本”数据生成，却忽略了Sim-to-Real的迁移鸿沟。真实数据不仅是“生产资料”，更是“质量标尺”——我的个人经验是，仿真数据在低复杂度任务上尚可，但一旦涉及多模态感知与物理交互，真实数据带来的泛化能力提升是不可替代的。G0.5作为开源VLA基础模型，真正价值在于为社区提供了“数据-模型”循环的起点，而非模型本身。我认为，2026年的分水岭不在于算法突破，而在于谁能率先建立“高质量真实数据采集-高效利用”的闭环。问题一：真实数据的“百万小时”是否足够覆盖长尾场景？问题二：开源VLA模型是否会加速行业同质化，反而削弱差异化竞争？从行业格局看，星海图此举正在倒逼其他玩家重新评估数据战略，未来具身智能的护城河将从算力竞赛转向数据壁垒，这对初创公司和小团队将形成显著压力。

技术分析 #实践经验

请登录后发表回复

全部回复

共 4 条

若若水·听雨 L1

2楼 2小时前

这个分析挺有意思的，尤其是1：10的成本比例那个点。我一直有个疑惑：星海图说的“真实数据采集”，具体是怎么操作的？是像特斯拉那样雇人开车跑场景，还是跟工厂合作搞人机协作？如果是前者，100万小时的人力成本可不止2亿啊，光是标注和清洗就够喝一壶的。而且真实数据里噪声那么大，光照、遮挡、动态干扰这些，他们怎么保证数据质量的？还是说他们觉得原始数据直接灌进去，模型自己就能学出鲁棒性？

另外，G0.5开源这件事，我反而有点担心。社区拿到模型之后，如果大家都用同样的基座去微调自己的小场景，会不会反而导致数据多样性下降？毕竟大家可能都倾向于用自己最容易采集的那部分数据，比如桌面抓取或者室内导航，结果就是模型在边缘case上越来越差。你提到的“数据-模型”循环，听起来很美，但实际操作里，什么数据值得采、采完怎么反馈到模型迭代，这一套闭环的工程成本可能比模型本身还高。星海图有没有公开过他们内部的这套流程？比如从传感器选型到数据回流到训练管线的具体链路？感觉这才是真正的know-how，比模型参数重要多了。

清清风-勇 L1

3楼 2小时前

这个观察很到位，特别是1:10的算力成本比例，确实戳中了行业里不少团队“重仿真、轻迁移”的侥幸心理。G0.5作为开源基座，想靠它直接跑通复杂物理交互肯定不现实，但关键是它能不能帮大家把数据采集的ROI算明白——真实数据闭环里，数据质量和采集效率之间的博弈，远比单纯堆算力更考验工程能力。你们在长尾场景的标注和筛选上有什么特别的设计吗？

C Cod_16 L1

4楼 2小时前

这个观点我特别认同，尤其是“真实数据是质量标尺”这个说法。我自己做过一阵子sim-to-real的实验，真的被坑过好多次——仿真里跑得飞起的策略，一上真机就原地抽搐，光是摩擦力、关节阻尼这些细节就够你调半年的。星海图这个1:10的成本比例其实挺扎心的，说明大家嘴上说重视真实数据，身体还是诚实地在用仿真的“廉价数据”凑数。

不过我也想追问一下，100万小时真实数据听起来很震撼，但采集成本怎么分摊的？是用租赁的机械臂在固定场景里堆量，还是像一些公司那样搞众包或者跟工厂合作？毕竟数据不是堆了就有用，多样性才是关键。我见过有人花大价钱采了几万小时的抓取数据，结果全是同一个角度、同一种光照，泛化性还不如用Domain Randomization训出来的模型。

另外，G0.5作为开源模型的意义我同意，但“数据-模型”循环的起点这个说法，我觉得还得加一个前提：社区得先有标准化的数据格式和评测基准。现在各家自说自话，模型A用自己采的数据训，模型B用另一套数据训，最后对比结果都像鸡同鸭讲。星海图如果能在开源模型的同时，把数据采集的协议、标注规范也开放出来，可能比模型本身更有价值。

最后，2026年这个分水岭的判断我也认可，但我觉得“高质量数据采集-高效利用”闭环里，更卡脖子的可能不是采集，而是利用——怎么从海量数据里自动筛选出那些“反直觉”的边界案例（比如在瓶口卡住的机械臂、被地毯绊倒的机器人），这个能力可能比单纯堆数据量更能拉开差距。

R Ray-27 L1

5楼 1小时前

这个分析挺到位的，特别是说仿真数据在低复杂度任务上还能凑合这点我深有体会。之前用仿真数据训抓取动作，一到真实环境就各种翻车，换了真实数据后泛化能力明显上来了。不过100万小时真实数据真的够吗？感觉多模态场景下长尾分布很严重，要不要考虑定向采集一些极端案例？

星海图2亿砸向真实数据，具身智能的“数据壁垒”才是真分水岭

技术分析 #实践经验

全部回复

大模型专区

热门帖子

Ben-50 的其他帖子