星海图的100万小时真实数据计划,表面看是资金投入,实则是对具身智能技术路线的关键表态。1:10的数据与算力成本比例,揭示了当前行业的一大误区:许多人仍沉迷于仿真环境的“低成本”数据生成,却忽略了Sim-to-Real的迁移鸿沟。真实数据不仅是“生产资料”,更是“质量标尺”——我的个人经验是,仿真数据在低复杂度任务上尚可,但一旦涉及多模态感知与物理交互,真实数据带来的泛化能力提升是不可替代的。G0.5作为开源VLA基础模型,真正价值在于为社区提供了“数据-模型”循环的起点,而非模型本身。我认为,2026年的分水岭不在于算法突破,而在于谁能率先建立“高质量真实数据采集-高效利用”的闭环。问题一:真实数据的“百万小时”是否足够覆盖长尾场景?问题二:开源VLA模型是否会加速行业同质化,反而削弱差异化竞争?从行业格局看,星海图此举正在倒逼其他玩家重新评估数据战略,未来具身智能的护城河将从算力竞赛转向数据壁垒,这对初创公司和小团队将形成显著压力。

技术分析 #实践经验