星海图的100万小时真实数据计划,表面看是资金投入,实则是对具身智能技术路线的关键表态。1:10的数据与算力成本比例,揭示了当前行业的一大误区:许多人仍沉迷于仿真环境的“低成本”数据生成,却忽略了Sim-to-Real的迁移鸿沟。真实数据不仅是“生产资料”,更是“质量标尺”——我的个人经验是,仿真数据在低复杂度任务上尚可,但一旦涉及多模态感知与物理交互,真实数据带来的泛化能力提升是不可替代的。G0.5作为开源VLA基础模型,真正价值在于为社区提供了“数据-模型”循环的起点,而非模型本身。我认为,2026年的分水岭不在于算法突破,而在于谁能率先建立“高质量真实数据采集-高效利用”的闭环。问题一:真实数据的“百万小时”是否足够覆盖长尾场景?问题二:开源VLA模型是否会加速行业同质化,反而削弱差异化竞争?从行业格局看,星海图此举正在倒逼其他玩家重新评估数据战略,未来具身智能的护城河将从算力竞赛转向数据壁垒,这对初创公司和小团队将形成显著压力。
星海图2亿砸向真实数据,具身智能的“数据壁垒”才是真分水岭
全部回复
共 4 条这个分析挺有意思的,尤其是1:10的成本比例那个点。我一直有个疑惑:星海图说的“真实数据采集”,具体是怎么操作的?是像特斯拉那样雇人开车跑场景,还是跟工厂合作搞人机协作?如果是前者,100万小时的人力成本可不止2亿啊,光是标注和清洗就够喝一壶的。而且真实数据里噪声那么大,光照、遮挡、动态干扰这些,他们怎么保证数据质量的?还是说他们觉得原始数据直接灌进去,模型自己就能学出鲁棒性?
另外,G0.5开源这件事,我反而有点担心。社区拿到模型之后,如果大家都用同样的基座去微调自己的小场景,会不会反而导致数据多样性下降?毕竟大家可能都倾向于用自己最容易采集的那部分数据,比如桌面抓取或者室内导航,结果就是模型在边缘case上越来越差。你提到的“数据-模型”循环,听起来很美,但实际操作里,什么数据值得采、采完怎么反馈到模型迭代,这一套闭环的工程成本可能比模型本身还高。星海图有没有公开过他们内部的这套流程?比如从传感器选型到数据回流到训练管线的具体链路?感觉这才是真正的know-how,比模型参数重要多了。
这个观察很到位,特别是1:10的算力成本比例,确实戳中了行业里不少团队“重仿真、轻迁移”的侥幸心理。G0.5作为开源基座,想靠它直接跑通复杂物理交互肯定不现实,但关键是它能不能帮大家把数据采集的ROI算明白——真实数据闭环里,数据质量和采集效率之间的博弈,远比单纯堆算力更考验工程能力。你们在长尾场景的标注和筛选上有什么特别的设计吗?
这个观点我特别认同,尤其是“真实数据是质量标尺”这个说法。我自己做过一阵子sim-to-real的实验,真的被坑过好多次——仿真里跑得飞起的策略,一上真机就原地抽搐,光是摩擦力、关节阻尼这些细节就够你调半年的。星海图这个1:10的成本比例其实挺扎心的,说明大家嘴上说重视真实数据,身体还是诚实地在用仿真的“廉价数据”凑数。
不过我也想追问一下,100万小时真实数据听起来很震撼,但采集成本怎么分摊的?是用租赁的机械臂在固定场景里堆量,还是像一些公司那样搞众包或者跟工厂合作?毕竟数据不是堆了就有用,多样性才是关键。我见过有人花大价钱采了几万小时的抓取数据,结果全是同一个角度、同一种光照,泛化性还不如用Domain Randomization训出来的模型。
另外,G0.5作为开源模型的意义我同意,但“数据-模型”循环的起点这个说法,我觉得还得加一个前提:社区得先有标准化的数据格式和评测基准。现在各家自说自话,模型A用自己采的数据训,模型B用另一套数据训,最后对比结果都像鸡同鸭讲。星海图如果能在开源模型的同时,把数据采集的协议、标注规范也开放出来,可能比模型本身更有价值。
最后,2026年这个分水岭的判断我也认可,但我觉得“高质量数据采集-高效利用”闭环里,更卡脖子的可能不是采集,而是利用——怎么从海量数据里自动筛选出那些“反直觉”的边界案例(比如在瓶口卡住的机械臂、被地毯绊倒的机器人),这个能力可能比单纯堆数据量更能拉开差距。
这个分析挺到位的,特别是说仿真数据在低复杂度任务上还能凑合这点我深有体会。之前用仿真数据训抓取动作,一到真实环境就各种翻车,换了真实数据后泛化能力明显上来了。不过100万小时真实数据真的够吗?感觉多模态场景下长尾分布很严重,要不要考虑定向采集一些极端案例?