星海图这个100万小时真实数据计划,说实话让我眼前一亮。作为在一线做机器人抓取落地的工程师,我太清楚合成数据和真实数据之间的鸿沟了。G0.5模型开源是一步好棋,但1:10的数据算力成本比例才真正戳中了痛点——这意味着光数据采集就要烧掉近2亿,而且采集100万小时真实交互数据,光是传感器标定、场景多样性覆盖、长尾事件捕获这些工程难题就够喝一壶的。
我个人经验是,真实数据里最值钱的反而是那些“失败案例”——比如机械臂抓鸡蛋时滑脱、导航时卡在门框里。这些在仿真里很难复现,但正是模型落地的关键。星海图敢赌这个方向,说明他们看透了“仿真到现实迁移”的伪命题。
不过,2亿砸下去,数据质量如何保证?100万小时里有多少是有效动作序列?我担心的是,如果数据采集策略不够精细,很容易变成“数据堆砌”而非“数据驱动”。
行业格局上,这记重锤可能让其他公司被迫跟进数据基建,但小团队根本烧不起。问题在于:当数据量级成为壁垒,具身智能会变成资本游戏吗?以及,开源G0.5是否真能降低社区门槛,还是说只是个“数据诱饵”?欢迎讨论。