GENE-26.5 刷屏，堪称今年领域最震撼的demo！真的吗？

GENE-26.5 值得看的，是它背后的「具身智能版 Harness + 模型」。
5 月 7 日，Genesis AI 正式发布了：
GENE-26.5。
26.5，代表 2026 年 5 月。按照官方博客里的说法，这也是 GENE 系列第一次公开发布。
几天前它刚发布出来，就在海内外具身智能圈引发了不少讨论。原因也比较简单，这次视频 Demo 里的机器人，开始做一些过去很少被机器人 demo 真正做到的事情，能力有了比较直观的提升。
比如，单手打鸡蛋、双手切番茄、用刀背把切好的番茄从案板上转移出去：
抓移液器、插枪头、拧小管盖、整理线束、解魔方，一只手同时夹住好几个不同尺寸的物体等等，一次性全部放了出来：
过去几年，人形机器人视频 Demo 已经足够多了。走路、跳舞、搬箱子、叠衣服、煮咖啡。
很多时候，视觉观感上给人一种比较成熟的「错觉」，但普通人对机器人的期待，最后经常是很真实的：
它到底、什么时候、能真的帮我干活？
干活这件事，对人类来说很普通，但落到机器人身上就会变得异常麻烦。
因为真实世界里的劳动，大部分都不是「走到那里」就结束了。机器人当然要会走路、会保持平衡、会绕开障碍物，这部分在 robotics 里更接近 Locomotion。
但真正把活干完，往往发生在下一步。它要把东西拿起来、转过去、切开、拧紧、插进去、折起来，最后放到一个刚刚好的位置。这就是 Manipulation，也就是操作。
GENE-26.5 的官方博客里，其实也是这样区分的。Locomotion 里的接触，更多是为了支撑身体；Manipulation 里的接触，本身就是任务。
类似这样的概念区分，官方博客里还提到了很多，所以如果只把它当成一组宣传 demo，可能会错过更重要的东西。
🚥
我们阅读整理了原博客内容，
这次 GENE-26.5 的发布，展现出来的最大亮点，可能是机器人基础模型的竞争的重点已经发生了转向：从基础模型到「具身智能版 Harness + 模型」。
所以这篇文章，我们想从这一套「全栈底层系统」开始，分享我们的观察。
Who is Genesis AI ？
Genesis AI 这家公司本身值得先说一下。
AI 这家公司本身值得先说一下。
它确实是一家非常早期的公司，从公开信息看，Genesis AI 今年才正式进入外界视野，但团队组合比较典型：
周衔的背景更偏机器人和物理仿真，Théophile Gervet 则有大模型公司研究经历。
这不是一家已经在聚光灯下反复出现很多年的机器人公司。
但它第一次公开发布，就把模型、灵巧手、训练手套、控制系统、仿真评估等一整套
「具身智能版 Harness + 模型」
全部放出来了。
这与其在融资方面的「异常信息」比较相符合。
融资方面，
Genesis 的唯一官方披露轮次就是 1.05 亿美元 seed。公司官方写明此轮由 Eclipse 与 Khosla Ventures 共领投，参投者包括 Bpifrance、HSG、Eric Schmidt 和 Xavier Niel 等等。
TechCrunch 与 Reuters 都把这轮融资描述为
「异常大的 seed（giant $105M seed round）」。
Reuters 甚至指出它与 Mistral AI 在法国创下的超大种子轮规模相当。
这种资本配置对一家成立约一年、尚未公开客户名单的机器人公司而言，其实是非常罕见的，资方押注的显然是其底层平台价值。
这可能就是 full-stack robotics 的价值。
GENE-26.5 值得看的，是它背后的「具身智能版 Harness + 模型」
官方博客里有一句话很值得注意：
如果目标是 human-level manipulation，解决方案就不能只停在模型训练上。
这句话看起来普通，但放到今天的具身智能行业里，其实有点
分水岭
的味道。
过去两年，大家很容易把注意力放在 VLA 上。视觉、语言、动作，听起来像是把大模型接进机器人之后，问题就会自然往前推进，接下来就只需要数据、Scaling。
但现实中，大模型与机器人的真实表现中间还隔着非常多「道不清、说不明」的东西。
比如：
数据怎么收集，硬件能不能精准的表达有「手感」的动作，控制系统有没有延迟，模型输出的轨迹能不能完整地反馈到电机，评估能不能规模化跑起来。这些东西每一层都可能出现问题。
面对这样复杂的一系列问题，GENE-26.5 在其博客中给出了回答：
GENE-26.5 这次给出的答案，大致可以归结成「具身智能版 Harness」，具体则可以拆成几层。
【1】合成数据真的是「死路一条」？
机器人行业一直缺高质量数据，是公认的事实。
Google 做 RT-1 的时候，
用 13 台机器人采了 17 个月，最后拿到 13 万条左右的真实机器人 episode。后来 DROID 这种多机构合作的数据集，动用了 50 个采集者，覆盖 564 个场景和 86 个任务，也只是攒出了 350 小时左右的真机交互数据。
这些数据很有价值，但也反过来印证了：
真实机器人数据很难像文本、图片、视频那样自然放大。
遥操作可以提供高质量轨迹，但它慢、贵、依赖硬件，也很容易变成「为了采数据而采数据」。相比之下，人类第一视角视频的规模上限要高很多。
Meta 的 Ego4D 已经做到 3000 多小时第一视角视频，来自 9 个国家、855 个佩戴者。
所以到了 GENE-26.5 这里，
Genesis AI 强调 human-centric data，并不只是换一个数据来源。它是在尝试绕开机器人数据最难 scale 的地方：让人类真实工作里的动作，变成机器人可以学习的物理经验。
据披露，它的数据引擎里有三类来源：
手套数据、第一视角视频、第三人称视频。官方披露的数据规模已经超过 20 万小时。
这条路径比较有意思。
因为，第一视角视频可以看到人在真实任务里的自然行为，第三人称视频可以扩大覆盖面，手套数据负责把手部动作和触觉信息记录得更细。
说白了，机器人真正应该学习的，可能不止是实验室里一条条标准轨迹。更有价值的，是
人类长期和物理世界打交道时积累下来的「手感」。
这个手感很难写成规则，所以需要数据。
在预训练的
open-loop evaluation
里，他们验证了基础模型的 Scaling Law，也就是模型越大、数据越多、算力越足，效果还在持续变好。
而对于真实数据、合成数据来说，还有一个细节也挺有意思。
GENE-26.5 的官方博客里，几乎没有把 synthetic data 当成核心训练路线来讲。它讲得最多的，是手套数据、第一视角视频、第三人称视频和少量机器人数据。
仿真当然很重要，但在这篇博客里，
它更多被放在 closed-loop evaluation 的位置上，用来更快、更稳定地评估模型，而不是作为主要训练数据来源。
这和
Physical Intelligence 的 π 系列公开材料有点接近。
π0 到 π0.7 讲得更多的是真实机器人数据、Web-scale 视觉语言预训练、人类数据和自主执行数据。至少从公开材料看，synthetic data 还没有被写成一条已经充

GENE-26.5 刷屏，堪称今年领域最震撼的demo！真的吗？

讨论 (0 条)