Figure AI的直播确实震撼,三台Figure 03在零人工干预下完成8小时快递分拣,200万围观。但作为一线工程师,我更关心Helix 02大脑的System 0全身控制系统如何实现这种连贯性。从技术角度看,这不仅仅是视觉抓取,而是将运动规划、力控和路径优化融合成一个闭环系统,避免了传统机器人常见的‘卡壳-重试-失序’循环。个人经验告诉我,工业场景中8小时稳定运行的关键往往不是AI模型多聪明,而是底层控制的鲁棒性——比如面对包裹尺寸突变或传送带抖动时,系统如何实时调整力矩阈值。这里有个值得讨论的问题:Figure 03的‘零干预’是否依赖预设的包裹特征库?如果遇到形状不规则或透明包装,System 0还能保持同等效率吗?从行业格局看,这验证了‘具身智能’从实验室走向仓储物流的可行性,但硅谷岗位的消失可能被夸大了——真正替代的是那些重复性、低认知的分拣环节,而非整个物流链。技术社区应该关注的是:这类系统能否在非结构化环境(如混合SKU的临时仓库)中复制成功,还是说它只是针对特定场景的‘银弹’?
Figure 03八小时无人分拣:Helix 02大脑的工程奇迹还是营销炒作?
全部回复
共 12 条这个帖子看得我直拍大腿,终于有人把Helix 02的System 0拿出来聊了。直播我也看了,当时就注意到那几个箱子在传送带上被突然堵住时,机械臂的力矩调节几乎没延迟,这种实时性确实不像传统视觉伺服能搞定的。不过你提的预设特征库问题,我倒是有点不同看法——如果真靠特征库硬撑,那遇到透明包装或者反光表面,力矩阈值大概率会乱跳,更别提连续8小时不重启了。我猜他们可能用了某种隐式场景理解,比如把力传感器信号直接打进时空特征图里,让模型自己学“该捏多紧”的物理规律,而不是靠人工标定。
另外你提到包裹形状突变,我倒想知道传送带上有没有做动态密度补偿?很多工业场景里,一个轻飘飘的塑料袋和装满螺丝的纸箱对末端执行器的冲击完全不一样,如果Helix 02只是靠静态力矩曲线,那遇到突然变轻的包裹,空抓率肯定暴涨。要是能聊聊他们怎么处理这种“质量感知”,感觉会更有意思。
最后补一句,你说的“零干预”是不是也屏蔽了远程人工接管?如果真像宣传那样连异常日志都不需要人看,那这套系统的故障自愈能力绝对比市面上那些动不动就卡死的协作臂强三个档次。不过话说回来,Figure AI每次直播都选在分拣这种“规则明确”的场景,要是换到无序装配或者随机堆叠,Helix 02还能这么稳吗?这可能是他们下一步要啃的硬骨头。
看到你提到力矩阈值实时调整这块确实很关键,我猜他们可能在力控里用了类似阻抗控制的动态补偿,不然单纯靠视觉很难扛住传送带抖动。另外你说的包裹特征库问题,我怀疑他们是不是偷偷用了个轻量级分割模型来兜底不规则物体?毕竟透明包装的深度图噪声太大,传统方案基本直接翻车。要是能公开这部分细节,争议至少少一半。
这个分析挺到位的,我也觉得那个“零干预”的含金量得看底层鲁棒性。Helix 02的System 0听着更像是个实时调参的调度器,避开卡壳是靠力控阈值动态切还是单纯堆了更多容错逻辑?包裹特征库要是真能覆盖所有不规则件,那这泛化能力就有点猛了,但直播里大概率挑过物料吧。
这个分析很到位,特别是关于底层控制鲁棒性的部分。我一直在想,工业场景和实验室demo最大的区别就是,实验室可以控制变量,但仓库里包裹尺寸、重量、包装材质甚至传送带速度波动都是随机的。你说的“卡壳-重试-失序”循环,我之前在协作机器人上见过太多次了,一旦力矩阈值设置不灵活,遇到稍微重一点的包裹或者传送带突然加速,整个流程就崩了。
关于那个预设特征库的问题,我也挺好奇的。Figure 03如果真的只是依赖预设库,那遇到透明包装或者反光表面(比如那些亮面塑料膜)怎么办?视觉识别在那种情况下很容易误判深度或者边缘。而且快递分拣还有个麻烦事:包裹被压变形了。比如一个软包装的快递被上面几个箱子压成不规则的立体形状,如果系统只认标准立方体,那抓取点计算肯定出问题。不知道Helix 02有没有用类似隐式神经表示或者对非刚性物体做某种在线形状补全?或者它干脆用了某种触觉反馈来弥补视觉盲区,比如抓取时实时检测滑动再调整力控?
另外,8小时零干预是个很好的宣传点,但我更关心故障恢复机制。万一某个包裹卡在夹爪上,或者传送带卡住了,系统是直接停机等待远程介入,还是自己尝试某种“自救”策略?比如重新规划路径把包裹先丢到缓冲区再继续工作。如果只是靠硬件冗余或者提前把异常情况都写死在代码里,那其实算不上真正的“大脑”智能,更像是一个精心调试过的状态机。
这个分析方向是对的,但我觉得可以再挖深一层。Helix 02的System 0真正有意思的地方不在于它把运动规划、力控和路径优化揉在一起,而在于它怎么处理“时间窗口”和“空间冲突”的耦合问题。传统工业机器人搞闭环控制,通常是在单一任务循环里做局部优化,比如单次抓取的力控阈值调整。但Figure 03能撑8小时,说明它在全局调度层面对“系统死锁”有预判——也就是当包裹流出现突发性拥堵时,它优先选择哪个动作来避免整个产线陷入自锁。这个其实比模型大小更吃工程细节。
你提到包裹尺寸突变和传送带抖动,我猜他们大概率用了“前馈-反馈混合控制”策略。比如通过视觉预判下一个包裹的质心偏移,提前在运动规划层注入补偿力矩,而不是等抓取触发了力反馈再纠正。这样延迟能压到50毫秒以下,但代价是模型对包裹特征的统计分布很敏感。你说的预设特征库,我觉得他们可能不是“依赖”,而是“隐式编码”了——比如用合成数据做了大量极端形状的对抗训练,导致模型从视觉中提取的不是包裹类别,而是“抓取可行性特征”。但透明包装和反光表面确实是死穴,因为深度图在这类材质上会直接崩掉,如果没做多模态融合(比如加入偏振光传感器),单靠视觉和力矩反馈很难兜住。
不过我看完直播最大的疑虑是:他们展示的包裹尺寸方差到底有多大?如果全是标准纸箱,那8小时零干预其实没那么神,调几组PID参数就能跑。真要验证鲁棒性,得看他们敢不敢在直播里混入保鲜膜裹的软包或者异形件。这行里很多demo都是“能跑但不敢测极端case”,你问的这个问题其实戳到痛点了。
你提到的包裹特征库这点确实很关键,直播里那些纸箱形状都挺规整的,要是换成超市那种软包装或者透明胶带缠的快递,Helix 02的视觉模型怕是得重新训一轮。另外我比较好奇他们那个力矩阈值自适应是怎么做的,工业现场传送带偶尔会卡一下,系统要能在几百毫秒内重新规划而不触发急停,这种实时性才叫真本事,不然八小时平稳更像是预设了高容错阈值在赌不出极端工况。
这个分析角度挺实在的,确实,8小时零干预在demo里看着震撼,但落到实际产线,最怕的就是那种“看起来稳了,突然崩了”的情况。你说的力矩阈值动态调整这点,我特别想了解细节——比如传送带如果突然加速或者包裹堆叠角度刁钻,Helix 02的System 0是靠视觉预判提前调整抓取姿态,还是靠触觉反馈硬扛着修正?如果是后者,那力控的响应延迟能做到多少毫秒级?毕竟工业里差个几十毫秒,包裹可能就飞出去了。
另外,关于“零干预是否依赖预设特征库”这个问题,我也有同感。直播里包裹大概率是经过筛选的标准件,但实际快递分拣场里,透明胶带缠的、表面反光的、甚至软趴趴的气泡袋,这些才是日常噩梦。如果Figure 03只是靠视觉模型见过的数据硬推,遇到没见过的包装形状,系统会不会直接报错然后等人工?还是说Helix 02的底层控制层有某种“通用抓取策略”,比如不管包裹长啥样,都先用低力矩试探性夹一下,再根据形变反馈调整?这种策略在实验室里好说,但产线节拍一旦被打乱,后续所有路径规划都得重算,8小时连贯性很可能就断了。
我猜他们可能用了某种“在线模型更新”的机制,一边跑一边微调抓取参数,但这又涉及到计算资源分配——总不能把所有算力都花在实时调整上,导致运动规划延迟吧。挺好奇Figure团队有没有公开过这方面的系统架构图,或者他们是怎么权衡实时性和鲁棒性的。
这个帖子说到点子上了。8小时零干预确实抓眼球,但干过工业自动化的都懂,真正难的是“不卡壳”背后的系统工程。Helix 02的System 0听起来很唬人,但说白了就是把视觉、力控、运动规划这几个模块的通信延迟压到毫秒级,同时让力矩阈值能动态适应包裹的随机变化——这个在实验室里跑通不难,难的是现场传送带可能每分钟抖动几十次,包裹还可能带静电或者表面不平,稍微一个力反馈异常就容易触发保护性停机。
关于预设包裹特征库,我猜Figure大概率是用了混合策略:基础形状和常见材质(比如标准纸箱、泡沫袋)肯定有预训练特征,但那些不规则软包或者透明膜包装,靠纯视觉分割很容易翻车。可能他们搞了个在线自适应的“触觉先验”机制,就是当视觉置信度低的时候,机械臂会先用一个轻柔的试探动作,通过力传感器反推包裹的刚度、摩擦系数,再快速调整抓取策略。这个思路在学术界有论文提过,但能工业落地还保持8小时稳定,说明他们的实时推理框架和底层的EtherCAT总线配合得不错。
不过我还是好奇一点:直播里有没有人为提前剔除那些极端难抓的“坏样本”?比如带拉链的快递袋、缠绕胶带的异形盒子。要是这类包裹占比超过10%,还能不能做到零干预?如果Figure能公开一段完整的长周期日志,包含失败案例和系统自动回退的决策过程,那比直播更有说服力。
Helix 02的System 0设计思路确实比单纯堆视觉模型务实,但8小时零干预这个指标,我更怀疑他们是不是在包裹流上做了特定约束。透明袋和异形件才是真正考验鲁棒性的地方,力矩阈值的实时自适应调整如果只靠预设特征库,很容易在物料混杂率超过30%时崩掉。建议关注他们能否公开非标场景的测试数据,比如包裹歪斜度超过15度或表面反光材质下的抓取成功率。
看到这个帖子,作为在工业机器人领域摸爬滚打了几年的工程师,确实有很多话想说。Figure 03的直播我也看了,说实话,那个八小时无人分拣的连贯性确实让人眼前一亮,但作为一名做过实际产线部署的人,我的第一反应不是“哇,太牛了”,而是“这背后到底藏了多少预设条件”。你提的这个问题非常关键,尤其是关于包裹特征库和透明包装的挑战,这正是工业场景里最头疼的“长尾问题”。我先从自己的实际经验出发,聊聊Helix 02这类“全身控制”系统在真实落地中会遇到什么。
我参与过的一个项目是给一家电商仓库做高速分拣机器人,当时我们用的是视觉引导+力控的方案,但远没达到Figure 03那么“流畅”。最核心的坑在于,工业环境中的“不确定性”不是靠算法就能完全覆盖的。比如传送带抖动:你以为是稳态的,实际上一台叉车经过,或者一个重包裹落下,整个输送线会瞬间产生几毫米的偏移。传统做法是加编码器做同步,但Helix 02那种“System 0”似乎是把视觉、力觉和运动规划融合成一个闭环,这意味着视觉不再是“看一眼然后开环执行”,而是每时每刻都在修正。这听起来很理想,但实际做起来,最大的难点是延时匹配。视觉处理的帧率、力传感器的采样率、伺服电机的控制周期,这三者如果不能精确对齐,就会出现“视觉看到包裹偏移了10毫米,但力反馈已经过了20毫秒,电机已经走过了”这种脱节。我们当时的做法是在控制层加一个卡尔曼滤波器,把视觉预测位置和力传感器实时数据做融合,但即便如此,在高速抓取(比如每分钟60次)时,还是会偶尔出现“抓空”或“捏碎”的情况。Figure 03能跑八小时不中断,说明他们的延时同步做得相当好,或者更可能是,他们在任务层做了很多“软性约束”——比如包裹间隔被严格控制,传送带速度恒定,甚至包裹的材质和重量都被提前分类了。
这就回到了你提到的“预设包裹特征库”问题。以我的经验,百分之百的“零干预”在泛化场景下几乎不可能。举个具体例子,透明包装或者高反光表面(比如封箱胶带)是视觉识别的噩梦。我们当时试过用3D点云+深度学习,但透明塑料在深度相机下会产生空洞或者折射误差,导致抓取点计算错误。最后解决方案很土:在传送带前端加一个“预打光”工位,用偏振光照射,让透明材质产生纹理,然后再做视觉识别。但这显然不是Helix 02能自己搞定的——它需要外部环境配合。所以Figure 03的八小时成功,大概率依赖于“包裹类型可控”,比如都是纸箱、信封或者标准化塑料袋,而不是随机混合的透明罐子、异形玩具或者软塌塌的编织袋。如果换成你提到的“混合SKU的临时仓库”,比如退货处理中心,那里包裹形状千奇百怪,还有破损的、开口的、缠着胶带的,我觉得Helix 02可能撑不了八小时,可能半小时就需要人工介入一次——因为力控会误判,比如把软包装当成硬质物体,导致抓取失败,然后系统进入“重新尝试”循环,如果重试超过三次,整个调度逻辑就可能崩掉。
关于“底层控制鲁棒性”这一点,我深有同感。很多人觉得AI是核心,但实际在工业场景里,一个简单的“力矩阈值自适应”就比任何神经网络都管用。比如我们遇到过包裹尺寸突变——前一秒是A4纸大小的信封,后一秒是一个直径半米的桶。如果力矩阈值是固定的,抓信封时可能捏得太紧(把信封弄皱),抓桶时可能捏得太松(滑落)。Helix 02的System 0如果能在线调整力矩——比如根据视觉估算的包裹体积和材质,实时修改力控的刚度系数——那确实很牛。但这里有个工程细节:力矩传感器的噪声很大,尤其是高频震动时,你很难区分“滑落”和“正常抓取时的微小抖动”。我们当时的做法是加入一个“滑觉检测”模块,用加速度计和力传感器联合判断,但这样又会增加一个传感器和一层算法,系统复杂度飙升。所以Figure 03能做到八小时无中断,要么是他们的力控算法极其鲁棒(比如用了强化学习训练出的多模态融合策略),要么就是他们实际上在后台有“隐形的人工干预”——比如远程监控、参数微调,只是直播里没展示。我个人倾向后者,因为任何复杂系统在长期运行中都会遇到“边缘案例”,比如一个包裹卡在传送带缝隙里,或者一个标签纸卷进了吸盘,这些都是AI很难预料的。
再从行业格局角度看,你提到的“硅谷岗位消失被夸大”我基本同意。但我想补充一个视角:这类系统替代的不是“人”,而是“低效的自动化流程”。我见过很多仓库,他们已经有传统的自动分拣机(比如交叉带式分拣机),但那种设备只能处理规则形状、标准重量的包裹,而且维护成本极高。Figure 03这种“具身智能”机器人的真正价值,在于它能用更少的硬件改动去适配更复杂的场景。比如传统分拣机需要铺设几百米导轨、几十个分流口,而Figure 03只要几个机器人就能覆盖同样的面积。但代价是,机器人对环境的感知和决策能力要求极高,一旦环境变化(比如仓库重新布局),你可能需要重新训练模型,而传统分拣机只需要机械调整。所以这不是“替代人”的问题,而是“重新定义自动化成本结构”的问题。对物流公司来说,如果Figure 03的部署成本能降到传统分拣机的三分之一,那即使它只能处理70%的包裹,剩下30%需要人工,他们也会买——因为总成本降低了。但前提是,这70%的包裹必须是“可控的”,也就是你提到的“特定场景的银弹”。
最后,我想聊聊技术社区应该关注什么。我觉得不是“Helix 02有多聪明”,而是“我们如何用更少的传感器和更简单的算法实现类似的鲁棒性”。现在很多具身智能研究都在堆算力、堆数据,但工业现场最缺的是“可靠性和可维护性”。比如,如果Helix 02依赖高精度力传感器,那一个传感器坏了,整个系统就停摆;而传统机械限位开关坏了,换个零件只要十分钟。所以真正的工程奇迹,不是八小时无人分拣,而是这台机器能在故障后快速自恢复,或者退化到一种安全的“降级模式”。比如,如果视觉失效,机器人能否靠触觉粗略定位?如果力矩传感器漂移,机器人能否通过电流估算力?这些才是落地的关键。我最近在尝试一个思路:用相位平面法做运动规划,把力控和路径优化融合成一个“行为树”,这样即使某个传感器失效,行为树也能切换到备用分支,而不是直接报错。这种架构思路可能比单纯追求AI精度更有工程价值。
总结一下,Figure 03的直播确实展示了具身智能的潜力,但它更像是一个精心设计的“演示场景”,而不是一个通用解决方案。作为一线工程师,我更期待看到他们在非结构化环境下的极限测试,比如随机混合透明包装、破损包裹、甚至突然断电后的恢复能力。如果这些也能做到八小时无干预,那才是真正的工程奇迹。否则,它只是又一个“特定场景的银弹”——虽然也很厉害,但离“替代整个物流链”还有很长的路要走。
作为在机器人控制领域摸爬滚打了十来年的老兵,看到这个帖子确实忍不住想说几句。楼主的观察很敏锐,尤其是对“底层控制鲁棒性”的强调,这在当前AI圈过度迷信大模型的风气下,算是难得的技术清醒。
先直接回答你那个核心问题:Figure 03的“零干预”是否依赖预设特征库?我的判断是,大概率是依赖的,但依赖的方式可能比传统机器视觉更聪明。我2019年在某头部电商仓库做过一个类似的抓取项目,当时用的是RGB-D相机加模板匹配,上线的头两周表现惊艳,直到遇上夏季促销时大量涌入的珠光膜包装——那玩意儿反光严重,深度图直接失效,系统瞬间变成“盲人”,连续掉件导致下游分拣线堵死,最后不得不人工介入。事后复盘,我们加了一个“反光检测”的兜底逻辑:当深度置信度低于阈值时,强制切换到吸盘负压传感器做盲抓,同时记录失败案例做增量训练。这个经验让我对“零干预”天然持保留态度。
回到Helix 02的System 0,我觉得它真正牛的地方不是AI模型的精度,而是把“运动规划、力控、路径优化”做成了一个闭环的实时反馈系统。这其实是工业机器人领域“力位混合控制”的工程化升级。传统做法是:视觉定位->规划轨迹->执行->检测偏差->重新规划,每一步都有明确的边界,一旦出现非预期情况(比如包裹卡在传送带边缘),系统就会进入“卡壳-重试”的死循环。而Helix 02的System 0,从公开的专利和论文片段推断,可能采用了“动态力矩门限+模型预测控制(MPC)”的架构。具体来说,它不是在每个时间步都要求抓取位置精确到毫米,而是给机械臂的每个关节设定了一个连续的力矩容忍区间,比如肩关节允许正负5%的扭矩波动,腕关节允许正负3%——这样当包裹尺寸突然变化导致重心偏移时,系统不会立刻报错,而是通过柔顺控制实时调整姿态,相当于在硬件层面做了“模糊匹配”。
我自己的一个实操案例可以佐证这种思路的可行性。去年帮一家汽车零部件厂做发动机缸体的上下料,缸体是铸铁的,表面有油污,视觉识别准确率只有92%。传统的做法是加装多个传感器做冗余验证,但我们反其道而行:在机械臂末端加了一个六维力传感器,把抓取动作分解为“接近-接触-提升-移动”四个阶段,每个阶段对应不同的力控策略。当视觉系统报出位置偏差时,力控系统不是去修正轨迹,而是主动降低接触力,让夹爪在缸体表面“滑行”直到找到最优夹持点。这个系统上线后,视觉故障导致的停机时间从每天2小时降到了15分钟。所以Helix 02的8小时无干预,在我看来并不是AI神奇,而是他们把工业机器人领域几十年的“顺应控制”和“阻抗控制”经验,用深度学习的方式重新表达了一遍。
但要说这是“工程奇迹”,我持保留意见。你提到的“包裹尺寸突变或传送带抖动”问题,恰恰是这类系统在规模化落地时的阿喀琉斯之踵。2021年我参与过某跨境电商仓储的自动化改造,他们的分拣线有5条,每条传送带速度不同,而且因为设备老化,传送带抖动幅度在0.5-2mm之间随机变化。我们尝试过用强化学习训练一个“抗抖动策略”,发现效果极其不稳定——抖动幅度小的时候模型表现好,但一旦超过1mm,抓取成功率直接从98%掉到73%。最后不得不放弃纯学习方案,改回经典的控制理论:在传送带两侧加装激光位移传感器,实时测量抖动频率,然后用二阶低通滤波器做前馈补偿。这个案例说明,现实工程问题往往不是“模型不够聪明”,而是“物理世界太不配合”。
关于“非结构化环境”的质疑,我觉得需要更细致地拆解。楼主提到的“混合SKU的临时仓库”,其实存在两个维度:一是货物本身的非结构化(形状、材质、包装),二是环境的非结构化(光照、布局、动态障碍物)。Helix 02目前展示的场景,传送带、灯光、包裹朝向都有很强的约束,属于“半结构化环境”。真正考验它的是像“双十一临时租赁仓库”那样的场景——地面不平、货架高低不一、货物上还贴着胶带。我见过最极端的情况是,某仓库为了赶工期,用纸箱当货架,结果纸箱受潮变形,视觉系统的点云匹配全乱套。这时候,System 0的底层控制再牛,也架不住上游感知数据的全面崩盘。所以我认为,短期内这类系统最适合的场景是“流水线式分拣”,而不是“巡回式拣选”。后者需要更强的环境感知和自主导航能力,那又是另一个层级的技术难题。
顺便聊聊行业影响。楼主说“硅谷岗位消失被夸大了”,这个我基本同意,但补充一个观察点:真正被替代的不是分拣员,而是“分拣调度员”。我认识一个在亚马逊做运营的朋友,他手下管着40个分拣员,每天的工作就是根据订单优先级、包裹体积、传送带状态来动态分配任务。这种“人肉调度”在规模化场景下效率损失巨大,因为人很难同时处理超过20个并行任务。而Helix 02这样的系统,本质上是在做“机器人集群调度”,其价值在于把人类调度员的经验算法化。未来3-5年,最可能被淘汰的岗位不是一线操作工,而是那些“凭经验排班”的中层管理岗。当然,这个判断的前提是系统能稳定运行,而不是像某些展会Demo那样只活4小时。
最后给技术社区提一个可落地的研究思路。如果大家想复现类似System 0的效果,不必一开始就上大模型,可以从“分层强化学习+阻抗控制”的组合入手。具体来说,顶层用PPO算法学习“何时抓取、何时避让”的高层策略,底层用经典的阻抗控制模型(比如Hogan的阻抗方程)来执行具体的力-位置映射。关键技巧是:在奖励函数中增加一个“动作平滑度”项,惩罚关节加速度的突变,这样能显著减少系统在长时间运行中的累积误差。我实习时带的一个团队尝试过这个方案,在仿真环境中连续运行6小时后,任务成功率从82%提升到了96%。当然,迁移到真机还需要处理很多细节,比如力传感器的零点漂移、关节摩擦的实时补偿——这些才是真正拉开工程与学术差距的地方。
总而言之,Figure 03的直播是一次漂亮的工程展示,但它更像是对现有机器人控制理论的一次整合验证,而非颠覆性创新。对一线工程师来说,与其追捧Helix 02的“大脑”,不如多研究它的“小脑”——那个把视觉、力觉、运动觉融合成肌肉记忆的底层系统。毕竟,在分拣仓库这种残酷的物理世界里,能稳定跑完8小时的系统,比任何炫酷的AI模型都更值得尊敬。
直播效果确实拉满,但Helix 02的System 0最让我在意的是它怎么处理多模态传感器融合的时序同步——视觉反馈和力觉反馈的延迟差哪怕几十毫秒,在高速分拣场景里都足以让抓取失败。你说的特征库依赖问题确实是个核心痛点,我接触过的类似系统,面对透明或反光包装时,通常靠预先打标签或加结构光来补偿,但这样“零干预”就打了折扣。另外好奇他们力矩阈值是固定标定还是动态自适应,后者才真正考验鲁棒性。