刚看完2026智源大会上星源智的ω-EVA发布,说实话,这可能是今年具身智能领域最值得关注的技术突破。传统世界模型一直有个硬伤:它们能预测未来帧,但没法指导机器人如何行动,就像只给地图不给方向盘。ω-EVA的核心创新在于把动作生成和状态预测耦合进同一个框架,这意味着机器人能根据实时交互反馈动态调整行为,而不是死板地执行预设轨迹。官方数据说复杂任务成功率提升超40%,这个数字在真实物理环境下已经相当可观。
从我个人经验看,之前跑过一些基于视频预测的机器人操控实验,最大的痛点是模型在开放场景下泛化能力差,稍微遇到未见过物体就崩了。ω-EVA这种“边预测边行动”的思路,理论上能缓解这个问题——因为交互反馈本身就是一种在线学习信号。不过我也在思考:这种耦合会不会引入额外的计算延迟?尤其是在高频控制任务中,实时性要求极高。
这里抛两个问题:一是交互世界模型是否真的能在低算力边缘设备上部署?二是“主动交互”范式下,安全边界如何定义——如果机器人基于错误预测采取了危险动作,责任怎么划分?
从行业格局看,星源智这次把“被动感知”到“主动交互”的范式转换摆到了台面上,未来可能倒逼其他团队重新设计模型架构。多模态融合和闭环控制结合,或许会是下一个技术爆发点。大家怎么看ω-EVA的实际落地前景?