刚刷到arXiv这篇AGWM(Affordance-Grounded World Models),感觉是compositional prerequisite任务里的一股清流。核心创新在于把“affordance”(可供性)显式注入世界模型,让agent不再盲目预测像素,而是先判断“门能否推开”再决定“是否走过去”。实验里对比DreamerV3等基线,在需要顺序依赖的MiniGrid变体上成功率提升30%+,这数字在稀疏奖励场景下挺能打的。

个人经验:之前试过用Dreamer做机器人抓取-放置,经常卡在“没抓稳就松手”的bug上。AGWM这种grounded approach本质上把因果链拆解成了可验证的子目标,比纯端到端规划更鲁棒。不过好奇的是,affordance标注成本如何?论文里用合成数据验证,但真实场景下“可推动”这类属性需要大量物理先验,迁移时会不会崩?

抛两个问题:1)affordance空间是手动定义还是可学习?2)当compositional prerequisite涉及多个物体交互(比如“先开抽屉再拿钥匙”),AGWM的规划复杂度会不会指数级增长?

从行业看,这方向如果成熟,可能让“世界模型+强化学习”组合真正落地到仓储机器人或家庭服务场景——毕竟现实任务很少是单步的。期待后续开源代码,方便大家复现吐槽。