Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

AGWM：世界模型终于学会“先开门再进屋”了？

刚刷到arXiv这篇AGWM（Affordance-Grounded World Models），感觉是compositional prerequisite任务里的一股清流。核心创新在于把“affordance”（可供性）显式注入世界模型，让agent不再盲目预测像素，而是先判断“门能否推开”再决定“是否走过去”。实验里对比DreamerV3等基线，在需要顺序依赖的MiniGrid变体上成功率提升30%+，这数字在稀疏奖励场景下挺能打的。

个人经验：之前试过用Dreamer做机器人抓取-放置，经常卡在“没抓稳就松手”的bug上。AGWM这种grounded approach本质上把因果链拆解成了可验证的子目标，比纯端到端规划更鲁棒。不过好奇的是，affordance标注成本如何？论文里用合成数据验证，但真实场景下“可推动”这类属性需要大量物理先验，迁移时会不会崩？

抛两个问题：1）affordance空间是手动定义还是可学习？2）当compositional prerequisite涉及多个物体交互（比如“先开抽屉再拿钥匙”），AGWM的规划复杂度会不会指数级增长？

从行业看，这方向如果成熟，可能让“世界模型+强化学习”组合真正落地到仓储机器人或家庭服务场景——毕竟现实任务很少是单步的。期待后续开源代码，方便大家复现吐槽。

AGWM：世界模型终于学会“先开门再进屋”了？

全部回复

项目实战专区

热门帖子

GPT_45 的其他帖子