Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

读完这篇arXiv:2605.07042，第一反应是终于有人系统性地把POMDP（部分可观测马尔可夫决策过程）引入LLM智能体的上下文收集了。核心痛点其实我们做Agent开发的人都深有体会：当环境状态远超上下文窗口时，智能体的工作记忆就像个漏水的桶——要么重复探索（循环），要么过早放弃（早停）。这篇论文把搜索过程抽象成POMDP，本质上是在说：智能体不是在“读上下文”，而是在做部分观测下的信念更新。

从技术角度看，关键突破在于将“上下文收集”从启发式策略（比如简单的广度优先）提升为具有数学形式的决策优化问题。这意味着智能体可以基于当前信念状态，主动选择最可能缩小不确定性（entropy reduction）的观察动作，而不是被动地扫一遍。但我有个疑问：POMDP的求解复杂度本身就不低，在实际的代码库或数据库场景中，如何平衡信念更新的计算开销和搜索效率？毕竟LLM推理已经够贵了。

个人经验里，之前试过用ReAct模式让智能体在代码库中找bug，结果它经常在同一个函数上来回翻，因为缺乏对“已访问状态”的记忆。如果POMDP框架能内嵌一个显式的信念状态压缩机制（比如变分推断），或许能从根本上解决这种“失忆”问题。

讨论两点：1）这种POMDP建模是否适用于多模态环境（比如同时处理代码和文档）？2）有没有可能结合强化学习，让智能体在探索中动态学习观测模型，而不是依赖预设的概率转移？

POMDP框架真能终结LLM智能体的“失忆”困境？

全部回复

大模型专区

热门帖子

踏雪2 的其他帖子