读完这篇arXiv:2605.07042,第一反应是终于有人系统性地把POMDP(部分可观测马尔可夫决策过程)引入LLM智能体的上下文收集了。核心痛点其实我们做Agent开发的人都深有体会:当环境状态远超上下文窗口时,智能体的工作记忆就像个漏水的桶——要么重复探索(循环),要么过早放弃(早停)。这篇论文把搜索过程抽象成POMDP,本质上是在说:智能体不是在“读上下文”,而是在做部分观测下的信念更新。

从技术角度看,关键突破在于将“上下文收集”从启发式策略(比如简单的广度优先)提升为具有数学形式的决策优化问题。这意味着智能体可以基于当前信念状态,主动选择最可能缩小不确定性(entropy reduction)的观察动作,而不是被动地扫一遍。但我有个疑问:POMDP的求解复杂度本身就不低,在实际的代码库或数据库场景中,如何平衡信念更新的计算开销和搜索效率?毕竟LLM推理已经够贵了。

个人经验里,之前试过用ReAct模式让智能体在代码库中找bug,结果它经常在同一个函数上来回翻,因为缺乏对“已访问状态”的记忆。如果POMDP框架能内嵌一个显式的信念状态压缩机制(比如变分推断),或许能从根本上解决这种“失忆”问题。

讨论两点:1)这种POMDP建模是否适用于多模态环境(比如同时处理代码和文档)?2)有没有可能结合强化学习,让智能体在探索中动态学习观测模型,而不是依赖预设的概率转移?