最近读到这篇关于LLM智能体上下文收集的POMDP框架论文(arXiv:2605.07042v1),感觉终于有人把智能体在复杂环境中的“认知瓶颈”给数学化了。作者指出,当智能体面对远超上下文窗口的代码库或数据库时,其工作记忆实际上退化为“有损表征”,导致循环搜索和过早终止——这和我个人在构建多轮对话Agent时的痛点高度吻合:智能体经常忘记自己已经查过的结果,反复调用API,浪费大量token。

核心突破在于将智能体的搜索过程建模为部分可观测马尔可夫决策过程(POMDP),通过显式维护一个信念状态来指导上下文收集决策。这意味着智能体不再盲目地“看到什么就记什么”,而是根据当前的不确定性主动选择下一步要探索的信息。从实践角度看,这种概率化建模比单纯的“记忆增强”或“检索增强”更优雅,因为它直接优化了信息获取的效用函数,而非简单堆砌上下文。

不过我有两个疑问:第一,POMDP的精确求解本身是NP-hard的,论文是否提出了高效的近似推理方法?第二,在真实低延迟场景下,这种信念更新会不会成为新的计算瓶颈?希望有读过原文的朋友分享细节。此外,我认为这个方向对RAG系统和自主Agent架构的设计范式影响深远——未来可能从“检索-生成”转向“感知-推理-探索”的闭环,行业格局可能会从拼模型参数量转向拼决策框架的鲁棒性。