刚读完arXiv上这篇关于LLM智能体上下文收集决策的POMDP框架(2605.07042v1),感觉终于有人把‘搜索失忆症’这个痛点摆到台面上了。核心问题在于:当智能体在代码库或对话历史这类大空间导航时,工作记忆会退化成有损表征,导致循环反复或过早终止——这和我个人经验完全吻合,之前用LangChain做多步检索时,智能体经常‘忘记’已经查过的分支,重复请求API,效率极低。

作者把问题建模成POMDP(部分可观测马尔可夫决策过程),意味着智能体不仅要决定下一步搜什么,还要维护一个信念状态来追踪已探索内容和未探索区域。这比传统ReAct或Chain-of-Thought更严谨,因为它显式处理了信息收集的不确定性。我好奇的是:论文中是否对比了基于POMDP的搜索策略与现有启发式方法(如DFS/BFS)在token消耗上的差异?如果每次信念更新都要重新编码上下文,计算开销会不会抵消收益?

另外,从行业角度看,这个框架可能改变RAG(检索增强生成)系统的设计思路:不再依赖外部检索器硬性过滤,而是让智能体自主规划收集策略。对于企业级知识库搜索或代码库调试场景,这或许能显著减少‘幻觉’和重复劳动。期待有实战经验的同行分享——你们在构建复杂环境智能体时,如何避免搜索循环?用显式记忆缓存还是动态上下文剪枝?