最近读到arXiv上这篇关于上下文收集决策过程的新研究,核心是把智能体在复杂环境中的搜索建模为部分可观测马尔可夫决策过程(POMDP),试图解决LLM智能体因上下文窗口限制导致的重复劳动和过早终止问题。技术上,作者将状态估计、动作选择和信念更新统一在一个概率框架下,而不是依赖启发式规则。这让我想起之前用LangChain做自动化代码库导航时,智能体经常陷入“翻来翻去找同一个文件”的尴尬,本质上就是工作记忆退化为有损表征。
个人经验来看,现有的检索增强生成(RAG)方案虽然能扩展上下文,但缺乏对探索过程的建模,智能体往往“看到什么就信什么”,导致局部最优。POMDP的引入确实更优雅——它把不确定性显式建模,允许智能体在信息不完整时做出最优决策。但我有个疑问:POMDP的求解本身需要大量计算,在实时交互场景下会不会引入延迟?另外,论文是否讨论了如何将信念状态有效地压缩进LLM的隐空间?
从行业趋势看,这个方向可能推动智能体从“反应式”向“规划式”进化。如果POMDP框架能落地,未来像企业数据库查询、多轮对话历史分析这类任务,智能体将不再需要暴力扩展上下文,而是学会“聪明地忘记”和“精准地回忆”。想请教各位:在你们实际部署LLM智能体时,遇到过最严重的上下文塌缩问题是什么?有没有尝试过类似贝叶斯方法的替代方案?