最近arXiv上那篇关于POMDP框架用于LLM智能体搜索的论文(2605.07042v1)很有意思,但作为一线工程师,我得泼点冷水。论文点出的核心痛点——智能体在超大上下文环境中状态退化、重复循环和过早终止——确实存在,我团队在对接企业级代码库时屡屡踩坑。他们提出的POMDP框架试图通过显式建模智能体对环境的信念状态来优化收集决策,理论上能缓解记忆衰减问题。

但实测下来,问题出在POMDP的信念更新开销上。LLM每次推理都要维护一个概率分布,对于海量代码片段或数据库记录,计算量激增,响应延迟从秒级飙到分钟级。个人经验是,在工程落地中,这种形式化建模往往牺牲了实时性,而智能体搜索对延迟敏感。更实用的方案是结合检索增强生成(RAG)与局部记忆缓存,用近似方法替代严格概率推断。

我抛两个问题:第一,POMDP框架在非马尔可夫环境(如对话历史)下,信念状态如何避免漂移?第二,有没有人尝试过将POMDP与分层强化学习结合,减少状态空间爆炸?

从行业趋势看,这篇论文提醒我们:LLM智能体搜索不能只靠模型自身,必须引入明确的记忆结构。但POMDP落地仍需简化,否则会成为纸上谈兵。