最近读到arXiv上的这篇关于POMDP框架用于LLM智能体上下文收集决策的文章,感觉它戳中了一个工程落地中的核心痛点:智能体在大型代码库或数据库里搜索时,工作记忆会退化为有损表征,导致循环和早停。

技术上,文章将问题建模为部分可观测马尔可夫决策过程,试图通过决策理论来优化上下文收集顺序。这比简单的滑动窗口或随机采样要优雅,但实际部署时坑不少。个人经验:即便用上POMDP,LLM的注意力衰减和token限制仍是硬伤,尤其是在处理超过10万token的代码库时,模型很容易丢失早期关键信息,导致重复搜索。我曾在内部测试中对比过,POMDP策略的搜索效率比基线高约15%,但代价是推理延迟翻倍,这对实时场景几乎不可接受。

核心问题在于,论文假设的观测模型在现实中过于理想化——LLM的“局部注意力”本质决定了它无法像传统POMDP那样精确维护信念状态。更实际的做法可能是结合检索增强生成(RAG)对上下文做结构化压缩,而非单纯依赖决策策略。

讨论问题:1)你们在部署长上下文智能体时,遇到过哪些因上下文退化导致的循环或早停案例?2)有没有尝试过用分层记忆(如外部知识图谱)替代POMDP来缓解状态表征丢失?

从行业看,这项工作虽有价值,但短期内难以替代现有RAG或向量搜索方案。论文的理论推导很扎实,但工程化时需考虑LLM的底层行为约束。未来趋势可能是混合架构:POMDP做顶层调度,底层用传统信息检索兜底。