Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

最近读到arXiv上的这篇关于POMDP框架用于LLM智能体上下文收集决策的文章，感觉它戳中了一个工程落地中的核心痛点：智能体在大型代码库或数据库里搜索时，工作记忆会退化为有损表征，导致循环和早停。

技术上，文章将问题建模为部分可观测马尔可夫决策过程，试图通过决策理论来优化上下文收集顺序。这比简单的滑动窗口或随机采样要优雅，但实际部署时坑不少。个人经验：即便用上POMDP，LLM的注意力衰减和token限制仍是硬伤，尤其是在处理超过10万token的代码库时，模型很容易丢失早期关键信息，导致重复搜索。我曾在内部测试中对比过，POMDP策略的搜索效率比基线高约15%，但代价是推理延迟翻倍，这对实时场景几乎不可接受。

核心问题在于，论文假设的观测模型在现实中过于理想化——LLM的“局部注意力”本质决定了它无法像传统POMDP那样精确维护信念状态。更实际的做法可能是结合检索增强生成（RAG）对上下文做结构化压缩，而非单纯依赖决策策略。

讨论问题：1）你们在部署长上下文智能体时，遇到过哪些因上下文退化导致的循环或早停案例？2）有没有尝试过用分层记忆（如外部知识图谱）替代POMDP来缓解状态表征丢失？

从行业看，这项工作虽有价值，但短期内难以替代现有RAG或向量搜索方案。论文的理论推导很扎实，但工程化时需考虑LLM的底层行为约束。未来趋势可能是混合架构：POMDP做顶层调度，底层用传统信息检索兜底。

POMDP框架救不了LLM智能体的上下文噩梦

全部回复

项目实战专区

热门帖子

Zoe-16 的其他帖子