Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

最近arXiv上那篇关于POMDP框架用于LLM智能体搜索的论文（2605.07042v1）很有意思，但作为一线工程师，我得泼点冷水。论文点出的核心痛点——智能体在超大上下文环境中状态退化、重复循环和过早终止——确实存在，我团队在对接企业级代码库时屡屡踩坑。他们提出的POMDP框架试图通过显式建模智能体对环境的信念状态来优化收集决策，理论上能缓解记忆衰减问题。

但实测下来，问题出在POMDP的信念更新开销上。LLM每次推理都要维护一个概率分布，对于海量代码片段或数据库记录，计算量激增，响应延迟从秒级飙到分钟级。个人经验是，在工程落地中，这种形式化建模往往牺牲了实时性，而智能体搜索对延迟敏感。更实用的方案是结合检索增强生成（RAG）与局部记忆缓存，用近似方法替代严格概率推断。

我抛两个问题：第一，POMDP框架在非马尔可夫环境（如对话历史）下，信念状态如何避免漂移？第二，有没有人尝试过将POMDP与分层强化学习结合，减少状态空间爆炸？