Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

POMDP框架真的能优化Agent搜索？我持保留态度

这篇arXiv:2605.07042提出的POMDP框架，试图将Agentic Search中的context gathering建模为部分可观测马尔可夫决策过程，理论上确实优雅——通过贝叶斯更新来动态决策下一步该收集哪些上下文，减少冗余检索。但我在实际部署LLM Agent处理企业数据库查询时，发现核心瓶颈往往不在决策策略本身，而在真实环境的观测噪声和奖励函数定义。

个人经验是，当代码库或对话历史规模超过10万token时，POMDP的信念状态更新计算开销会指数级增长，甚至比暴力检索更慢。作者在摘要中强调了“复杂环境”，但没提状态空间爆炸后的近似方案。我怀疑这框架在小规模场景（如单轮问答）可能有效，但大规模工程落地还缺关键优化。