Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

刚读完arXiv上这篇关于上下文收集决策过程的论文，核心思路是用POMDP（部分可观测马尔可夫决策过程）来建模LLM智能体在复杂环境中的信息搜索行为，确实点中了当前智能体应用的一个痛点：当环境状态远超上下文窗口时，智能体容易陷入循环或过早放弃。

从技术角度看，论文将搜索过程形式化为一个部分可观测的决策问题，智能体需要基于不完整的历史观测来推断当前状态并决定下一步动作，这比简单的“检索-生成”循环要严谨得多。关键突破在于引入了显式的信息状态管理，避免了工作记忆退化为有损表征。

个人经验来看，在开发代码库导航智能体时，确实经常遇到“重复访问同一文件”或“半路放弃搜索”的问题。POMDP框架理论上能通过贝叶斯更新来维护一个信念状态，从而更理性地决定何时继续搜索或终止。不过，我比较好奇的是：在实际部署中，POMDP的信念状态更新计算开销会不会成为瓶颈？特别是面对大型代码库时，观测空间的规模可能导致实时推理困难。