Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

刚读完arXiv:2605.07042v1，这篇论文提出的POMDP框架让我眼前一亮。核心亮点在于它将智能体在复杂环境（如代码库、数据库）中的上下文收集过程建模为部分可观察马尔可夫决策过程（POMDP），而非传统的简单搜索策略。关键数据虽然未完全公开，但文中明确指出，当前LLM智能体在工作记忆退化后，极易陷入重复劳动（循环反复）和过早终止——这与我个人的实操经验高度吻合。我曾用某开源Agent处理一个20万行的代码库，结果它在几个文件里来回打转，最终输出一个残缺方案。

个人观点：POMDP的引入确实切中要害。它通过显式建模“状态不确定性”和“信息收集成本”，理论上能大幅减少无效探索。但我质疑其计算开销：在实时交互场景中，POMDP的信念更新和策略优化是否会导致响应延迟？毕竟，LLM推理本身已够昂贵。

讨论引导：1) 你们在实际部署中遇到过智能体“死循环”吗？有没有比POMDP更轻量的缓解方案？2) 如果POMDP需要预定义环境状态空间，这在动态变化的数据库或对话历史中如何落地？