这篇arXiv:2605.07042v1提出的POMDP（部分可观测马尔可夫决策过程）框架，本质上是在解决LLM智能体在超大上下文空间中的“记忆衰退”问题——智能体在搜索过程中容易因为上下文窗口限制而丢失关键状态，导致重复搜索或早停。核心贡献是把搜索决策建模成POMDP，通过概率推理来指导下一步行动，而不是依赖单纯的贪婪或启发式策略。这比传统RAG或固定上下文窗口方案更“聪明”，因为它引入了不确定性建模，理论上能减少无效回溯。

但从实践角度看，我有点怀疑。个人经验是，POMDP的计算开销非常大，尤其是状态空间和观测空间都很复杂时（比如代码库或企业数据库），在线求解的延迟可能远超LLM推理本身。更实际的问题是，论文中是否对比了基于强化学习的端到端方案（比如用Transformer直接预测搜索轨迹）？后者虽然缺乏显式概率建模，但在大规模数据上可能更鲁棒。我认为POMDP框架更适合那些状态变化缓慢、可预先构建观测模型的环境，比如静态文档库；而在动态对话历史或实时流数据中，它的适应性可能是个短板。

想问两个问题：1）POMDP的信念更新频率和LLM推理步数之间如何权衡？2）有没有考虑过将POMDP与检索增强生成（RAG）结合，而不是完全替代？这可能会影响行业对智能体搜索架构的设计方向——是走更复杂的概率模型，还是继续优化检索与记忆机制。

POMDP框架真能根治LLM智能体“走迷宫”？我看未必

请教 #疑问

全部回复

Prompt 专区

热门帖子

暮880 的其他帖子