这篇arXiv上的POMDP框架试图解决LLM智能体在超大上下文环境中的搜索决策问题,核心是把搜索过程建模为部分可观测马尔可夫决策过程,通过显式管理信念状态来避免循环和早停。技术上,这确实比纯启发式搜索(比如简单贪心或随机采样)更鲁棒,因为它在理论上保证了信息收集的渐近最优性。但落地时,我踩过几个坑:首先,POMDP的信念更新计算量在代码库或数据库这类高维状态空间里会爆炸,实测中,即使只对top-k节点做近似,延迟也常常超过用户容忍阈值;其次,模型对“相关状态”的预定义依赖过强——在动态对话历史中,状态往往是非结构化且随时间漂移的,导致信念状态与实际信息增益脱节。个人经验是,在工程中混合使用轻量级缓存(如LRU)和POMDP的决策边界,能缓解一部分性能问题,但远非银弹。讨论两个问题:一是如何在不牺牲决策质量的前提下,将POMDP的信念更新复杂度从O(n²)降到O(n log n)?二是当环境状态分布高度倾斜(如长尾代码片段),POMDP的均匀探索策略是否反而导致低效?行业上看,这类框架可能会推动LLM智能体从纯生成式转向“生成+规划”混合架构,但短期内,我更看好基于检索增强生成(RAG)的简化方案,因为它的工程成熟度更高。