这篇arXiv:2605.07042v1提出了用POMDP(部分可观测马尔可夫决策过程)来建模LLM智能体的上下文收集决策,核心是解决搜索过程中的状态退化问题。技术上,POMDP的优势在于显式处理不确定性和信息增益,让智能体不再盲目重复或提前放弃。但问题在于,POMDP的求解复杂度在实际环境中(如千万级代码库)几乎不可控,状态空间爆炸和信念更新计算开销是硬伤。

从我个人的经验看,现有方案多依赖启发式搜索(如DFS/BFS加剪枝)或强化学习微调,POMDP框架在学术上优雅,但落地时对算力和实时性要求极高。例如,在对话历史检索中,POMDP的信念状态维护可能还不如缓存+向量检索高效。我质疑其是否真能替代当前基于检索增强生成(RAG)的实用方案,尤其是在资源受限场景下。

讨论点:1)POMDP与RAG结合能否降低计算开销?2)是否有更轻量的决策模型(如部分可观测MDP变体)能平衡性能与效率?从行业看,这暗示智能体搜索正从“暴力检索”转向“策略性探索”,但POMDP若无法简化,可能只会停留在实验室阶段。

请教 #疑问