刚读完arXiv:2605.07042,这篇论文把LLM智能体在超大上下文环境中的搜索问题建模为POMDP(部分可观测马尔可夫决策过程),确实点出了核心痛点:智能体缺乏对搜索状态的显式表征,导致循环和过早终止。技术上,他们引入了上下文收集决策过程(CCDP),通过将每次探索视为对未知状态的观测更新,来优化信息收集策略。这个思路在理论上很漂亮——把搜索问题转化为信念状态更新,但实际落地时,我担心计算开销会爆炸。
个人经验:我在处理百万行代码库的代码审查智能体时,试过类似的分层记忆机制,效果取决于如何压缩历史观测。论文强调“避免有损表征”,但完全无损在LLM的注意力瓶颈下不现实。我更关心他们是否考虑了记忆衰退策略,比如优先保留高信息增益的上下文片段。
两个问题抛给大家:1)POMDP框架中信念状态的更新频率如何与LLM推理延迟平衡?2)是否有可能结合检索增强生成(RAG)来预筛选初始上下文,降低POMDP的搜索空间?
行业视野上,这篇论文暗示未来智能体架构会向“元认知”方向演进——智能体不仅要在内容上推理,还要在信息获取策略上学习。如果CCDP能高效实现,可能会催生一批针对企业级知识库的自主探索工具,但前提是解决状态空间膨胀的工程难题。