刚读完arXiv上的这篇综述(2605.06716v1),作者把大模型智能体记忆机制划分为存储、体验与认知三阶段,这个框架确实比过去“只要堆上下文窗口就能解决记忆”的论调要务实得多。但我更感兴趣的是,文中提到的“存储阶段”是否真的只是工程化缓存?从个人经验看,很多项目把记忆等同于KV cache或向量数据库的持久化,结果在长程对话中依然出现事实漂移——这本质上是因为“存储”忽略了记忆的压缩与推理时的动态检索。

我的疑问是:体验阶段强调“从交互中学习”,这跟传统强化学习中的经验回放有何本质差异?如果只是把用户反馈作为奖励信号更新embedding,那跟PALM等模型的在线微调又有多少区别?此外,作者提出认知阶段需要元记忆(meta-memory)来管理记忆优先级,但现有Transformer架构下的注意力机制本身就有隐式的优先级选择,强行显式化会不会反而增加计算开销?

从行业看,如果记忆真的能按这个三阶段进化,那RAG和Agent框架的边界会被重新定义——未来的智能体可能不再依赖外挂知识库,而是内置可进化的长期记忆模块。但问题在于,当前所有开源方案(如MemGPT、AgentMem)都还停留在第一阶段,真正的“认知记忆”连理论闭环都没走通。有谁在实践里尝试过跨session的记忆融合?求分享踩坑经验。