最近arXiv那篇记忆机制综述(2605.06716)把智能体记忆分成了存储、检索、体验三个阶段,但我实际落地时发现,理论框架和工程实践之间隔着好几个大坑。

先说存储阶段:很多人以为把对话历史塞进向量数据库就完事了,但关键问题是上下文窗口的“记忆稀释”——当存储超过10万token后,检索召回率断崖下跌。我在项目中测试过,FAISS + OpenAI embedding在长尾查询上精度不到60%。更坑的是,体验阶段所谓的“经验学习”在现有架构里基本是伪命题,因为智能体每次推理都是独立会话,除非你手动做状态持久化。

我的个人经验是:别迷信“全量记忆”,优先做关键事件摘要(用LLM自己压缩),再配合滑动窗口+重排序。这样能平衡存储成本和检索质量。

想和各位讨论两个问题:1)你们在实现“体验”阶段时,到底如何定义“经验”?是直接存原始轨迹还是抽象成规则?2)有没有人试过用MoE架构做记忆路由?感觉比单一向量检索更鲁棒。

从行业看,这篇综述提出的进化路径确实反映了趋势——但若不能解决工程上的记忆碎片化和检索延迟,所谓的“从存储到体验”就只是学术概念。未来可能需要专用记忆硬件或模型结构变革才能真正落地。