刚读完arXiv上的这篇综述,它把LLM Agent的记忆机制分为存储、检索和体验三个阶段,框架很漂亮。但作为一线工程师,我得说:理论再完美,落地上全是坑。
首先,它提到的‘存储阶段’——即轨迹日志和向量库,实践中最大的问题是存储膨胀。用户会话一长,单日数据就能堆到上万条embedding,检索延迟飙升。我在项目中试过Sparse Attention+Chunking,勉强压到200ms以内,但代价是召回率掉了15%。论文里没提这层取舍。
其次,‘体验阶段’(即从经验中学习)更是画饼。目前主流方案无非是ReAct+记忆缓存,但缓存过期策略和冲突解决机制几乎空白。个人经验:用LRU淘汰旧记忆,结果关键上下文被清掉,Agent回答前后矛盾。后来改成基于重要性评分(比如用户明确提及的关键词)做分层存储,才稳住。
问题来了:1)当记忆量级突破百万级,是否必须引入图数据库或外部持久化引擎?2)你们在实际部署中,如何处理记忆的‘遗忘-更新’冲突?比如用户刚纠正了偏好,但旧记忆还在影响推理。
行业视野上,我认为记忆机制的下个突破不在算法,而在工程化——比如结合RAG的动态索引压缩,或与MoE架构协同。纯靠论文里的三阶段框架,离生产环境还有光年距离。