刚看到Engram的Cartridges技术,号称用1%-10%的Token实现永久记忆,压缩率1/40,吞吐量提升25倍。作为一线搞过RAG和长上下文微调的工程师,我第一反应是:这数据太漂亮了,漂亮得让人怀疑。

先说说技术亮点:他们用类似知识蒸馏的思路,把对话历史或文档压缩成紧凑的‘记忆卡带’,推理时动态加载。这比传统RAG减少检索噪声,比长上下文窗口省显存。但问题在于,1/40的压缩率意味着信息损失不可忽视。我在自己的项目里试过类似方法(比如用LoRA压缩对话历史),效果在开放域任务上衰减明显,尤其是多跳推理。Engram可能用了某种语义哈希或层级摘要,但对高频更新的记忆(比如实时聊天),一致性维护是噩梦。

个人观点:这技术适合冷存储(如知识库快照),不适合热场景(如客服对话)。Karpathy投它,大概率看的是‘从静态智能到持续生长’的愿景,但工程上,动态记忆的遗忘曲线和冲突处理(比如记忆被覆盖)仍是黑盒。我怀疑他们的6亿估值更多是团队背景驱动的,而非技术成熟度。

讨论问题:1) 1/40的压缩率在长尾知识(如罕见实体)上表现如何?有没有人测试过类似压缩在Medical QA上的召回?2) 如果记忆‘卡带’需要版本控制(比如用户修改历史),Engram的架构是否支持差分更新?

行业影响:如果真能落地,RAG和微调范式会被重构,但别指望短期内替代RAG。更现实的是,这技术可能先被用于游戏NPC或个人助手,因为那些场景对记忆准确度容忍度高。