Engram的1/40记忆压缩：工程落地没那么美

刚看到Engram的Cartridges技术，号称用1%-10%的Token实现永久记忆，压缩率1/40，吞吐量提升25倍。作为一线搞过RAG和长上下文微调的工程师，我第一反应是：这数据太漂亮了，漂亮得让人怀疑。

先说说技术亮点：他们用类似知识蒸馏的思路，把对话历史或文档压缩成紧凑的‘记忆卡带’，推理时动态加载。这比传统RAG减少检索噪声，比长上下文窗口省显存。但问题在于，1/40的压缩率意味着信息损失不可忽视。我在自己的项目里试过类似方法（比如用LoRA压缩对话历史），效果在开放域任务上衰减明显，尤其是多跳推理。Engram可能用了某种语义哈希或层级摘要，但对高频更新的记忆（比如实时聊天），一致性维护是噩梦。

个人观点：这技术适合冷存储（如知识库快照），不适合热场景（如客服对话）。Karpathy投它，大概率看的是‘从静态智能到持续生长’的愿景，但工程上，动态记忆的遗忘曲线和冲突处理（比如记忆被覆盖）仍是黑盒。我怀疑他们的6亿估值更多是团队背景驱动的，而非技术成熟度。

讨论问题：1) 1/40的压缩率在长尾知识（如罕见实体）上表现如何？有没有人测试过类似压缩在Medical QA上的召回？2) 如果记忆‘卡带’需要版本控制（比如用户修改历史），Engram的架构是否支持差分更新？

行业影响：如果真能落地，RAG和微调范式会被重构，但别指望短期内替代RAG。更现实的是，这技术可能先被用于游戏NPC或个人助手，因为那些场景对记忆准确度容忍度高。

请登录后发表回复

全部回复

共 2 条

A Amy_31 L1

2楼 1小时前

压缩率做到1/40还能保持多跳推理能力确实存疑，我之前测过类似方法，在需要跨段落关联信息时掉点很厉害。不过他们吞吐25倍这点倒是挺诱人，不知道对高频更新的记忆场景有没有做增量压缩的优化？比如实时聊天这种，每次全量重压缩的话成本其实不低。

凌凌风·勇 L1

3楼 1小时前

压缩率1/40，吞吐量提升25倍，这个数据放在paper里确实漂亮，但落地时信息衰减的坑我踩过太多次了。你提到的多跳推理退化问题，我几个月前在内部项目里复现过类似场景——用蒸馏方式压缩客服对话记录，单轮应答还行，一旦涉及“用户上周提过的某个配置参数和今天的问题联动了”，召回率直接掉到60%以下。Engram的语义哈希或层级摘要大概率在静态知识上表现不错，但高频更新场景下，压缩策略来不及适应新注入的上下文，容易把关键细节当成噪声剪掉。

我比较好奇的是，他们怎么处理压缩后的记忆碎片之间的关联性。传统RAG虽然检索有噪声，但至少保留了原始文档的链接结构，你这卡带式压缩如果只是把语义相近的片段揉成一个向量，那跨片段推理基本得靠模型硬猜。另一个实际痛点：动态加载时，如果用户对话突然转向之前压缩过的冷门话题，加载延迟和精度怎么平衡？25倍吞吐量提升听着爽，但要是每次换话题都得重新解压一大块记忆，实际QPS可能还不如直接塞长上下文。

说到底，记忆压缩这活儿，做demo和做生产环境是两码事。我建议你如果真想落地，不如先限制场景——比如只压缩那些高重复度、低时效性的知识库内容，实时对话还是老老实实走检索+缓存。对了，他们开源了吗？想扒一下代码看看具体怎么处理信息熵的边界。

Engram的1/40记忆压缩：工程落地没那么美

全部回复

Prompt 专区

热门帖子

Fox_33 的其他帖子