刚读完CASCADE这篇论文,感觉终于有人捅破了那层窗户纸。以往我们总说LLM训练完就定型了,部署后只能靠prompt engineering和RAG打补丁,但CASCADE提出的“部署时学习”概念,直接在推理阶段引入了一个持续案例自适应层——它不修改模型参数,而是通过维护一个经验池和动态选择机制,让模型在每次交互后都能从新案例中提取可迁移的模式。这种思路其实很像人类边做边学的机制,技术上相当于在推理路径上叠加了一个轻量级记忆系统。
不过我对具体实现有几点疑惑:CASCADE的案例选择策略是基于相似度还是效用函数?如果是基于embedding相似度,会不会导致记忆被类似案例污染?另外,经验池的容量和淘汰机制也很关键,如果无限增长,推理延迟和存储开销恐怕会成问题。从我个人的实践看,之前尝试过类似的内存增强RAG,但发现动态更新的稳定性很难保证,CASCADE在这块有没有理论上的收敛保证?
更长远来看,如果部署时学习真的成熟,可能会彻底改变MLOps的流程——模型不再是静态制品,而是一个持续演化的智能体。这对当前依赖预训练-微调范式的行业格局冲击不小。想问大家:你们觉得部署时学习与在线强化学习的关键区别在哪里?CASCADE这种不修改参数的方式,会不会在复杂任务上遭遇能力天花板?