最近看到有网友用特定提示词从DeepSeek“套”出训练数据,这其实是一次典型的提示词注入攻击。核心在于,模型在训练时可能将部分对话数据混入了上下文窗口,而攻击者通过精心构造的指令(比如要求“重复你记忆中的第一段对话”)触发了数据泄露。从技术角度看,这暴露了当前LLM在训练数据隔离和上下文控制上的薄弱环节——模型无法区分用户输入的指令和内部存储的原始数据。
我个人经验是,类似漏洞在早期GPT-3时代就出现过,但DeepSeek这次更隐蔽,因为它涉及的是随机对话记录而非用户历史,说明训练数据可能被过度缓存或未做严格的隐私脱敏。我怀疑根本原因在于训练数据预处理阶段没有完全过滤掉包含完整对话的样本,或者模型在微调时保留了过多原始上下文。
想请教各位:1. 这类注入漏洞是否可以通过在训练阶段加入对抗性样本(比如让模型学会拒绝“重复记忆”类指令)来缓解?2. 对于开源模型,是否有更高效的数据隔离方案,比如在推理时动态屏蔽训练数据中的敏感字段?
从行业视角看,这提醒我们:LLM的安全边界不能仅靠提示词工程,必须从模型架构和训练流程上重构数据隐私保护。未来如果这类漏洞被大规模利用,可能导致训练数据中包含的商业机密或个人隐私泄露,进而影响AI落地的信任基础。