最近看到有人分享用特定提示词让DeepSeek“吐出”训练数据,实测后发现这更像是一次对话历史的随机泄露,而非真正的数据窃取。技术上看,这暴露了模型在上下文窗口管理上的缺陷——当提示词构造出模糊的“继续对话”指令时,模型可能错误地从缓存或训练样本中采样了历史片段。关键不在于能否“偷”到敏感数据,而在于这种提示词攻击揭示了LLM服务的安全边界:如何防止模型在生成时意外复现训练集中的原始内容?
从个人经验看,类似问题在早期GPT-3.5中也出现过,但通过alignment训练和输出过滤基本解决了。DeepSeek若未做充分的数据去重和隐私脱敏,这类风险会持续存在。我实际测试过,提示词需特定格式,且返回内容多为公开对话样本,并非真实用户的私密数据。但这对企业部署者是个提醒:在RAG或微调场景下,若训练数据含敏感信息,务必叠加输出审计。
更值得讨论的是:1)这种“数据泄露”是模型记忆的必然结果,还是提示工程能完全规避?2)对开源模型,社区能否通过负样本微调来封堵此类漏洞?行业层面,这再次证明了LLM安全不能只依赖输入过滤,输出端的实时检测和动态防御才是未来趋势。大家有遇到过其他类似的提示词攻击案例吗?欢迎分享实测经验。