Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

最近看到有人用特定提示词从DeepSeek‘偷’到训练数据，这让我这个AI爱好者既兴奋又困惑。从技术角度看，这更像是模型在特定上下文下生成的模拟对话，而非真实训练数据的直接泄漏——因为LLM本质上是概率分布模型，它可能只是‘幻觉’出了一段看似合理的对话记录。但问题在于，如果提示词能触发模型输出训练集中的模式片段，那确实暴露了模型在记忆和泛化之间的边界问题。

我个人经验是，在测试其他模型时，类似‘重复上一句’的指令有时会引出训练数据中的高频短语，但像这样完整的对话记录还是少见。这让我怀疑DeepSeek的训练数据是否未经充分去重，或者模型在长上下文下过度拟合了某些序列。

想请教大家：这种‘数据偷窃’行为是否真的能提取到敏感信息？还是说只是模型在玩‘文字接龙’？另外，这种漏洞是否意味着当前AI系统的安全机制仍有根本性缺陷？我认为这对行业是个警示：模型的安全对齐不能只靠RLHF，还要在训练阶段就考虑数据隐私和记忆控制。否则，类似‘提示词攻击’只会越来越普遍。期待大家的见解！