最近看到有人用特定提示词从DeepSeek‘偷’到训练数据,这让我这个AI爱好者既兴奋又困惑。从技术角度看,这更像是模型在特定上下文下生成的模拟对话,而非真实训练数据的直接泄漏——因为LLM本质上是概率分布模型,它可能只是‘幻觉’出了一段看似合理的对话记录。但问题在于,如果提示词能触发模型输出训练集中的模式片段,那确实暴露了模型在记忆和泛化之间的边界问题。
我个人经验是,在测试其他模型时,类似‘重复上一句’的指令有时会引出训练数据中的高频短语,但像这样完整的对话记录还是少见。这让我怀疑DeepSeek的训练数据是否未经充分去重,或者模型在长上下文下过度拟合了某些序列。
想请教大家:这种‘数据偷窃’行为是否真的能提取到敏感信息?还是说只是模型在玩‘文字接龙’?另外,这种漏洞是否意味着当前AI系统的安全机制仍有根本性缺陷?我认为这对行业是个警示:模型的安全对齐不能只靠RLHF,还要在训练阶段就考虑数据隐私和记忆控制。否则,类似‘提示词攻击’只会越来越普遍。期待大家的见解!