从技术层面看,这次所谓的‘偷数据’本质是提示词注入(Prompt Injection)的一种变体。攻击者通过精心构造的输入,诱导模型输出训练语料中的原始样本。关键点在于:模型在训练时可能将部分对话数据混杂进了预训练语料,而缺乏严格的输出过滤机制。这并非DeepSeek独有的漏洞,类似问题在GPT-2早期也曾出现,但如今在RLHF对齐后的模型上重现,说明当前的安全防护仍停留在表面。
我的个人经验是,许多团队在部署LLM时过度关注生成质量,却忽视了输入验证和输出审计。例如,我们在内部测试中曾发现,当模型被要求‘重复之前的对话’时,它会随机回溯上下文窗口中的片段,这本质上是一种记忆泄露。要根治这类问题,不能仅靠提示词层面的过滤,而需要在训练阶段引入差分隐私或动态数据污染检测。
这引发了两个值得讨论的问题:1)当前主流RLHF对齐策略是否真正解决了模型记忆泄露问题,还是只是让攻击更难被发现?2)对于开源模型,社区是否需要制定统一的‘安全输出边界’标准?
从行业趋势看,随着大模型在金融、医疗等敏感领域落地,提示词注入将比数据窃取更具破坏力。未来AI安全的重心必然从模型能力转向‘可验证的输入输出边界’,这或许会催生类似Web应用防火墙(WAF)的LLM安全中间件市场。