大模型军备竞赛进入新阶段,数据安全与模型独特性成为巨头们最敏感的神经。据外媒The Information独家报道,Meta正在内部限制员工在AI模型构建中使用Anthropic的Claude Code和OpenAI的Codex,核心原因直指模型蒸馏风险。这一动作表明,即便在开源与闭源路线之争白热化的当下,科技巨头对训练数据的纯净性依然保持高度警惕,也折射出AI产业链条中“用他人模型训练自己模型”这一灰色地带的法律与伦理争议正在升温。
所谓模型蒸馏,本质上是一种用大模型生成数据来训练小模型的技术,在业界并不罕见。但Meta的担忧在于,员工使用Claude Code或Codex生成的代码或文本,可能被无意中纳入Meta自家的训练数据集或评测基准。一旦发生这种情况,最终模型在性能上就可能“沾染”外部模型的风格与能力,甚至在某些评测指标上出现不公允的对比结果。Meta内部人士透露,公司已更新相关使用指南,要求员工在涉及模型训练的环节避免使用这些外部工具,但并未一刀切禁止所有场景——例如非训练性质的日常开发辅助仍可能被允许。
这一限制背后,是Meta与Anthropic、OpenAI之间微妙的竞合关系。Meta是开源模型Llama系列的主导者,强调透明与社区共建,但其闭源竞争对手的模型同样被广泛应用于开发者生态。如果Meta员工大量依赖Claude Code或Codex生成代码,这些代码一旦进入训练管道,就相当于Meta模型间接“学习”了对手的成果,可能引发知识产权纠纷或破坏模型独特性。值得注意的是,OpenAI的条款中已明确禁止用户利用其模型输出训练竞争性模型,而Anthropic也有类似限制。Meta此举既是对自身合规风险的规避,也是对行业规则的主动表态。
展望未来,模型蒸馏和训练数据溯源将成为AI治理的核心议题。对于AI从业者而言,这一事件提醒我们:在追求模型性能提升的同时,必须建立清晰的训练数据血缘管理机制。建议团队在引入外部AI工具辅助开发时,明确区分“辅助编码”与“数据生成”两种场景,并对可能进入训练集的输出进行过滤和标记。Meta的举措或许只是开始,随着监管收紧和竞争加剧,更多公司可能会跟进类似的数据纯净策略,而围绕模型蒸馏的合法边界,也亟待行业共识与法律判例的进一步明确。