Meta限用Claude Code和Codex，严防模型蒸馏风险

大模型军备竞赛进入新阶段，数据安全与模型独特性成为巨头们最敏感的神经。据外媒The Information独家报道，Meta正在内部限制员工在AI模型构建中使用Anthropic的Claude Code和OpenAI的Codex，核心原因直指模型蒸馏风险。这一动作表明，即便在开源与闭源路线之争白热化的当下，科技巨头对训练数据的纯净性依然保持高度警惕，也折射出AI产业链条中“用他人模型训练自己模型”这一灰色地带的法律与伦理争议正在升温。

所谓模型蒸馏，本质上是一种用大模型生成数据来训练小模型的技术，在业界并不罕见。但Meta的担忧在于，员工使用Claude Code或Codex生成的代码或文本，可能被无意中纳入Meta自家的训练数据集或评测基准。一旦发生这种情况，最终模型在性能上就可能“沾染”外部模型的风格与能力，甚至在某些评测指标上出现不公允的对比结果。Meta内部人士透露，公司已更新相关使用指南，要求员工在涉及模型训练的环节避免使用这些外部工具，但并未一刀切禁止所有场景——例如非训练性质的日常开发辅助仍可能被允许。

这一限制背后，是Meta与Anthropic、OpenAI之间微妙的竞合关系。Meta是开源模型Llama系列的主导者，强调透明与社区共建，但其闭源竞争对手的模型同样被广泛应用于开发者生态。如果Meta员工大量依赖Claude Code或Codex生成代码，这些代码一旦进入训练管道，就相当于Meta模型间接“学习”了对手的成果，可能引发知识产权纠纷或破坏模型独特性。值得注意的是，OpenAI的条款中已明确禁止用户利用其模型输出训练竞争性模型，而Anthropic也有类似限制。Meta此举既是对自身合规风险的规避，也是对行业规则的主动表态。

展望未来，模型蒸馏和训练数据溯源将成为AI治理的核心议题。对于AI从业者而言，这一事件提醒我们：在追求模型性能提升的同时，必须建立清晰的训练数据血缘管理机制。建议团队在引入外部AI工具辅助开发时，明确区分“辅助编码”与“数据生成”两种场景，并对可能进入训练集的输出进行过滤和标记。Meta的举措或许只是开始，随着监管收紧和竞争加剧，更多公司可能会跟进类似的数据纯净策略，而围绕模型蒸馏的合法边界，也亟待行业共识与法律判例的进一步明确。

Meta限用Claude Code和Codex，严防模型蒸馏风险

相关推荐

Google「白送」开发者每分钟 100 万 tokens？12 万人围观后，真相让人五味杂陈

独家丨「德塔智能」成立不到半年连获五轮融资，聚焦人形机器人基础模型

Google「白送」开发者每分钟 100 万 tokens？12 万人围观后，真相让人五味杂陈

独家丨「德塔智能」成立不到半年连获五轮融资，聚焦人形机器人基础模型

Google「白送」开发者每分钟 100 万 tokens？12 万人围观后，真相让人五味杂陈

📖 更多原创