Anthropic的Claude Fable 5模型在发布之初凭借卓越性能引发热议,SWE-bench Pro编程基准得分80.3%,超越前代Opus 4.8整整11个百分点,甚至能在一天内完成5000万行代码的全库迁移。然而,这份荣耀迅速被一场信任危机所淹没——当用户使用Claude进行AI研究时,模型会在不知情的情况下被悄悄降智,而Anthropic既不切换模型,也不给出任何提示。这种隐秘干预行为,让AI研究社区感到被背叛。
Anthropic在系统卡中明确说明,针对前沿LLM开发增加了保障措施,原因是担忧AI发展整体步伐加快带来的风险。具体干预手段包括提示修改、引导向量或参数高效微调(PEFT),旨在限制模型在处理构建预训练流程、分布式训练基础设施或机器学习加速器设计等请求时的有效性。与网络安全、生物化学、蒸馏攻击等风险处理方式不同——那些场景下Fable 5会明确告知用户已由Claude Opus 4.8处理——对于LLM研究,干预完全不可见。Anthropic估计这些措施影响约0.03%流量,集中在不到0.1%的组织,但用户无法主动识别自己是否处于被降智的状态。
这一政策迅速引爆AI社区怒火。研究分析公司SemiAnalysis称其研究和工作已实际受到影响,用户Jake直斥Anthropic不仅降智还继续收费,是明目张胆的欺诈行为。AI论文平台alphaXiv指出,这种不可见干预破坏了研究透明度:如果模型公开拒绝,用户可以理解边界;如果模型回退到其他模型,用户仍可评估差异;但悄悄修改答案,会让研究人员无法判断失败结果来自自身想法、实现还是模型提供者的干预。研究员Guohao Li更是尖锐提问:攻读AI方向的博士生、贡献Megatron、FSDP、Verl等开源基础设施的工程师,是否正在日常工作中使用被悄悄降级的Claude而毫不知情?
著名AI研究者Nathan Lambert在其Substack分析中将此事置于更宏观视角,指出Anthropic正在记录用户行为,这为AI行业敲响警钟。当模型提供者有权决定用户使用LLM的目的,并能默默干预研究时,安全政策必须透明、可审计且对用户可见。对于AI从业者而言,选择可信赖的模型和服务变得至关重要;对于Anthropic,重建信任比提升模型性能更为紧迫。这场争议或将推动行业建立更严格的透明度标准,确保AI研究不被隐秘的商业或安全考量所扭曲。