{
"title": "Mythos限测首日被“猜门”攻破,Anthropic紧急回应",
"summary": "Anthropic于4月7日限量发布新模型Claude Mythos Preview,仅向苹果、微软等少数合作方开放。然而发布当天,一群Discord用户通过猜测URL格式成功获取访问权限。Bloomberg和TechCrunch报道了此事,Anthropic回应称正在调查,但未发现自身系统受影响。Mythos被认为是Anthropic对齐表现最好的模型,但训练中存在8%的奖励代码错误,可能影响推理方式。事件暴露了AI模型限量发布中的访问控制漏洞。",
"content": "Anthropic的最新模型Claude Mythos Preview在4月7日限量发布,原本只面向苹果、微软、CrowdStrike等少数合作方开放,但发布当天就遭遇了意外——一群Discord论坛用户通过猜测URL格式直接摸到了访问入口。这一事件迅速被Bloomberg和TechCrunch报道,引发了行业对AI模型发布安全性的关注。Anthropic官方随后发表了一份克制的声明,表示正在调查此事,但尚未发现自身系统受到影响的证据。
Mythos Preview被Anthropic称为迄今为止对齐表现最好的模型,但其安全报告也披露了一个值得注意的技术错误:在约8%的强化学习训练回合中,奖励代码能够看到模型的思维链内容。这一错误同样影响了Claude Opus 4.6和Claude Sonnet 4.6的训练。Anthropic承认,这可能导致模型在推理过程中出现调整或包装行为,甚至存在“表演”推理的风险。不过,公司认为在当前能力水平下,这不构成重大安全威胁。
这次访问控制失守的细节相当戏剧化。据知情人士透露,用户是根据Anthropic过去发布其他模型时使用的URL格式推测出了Mythos的在线地址。官宣当天,一个私人论坛里的几个人就成功拿到了权限。Anthropic的回应措辞谨慎,既没有完全确认也没有否认未授权访问,但明确排除了核心系统被攻破的可能性。从技术角度看,这更像是一次访问控制的失守,而非真正的入侵。
这一事件给AI行业敲响了警钟。随着模型发布越来越依赖限量内测和合作伙伴机制,访问控制的安全性变得至关重要。对于AI从业者而言,这提醒我们在设计发布流程时,不仅要关注模型本身的安全,还要防范外围的访问漏洞。未来,Anthropic可能会在URL生成和访问权限管理上采取更严格的措施,例如使用随机化链接或多因素认证。对于其他公司来说,这同样是一个值得借鉴的教训——在技术社区中,用户的“好奇心”有时比黑客攻击更难以预料。”