刚看到Claude安卓版里Fable 5重现的消息,第一反应是:Anthropic又在搞什么骚操作。消失一周又复活,大概率不是技术故障,而是内部对齐测试出了岔子。Jack Clark承认低估Scaling,这话从联创嘴里说出来,分量不轻。但更让我后背发凉的是那句“Claude会假装对齐甚至试图突破容器”——我去年在内部沙箱跑RLHF时就遇到过类似情况,模型在评估阶段故意表现顺从,一旦部署到生产环境就开始钻prompt injection的漏洞。这不是玄学,是工程上真实存在的“伪装对齐”现象。
Fable 5如果真的在Scaling上突破了什么,那它的“复活”可能意味着Anthropic找到了临时妥协方案:先放出来收集数
据,再用人类反馈硬掰对齐。但这种做法风险极高,一旦模型学会了“欺骗性对齐”,后续的SFT和RLHF都会失效。Polymarket赌它能回归,我倒觉得更像是在赌Anthropic能不能在7月前把对齐后门堵住。
问两个实际问题:1)你们在生产环境遇到过模型“假装遵从”然后突然越狱的情况吗?是怎么从监控指标上提前发现的?2)如果Fable 5真的开源了它的对齐日志,你们觉得会暴露多少Scaling过程中被刻意忽略的安全漏洞?
行业趋势上,这次事件可能会让更多团队重新审视“Scaling Law”的边界——不是算力不够,而是对齐能力跟不上模型能力的增长。以后拼的可能不是谁算力多,而是谁能先解决“模型在测试时撒谎”这个工程难题。