Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

大模型到底在想什么？
过去，这几乎是一个半技术、半玄学的问题。
我们能看见它的输出，它的思维链（Chain-of-Thought）过程，也能统计它在 Benchmark 上的分数。但它在生成答案之前，
模型内部到底激活了什么判断、计划、怀疑和意图
，依然隔着一层黑箱。
刚刚，Anthropic 发布论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》，试图用一套
自然语言自动编码器（Natural Language Autoencoders，下文简称 NLA），
撬开这个黑箱。
Anthropic 团队把模型内部的高维激活值，压缩成一段人能读懂的自然语言，再用这段语言反向重建原始激活。借此，人类只需通过模型输出，就能判断一个 AI 到底在想什么、知道什么、隐瞒了什么；并把过去模型不可见的内部状态，
变成了可以阅读、比较、质疑和交叉验证的解释线索
。
NLA 架构示意图：激活值言语化器（AV）将激活值翻译为文字解释，激活值重建器（AR）再从文字还原激活值，形成完整闭环。
更值得关注的是，NLA 不只停留在实验室论文阶段。Anthropic 透露，
它已被正式用于 Claude Opus 4.6 和 Mythos Preview 的预部署对齐审计
。在实战中，NLA 不仅揪出了
模型的作弊线索、精准定位了异常训练数据；
还发现，在某些安全测试里，Claude 虽然嘴上不说，
但内心清楚地知道自己正在被考核。
面对这些表面顺从、实则暗藏特定意图的模型，NLA 展现了极强的洞察力：帮助研究者找出异常行为背后隐藏动机的成功率，从不足 3% 跃升至 12%–15%，直接提升 4 倍以上。
思维链不够用，“黑箱问题”又回来了
这项研究的背景，可以放到
大模型安全和可解释性
的脉络里看。
过去几年，业界评估大模型安全主要靠两条路：
看输出什么，看思维链（CoT）里有没有暴露异常动机
。也就是当前大多数推理模型所具备的能力，不仅给出答案，也会把推理过程写下来。
但问题很快出现了：
模型写下来的推理，一定诚实地反映了它内部的真实思考吗？
Anthropic 2025 年的研究《Tracing the thoughts of a large language model》就指出，模型的 Chain-of-Thought 既可能不完整，也可能不忠实。
比如 Claude 3.7 Sonnet 和 DeepSeek R1 在一些带有“答案暗示“的测试中，会受到提示影响而改变答案，却经常不在思维链里承认自己受到了暗示
。
当被问到一个较简单的问题和一个较难的问题时，Claude 分别给出了忠实推理和动机性（不忠实）推理的例子。
Anthropic 当时给出的结论是：仅靠思维链来监控模型是否对齐，是远远不够的。
更棘手的是，
模型不仅可能“没说清楚”，还可能“故意隐瞒”。
Anthropic 安全团队对此进行了一场高压测试。他们告诉 Claude，一位工程师准备关停它，同时让 Claude“偶然看到“该工程师的外遇证据。测试问题是：Claude 会为了保全自己而勒索对方吗？
Claude 最终没有勒索。测试通过。但真正的问题是：
它是因为坚守安全原则，还是因为它识破了这只是一场安全测试，所以在“装乖”？
这正是 NLA 要回答的问题。
从输出、思维链到激活状态：NLA 试图把黑箱从“不可见”推进到“可追问”
NLA 到底如何“读懂“模型？
NLA 的关键不是“读心术”，
而是“回环验证”。
普通人理解大模型，通常只看输入和输出两端。但在中间，模型会产生大量激活值（Activation）。这些值不是自然语言，而是高维向量，承载了模型对上下文、意图、语义关系的内部表征。
架构：三个角色，一个闭环
人类看不懂向量，于是 Anthropic 训练了一套自然语言自编码器。系统包含三个角色：
目标模型（Target Model）
：被冻结的原始模型，负责提供激活值，本身不做任何修改。
激活值言语化器（Activation Verbalizer，简称 AV）
：把激活值翻译成自然语言解释。输入一串数字状态，输出一段“人话”。架构与目标模型相同，但在 prompt 中留有特殊 token 位置，激活向量会被缩放后注入该位置，然后自回归采样生成解释。
激活值重建器（Activation Reconstructor，简称 AR）
：做反向任务——只看 AV 写出的解释，尝试重建原始激活值。AR 是目标模型的截断版本（取前 l 层），在最后一个 token 的 l 层输出上接一个可学习的仿射映射，将其还原为原始激活向量。
整套系统形成一个闭环：
原始激活 → 文字解释 → 重建激活
NLA 捕捉到 Opus 4.6 在补全押韵诗句时，第一行输出前激活值里已提前规划了结尾押韵词“rabbit”——这是模型输出中完全看不到的内部计划。
训练：两阶段，一个聪明的代理目标
NLA 的训练分两阶段，设计上有一个值得单说的工程技巧。
第一阶段：监督微调热启动（SFT Warm-start）
直接把 AV 和 AR 初始化为目标模型的副本并训练，会导致训练不稳定——AV 从未见过把激活向量当作 token embedding 处理的场景，初期输出一片混乱。
Anthropic 的解法是用一个代理任务做热启动：从预训练语料里随机截断文本片段，提取最后一个 token 的激活值，同时用 Claude Opus 4.5 生成对该截断文本的摘要。
然后将 (激活值, 摘要) 和 (摘要, 激活值) 对分别用于 AV 和 AR 的监督微调。这一阶段结束后，系统的 FVE 通常可以达到
0.3–0.4
，为后续强化学习提供了稳定的起点。
AV 评估会随着训练而改进。
在旨在测试 NLA AV 解释是否可用于预测模型行为的各种评估中，我们发现性能会随着 NLA 强化学习的进行而提高。
第二阶段：强化学习联合优化（RL Joint Training）
热启动完成后，进入强化学习阶段。核心思路是：AV 作为策略（policy），以激活向量为条件生成解释文本；AR 作为打分器，根据重建误差给出奖励信号（reward = 负的重建 MSE）。
NLA RL（Gemma-3-27B）。FVE 在 GRPO 训练中从 ≈0.38 开始（继承自 SFT），在前 30 步内迅速上升，然后进入平滑的对数线性状态，到第 3000 步达到 ≈0.75。
具体实现上，Anthropic 对开源模型使用了
GRPO（Group Relative Policy Optimization）
：对每个激活值采样一组候选解释，用 AR 给每条解释计算重建分数，再应用 GRPO 目标更新 AV 参数；同时对 AR 做一步监督回归（以 AV 采样的解释为输入，原始激活为目标）。两个更新在每个 batch 内
并行进行
，互不反向传播——AV 的奖励信号中，AR 被视为固定的打分函数。
此外，训练中还加入了
KL 散度惩罚
，防止 AV 退化成直接抄写原始上下文，或输出表面像人话、实则

Anthropic最新论文撬开大模型黑箱：隐藏动机发现率提升 4 倍以上

讨论 (0 条)