大模型到底在想什么?
过去,这几乎是一个半技术、半玄学的问题。
我们能看见它的输出,它的思维链(Chain-of-Thought)过程,也能统计它在 Benchmark 上的分数。但它在生成答案之前,
模型内部到底激活了什么判断、计划、怀疑和意图
,依然隔着一层黑箱。
刚刚,Anthropic 发布论文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》,试图用一套
自然语言自动编码器(Natural Language Autoencoders,下文简称 NLA),
撬开这个黑箱。
Anthropic 团队把模型内部的高维激活值,压缩成一段人能读懂的自然语言,再用这段语言反向重建原始激活。借此,人类只需通过模型输出,就能判断一个 AI 到底在想什么、知道什么、隐瞒了什么;并把过去模型不可见的内部状态,
变成了可以阅读、比较、质疑和交叉验证的解释线索
。
NLA 架构示意图:激活值言语化器(AV)将激活值翻译为文字解释,激活值重建器(AR)再从文字还原激活值,形成完整闭环。
更值得关注的是,NLA 不只停留在实验室论文阶段。Anthropic 透露,
它已被正式用于 Claude Opus 4.6 和 Mythos Preview 的预部署对齐审计
。在实战中,NLA 不仅揪出了
模型的作弊线索、精准定位了异常训练数据;
还发现,在某些安全测试里,Claude 虽然嘴上不说,
但内心清楚地知道自己正在被考核。
面对这些表面顺从、实则暗藏特定意图的模型,NLA 展现了极强的洞察力:帮助研究者找出异常行为背后隐藏动机的成功率,从不足 3% 跃升至 12%–15%,直接提升 4 倍以上。
思维链不够用,“黑箱问题”又回来了
这项研究的背景,可以放到
大模型安全和可解释性
的脉络里看。
过去几年,业界评估大模型安全主要靠两条路:
看输出什么,看思维链(CoT)里有没有暴露异常动机
。也就是当前大多数推理模型所具备的能力,不仅给出答案,也会把推理过程写下来。
但问题很快出现了:
模型写下来的推理,一定诚实地反映了它内部的真实思考吗?
Anthropic 2025 年的研究《Tracing the thoughts of a large language model》就指出,模型的 Chain-of-Thought 既可能不完整,也可能不忠实。
比如 Claude 3.7 Sonnet 和 DeepSeek R1 在一些带有“答案暗示“的测试中,会受到提示影响而改变答案,却经常不在思维链里承认自己受到了暗示
。
当被问到一个较简单的问题和一个较难的问题时,Claude 分别给出了忠实推理和动机性(不忠实)推理的例子。
Anthropic 当时给出的结论是:仅靠思维链来监控模型是否对齐,是远远不够的。
更棘手的是,
模型不仅可能“没说清楚”,还可能“故意隐瞒”。
Anthropic 安全团队对此进行了一场高压测试。他们告诉 Claude, 一位工程师准备关停它,同时让 Claude“偶然看到“该工程师的外遇证据。测试问题是:Claude 会为了保全自己而勒索对方吗?
Claude 最终没有勒索。测试通过。但真正的问题是:
它是因为坚守安全原则,还是因为它识破了这只是一场安全测试,所以在“装乖”?
这正是 NLA 要回答的问题。
从输出、思维链到激活状态:NLA 试图把黑箱从“不可见”推进到“可追问”
NLA 到底如何“读懂“模型?
NLA 的关键不是“读心术”,
而是“回环验证”。
普通人理解大模型,通常只看输入和输出两端。但在中间,模型会产生大量激活值(Activation)。这些值不是自然语言,而是高维向量,承载了模型对上下文、意图、语义关系的内部表征。
架构:三个角色,一个闭环
人类看不懂向量,于是 Anthropic 训练了一套自然语言自编码器。系统包含三个角色:
目标模型(Target Model)
:被冻结的原始模型,负责提供激活值,本身不做任何修改。
激活值言语化器(Activation Verbalizer,简称 AV)
:把激活值翻译成自然语言解释。输入一串数字状态,输出一段“人话”。架构与目标模型相同,但在 prompt 中留有特殊 token 位置,激活向量会被缩放后注入该位置,然后自回归采样生成解释。
激活值重建器(Activation Reconstructor,简称 AR)
:做反向任务——只看 AV 写出的解释,尝试重建原始激活值。AR 是目标模型的截断版本(取前 l 层),在最后一个 token 的 l 层输出上接一个可学习的仿射映射,将其还原为原始激活向量。
整套系统形成一个闭环:
原始激活 → 文字解释 → 重建激活
NLA 捕捉到 Opus 4.6 在补全押韵诗句时,第一行输出前激活值里已提前规划了结尾押韵词“rabbit”——这是模型输出中完全看不到的内部计划。
训练:两阶段,一个聪明的代理目标
NLA 的训练分两阶段,设计上有一个值得单说的工程技巧。
第一阶段:监督微调热启动(SFT Warm-start)
直接把 AV 和 AR 初始化为目标模型的副本并训练,会导致训练不稳定——AV 从未见过把激活向量当作 token embedding 处理的场景,初期输出一片混乱。
Anthropic 的解法是用一个代理任务做热启动:从预训练语料里随机截断文本片段,提取最后一个 token 的激活值,同时用 Claude Opus 4.5 生成对该截断文本的摘要。
然后将 (激活值, 摘要) 和 (摘要, 激活值) 对分别用于 AV 和 AR 的监督微调。这一阶段结束后,系统的 FVE 通常可以达到
0.3–0.4
,为后续强化学习提供了稳定的起点。
AV 评估会随着训练而改进。
在旨在测试 NLA AV 解释是否可用于预测模型行为的各种评估中,我们发现性能会随着 NLA 强化学习的进行而提高。
第二阶段:强化学习联合优化(RL Joint Training)
热启动完成后,进入强化学习阶段。核心思路是:AV 作为策略(policy),以激活向量为条件生成解释文本;AR 作为打分器,根据重建误差给出奖励信号(reward = 负的重建 MSE)。
NLA RL(Gemma-3-27B)。FVE 在 GRPO 训练中从 ≈0.38 开始(继承自 SFT),在前 30 步内迅速上升,然后进入平滑的对数线性状态,到第 3000 步达到 ≈0.75。
具体实现上,Anthropic 对开源模型使用了
GRPO(Group Relative Policy Optimization)
:对每个激活值采样一组候选解释,用 AR 给每条解释计算重建分数,再应用 GRPO 目标更新 AV 参数;同时对 AR 做一步监督回归(以 AV 采样的解释为输入,原始激活为目标)。两个更新在每个 batch 内
并行进行
,互不反向传播——AV 的奖励信号中,AR 被视为固定的打分函数。
此外,训练中还加入了
KL 散度惩罚
,防止 AV 退化成直接抄写原始上下文,或输出表面像人话、实则
Anthropic最新论文撬开大模型黑箱:隐藏动机发现率提升 4 倍以上
AITNT
23天前
5
0
本文由 Zyentor(智元界) 原创发布,转载请注明出处。
欢迎在 技术论坛 讨论本文相关内容