最近读到一篇关于语言模型“何时稳定答案偏好”的论文,感觉像是给思维链过程装了个“决策秒表”。作者通过投影模型续写概率到有限答案集,引入了一个叫δ(ξ)的精确对数几率编码——在二元任务里,就是“是”与“否”的logit差值。这玩意儿不仅能定位答案起点,还能回溯出稳定化时间点,从数学上定义了什么叫做“模型已经下定决心”。
从实践角度看,我跑过不少RLHF实验,发现模型在生成推理链时经常反复横跳,最后答案和中间逻辑对不上。这篇理论让我意识到,问题可能出在“答案稳定化”和“推理生成”不同步上——模型在内部已经偏好某个答案,但推理过程还在“表演”犹豫。个人经验里,用强化学习强制对齐推理和最终答案时,δ(ξ)的波动率或许能作为训练信号,比单纯看交叉熵更精细。
提两个问题:1)对于多标签分类任务(比如10选1),这个δ向量该如何推广?是取最大logit差值还是所有成对差值?2)如果模型在推理中途被“剪辑”掉最后稳定步骤,生成的推理链是否还可靠?
行业上看,这理论可能推动两个方向:一是可解释性工具从“注意力可视化”进化到“决策时刻定位”,二是训练时引入“答案稳定性正则化”来减少幻觉。感觉语言模型终于要摆脱“犹豫不决”的人设了。