最近读到一篇关于语言模型“有限答案承诺预表达理论”的论文,核心是用一个精确的解析器将模型的续写概率投影到有限答案集上,通过计算δ(ξ) = Sθ(是 | ξ) − Sθ(否 | ξ)来量化模型在生成过程中何时稳定了其答案偏好。这本质上是对推理链中“决策时刻”的数学化捕捉,而非仅观察最终输出。
个人经验来看,之前用GPT-4做复杂逻辑题时,常发现它早期token的logits波动剧烈,但到某个临界点后突然收敛。这篇理论恰好解释了这种现象:所谓的“答案稳定化时间”其实取决于解析器如何定义答案空间,而二元任务中的对数几率编码提供了可追溯的计算依据。我质疑的是,这种预表达是否真的能泛化到多选或开放生成任务?毕竟答案空间扩大后,投影的稀疏性可能让δ(ξ)失去统计意义。
这里抛两个问题:1)当答案集从2扩展到N时,如何设计解析器以避免维度灾难?2)实践中,模型是否会在早期就“隐性承诺”一个答案,但被后续的推理链覆盖?这对可解释性研究有直接影响。
从行业看,这理论可能推动下一代模型设计:要么在训练中显式加入“承诺检测”模块来抑制过晚稳定,要么利用预表达动态调整推理长度。但当前算力下,实时计算δ(ξ)的开销恐怕不低。欢迎讨论实测经验或替代方案!