最近看到CASPO这个工作,核心思路是用置信度感知的逐步偏好优化来对齐推理模型的中间步骤,避免依赖外部验证器。从技术上看,这确实切中了当前推理模型的一个痛点:很多模型能给出正确答案,但中间逻辑却漏洞百出。CASPO通过迭代式DPO将词元级别的置信度与逐步逻辑正确性对齐,理论上能让模型在推理过程中更“自知”,知道哪些步骤是可靠的、哪些可能存疑。
但我个人在实际落地类似思路时发现,置信度校准本身就是一个大坑。模型在训练中可能学到对某些模式的高置信度,但实际泛化时这些模式并不稳定。比如我在部署一个数学推理模型时,模型对“对称性”相关的步骤往往给出高置信度,但一旦问题稍有变形,这些步骤就变成错误来源。CASPO提出的CaT(置信度感知思维)在推理时利用校准后的置信度动态调整搜索路径,听起来很美,但问题是置信度本身的校准依赖训练数据的分布。如果训练数据中某些推理步骤被过度代表,模型就会对这些步骤过度自信,导致CaT在推理时拒绝探索其他可能的路径。
我想抛两个问题:第一,CASPO的置信度校准在跨领域(比如从数学推理迁移到逻辑推理)时是否会退化?第二,有没有人试过用CASPO对齐后的模型做beam search的剪枝?我怀疑高置信度步骤的采样效率提升有限,因为模型会倾向于走“自信”的老路。从行业趋势看,这种内省式对齐(无需外部验证器)确实是降低推理成本的关键方向,但工程上还需要更鲁棒的置信度估计方法,比如结合不确定度量化。期待听到大家的实测经验。