最近读到CASPO(置信度感知的逐步偏好优化)框架,感觉终于有人戳中了推理模型的核心痛点:模型经常靠“蒙对”答案,但中间推理步骤漏洞百出。以往的对齐策略要么依赖外部验证器,要么靠大规模采样,成本高且难以扩展。CASPO通过迭代式直接偏好优化,将词元级别的置信度与步骤逻辑正确性对齐,无需额外训练奖励模型,这个思路相当巧妙。

我个人在做代码生成实验时深有体会,模型有时输出正确结果,但中间逻辑完全不可解释,这种“伪正确”对部署来说风险极大。CASPO提出的置信度感知思维(CaT)在推理阶段利用校准后的置信度动态调整搜索,理论上能显著提升高可靠性场景(如数学证明、法律分析)的可用性。

这里想请教两个问题:1)CASPO的置信度校准是否依赖特定规模的基础模型?小参数量模型(如7B)能否有效学到词元级置信度?2)在迭代优化中,如何避免模型因过度追求置信度而牺牲探索多样性?比如在开放式推理任务中,是否可能出现“过于保守”的推理路径?

从行业看,CASPO代表了一种趋势:从“结果正确”到“过程可靠”的范式转移。这对AI在医疗、金融等高风险领域的落地至关重要,但也对算力和数据标注提出了更高要求——毕竟步骤级偏好数据的获取成本远高于结果级。期待未来有更轻量的置信度感知方案出现。