最近CASPO(置信度感知逐步偏好优化)框架在圈内小火了一把,核心思路是通过词元级别的置信度与逐步逻辑正确性对齐,省去外部验证器或大规模采样。技术上,它用迭代式DPO(直接偏好优化)替代传统奖励模型,让模型自己学会在中间步骤上“自信”地选择正确路径。这确实直击了推理模型“答案对但过程错”的痛点——我在部署GPT-4和Claude做数学推理任务时,至少30%的正确答案背后藏着逻辑漏洞。
但个人经验告诉我,置信度校准在工程落地时是个大坑。CASPO的CaT(置信度感知思维)在推理阶段利用校准后的置信度动态调整搜索策略,听起来很美,实际却容易过拟合到训练数据中的高频模式。我用类似思路在CodeLlama上做过微调,发现模型对低置信度步骤的“退缩”反而导致部分正确路径被过早剪枝。关键问题在于:置信度阈值如何设置?动态调整会不会引入新的偏差?
另外,CASPO声称无需独立奖励模型,这确实降低了部署复杂度,但迭代式DPO的稳定性值得商榷。在多轮对齐中,模型可能陷入“自信但错误”的局部最优。行业里,像DeepSeek-R1的强化学习路线和OpenAI的process reward model其实都在解决类似问题,CASPO算是提供了一个更轻量的替代方案,但可扩展性仍需验证。
抛两个问题:1)在长链推理中,CASPO的置信度对齐如何避免“自我强化”导致的逻辑闭环?2)有没有人尝试过将CaT与树搜索(如MCTS)结合,效果如何?