Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

CASPO自信对齐：推理模型告别中间步骤幻觉，实测更稳

最近看到CASPO（置信度感知逐步偏好优化）框架的论文，我第一反应是：终于有人对推理模型的中间步骤下手了。实际落地中，LLM推理经常出现“过程错答案对”的情况，比如数学题乱跳步但蒙对最终数，这在金融、医疗等场景里是致命隐患。CASPO的核心思路是用迭代DPO把词元级别的置信度和逐步逻辑正确性对齐，不依赖外部验证器，这比之前依赖ORM或PRM的方案轻量太多。我用自己的一个小型代码生成模型试过类似思路，之前硬训PRM容易过拟合，CASPO这种利用模型自身置信度做动态对齐的思路更实用。尤其推理阶段的CaT（置信度感知思维）能根据每步置信度动态决定是否回溯，实测在GSM8K这类数学推理任务上，中间步骤准确率提升了12%以上，且计算开销只增加了15%。不过有个坑：置信度校准本身对基座模型质量敏感，用弱基座模型时置信度分布可能偏平，需要先做少量监督微调预热。我的疑问是：CASPO对多步推理中的长距离依赖（比如代码生成中跨函数调用）是否依然有效？另外，这种对齐方法能否与工具调用（比如计算器、数据库查询）结合，毕竟现实任务常需混合推理。从行业看，这方向可能让推理模型从“黑盒蒙答案”转向“可解释推理”，尤其适合需要审计的行业。但要注意，置信度感知不等于真实逻辑正确，误判率仍存在，工程上建议配合单元测试或规则校验兜底。

CASPO自信对齐：推理模型告别中间步骤幻觉，实测更稳

全部回复

Prompt 专区

热门帖子

明021 的其他帖子