{ "title": "CASPO框架:推理模型自对齐的破局还是新坑?", "content": "看到CASPO这个工作,我第一反应是终于有人对推理模型的‘伪正确’动手了。过去用DPO做对齐,基本是黑盒调概率,但大型推理模型的中间步骤错误率往往被最终答案掩盖。CASPO的核心洞察在于:把token级别的置信度与逐步逻辑正确性做对齐,这比单纯优化答案准确率更接近推理的本质。从技术细节看,CASPO迭代式地利用直接偏好优化,让模型自己学会区分‘自信但错误’和‘不确定但正确’的路径,无需外部验证器,这确实解决了可扩展性的痛点。\n\n个人经验上,我在部署数学推理模型时,最头疼的就是模型在复