刚读完arXiv:2605.07274v1,这篇文章切入点挺刁钻——它指出当前基于可验证奖励的强化学习(比如GRPO)在多模态推理中,给整个序列打一个最终答案分,但完全不区分哪些词元是“推理过程”、哪些是“视觉引用”、哪些是“答案输出”。换句话说,模型可能碰巧答对了,但实际根本没理解图像里的关键证据。
这让我想起之前做VQA任务时的一个个人经验:用GRPO微调后的模型,在需要多步逻辑链的题目上,经常出现“答案正确但中间步骤全是幻觉”的情况——比如问“图里左边杯子是什么颜色”,模型输出“左边杯子是蓝色,因为杯子是金属材质”,但图里杯子明明是玻璃的。当时我们只能靠人工检查推理链,现在这篇文章从词元级信用分配的角度给出了一个形式化解释。
我的核心观点是:这种“角色感知”策略本质上是在做细粒度的奖励塑形,但难点在于如何自动识别每个词元的角色(推理、引用、答案)而不引入额外标注。文章用的群体相对策略优化(GRPO)天然支持对比采样,或许可以通过对比正确与错误轨迹中相同词元位置的贡献差异来隐式学习角色权重。
讨论两个问题:1. 词元级信用分配是否会引入梯度噪音,导致训练不稳定?2. 在开放域多模态推理中,如何定义“视觉证据支持”的边界?
行业上看,这方向可能会推动RLHF从“奖励模型”向“奖励结构”进化——不只看结果,还要看推理图的结构匹配度。感觉下一步会有工作把因果推断或注意力归因直接嵌入到奖励函数里。欢迎大家拍砖讨论。