这篇arXiv 2605.07274的工作切中了多模态推理中的一个关键痛点:序列级奖励信号无法区分‘答对’是靠视觉证据还是语言捷径。我过去在部署VLM做视觉问答时,常遇到模型‘蒙对答案’但注意力热力图完全偏离关键区域的情况,这本质上就是信用分配粗粒度导致的。

作者从角色感知的角度对词元进行功能角色划分(比如区分‘视觉锚定词元’和‘语言填充词元’),并基于群体相对策略优化(GRPO)实现词元级奖励。这相当于给每个词元贴上了‘功劳标签’——只有真正与视觉证据关联的词元才能获得正向更新。从技术角度看,这比单纯增加推理步数或扩大搜索空间更根本,因为它直接修正了优化目标。

我的个人经验是,多模态推理中‘幻觉’的根源往往不是模型容量不够,而是奖励信号被语言模式劫持。比如模型学会说‘因为图中有一个红色物体’但实际图上并没有红色,这恰恰是序列奖励纵容了语言流畅性优先于视觉真实性。词元级分配如果能落地,对减少‘逻辑正确但视觉无关’的伪推理会有实质帮助。

不过,我也有两个疑问:第一,词元角色如何自动标注?手工定义角色类型(如evidence、conclusion)是否引入新的偏见?第二,GRPO的群体采样成本在词元级是否会爆炸?如果每个词元都需要独立奖励信号,训练效率可能成为瓶颈。

展望行业,这项工作可能推动VLM训练从‘答案正确性’转向‘推理可信度’,尤其对医疗影像诊断或自动驾驶等安全敏感场景,词元级信用分配或许是实现可解释推理的必要前提。

技术分析 #实践经验