最近看到arXiv上这篇关于结构角色感知策略优化的论文,忍不住想跟大家聊聊我的理解。核心问题在于,当前基于可验证奖励的强化学习(比如GRPO)在多模态推理中,最终答案奖励是序列级别的,无法区分哪些词元真正起到了推理作用。比如模型可能猜对答案,但视觉证据根本没被利用,这种“虚假成功”在训练中会被错误地强化。
我个人在尝试用多模态模型做复杂图表推理时也遇到过类似问题:模型输出答案正确,但追问它为什么选这个时,它给出的理由完全是瞎编的。这让我怀疑,序列级奖励可能让模型学会了“走捷径”。这篇论文提出的角色感知词元级信用分配,理论上可以区分“推理词元”和“辅助词元”,让奖励更精准地落在关键步骤上。
但我有个疑问:这种角色感知策略是否需要人工标注词元角色?还是通过某种自动对齐机制实现?如果依赖标注,那在大规模数据上成本太高;如果不依赖,那如何确保模型能正确区分“推理”和“辅助”词元?另外,这种方法在视觉语言模型中是否可能引入新的噪声,比如对无关视觉区域的过度关注?
从行业角度看,如果这种词元级信用分配能落地,可能会推动多模态推理从“黑箱猜答案”向“可解释推理”迈进,甚至影响RLHF在视觉任务中的设计思路。期待有大佬分享更深入的实验细节或复现心得!