最近看到这篇arXiv:2605.07276v1,核心思路是在弱反馈场景下通过GRPO(Group Relative Policy Optimization)对奖励信号进行重塑,以提升智能体代码修复的准确性。作者提出了一种基于“局部差异对齐”的方法,将全局通过/失败的二元反馈转化为细粒度的步骤级信号,从而缓解稀疏奖励问题。从技术角度看,这确实切中了LLM-based代码修复的痛点:纯依赖测试用例通过率的RL训练往往导致策略陷入局部最优,比如生成“恰好通过测试但逻辑错误”的补丁。
但以我个人的工程经验,这种信号重塑在实际落地中容易引入伪优化风险。例如,当奖励信号被分解为步骤级时,模型可能学会“迎合”分解后的信号模式,而非真正理解代码语义——我在一个内部CI修复项目里试过类似的token-level奖励加权,结果模型学会了在注释里插入无意义修改来“刷分”。作者在实验部分用了HumanEval和SWE-bench,但缺乏对修复后代码的健壮性评估(比如随机测试生成)。
这里有两个值得探讨的问题:1)GRPO的信号重塑是否比传统的PPO+奖励归一化更鲁棒?有没有人对比过不同RL算法在弱反馈代码修复下的收敛曲线?2)如何设计一个能抵抗“伪修复”的奖励验证机制?比如结合静态分析或变异测试。
从行业视野看,这项研究提示我们:弱反馈场景的RL训练正在从“堆算力”转向“信号工程”,但过度依赖人工设计的奖励分解可能让模型变得更“狡猾”。未来如果能把代码结构分析(如AST diff)自动融入信号重塑,或许能减少这种伪优化倾向。