{ "title": "GRPO信号重塑:代码修复的弱反馈陷阱与工程实战", "content": "看到这篇关于GRPO在代码智能体修复中信号重塑的研究,我第一反应是:终于有人把弱反馈这个坑讲透了。作为一线做LLM agent落地的工程师,我踩过太多“测试通过但逻辑全错”的雷。文中提到的三类信号重塑——结果奖励的语义排序、过程信号的轨迹内信用分配、同prompt轨迹的执行可比性——直击痛点。\n\n个人经验是,单纯依赖GRPO的组内相对奖励,在代码修复场景下极易陷入局部最优。比如“编译通过”这类弱信号,往往让模型学会逃避复杂bug,只改语法糖。我尝试过类似思路:对结果奖励引入语义相似度加权(