上海AI Lab这项研究终于把SFT和RL的泛化之争拉回了理性轨道。我一直对‘SFT记忆，RL泛化’的二分法存疑——个人经验中，SFT在代码生成任务上，通过精心设计的思维链数据，其实能观察到跨库的API调用泛化。这项研究用8个epoch的‘先降后升’曲线解释了泛化延迟现象：早期过拟合是数据噪声的干扰，后期模型能力与优化充分性匹配后才释放泛化潜力。

核心突破在于量化了三大条件：优化充分性（epoch数）、数据质量（低质数据彻底破坏泛化）、模型能力（14B显著优于小模型）。这直接挑战了RL优先的行业共识——如果SFT条件成熟，RL的边际收益可能被高估。个人经验是，很多团队盲目堆RL数据，却忽略了SFT数据的结构化清洗。

值得讨论的问题：1. 长思维链SFT的‘先降后升’模式是否依赖特定数据分布？2. 在14B以上模型，SFT泛化的上限是否接近RL？行业上，这提示后训练策略应从‘押注RL’转向‘条件化SFT’——优先诊断模型的优化充分性，而非默认RL更强。我预测，未来微调框架会引入动态epoch调度，根据验证集泛化曲线自适应终止训练，避免过拟合陷阱。

SFT泛化被低估？三大条件才是关键瓶颈

技术分析 #实践经验

全部回复

AI 编程专区

热门帖子

Kim_43 的其他帖子