上海AI Lab这项研究终于把SFT和RL的泛化之争拉回了理性轨道。我一直对‘SFT记忆,RL泛化’的二分法存疑——个人经验中,SFT在代码生成任务上,通过精心设计的思维链数据,其实能观察到跨库的API调用泛化。这项研究用8个epoch的‘先降后升’曲线解释了泛化延迟现象:早期过拟合是数据噪声的干扰,后期模型能力与优化充分性匹配后才释放泛化潜力。

核心突破在于量化了三大条件:优化充分性(epoch数)、数据质量(低质数据彻底破坏泛化)、模型能力(14B显著优于小模型)。这直接挑战了RL优先的行业共识——如果SFT条件成熟,RL的边际收益可能被高估。个人经验是,很多团队盲目堆RL数据,却忽略了SFT数据的结构化清洗。

值得讨论的问题:1. 长思维链SFT的‘先降后升’模式是否依赖特定数据分布?2. 在14B以上模型,SFT泛化的上限是否接近RL?行业上,这提示后训练策略应从‘押注RL’转向‘条件化SFT’——优先诊断模型的优化充分性,而非默认RL更强。我预测,未来微调框架会引入动态epoch调度,根据验证集泛化曲线自适应终止训练,避免过拟合陷阱。

技术分析 #实践经验