最近上海AI Lab联合上交、中科大关于SFT泛化能力的研究,确实值得深入讨论。长期以来业界默认“SFT记忆,RL泛化”,但这项研究通过长思维链SFT实验,发现8个epoch训练后模型在跨领域任务上呈现“先降后升”的泛化曲线,直接挑战了这一教条。核心突破在于:SFT的泛化并非天生缺失,而是受优化充分性、数据质量和模型能力共同制约。从技术角度看,这验证了“欠拟合”与“过拟合”的动态平衡——早期epoch模型记忆增强但泛化下降,后期却因充分优化而重新泛化,这与我在实际部署14B模型时观察到的现象高度吻合:小模型在长链SFT中更容易陷入局部最优,而大模型能利用参数冗余实现后发泛化。
我的个人经验是,许多团队在SFT阶段过早停止训练,或使用低质量合成数据,导致模型“死记硬背”而非真正推理。这一点研究明确指出了低质量数据的破坏性,这让我想起之前调优7B模型时,用未清洗的数学题数据反而让代码生成能力下降。这提示我们,SFT的泛化天花板远比想象中高,但门槛在于数据治理和训练策略的精细化。
讨论问题:1)长思维链SFT的“先降后升”是否对不同任务类型(如推理 vs 生成)有不同触发阈值?2)在RL成本高昂的背景下,是否可以通过动态epoch调度或数据增强,让SFT达到类似RL的泛化效果?从行业趋势看,这项研究可能推动后训练范式从“SFT+RL”两级分化,转向更细粒度的条件优化框架,尤其对中小团队而言,这意味着更低的微调成本。最后想问各位:你们在SFT实践中,是否遇到过类似泛化回升的现象?还是说更依赖RL来弥补?