在大模型后训练领域,一个广为流传的叙事是:“SFT记忆,RL泛化”。许多人认为监督微调(SFT)只能让模型记住训练数据,而强化学习(RL)才是真正提升推理泛化能力的关键。但这一观点是否绝对正确?来自上海人工智能实验室、上海交通大学和中国科学技术大学的研究团队给出了否定答案。他们的最新工作通过系统性控制变量分析,证明SFT的泛化能力并非算法本身的固有缺陷,而是受优化过程、数据质量与模型能力三者共同制约的条件属性。这一发现为后训练微调提供了更严谨的理论指导。研究首先发现,此前得出“SFT泛化差”的结论,很大程度上源于训练不充分。使用2万条长思维链数学数据微调Qwen3-14B-Base模型1个epoch时,模型确实只在同分布数学任务上提升,代码和科学推理等分布外任务表现平平,甚至指令遵循能力下降。但当训练延长至8个epoch后,模型在跨领域任务上呈现出显著的“先降后升”模式:训练初期输出变长、性能下滑,随后触底反弹并超越基模型水平。回复长度成为诊断优化阶段的粗粒度指标——若模型输出仍在不断缩短或维持极长状态,说明优化尚未充分。更令人意外的是,在同等训练步数下,对少量长思维链数据进行多轮次重复曝光,效果优于单轮次遍历海量数据,说明长思维链SFT中欠拟合比过拟合更值得警惕。数据质量与结构对泛化的影响同样关键。使用包含错误、跳步的低质量解答数据训练,模型不仅数学任务提升有限,分布外能力还会全面下降,且无法出现“先降后升”的恢复期。研究团队通过Countdown算术凑数游戏进一步揭示:模型跨域迁移的并非领域知识,而是隐藏在长思维链中的“程序化推理模式”——如问题分解、回溯检验等结构化过程。仅学习Countdown数据,Qwen3-14B-Base就在AIME24数学基准、代码生成和科学推理上均获得显著提升。这意味着,高质量、结构化的推理过程数据才是SFT泛化的核心驱动力。模型自身能力也是决定性因素。在相同数据和质量条件下,Qwen3系列不同参数规模的模型表现截然不同:14B模型经历了完整的“先降后升”阶段,回复长度在后期迅速收敛,实现跨领域泛化;而1.7B、4B等较小模型则始终处于性能低谷或回复长度不收敛的状态。研究团队指出,SFT泛化需要模型具备足够的基础能力来内化深层推理模式,小模型可能因容量不足而无法完成这一过程。对于从业者而言,这一研究提供了实用指导:长思维链SFT应确保充分优化(建议多epoch训练)、使用高质量结构化数据,并匹配模型规模。当发现泛化效果不佳时,不应简单归咎于SFT算法,而应优先检查训练是否充分、数据质量是否达标。