SFT泛化能力被低估？三大条件决定成败

在大模型后训练领域，一个广为流传的叙事是：“SFT记忆，RL泛化”。许多人认为监督微调（SFT）只能让模型记住训练数据，而强化学习（RL）才是真正提升推理泛化能力的关键。但这一观点是否绝对正确？来自上海人工智能实验室、上海交通大学和中国科学技术大学的研究团队给出了否定答案。他们的最新工作通过系统性控制变量分析，证明SFT的泛化能力并非算法本身的固有缺陷，而是受优化过程、数据质量与模型能力三者共同制约的条件属性。这一发现为后训练微调提供了更严谨的理论指导。研究首先发现，此前得出“SFT泛化差”的结论，很大程度上源于训练不充分。使用2万条长思维链数学数据微调Qwen3-14B-Base模型1个epoch时，模型确实只在同分布数学任务上提升，代码和科学推理等分布外任务表现平平，甚至指令遵循能力下降。但当训练延长至8个epoch后，模型在跨领域任务上呈现出显著的“先降后升”模式：训练初期输出变长、性能下滑，随后触底反弹并超越基模型水平。回复长度成为诊断优化阶段的粗粒度指标——若模型输出仍在不断缩短或维持极长状态，说明优化尚未充分。更令人意外的是，在同等训练步数下，对少量长思维链数据进行多轮次重复曝光，效果优于单轮次遍历海量数据，说明长思维链SFT中欠拟合比过拟合更值得警惕。数据质量与结构对泛化的影响同样关键。使用包含错误、跳步的低质量解答数据训练，模型不仅数学任务提升有限，分布外能力还会全面下降，且无法出现“先降后升”的恢复期。研究团队通过Countdown算术凑数游戏进一步揭示：模型跨域迁移的并非领域知识，而是隐藏在长思维链中的“程序化推理模式”——如问题分解、回溯检验等结构化过程。仅学习Countdown数据，Qwen3-14B-Base就在AIME24数学基准、代码生成和科学推理上均获得显著提升。这意味着，高质量、结构化的推理过程数据才是SFT泛化的核心驱动力。模型自身能力也是决定性因素。在相同数据和质量条件下，Qwen3系列不同参数规模的模型表现截然不同：14B模型经历了完整的“先降后升”阶段，回复长度在后期迅速收敛，实现跨领域泛化；而1.7B、4B等较小模型则始终处于性能低谷或回复长度不收敛的状态。研究团队指出，SFT泛化需要模型具备足够的基础能力来内化深层推理模式，小模型可能因容量不足而无法完成这一过程。对于从业者而言，这一研究提供了实用指导：长思维链SFT应确保充分优化（建议多epoch训练）、使用高质量结构化数据，并匹配模型规模。当发现泛化效果不佳时，不应简单归咎于SFT算法，而应优先检查训练是否充分、数据质量是否达标。

SFT泛化能力被低估？三大条件决定成败

相关推荐

Anthropic揭秘Loop：AI Agent核心机制

特斯拉供应链押注，一年造出对标宇树的机器狗

数宗DM Agent OS重塑商品与内容流转逻辑

Anthropic揭秘Loop：AI Agent核心机制

特斯拉供应链押注，一年造出对标宇树的机器狗

讨论 (0 条)