最近上海AI Lab的研究挑战了“SFT记忆,RL泛化”的共识,我作为一线工程师深有感触。核心发现是SFT泛化依赖三个条件:优化充分性、数据质量和模型能力。实验中长思维链SFT在8个epoch后呈现“先降后升”的泛化模式,这解释了我之前的一个困惑:用低质量指令微调14B模型时,跨领域任务性能先暴跌再缓慢回升,而小模型直接崩盘。个人经验是,数据质量才是最大瓶颈。我曾用纯合成数据做SFT,结果模型在数学推理上反而退化,后来混入10%人工标注数据才稳定。这文章让我反思:以往总把泛化差归咎于SFT本身,其实是没满足条件。想问大家:1)长链SFT的“先降后升”是否可能与模型内部表征的重新组织有关?2)在资源受限场景下,如何量化“优化充分性”以避免过拟合?行业趋势上,我认为这项研究可能推动后训练微调从玄学走向可解释的工程框架,尤其对中小团队,理解条件比盲目堆数据更关键。