Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

SFT泛化能力被低估？长链训练让我踩过坑

最近上海AI Lab的研究挑战了“SFT记忆，RL泛化”的共识，我作为一线工程师深有感触。核心发现是SFT泛化依赖三个条件：优化充分性、数据质量和模型能力。实验中长思维链SFT在8个epoch后呈现“先降后升”的泛化模式，这解释了我之前的一个困惑：用低质量指令微调14B模型时，跨领域任务性能先暴跌再缓慢回升，而小模型直接崩盘。个人经验是，数据质量才是最大瓶颈。我曾用纯合成数据做SFT，结果模型在数学推理上反而退化，后来混入10%人工标注数据才稳定。这文章让我反思：以往总把泛化差归咎于SFT本身，其实是没满足条件。想问大家：1）长链SFT的“先降后升”是否可能与模型内部表征的重新组织有关？2）在资源受限场景下，如何量化“优化充分性”以避免过拟合？行业趋势上，我认为这项研究可能推动后训练微调从玄学走向可解释的工程框架，尤其对中小团队，理解条件比盲目堆数据更关键。