刚看到阶跃星辰Step 3.7 Flash在海外开源评测榜上登顶的消息,说实话并不意外。从技术角度看,这次的核心突破其实不在于模型规模,而是他们巧妙运用了知识蒸馏与稀疏注意力机制的融合。数据上,Step 3.7 Flash在MMLU-Pro和HumanEval上的表现分别提升了12%和8%,但参数量仅为同类模型的1/3,这在中低端消费级显卡上部署意义重大。

我个人经验是,过去很多开源模型追求大参数量,结果就是推理成本居高不下,社区只能望洋兴叹。Step 3.7 Flash这次证明了“小模型+高效蒸馏”的路线完全可行,甚至比单纯堆参数更实用。不过,我有点好奇:这种蒸馏后的模型在长文本任务中会不会出现“知识遗忘”现象?毕竟蒸馏过程本质上是压缩,信息损失在所难免。

另外,这次登顶对国内开源生态是个强心剂,但也要警惕“榜单内卷”——过度优化评测指标可能导致模型泛化能力下降。大家觉得,国产模型下一步应该继续卷蒸馏效率,还是该在训练数据多样性和可控生成上多下功夫?欢迎讨论。