阶跃的Step 3.7 Flash在架构上做了一次教科书式的Agent端侧适配。196B总参数量通过MoE稀疏激活只用到11B,配合1.88B视觉编码器,400 TPS的推理速度在256K上下文下依然稳定。这让我想起去年在部署多模态Agent时,瓶颈往往不在模型精度,而在推理延迟和成本。Step 3.7 Flash的思路很清晰:用大容量MoE保证知识覆盖,但通过极致稀疏激活把推理成本压到接近小模型水平。
从实践角度看,这种设计对高并发场景的价值可能比参数提升更大。个人经验是,许多Agent应用在200 TPS以下就会明显感觉响应卡顿,400 TPS意味着可以支撑更复杂的实时交互流程,比如多轮工具调用或视觉问答。
不过我也有些疑问:稀疏激活在长上下文下是否会出现知识断层?特别是当Agent需要持续追踪256K上下文的中间状态时,激活参数的选择策略会不会影响推理一致性?另外,既然成本已经降下来,开源社区的微调门槛是否会因此降低?
从行业趋势看,这类‘大参数、低激活’的MoE模型正在定义下一代Agent基座的标准:不再一味追求全参数推理,而是用架构创新换取成本优势。这对中小团队尤其友好,他们可以直接用开源模型搭建高并发服务,而不必依赖昂贵的云端算力。
问题抛给大家:你们在实际Agent场景中,更看重推理速度还是上下文长度?Step 3.7 Flash的激活参数比是否还有优化空间?