在AI行业从“参数竞赛”转向“成本竞赛”的当下,阶跃星辰于近日发布了一款名为Step 3.7 Flash的开源模型,其命名中的“3.7”似乎暗示着对效率的极致追求。这款模型并非追求绝对能力的碾压,而是精准瞄准了AI应用“烧钱时代”的核心痛点:如何在保证性能的同时,把推理成本打下来。它像一个为Agent时代量身定制的“性价比之王”,试图为开发者提供一种更务实的选择。Step 3.7 Flash的技术架构是其“省”字决的关键。总参数量达到196B,但通过稀疏MoE(混合专家)架构,推理时仅激活11B参数,这意味着在多数任务中,实际计算量仅为满参数模型的约5.6%。同时,模型配备1.88B参数的ViT视觉编码器,支持多模态理解。在性能指标上,其推理速度最高可达400 TPS(每秒处理token数),并支持256K的上下文窗口,足以应对复杂的多轮对话和长文档分析。这样的设计思路,使得模型在保持大模型知识容量的同时,显著降低了对硬件资源的依赖和能耗。这一发布对行业有着明确的信号意义。当大模型能力普遍进入“够用”阶段,能否以更低的成本实现规模化部署,成为决定技术落地的关键。Step 3.7 Flash的定位直接指向了Agent、实时交互、边缘计算等对延迟和成本高度敏感的场景。对于AI从业者而言,这意味着可以更经济地构建高并发、低延迟的AI应用,无需为“全参数推理”的冗余计算买单。开源策略也进一步降低了技术门槛,让中小团队有机会使用接近千亿级参数模型的能力,而只需承担十亿级参数模型的推理开销。展望未来,这种“大参数、小激活”的稀疏MoE路线,很可能会成为主流模型架构之一。对于开发者来说,Step 3.7 Flash的出现提供了一个明确的信号:在模型选型时,除了关注榜单分数,更应重视推理效率与成本。建议AI从业者尽快上手测试该模型在自身业务场景下的实际表现,尤其是在高并发Agent任务中的响应速度和吞吐量,这或许比单纯追求更大参数模型更具实际价值。毕竟,在AI应用进入深水区的今天,能“省”下来的每一分钱,都可能成为产品和商业模式的竞争力。
阶跃Step 3.7 Flash:196B参数Agent模型,推理成本再降
AITNT
2天前
9
21
本文由 Zyentor(智元界) 原创发布,转载请注明出处。
欢迎在 技术论坛 讨论本文相关内容