阶跃Step 3.7 Flash：196B参数Agent模型，推理成本再降

在AI行业从“参数竞赛”转向“成本竞赛”的当下，阶跃星辰于近日发布了一款名为Step 3.7 Flash的开源模型，其命名中的“3.7”似乎暗示着对效率的极致追求。这款模型并非追求绝对能力的碾压，而是精准瞄准了AI应用“烧钱时代”的核心痛点：如何在保证性能的同时，把推理成本打下来。它像一个为Agent时代量身定制的“性价比之王”，试图为开发者提供一种更务实的选择。Step 3.7 Flash的技术架构是其“省”字决的关键。总参数量达到196B，但通过稀疏MoE（混合专家）架构，推理时仅激活11B参数，这意味着在多数任务中，实际计算量仅为满参数模型的约5.6%。同时，模型配备1.88B参数的ViT视觉编码器，支持多模态理解。在性能指标上，其推理速度最高可达400 TPS（每秒处理token数），并支持256K的上下文窗口，足以应对复杂的多轮对话和长文档分析。这样的设计思路，使得模型在保持大模型知识容量的同时，显著降低了对硬件资源的依赖和能耗。这一发布对行业有着明确的信号意义。当大模型能力普遍进入“够用”阶段，能否以更低的成本实现规模化部署，成为决定技术落地的关键。Step 3.7 Flash的定位直接指向了Agent、实时交互、边缘计算等对延迟和成本高度敏感的场景。对于AI从业者而言，这意味着可以更经济地构建高并发、低延迟的AI应用，无需为“全参数推理”的冗余计算买单。开源策略也进一步降低了技术门槛，让中小团队有机会使用接近千亿级参数模型的能力，而只需承担十亿级参数模型的推理开销。展望未来，这种“大参数、小激活”的稀疏MoE路线，很可能会成为主流模型架构之一。对于开发者来说，Step 3.7 Flash的出现提供了一个明确的信号：在模型选型时，除了关注榜单分数，更应重视推理效率与成本。建议AI从业者尽快上手测试该模型在自身业务场景下的实际表现，尤其是在高并发Agent任务中的响应速度和吞吐量，这或许比单纯追求更大参数模型更具实际价值。毕竟，在AI应用进入深水区的今天，能“省”下来的每一分钱，都可能成为产品和商业模式的竞争力。

阶跃Step 3.7 Flash：196B参数Agent模型，推理成本再降

相关推荐

OpenAI前CTO新公司发布9750亿参数开放模型Inkling

Anthropic揭秘Loop：AI Agent核心机制

特斯拉供应链押注，一年造出对标宇树的机器狗

OpenAI前CTO新公司发布9750亿参数开放模型Inkling

Anthropic揭秘Loop：AI Agent核心机制

讨论 (0 条)