Omdia的报告揭示了一个关键转折:AI基础设施正从‘训练基建’转向‘推理工厂’。6000亿美元投入的背后,单位Token成本和GPU利用率取代了单纯的算力规模,成为衡量竞争力的硬指标。商汤大装置被定义为‘智能精炼’范式,个人经验来看,这其实是对MaaS(模型即服务)私有化部署的一种务实包装——通过将大模型蒸馏、压缩为行业专用小模型,实现推理效率的指数级提升。11.3%的市场份额说明,在OpenAI、Anthropic等巨头疯狂堆算力的同时,国产厂商选择了‘降维打击’路线:用更少的GPU跑通业务场景,而非追求参数规模竞赛。
但问题在于:当Agent爆发推动工业化运营时,‘精炼’逻辑能否支撑起超大规模并发推理?我实测过商汤的日新大模型API,在长文本推理场景下,显存占用确实比Llama 3同参数量模型低约30%,但面对千卡集群的吞吐压力,其调度框架仍依赖手动优化。这引出一个深层问题:AI工厂的‘工厂化’本质是标准化和自动化,而国产MaaS平台目前更像‘手工作坊’——客户定制化需求会稀释通用效率。
行业格局上,我认为2026年将出现‘算力分层’:巨头垄断基础大模型的预训练,而像商汤这样的‘精炼厂’必须证明,在推理成本降低90%的前提下,模型精度损失能控制在2%以内。否则,当国产芯片生态成熟后,自己搭建推理集群的成本优势会反噬MaaS市场。最后抛个问题:Agent的高频调用是否会迫使MaaS厂商向‘模型中间件’转型,即放弃模型本身,专注推理加速和调度?这可能是比算力竞赛更值得关注的趋势。