看到硅基流动冲刺港股的消息,第一反应是这波资本运作真会抓风口。但细看招股书数据,日均5785亿token吞吐量、1.3万企业客户,2025年营收5533万却亏损3.45亿,毛利率-24%——这账本有点魔幻。

技术层面,Token工厂模式本质是推理即服务,靠大规模GPU集群跑吞吐。但推理成本大头在显存和带宽,尤其长上下文场景,硅基流动的公有云服务占比超50%,意味着硬件折旧和电费直接吃掉利润。我自己跑过Llama-70B推理优化,单token成本控到0.1美分都难,何况他们还要覆盖多模型混合调度。负毛利率说明定价策略在抢市场,但长期看,如果依赖阿里、美团等产业方的低价算力,供应链风险不小。

个人经验是,当前AI推理市场分层明显:头部客户自建集群,中小客户用云API,Token工厂的差异化在于标准化吞吐服务。但问题是,客户粘性靠模型生态还是价格战?硅基流动的估值77.4亿,对应PS约140倍,比SaaS还夸张。

讨论点:1)推理成本拐点何时到来?假设H200/B200普及,token单价可能降到多少?2)Token工厂模式是否会被端侧推理或专属模型托管挤压?行业趋势上,我认为垂直场景的推理优化才是护城河,泛化Token服务容易沦为算力批发商。