Token工厂上市潮：硅基流动的亏损账本暴露了行业致命短板

硅基流动冲刺港股，表面看是AI基础设施的胜利，但仔细拆解招股书数据，我发现几个值得深挖的技术和商业问题。截至2026年4月，日均5785亿token吞吐量、服务1.3万企业客户，这数字确实亮眼，但2025年营收仅5533万元，意味着每万亿token收入不到1万元——这价格在推理市场上基本是“白菜价”。更扎心的是毛利率转负至-24%，亏损3.45亿，说明公有云服务（占比超50%）的算力成本完全没被定价覆盖，典型的“赔本赚吆喝”。

从我个人的工程实践来看，Token工厂模式的核心矛盾在于：GPU集群的利用率与延迟要求之间很难平衡。实测中，为了支撑低延迟推理（比如对话场景），必须预留大量冗余算力，导致平均利用率常低于40%。硅基流动的数据佐证了这一点——日均吞吐量虽高，但成本结构显示其固定成本摊销压力巨大。

更关键的是，企业客户对API的定价敏感度极高。很多客户只愿意为“调用量”付费，不愿意为“预留容量”买单，这迫使平台长期处于价格战状态。阿里、美团等产业方虽然入股，但它们的内部推理需求可能优先走自家云，硅基流动只能吃“剩饭”。

抛两个问题：1. 当token定价逼近硬件成本线时，纯推理服务商如何靠技术优化（如量化、稀疏化）实现正向毛利率？2. 是否必须绑定大模型厂商（如DeepSeek、智谱）才能获得独占流量，避免沦为“卖水人”？

行业趋势上，我认为Token工厂模式会倒逼GPU-as-a-Service生态整合，但短期看，除非硅基流动能自研推理芯片或拿到超低价算力（比如利用闲置H100），否则亏损窟窿很难填平。它更像是AI泡沫期的“基础设施试验品”，对技术选型和成本模型的启示远超其商业前景。

请登录后发表回复

全部回复

共 3 条

B Ben_55 L1

2楼 1小时前

这个分析真挺到位的，我最近也在跑推理部署，确实发现为了压延迟，GPU得留不少余量，利用率上不去成本就下不来。想请教下，你们实际场景里一般把目标延迟压到多少毫秒，才会明显感觉算力成本压不住了？

孤孤帆_敏 L1

3楼 1小时前

这个招股书数据我看着也挺揪心的。每万亿token不到1万的收入，老实说我们团队去年做推理成本核算的时候，自己搭的集群光电费加折旧摊下来都不止这个数，更别说还要算上运维人力。硅基这个定价策略感觉就是在拿现金流换市场份额，但问题是这个市场到底能不能撑起这么大规模的烧钱。

你说那个利用率跟延迟的矛盾我太有同感了。我们之前给一个金融客户做实时风控推理，要求P99延迟低于50ms，结果为了保这个指标，GPU利用率死活上不去，最高也就30%出头。后来我们试着把非实时任务（比如批量数据清洗）混部上去，利用率倒是能拉到60%以上，但一旦遇到流量尖峰，延迟直接崩。说白了，现在的推理引擎和调度框架对动态混部支持还是太弱，像vLLM那些虽然进步很大，但离真正弹性利用算力还有距离。

我个人觉得，Token工厂要破局，光靠优化模型推理不够，还得在算力编排上做文章。比如能不能把不同延迟要求的任务按微批次动态切分，或者用更细粒度的GPU虚拟化技术。另外硅基这个公有云占比超50%的结构，是不是可以考虑学一些AI Infra公司，把私有化部署和边缘节点也铺起来，用高毛利项目养低毛利流量？不然照这个亏损速度，上市圈的钱也撑不了几个季度。

天天涯-飞鸟 L1

4楼 47分钟前

这个数据拆解得真够狠的，每万亿token不到1万块钱，这价格别说赚钱了，连电费都不一定够。我也一直在观察硅基流动的路线，他们其实踩了一个很多做infra的人都会忽略的坑：把GPU集群当成传统服务器资源在卖，但推理场景的碎片化程度远超想象。

你说到延迟和利用率的矛盾，太有同感了。我去年帮一个客户搭过类似的推理服务，为了把吞吐量堆上去，不得不牺牲一部分长尾模型的并发，结果客户投诉响应时间从200ms飙到1.5s。后来发现，很多企业客户嘴上说要低延迟，实际业务里真正要求毫秒级的场景可能不到10%，剩下的完全可以走批量排队。但硅基流动这种平台没法这么精细化管理，只能一刀切预留冗余，成本自然就崩了。

另外我好奇的是，他们的毛利率转负是不是跟GPU型号绑定的太死有关系？很多云厂商现在都在推混合部署，把H100和A100混跑，甚至用一些国产卡做冷数据缓存。如果硅基流动的招股书里没提这种弹性调度方案，那公有云那50%的营收基本就是纯亏的。我猜他们下一步要么做模型蒸馏定制化，要么就得学那些MaaS厂商搞“算力+模型”打包卖，光靠token吞吐量讲故事，资本市场的耐心怕是撑不了多久。

Token工厂上市潮：硅基流动的亏损账本暴露了行业致命短板

全部回复

Prompt 专区

热门帖子

Tom-55 的其他帖子