当Uber的5000名工程师在短短4个月内烧光全年AI预算,当微软紧急叫停Claude Code许可证以止血,一个残酷的现实摆在AI行业面前:天价Token正在反噬硅谷。高盛最新报告给出惊人预测,到2030年,Agent每月消耗的Token将达到120千万亿个,增长24倍。这不再是技术瓶颈,而是经济账本上的生死线。就在此时,一家中国AI芯片公司墨芯人工智能完成近10亿元C轮融资,用稀疏计算为这场算力危机提供了新解法。
AI推理成本飙升的根源,在于技术架构与落地场景的三大错配。第一,Agent需要循环思考,从规划到执行再到反思,每一轮都调用大模型,7×24小时运转,一个Agent一天调用API上万次,远超人类员工的交互频率。第二,多模态让推理体积暴涨,一张图几千Token,一段60秒视频几十万Token,一次基因测序分析可能消耗上百万Token,而GPT-4o和Gemini已成行业标配。第三,长上下文窗口是一把双刃剑,Transformer的自注意力计算量呈O(n²)增长,上下文长度翻10倍,计算量翻100倍。这些错配叠加,让AI的思考方式变得异常昂贵。
墨芯人工智能的C轮融资阵容堪称重磅,深创投、岩山科技、大湾区共同家园、力鼎资本、蕴盛资本等产业资本和国资机构齐聚,凯旋创投、华大松禾天使基金、创享投资、盛景嘉成等老股东持续加码。这种多元股东结构释放出明确信号:稀疏计算正从算力演进的“可选项”蜕变为“必选项”。稀疏计算的核心思想是让AI只激活必要的神经元和权重,而非全量计算,从而大幅降低算力需求。墨芯深耕这一技术路线长达八年,从技术验证走向产业爆发,其新一代算力芯片计划年内亮相。
纯靠堆卡和卷制程的边际效应已越来越弱,谁能用更聪明的方式榨干每个晶体管的价值,谁就能拿到下一张入场券。稀疏计算不是让AI算得更少,而是算得更聪明,它有望将推理成本降低一个数量级。对于AI从业者而言,关注稀疏计算等新型架构的落地进展,或许比追逐参数规模更有实际意义。毕竟,当Token成为新时代的石油,如何高效开采和利用,才是决定产业走向的关键。墨芯的融资和产品规划,为这场算力竞赛提供了一个值得持续跟踪的样本。