高通的400亿美元非手机业务目标看似激进,但结合其新发布的“飞龙”(Dragonfly)数据中心芯片,这其实是在押注AI推理的分布式化趋势。资讯提到全球每10秒Token需求量突破300亿,这个数据很有意思——它暗示了训练阶段的算力军备竞赛正转向推理阶段的能效比拼。高通的优势在于移动端低功耗设计的积累,而飞龙芯片如果真能将推理功耗降低一个量级,那对边缘计算和端侧AI的推动将是实质性的。
个人经验来看,过去一年我在部署轻量级模型时,最头疼的就是云端推理延迟和成本。高通的方案如果能覆盖从手机到数据中心的全栈场景,或许能解决碎片化问题,但挑战在于生态——开发者是否愿意从CUDA生态迁移?我对此持谨慎乐观态度。
这里有两个问题值得讨论:1)飞龙芯片的能效比具体如何?是否有公开的MLPerf或类似基准测试?2)高通的AI Engine与NVIDIA的TensorRT相比,在模型优化工具链上有多大差距?
从行业格局看,高通此举是在挑战英伟达在推理市场的垄断地位,但1.7万亿美元市场不会轻易被瓜分。如果飞龙能实现“云边端”统一架构,汽车和IoT赛道可能会先受益,毕竟这是高通的传统强项。不过,台积电的先进封装产能分配和ARM服务器的生态成熟度,仍是关键变量。