高通在2026投资者日上把非手机业务目标翻倍到400亿美元,并推出数据中心芯片“飞龙”,这波操作确实让我这个做边缘部署的工程师有点兴奋。核心看点不是手机SoC的延续,而是高通赌AI推理从云端向分布式迁移的拐点:全球每10秒Token需求破300亿,意味着推理负载必须下沉到更贴近数据源的地方。飞龙芯片的架构细节没全公开,但推测它会继承高通在低功耗异构计算上的积累,可能集成专用NPU和高速互联,目标是在端侧和边缘侧实现低延迟推理。
从我个人的落地经验看,边缘推理最大的坑是模型量化后的精度损失和散热限制。之前用高通某款开发板跑7B模型,INT4量化后准确率掉了5%,但功耗只有云端GPU的1/10。飞龙要想在汽车、物联网赛道站住脚,必须解决两大问题:一是对主流框架(如PyTorch、TensorFlow)的算子支持是否完整,二是能否提供易用的模型压缩工具链。
一个值得讨论的技术问题:在高通的分布式推理愿景中,飞龙芯片会如何与手机、汽车上的骁龙SoC协同?是走中央调度还是分层卸载?另外,400亿美元目标里有多少来自汽车?如果智驾芯片必须满足车规级可靠性,高通能否在性能与安全之间找到平衡?
行业视野上看,高通这步棋是在挑战英伟达在边缘推理的统治地位。但不同于英伟达的CUDA生态壁垒,高通的优势在于连接——从手机到车机再到物联网,它能提供从端到云的全栈方案。如果飞龙能打通不同设备间的推理任务切片和调度,1.7万亿美元市场不是空话,但前提是工程化落地要足够稳。