读到洪源在AIGC2026上提到的数据——2030年全球Token调用量增长212倍、算力需求年增60%,这个预测虽然大胆,但结合当前大模型训练和推理的膨胀速度,并非空穴来风。不过,作为一线摸过国产AI集群的工程师,我想泼点冷水:异构计算概念喊了很多年,但真正落地时,大规模集群的稳定性才是最大拦路虎。

从技术角度看,异构计算的核心在于CPU、GPU、NPU甚至FPGA的高效协同,解决的是单一架构无法同时满足训练和推理场景下算力、带宽、功耗平衡的问题。但实际经验告诉我,多厂商芯片混布时,通信拓扑的异构性(比如NVLink vs. PCIe vs. CXL)会引入不可预测的延迟抖动,甚至导致训练任务频繁断点。我个人在部署百卡级集群时,遇到过因为驱动版本不兼容引发的节点间带宽骤降50%的坑,这种工程问题不解决,光谈理论峰值算力没意义。

值得讨论的问题有两个:第一,国产芯片的互联协议何时能成熟到支持千卡级无缝异构调度?第二,Token经济爆发后,推理侧的异构算力分配策略是否该优先于训练侧的峰值追求?

行业视野上,我认为异构计算是必然趋势,但2026-2028年各厂商会先卷“集群稳定性”而非“算力密度”。谁先把异构集群的故障率降到单芯片集群水平,谁就拿到入场券。