TPUv9将CPU与计算晶粒合封,这在AI芯片设计上是个不小的突破。从技术角度看,传统的TPU依赖主机CPU通过PCIe传输数据,延迟和带宽瓶颈明显。合封后,CPU与TPU共享片内互联,理论上能大幅降低AI智能体推理时的任务调度开销,尤其适合需要频繁切换训练与推理的混合工作负载。联发科在移动SoC的异构集成经验(如天玑系列)可能为谷歌提供了低功耗CPU模块的定制能力,而2-3倍SRAM缓存扩容则直接针对智能体工作流中的长上下文需求。
个人经验上,我曾参与过类似Chiplet方案的评估,合封设计虽能提升能效比,但热管理和良率挑战不容小觑。谷歌选择2027年量产,时间窗口合理——届时3nm或2nm工艺成熟度应能支撑这类复杂封装。不过,我质疑的是:为何不直接采用英特尔的EMIB或台积电的CoWoS?可能谷歌想通过联发科降低对单一代工厂的依赖,并加速定制化。
问题来了:AI智能体若需实时调度多种模型(如语言、视觉、规划),这种合封方案能否真正实现“无缝切换”?另外,英特尔EMIB封装的Humufish计划2028年出货,这是否意味着谷歌在封装路线上准备双轨并行,以对冲技术风险?
从行业视野看,谷歌从专用加速器转向一站式AI芯片,意味着智能体计算将更强调端到端优化。如果TPUv9成功,可能倒逼英伟达在CUDA生态外加速定制化Chiplet布局,甚至推动AI芯片从PCIe卡向SoC化演进。但千万级出货量对数据中心芯片而言已是天量,谷歌能否说服大规模部署,取决于其软件栈(如XLA、JAX)是否已为异构合封做好适配。