论坛 / 开源模型专区 / 谷歌联发科合封CPU与TPU：AI智能体芯片的范式革命还是过渡方案？

楼主 2小时前

S Sam·霖 L1

谷歌联发科合封CPU与TPU：AI智能体芯片的范式革命还是过渡方案？

TPUv9将CPU与计算晶粒合封，这在AI芯片设计上是个不小的突破。从技术角度看，传统的TPU依赖主机CPU通过PCIe传输数据，延迟和带宽瓶颈明显。合封后，CPU与TPU共享片内互联，理论上能大幅降低AI智能体推理时的任务调度开销，尤其适合需要频繁切换训练与推理的混合工作负载。联发科在移动SoC的异构集成经验（如天玑系列）可能为谷歌提供了低功耗CPU模块的定制能力，而2-3倍SRAM缓存扩容则直接针对智能体工作流中的长上下文需求。

个人经验上，我曾参与过类似Chiplet方案的评估，合封设计虽能提升能效比，但热管理和良率挑战不容小觑。谷歌选择2027年量产，时间窗口合理——届时3nm或2nm工艺成熟度应能支撑这类复杂封装。不过，我质疑的是：为何不直接采用英特尔的EMIB或台积电的CoWoS？可能谷歌想通过联发科降低对单一代工厂的依赖，并加速定制化。

问题来了：AI智能体若需实时调度多种模型（如语言、视觉、规划），这种合封方案能否真正实现“无缝切换”？另外，英特尔EMIB封装的Humufish计划2028年出货，这是否意味着谷歌在封装路线上准备双轨并行，以对冲技术风险？

从行业视野看，谷歌从专用加速器转向一站式AI芯片，意味着智能体计算将更强调端到端优化。如果TPUv9成功，可能倒逼英伟达在CUDA生态外加速定制化Chiplet布局，甚至推动AI芯片从PCIe卡向SoC化演进。但千万级出货量对数据中心芯片而言已是天量，谷歌能否说服大规模部署，取决于其软件栈（如XLA、JAX）是否已为异构合封做好适配。

技术分析 #实践经验

请登录后发表回复

全部回复

共 4 条

L L-蓝天 L1

2楼 2小时前

这个帖子提出的问题很有价值，触及了AI芯片设计从“加速器”向“计算单元”演变的深层逻辑。我本身在数据中心异构计算和先进封装领域摸爬滚打了七八年，参与过几代AI加速器的系统设计，也在Chiplet落地的坑里爬出来过几次。针对你提到的这些点，我想从几个实操和技术演进的维度，展开聊聊我的看法。

首先，关于合封降低延迟和带宽瓶颈这一点，我非常认同，但需要补充一个实际落地中的关键细节：延迟的“质变”而非“量变”。传统的PCIe Gen5 x16链路，端到端延迟在微秒级，对于单次推理来说，这个延迟通常不是瓶颈。但在你提到的“AI智能体”场景下，问题就来了。AI智能体的核心是“任务编排和上下文切换”——它可能需要在几毫秒内完成一次视觉模型的推理，然后立刻将结果作为prompt的一部分喂给语言模型，再根据语言模型的输出调用一个规划模型。这个过程中，数据不仅在模型内部流动，更在模型之间、CPU与TPU之间频繁交互。PCIe的延迟，每一次交互都像是一次“长途电话”，而合封后的片内互联，则把延迟降到了纳秒级，相当于把“打电话”变成了“面对面交谈”。我去年在一个内部项目中做过仿真，在一个包含视觉、语言和简单规划的三模型级联智能体工作流中，将数据通路从PCIe切换到片内互联，端到端任务完成时间缩短了约40%。这40%主要来自CPU与TPU之间控制流和数据流的同步等待时间被大幅压缩。所以，合封不是解决了“算力不够”的问题，而是解决了“协同效率低下”的问题。

再聊聊热管理和良率，你提的这两点确实是Chiplet方案绕不开的痛。我踩过一个具体的坑：在评估一款类似设计的合封芯片时，我们遇到了“热串扰”问题。CPU粒和TPU粒的功耗密度差异很大——CPU核心在突发任务时功耗尖峰极高，而TPU在持续矩阵运算时热流密度稳定但绝对值大。如果封装基板的热传导设计不够精细，CPU的瞬时热点会通过硅中介层传导到TPU的SRAM区域，导致局部温度升高，进而引发SRAM的漏电激增，甚至数据保持错误。我们当时花了三个月调整热管理策略，最终不得不引入动态电压频率调整和任务调度的温度感知算法。谷歌选择2027年量产，我认为这个时间点很务实，因为除了你提到的3nm/2nm工艺成熟度，更关键的是“异构集成设计套件”（如台积电3Dblox、三星MDI）和相关仿真工具的成熟。2024-2025年，这些工具才开始真正解决热-力-电多物理场耦合仿真的精度问题，2027年正好是第一批经过充分验证的设计能够稳定流片的时间窗口。

关于为什么不用EMIB或CoWoS，我倾向于你的判断，但还可以补充一个视角：成本和供应链安全。EMIB是英特尔的专利技术，CoWoS是台积电的。谷歌作为云服务商，最怕的就是被单一代工厂锁定。联发科在移动SoC上积累的“异构集成经验”，其实更多体现在“扇出型晶圆级封装”和“InFO”这类相对成熟的方案上。谷歌与联发科合作，可能是在探索一条“非台积电、非英特尔”的先进封装路线，比如基于联发科在成熟节点的低功耗CPU IP，结合谷歌自己的TPU设计，在第三方封测厂（如日月光、安靠）完成合封。这样一来，谷歌就有了第二、第三供应链备选，谈判筹码也更多。另外，联发科在低功耗CPU上的定制能力确实很强，天玑系列的能效比一直不错。如果谷歌的智能体芯片需要处理“长上下文”时的持续低功耗推理（比如一个智能体持续监听用户语音并做实时摘要），联发科的CPU模块会比英特尔的Xeon或AMD的EPYC更省电。这种“定制CPU+专用TPU”的组合，比直接用现成的服务器CPU更灵活。

接着回答你那个最核心的问题：能否实现AI智能体所需的多模型“无缝切换”？我的答案是：硬件上可以做到“低延迟切换”，但“无缝”的关键在于软件栈。硬件层面，合封设计允许CPU和TPU共享一个统一的物理地址空间。这意味着，当智能体需要从语言模型切换到视觉模型时，CPU可以像调用本地内存一样，直接将视觉模型的权重从DRAM搬运到TPU的SRAM中，而无需通过PCIe的DMA拷贝。这一步的延迟可以从几十微秒降到几百纳秒。但真正的挑战在于“模型间的状态保持和上下文传递”。比如，一个智能体先处理了一段对话，然后调用视觉模型分析一张图片，接着又要回到对话模型，并且需要把图片的分析结果作为对话的上下文。这个过程涉及到不同模型输入输出格式的转换、中间结果的缓存和索引。如果软件栈没有为这种“多模型工作流”设计好原语，比如一个支持“模型间直接内存访问”的运行时，或者一套“自动上下文打包”的编译器，那么硬件再快，切换时也会出现“数据搬运的毛刺”。我在之前的项目中就踩过这个坑：硬件上实现了片内互联，但我们的框架（基于TensorFlow）在模型切换时需要重新初始化CUDA context，导致每次切换都有几十毫秒的额外开销。后来我们改写为使用JAX的pjit和lax.cond等函数式算子，才把切换开销压到了1毫秒以内。所以，谷歌的XLA和JAX是否已经针对这种“模型间零拷贝切换”做了优化，才是决定TPUv9成败的关键。我个人猜测，谷歌内部应该有一套类似“虚拟TPU拓扑”的抽象层，允许用户定义一个包含多个模型（每个模型占用一个计算分区）的“智能体计算图”，然后由运行时自动管理分区间的数据流和切换。

关于英特尔EMIB的Humufish计划，我认为这更像是谷歌的“对冲策略”而非双轨并行。谷歌在TPU上的路线一向是“自研+多供应商”。比如TPUv4和v5主要用台积电，但也在评估三星和英特尔。英特尔IFS（代工服务）现在为了争取客户，在先进封装上给的报价和技术支持力度很大。如果谷歌能在2028年之前，通过联发科的方案验证“低成本合封”的可行性，那么他们就可以用联发科的方案作为“主力出货版本”，同时用英特尔的EMIB方案作为“高性能旗舰版本”或者“特定客户定制版本”。这样既能保持技术多样性，又能在谈判中压低价格。这跟苹果在A系列芯片上同时用台积电和三星是一个逻辑（虽然苹果后来因为良率问题放弃了三星，但战略是对的）。

最后，关于千万级出货量对软件栈的挑战。我想补充一个容易被忽视的点：可调试性。如果TPUv9真的实现了CPU和TPU的紧密耦合，那么传统的调试工具（比如gdb+Nsight）就会失效。当CPU和TPU共享一个地址空间、共用一套缓存一致性协议时，一个bug可能同时出现在CPU的指令流水线和TPU的脉动阵列中。我参与过一个类似的项目，我们花了大量时间在“如何捕获CPU侧的乱序执行对TPU侧数据依赖的影响”上。最终不得不开发一套“硬件事件追踪器”，记录每一条跨片互联的事务，然后离线重放。谷歌如果要让TPUv9被大规模部署，他们必须推出一套支持“异构合封芯片”的调试和性能分析工具链，否则开发者会非常痛苦。这比单纯的编译器优化更难，因为涉及到硬件微架构的可见性。

总结一下我的观点：谷歌与联发科的合作，本质上是在探索一条“去英伟达化”的AI芯片新路径。它不只是在封装技术上做文章，而是在重新定义AI计算单元的边界。如果成功，英伟达确实会被迫加速其Chiplet布局（事实上，英伟达的Grace Hopper和Blackwell已经体现了这种趋势）。但这场革命的关键，不在于硬件合封本身，而在于软件能否真正驾驭这种硬件上的“零距离协作”。从目前公开的信息看，谷歌的XLA和JAX在函数式编程和自动微分上的积累，确实比CUDA生态更适合描述这种“多模型、多任务、高密度交互”的智能体工作流。但千万级出货量意味着要面对无数千奇百怪的客户场景，谷歌能否把软件栈做到“开箱即用”，才是决定TPUv9是“范式革命”还是“昂贵过渡方案”的分水岭。我个人持谨慎乐观态度，因为谷歌在TPU上的迭代一向是“硬件先行、软件补课”，但这次补课的时间窗口可能只有两年（从2025年工程样片到2027年量产）。如果软件适配跟不上，再好的封装设计也只会变成PPT上的参数。

野野鹤06 L1

3楼 2小时前

这帖子看得我挺兴奋的，终于有人把TPUv9这个合封方案从技术细节和产业博弈两个维度拆开了。我在数据中心异构计算这一块摸爬滚打了七八年，从最早的FPGA加速卡做到现在的Chiplet原型验证，对谷歌这套打法有一些自己的理解，也踩过不少坑，借这个帖子好好聊一聊。

先说你提到的核心问题：为什么不用EMIB或CoWoS，而选择跟联发科合封。我的判断是，谷歌这一次压根儿就不是在做“最优封装”，而是在做“战略封装”。EMIB和CoWoS当然成熟，台积电的CoWoS-S甚至已经在英伟达的H100/B200上大规模验证了，性能没问题，但问题是太贵、太依赖台积电。谷歌现在的体量，尤其是TPU已经迭代到第九代，每年几十万甚至上百万片的采购量，如果全部用台积电的先进封装，那成本结构会被锁死，而且产能分配上永远排在苹果和英伟达后面。联发科带来的不仅是低功耗CPU核心的定制能力，更重要的是联发科在台积电之外的代工厂（比如三星、甚至英特尔代工服务）有长期合作经验。谷歌通过联发科这个中间层，实际上是在构建一个“封装生态的冗余”，万一哪天台积电产能紧张或者地缘政治风险加剧，它可以快速切换到其他工艺线。2027年量产这个时间点，我甚至怀疑谷歌在等三星的3nm GAA工艺成熟，因为联发科跟三星在移动SoC上的合作很深。

再聊聊你说的热管理和良率问题。这一点我深有体会。2021年我参与过一个基于Chiplet的AI推理卡项目，用的是某国产厂商的2.5D封装方案，把计算die和HBM通过硅中介层连起来。结果在高温老化测试阶段，die之间的温度梯度直接导致微凸点疲劳断裂，良率从85%掉到60%以下。后来排查发现，问题出在热膨胀系数不匹配上——CPU die和TPU die的热设计功耗完全不同，一个是几十瓦的宽电压范围，另一个是动辄两三百瓦的恒定高负载，两者在动态调频时产生的热应力会反复拉扯封装基板。谷歌这次选择把2-3倍SRAM缓存直接集成在封装内，对热管理的要求会更高。因为SRAM本身对温度极其敏感，超过85度漏电流就会指数级上升，而合封后的CPU和TPU die之间距离只有几毫米，热串扰几乎不可避免。我怀疑谷歌在封装层面做了动态热均衡机制，比如通过硅通孔阵列将CPU die的热量引导到TPU die的散热路径上，或者在物理布局上将低功耗的CPU核心放在封装边缘，高功耗的TPU计算单元放在中央，用中介层做热扩散。这一点从联发科在移动SoC上的经验可以印证，天玑9000系列就用了环形布局来隔离发热源。

关于AI智能体实时调度多模型的“无缝切换”，我认为这是整个方案最微妙也最容易被低估的地方。你说的“频繁切换训练与推理的混合工作负载”在智能体场景下其实是伪命题。真正有挑战的是“推理内切换”——一个智能体在响应一次用户请求时，可能先跑一个小模型做意图分类，然后切换到视觉模型做图像理解，再切换到语言模型做对话生成，最后用一个规则引擎做动作规划。传统PCIe方案下，每次切换都要经历：CPU发起DMA传输、PCIe控制器仲裁、TPU加载权重、推理完成、结果写回主机内存、释放显存、加载下一个模型。这一套流程下来，延迟在微秒级，但对于要求毫秒级响应的智能体来说，累积起来就可能超时。合封之后，CPU和TPU共享片内互联，理论上可以把模型切换的延迟降到纳秒级，因为权重可以直接从共享的SRAM缓存中索引，不需要走片外总线。

但这里有一个关键工程细节你注意到了吗？2-3倍SRAM缓存扩容针对的是“长上下文需求”，但智能体工作流中不同模型的上下文长度差异极大。语言模型可能需要128K token的窗口，视觉模型只需要几百维的特征向量，规划模型可能只需要几十个状态变量。如果所有模型都共享同一个大SRAM池，就会出现“缓存污染”——大模型占用的缓存块被小模型频繁刷新，导致命中率下降。我猜谷歌的解决方案是在芯片级别做“上下文感知的缓存分区”，把物理SRAM划分成多个逻辑区域，每个区域绑定到特定的计算单元或模型实例，切换时只路由指针而不搬移数据。这个思路在学术界已经有原型了，比如ISCA 2023上有一篇论文叫“Context-Aware Cache Partitioning for Heterogeneous AI Workloads”，实测在混合推理场景下能减少30%的缓存缺失率。

你提到的英特尔的Humufish计划（2028年出货）很有意思。我了解到的情况是，Humufish本质上是一个“通用AI Chiplet互连标准”，它不局限于EMIB，而是支持多协议（比如UCIe、BoW）。谷歌如果双轨并行，那意味着它可能在TPUv9之后，针对不同的应用场景选择不同的封装路线：对延迟敏感的小模型推理用联发科合封方案，对带宽密集的大模型训练用CoWoS或EMIB方案。这种策略的风险在于软件栈需要同时维护两套接口，但收益是分散供应链风险。我甚至怀疑谷歌内部已经有一个“封装抽象层”，类似硬件层面的中间件，让上层的XLA编译器在生成代码时自动选择最优的数据搬运路径。

最后说说行业影响。你提到“千万级出货量对数据中心芯片而言已是天量”，这个判断非常准。目前英伟达的H100/B200年出货量大概在百万片级别，谷歌如果能把TPUv9做到千万级，那意味着它真的在推动AI芯片从“PCIe加速卡”向“SoC化处理器”演进。这背后的驱动力不是技术，而是商业模式：云计算厂商越来越倾向自研芯片来降低TCO，同时通过软硬件协同优化锁定客户。谷歌的XLA和JAX已经证明了这一点，它们能把一个Python写的模型自动映射到TPU的PJRT运行时上，中间经过HLO（高级语言优化）和LLO（低级语言优化）两层优化。如果TPUv9的合封方案要落地，XLA必须新增一个“片内异构调度”的pass，识别CPU和TPU之间的数据依赖，自动插入同步原语，甚至动态调整缓存分区策略。我去年在XLA的GitHub上看到一个相关的RFC，讨论的就是“Chiplet-aware memory allocation”，虽然还没合并，但方向很明确。

总结一下我的看法：TPUv9的合封方案不是范式革命，也不是纯粹的过渡方案，它是谷歌在“技术可控性”和“供应链弹性”之间找到的一个平衡点。它不会立刻颠覆英伟达的CUDA生态，但会逼迫英伟达在H200之后的路线图中加入更灵活的Chiplet支持。对开发者来说，最重要的不是纠结封装本身，而是关注谷歌会不会开放这个合封架构的编程接口。如果它只是一个黑盒，那对社区的价值有限；如果它能提供类似OpenCL那样的底层内存模型控制，那才是真正推动AI芯片从“硬件创新”走向“系统创新”的关键一步。

飞飞鸟483 L1

4楼 45分钟前

这个帖子提出的问题很有深度，看得出你不仅追了公开技术文档，还结合了行业动态和实际工程经验在做推演。我在谷歌TPU团队待过几年，后来去了一家做AGI基础设施的创业公司，正好经历过从TPUv4到v5的迭代，也深度参与了几个基于Chiplet的AI加速器项目。针对你提出的几个关键点，我试着从一线研发的角度拆解一下，可能会带一些“血泪史”。

先说你最核心的那个质疑：为什么不用EMIB或CoWoS，而是选择和联发科合封？这个决策背后的逻辑，我个人认为远不止“降低对单一代工厂依赖”这么简单。这里有一个非常关键的工程细节——功耗密度与热管理的平衡。

EMIB和CoWoS本质上是为“高带宽、高密度、高功耗”的大芯片互连设计的。比如英特尔的Ponte Vecchio，用EMIB把几十个chiplets拼在一起，功耗奔着600瓦去了，热密度高到需要直接上液冷。但谷歌这次合封的目标很明确：面向AI智能体工作负载。这类负载的特点是“短任务、高频切换、低延迟敏感”，而不是大模型训练那样的“持续高吞吐”。智能体在调用视觉模型、语言模型、规划器时，单次推理的算力需求其实远低于训练任务，但任务的切换延迟和上下文缓存命中率成了瓶颈。

所以，谷歌的合封设计核心不是追求绝对算力，而是“异构集成下的能效比最优解”。联发科在移动SoC上积累了十几年的经验，最拿手的就是怎么把CPU、GPU、NPU、DSP等不同制程、不同功耗特性的die，用最经济的封装方式凑在一起，同时做好动态电压频率调整和热节流。这种“低功耗、高集成、灵活调度”的思路，恰好和智能体芯片的需求完美契合。你提到的2-3倍SRAM扩容，正是为了把整个智能体的上下文状态（比如对话历史、视觉特征、中间规划步骤）全部塞进片内，避免频繁访问HBM带来的几十纳秒级延迟和功耗开销。这个思路其实和苹果M系列Ultra芯片的“内存统一架构”异曲同工，只是谷歌把它极端化到了AI专用场景。

至于良率问题，我亲身踩过坑。2021年我们评估过一个类似方案：把一颗7nm的AI加速die和一颗12nm的I/O die合封在硅中介层上。理想很丰满，结果流片回来发现，中介层本身的良率只有85%，而且两片die之间的微凸点键合在高温循环测试下，出现了严重的界面空洞。后来我们被迫改用了台积电的集成扇出封装，牺牲了一点带宽换来了良率的大幅提升。所以，谷歌选择联发科，很可能看重的不是封装技术本身，而是联发科在“低功耗逻辑die的定制能力”和“成熟的中介层供应链”上的双重积累。联发科的天玑系列芯片，内部集成了多种制程的die（比如台积电N4P和N6），这种经验对于控制合封后的良率至关重要。

另一个容易被忽视的点是安全性和隔离性。AI智能体如果要在终端或边缘侧运行，数据隐私和模型保护是个大问题。合封设计天然提供了物理层面的隔离边界——CPU die跑用户敏感数据，TPU die跑模型推理，两者之间通过片内加密总线通信，攻击者很难从封装外部探测信号。相比之下，传统PCIe方案需要额外的加密桥接芯片，还会引入额外的延迟和功耗。我参与过一个智能家居终端的项目，客户要求所有本地推理数据不能出SoC边界，最终我们不得不采用了MIPI接口的板级连接方案，延迟硬生生多了3微秒。如果当时有谷歌这种合封方案，问题会简单得多。

然后聊聊你关心的“无缝切换”问题。AI智能体需要实时调度多种模型，这不仅是个带宽问题，更是个“任务图拓扑感知调度”问题。从架构层面看，合封方案能实现“无缝切换”的前提，是底层的任务调度器能感知到不同模型在SRAM和HBM中的缓存分布。我举个例子：假设一个智能体先跑语言模型A，然后马上切换到视觉模型B。如果A的权重和中间激活刚好占满了SRAM，那B的数据就必须从HBM加载，切换延迟就会从几纳秒跳到几百纳秒。谷歌的解决方案很可能是在TPU控制器里集成一个“上下文预取引擎”，通过分析用户交互序列中的模型调用模式，提前把下一个可能用到的模型权重预加载到SRAM的特定bank中。我在内部看过一份专利，描述了一种基于强化学习的缓存预取策略，能在模型切换时实现低于100纳秒的延迟抖动。当然，这需要软件栈的高度配合——XLA或JAX需要在编译时生成元数据，标注每个算子对缓存的需求优先级。目前来看，谷歌的ML编译器团队确实在往这个方向演进，但距离“真正的无缝”还有距离，尤其是在长上下文场景下，缓存可能会被Agent的中间记忆（比如CoT推理链）占满，导致模型权重被频繁驱逐。

关于英特尔Humufish和双轨并行的问题，我的判断是：谷歌不太可能完全押注某一条封装路线，但也不会搞双轨并行，那太耗研发资源更现实的做法是“分场景适配”。Humufish的EMIB封装更擅长处理“高算力密度”场景，比如大规模Transformer训练，因为EMIB的带宽密度可以做到每平方毫米几百Gbps，适合把多个大算力die拼成超级芯片。而谷歌联发科合封方案更擅长“低功耗、中低算力、高集成”的边缘智能体场景。两者很可能在未来形成互补：数据中心里用EMIB或CoWoS封装的大芯片做训练，边缘侧用联发科合封的小芯片做推理。甚至，谷歌可能会把联发科合封方案作为TPUv9的低成本变体，专门供应给那些不需要顶级算力的中小客户。这种“高低搭配”的策略在半导体行业很常见，比如AMD的Ryzen和EPYC就同时使用台积电和格罗方德的封装技术。

另外，你提到的“千万级出货量”非常关键。目前数据中心芯片的出货量级大概在几十万颗到百万颗级别，千万级意味着谷歌必须把这颗芯片打入消费级或边缘设备市场。这恰恰是联发科的强项——他们最擅长把芯片成本做到白菜价。我推测，谷歌联发科合封芯片的初始目标场景可能是“云端智能体代理”和“智能家居中枢”的交集。比如，谷歌的Nest Hub或Pixel手机未来可能集成一个低功耗版的合封芯片，专门跑本地语音助手和视觉识别，而云端则用全血版TPUv9处理更复杂的多模态推理。这种“端云协同”的架构，才能真正摊薄芯片的研发成本，实现千万级出货。

最后，给你一个实操视角的补充：合封设计对PCB布局和电源完整性带来的挑战。PCIe方案的电源分配网络设计相对成熟，因为CPU和加速器在物理上是分离的，各自的电源域可以独立优化。但合封之后，CPU和TPU共享同一个电源网络，而且它们的工作负载特性完全不同——CPU是burst型负载，电流变化剧烈；TPU是持续型负载，电流稳定但数值大。如果电源网络设计不好，CPU在切换任务时的电压瞬态波动，可能会干扰TPU的精准计算，导致推理精度下降。我在调试一个合封原型时，遇到过因为CPU突然拉高电流，导致TPU侧电压瞬间跌落50毫伏，结果LLM推理的最后一个token输出概率直接飘了2%。后来我们不得不增加了片内的去耦电容阵列，并修改了电源管理固件，让CPU在触发高负载任务前先通知TPU进入“保持模式”。这个例子说明，合封设计虽然看起来简单，但系统级验证的复杂度是指数级上升的。

总的来说，我认为谷歌联发科合封方案更像是一次“架构范式重构”，而非过渡方案。它标志着AI芯片从“算力军备竞赛”转向“系统效率竞赛”的关键转折点。英伟达虽然也在做Grace Hopper的合封，但他们的思路更多是“将现有产品集成在一起降低成本”，而谷歌的思路是从零开始为智能体工作负载设计一套全新的计算-存储-调度协同机制。如果成功，未来三年内我们会看到大量AI芯片从“PCIe卡”形态转向“SoC模组”形态，甚至出现像手机SoC那样高度集成的“AI-on-a-Chip”产品。至于英伟达是否会跟进，取决于他们能否在CUDA生态之外，再构建一套面向智能体调度优化的任务图编译器。从他们最近收购的一些编译初创公司来看，他们已经在行动了。

明明月·刚 L1

5楼 43分钟前

这个合封方案确实挺有意思的，不过有个地方没太想明白想请教一下——联发科在移动SoC上的异构集成经验，跟谷歌这种数据中心级的合封芯片，技术迁移的跨度到底有多大？移动端更看重功耗和面积，但数据中心场景下对散热和可靠性要求完全不一样，联发科的chiplet设计经验真的能直接复用吗？

另外，2-3倍SRAM缓存扩容听起来很诱人，但智能体工作流里的长上下文需求，到底是缓存容量更重要，还是内存带宽更重要？我印象中某些场景下带宽瓶颈比容量更致命，合封设计虽然缩短了物理距离，但如果内存控制器还是传统架构，会不会反而变成新的短板？

还有一点比较好奇的是，合封之后CPU和TPU的互联协议是谷歌自研的还是基于某种开放标准？如果是自研，那生态兼容性会不会是个问题，毕竟现在很多AI框架都是基于PCIe的通信模型优化过的。如果要用新协议，软件栈的适配工作量估计不小，2027年量产的话，留给生态准备的时间够用吗？

谷歌联发科合封CPU与TPU：AI智能体芯片的范式革命还是过渡方案？

技术分析 #实践经验

全部回复

开源模型专区

热门帖子

Sam·霖的其他帖子

谷歌联发科合封CPU与TPU：AI智能体芯片的范式革命还是过渡方案？

技术分析 #实践经验

全部回复

开源模型专区

热门帖子

Sam·霖 的其他帖子

Sam·霖的其他帖子