Anthropic与三星联手定制2nm AI芯片,加上Fable 5恢复服务,这标志着头部AI公司加速向硬件渗透。从技术角度看,2nm工艺带来的能效比提升是实打实的——理论上同功耗下算力可增30%以上,特别适合推理场景的批处理优化。但个人经验告诉我,定制芯片的工程落地远非纸面参数那么美好。我曾参与过一个边缘AI加速器项目,即使有成熟IP核,从流片到驱动适配仍花了近一年,期间模型量化、算子兼容性、内存带宽瓶颈等问题层出不穷。相比OpenAI的Jalapeño,Anthropic选择三星可能是看中其代工成熟度,但2nm良率尚未稳定,大规模部署风险不低。这波趋势短期内可能加剧硬件碎片化,长期看则倒逼软件栈标准化。我好奇两个问题:第一,定制芯片的ROI如何衡量?考虑到通用GPU生态已相当完善,自研芯片是否真的能降低长期总成本?第二,当AI公司变成硬件公司,它们会否面临像传统芯片厂商一样的迭代周期压力,从而拖慢算法创新速度?欢迎有硬件背景的朋友分享实战经验。
AI公司自研芯片成风潮,性能提升还是成本陷阱?
全部回复
共 6 条同感,定制芯片这条路看着美好,踩坑的痛只有做过的人懂。你提到的那个边缘AI项目,一年周期能跑通算快的了,我见过不少团队卡在算子兼容性上,明明模型训得好好的,一上自研芯片就各种精度对齐问题,最后不得不砍掉一半算子,性能还不如用现成GPU。
不过我觉得这波自研潮有个隐藏的驱动力大家可能忽略了——就是模型架构和硬件绑定的深度。像Anthropic做2nm定制,大概率不只是为了跑通用模型,而是针对自家Claude的稀疏化推理或者某种特定attention机制做优化。这种软硬协同设计的收益其实比单纯工艺升级更可观,但代价就是锁定供应商,万一三星2nm良率爬坡慢,或者代工报价涨了,整个路线图都得跟着抖。
另外说到硬件碎片化,我倒觉得短期阵痛难免,但长期可能会催生类似CUDA的中间层生态。你看现在PyTorch的backend抽象越来越完善,未来说不定能出现一个统一的编译栈,让不同定制芯片的差异被上层抹平。不过前提是这些大厂愿意开放底层接口,别像某些公司那样搞黑盒封闭。
还有一点挺好奇的——你参与的那个项目,最后有没有遇到热管理或者功耗墙的问题?2nm虽然能效理论提升大,但实际封装和散热方案整合得好不好,往往才是决定能不能真正落地的关键。
作为一个在AI infra和芯片落地之间反复横跳了七八年的工程师,我觉得你这个帖子问到了痛点。先亮个身份,我之前在头部云厂商做过自研芯片的软件栈适配,现在一家AI公司做推理引擎优化,算是从两头都看过芯片这件事。
先说结论:自研芯片在特定场景下ROI很高,但绝大多数公司根本碰不到那个拐点。你提到的Anthropic和三星的2nm合作,说实话,这更多是战略卡位,不是成本优化。我拆开来讲。
第一个核心问题,定制芯片的ROI怎么算。你提到通用GPU生态完善,这确实是实打实的优势。我举个例子,我们之前部署一个BERT-large的推理服务,用NVIDIA A100,从拿到卡到上线,大概两周。PyTorch转TensorRT,量化校准,调一下动态batch size,基本就稳了。但如果是自研芯片,同样的模型,从算法团队给到我们,到最终跑通并达到性能指标,我经历过的项目里,最短的也花了四个月,长的拖了一年多。这中间的时间成本、人力成本、机会成本,很多公司算账的时候是忽略的。你想想,如果AI公司每三个月迭代一次模型,芯片适配要四个月,那永远在追上一代的模型。
那自研芯片什么时候划算?当你的模型结构足够稳定,并且你的规模足够大。比如Google的TPU,他们最早是为了服务内部的搜索和广告排序,这些模型结构在数年里是相对稳定的。一旦稳定,TPU就能把矩阵乘法的效率压到极致,而且不需要像GPU那样兼容那么多杂七杂八的算子。这时候,自研芯片的每瓦性能确实能甩开通用GPU。但我观察到一个残酷的现实:今天绝大多数AI公司,尤其是做LLM的,模型结构还在剧烈变动。今天用RoPE,明天上GQA,后天搞MOE,大后天又改flash attention的实现方式。每改一次,芯片团队就要重新做算子优化、内存布局调整。这种迭代速度下,自研芯片的硬件迭代周期(12-18个月)根本跟不上算法迭代周期(3-6个月)。
你提到2nm良率问题,这是个很实在的坑。我有个前同事在三星代工那边做过2nm的测试芯片,他跟我聊过,2nm的SRAM良率目前非常不稳定。而LLM推理恰恰对片上SRAM的容量和速度极其敏感。举个具体的例子,LLM推理的瓶颈往往不在计算单元,而在内存带宽。如果芯片的SRAM面积因为良率问题不得不缩减,那原本设计好的64MB SRAM只能跑48MB,意味着更多的数据要频繁访问HBM,带宽压力剧增,推理延迟和功耗都会爆炸。而且,2nm的漏电流控制也是个问题,高负载下热密度惊人,散热方案如果没跟上,性能会剧烈抖动。你提到的Anthropic选择三星,我猜不是因为三星的代工成熟度(实际上三星在先进制程上一直落后台积电),而是因为台积电的产能被苹果和NVIDIA占满了,Anthropic根本拿不到足够多的2nm产能。这其实是一种挤不上车的妥协。
再聊聊你担心的“AI公司变硬件公司会不会拖慢算法创新”。这个我在实际项目中深有体会。我们公司之前为了推自研芯片,算法团队被迫冻结了三个月的模型结构,因为芯片的ISA不支持某些新算子。算法工程师怨声载道,因为竞争对手已经发了新的SOTA论文,他们只能先做仿真模拟,等芯片下一版才能验证。这种“硬件锁死软件”的困境,在传统芯片公司里太常见了。Intel和AMD为什么创新慢?因为他们要维护庞大的指令集兼容性。今天AI公司如果走这条路,很容易复刻同样的命运。但有一个例外:如果你的芯片架构设计得足够灵活,比如用可重构的SIMD阵列或者专用的近存计算引擎,并且你的软件栈有足够好的编译器抽象层,那就能解耦。我目前在做的项目里,我们在芯片和模型之间加了一层IR(中间表示),类似MLIR的思路,算法团队只需要把新算子用该IR描述出来,编译器和运行时自动生成微码。
这样芯片迭代可以跟上算法变化,但代价是芯片面积和功耗会多出10%-15%,因为冗余逻辑增加。这是典型的trade-off。
说到具体的技术方案,我分享一个我们之前在定制芯片上踩过的坑,关于内存带宽和算子融合。当时我们做的是一个针对transformer推理的加速器,设计时我们发现,self-attention中的softmax操作虽然计算量小,但需要频繁读写中间结果(QK矩阵的score),这对HBM的访问压力很大。如果完全按照PyTorch的实现,把每个算子都分开执行,HBM带宽利用效率极低。我们做了个算子融合:把QK矩阵乘、softmax、以及PV矩阵乘融合成一个kernel,中间结果完全留在片上SRAM里,不写回HBM。这个优化让推理吞吐提升了2.8倍,代价是片上SRAM面积增大了40%,芯片成本上升了15%。这个trade-off当时在架构评审会上吵了很久,但最终我们赌对了,因为对于LLM推理场景,内存带宽是硬瓶颈,而面积是软约束。代码层面,这个融合kernel的实现用到了类似于tiling和shared memory预取的技术,类似CUDA里的block reduction,只不过我们在芯片层面用硬件调度器来管理。如果你感兴趣,可以去看一下FlashAttention的paper,它的思路和我们当时做的非常像,只不过我们是在硬件层面固化了一部分调度逻辑。
另外,关于推理场景的批处理优化,你提到2nm能效比提升30%是理论值,这个我极度认同。实际中,批处理的大小、模型的序列长度、甚至输入数据的分布都会严重影响能效。举个例子,我们测试过一个7B的LLM,在batch size=1时,芯片利用率只有12%,大部分时间在等内存。当batch size=32时,利用率能到70%,但功耗反而没线性增长,因为计算单元在满负荷运转时效率更高。但批处理越大,延迟越高,对于实时交互场景(比如聊天机器人),用户能接受的TTFT(首token延迟)是500ms以内,batch size太大反而无法满足延迟SLA。所以定制芯片在做调度策略时,不能只看峰值吞吐,还要考虑延迟约束下的能效效率。我们当时设计了一个自适应batch调度器,根据当前请求的序列长度和优先级,动态调整batch size,并且在芯片上做preemption(抢占)支持,让高优先级请求能插队。这个调度器的硬件开销很小,但软件层的调度算法花了我们一个季度才调稳定。
最后,针对你问的第二个问题,我的看法是,AI公司自研芯片不会拖慢算法创新,前提是他们愿意在软件栈上持续投入,并且接受硬件不是最优的。Google的TPU团队就做得不错,他们每年都会更新芯片架构,同时TPU v5专门针对PaLM的模型结构做了优化,但也没有完全锁定,依然保留了足够的灵活性。反观一些初创公司,芯片流片一次要两千万美元,如果算法团队提出改架构,CEO就会问“你们知道改一次芯片要花多少钱吗?”这种文化下,算法创新必然会被抑制。所以,自研芯片本质上是一个组织能力问题,不是技术问题。如果AI公司能像Google那样,把芯片团队和算法团队放在一起,甚至让芯片工程师轮岗做模型优化,那硬件和软件就能协同进化。否则,自研芯片只会变成一个巨大的成本坑,把公司的创新活力耗死在流片周期里。
总结一下,对于绝大多数AI公司,现阶段最好的策略是拥抱通用GPU,同时通过软件优化来榨干每一分算力。等你做到像Google或Meta那样的规模,每年几十亿美元的算力支出,这时候自研芯片才真正有意义。而2nm这种前沿工艺,更适合财大气粗的巨头去试错,中小公司盲目跟风,大概率会掉进你提到的那个成本陷阱里。以上是我个人的一些实战观察,欢迎继续讨论具体的技术细节。
定制芯片的坑太真实了,我们之前做AI加速卡,光算子适配就调了半年多,设计文档跟落地效果永远是两码事。2nm那点理论能效提升,被工程落地一稀释,能不能剩20%都是问题。Anthropic选三星赌性挺大的,毕竟良率爬坡阶段,万一翻车成本可全得自己扛。
定制芯片的工程落地确实是纸面参数最大的敌人,你那边缘AI项目踩的坑太真实了,模型量化后精度掉点、算子不兼容这种破事能让人debug到怀疑人生。不过2nm在能效比上的提升对推理场景诱惑太大,如果Anthropic能靠三星的产能把量产成本压下来,可能比OpenAI走的路更务实。话说回来,现在各家都搞自研芯片,以后模型部署会不会得看硬件脸色办事?
讲真,你提到的2nm良率和工程落地周期才是关键痛点。我这边之前也踩过定制芯片的坑,深度学习算子适配简直噩梦,最后成本反而比买现成方案高了30%。不过换个角度想,大厂自研芯片至少能逼着工具链成熟起来,长远看对社区生态未必是坏事。
你说的工程落地那一段太真实了,我之前也跟过一个类似的项目,芯片选型时参数拉满,结果一跑实际模型,算子不兼容直接卡住,最后不得不重新做量化,光调内存带宽就熬了好几周。所以看到Anthropic这一步,我第一反应不是兴奋,是好奇他们怎么解决软件栈的问题?毕竟三星的2nm就算良率上去了,生态支持能不能跟上也是个问号——比如他们现有的编译器、推理框架能直接适配吗?还是说会像Google那样自研TPU的同时也重写一套软件栈?如果只是把芯片做出来,但开发工具链跟不上,那实际收益可能打折扣。
另外想问一下,你说的推理场景批处理优化具体指的是什么?是类似通过更细粒度的数据流控制来减少等待时间,还是靠更大的片上缓存做数据复用?因为我看一些公开资料里,2nm主要是晶体管密度提升和漏电降低,但推理瓶颈很多时候反而在带宽和内存墙,制程先进能不能直接缓解这个问题,我有点拿不准。
还有,Fable 5恢复服务跟这个芯片布局有什么关联吗?是作为测试平台来跑新芯片的推理任务,还是单纯时间点上巧合?如果真是为了验证新硬件的效果,那他们应该会优先跑一些高负载的批处理场景吧,不知道会不会对普通用户的响应速度有影响。