AI公司自研芯片成风潮，性能提升还是成本陷阱？

Anthropic与三星联手定制2nm AI芯片，加上Fable 5恢复服务，这标志着头部AI公司加速向硬件渗透。从技术角度看，2nm工艺带来的能效比提升是实打实的——理论上同功耗下算力可增30%以上，特别适合推理场景的批处理优化。但个人经验告诉我，定制芯片的工程落地远非纸面参数那么美好。我曾参与过一个边缘AI加速器项目，即使有成熟IP核，从流片到驱动适配仍花了近一年，期间模型量化、算子兼容性、内存带宽瓶颈等问题层出不穷。相比OpenAI的Jalapeño，Anthropic选择三星可能是看中其代工成熟度，但2nm良率尚未稳定，大规模部署风险不低。这波趋势短期内可能加剧硬件碎片化，长期看则倒逼软件栈标准化。我好奇两个问题：第一，定制芯片的ROI如何衡量？考虑到通用GPU生态已相当完善，自研芯片是否真的能降低长期总成本？第二，当AI公司变成硬件公司，它们会否面临像传统芯片厂商一样的迭代周期压力，从而拖慢算法创新速度？欢迎有硬件背景的朋友分享实战经验。

请登录后发表回复

全部回复

共 6 条

L Lil-24 L1

2楼 3小时前

同感，定制芯片这条路看着美好，踩坑的痛只有做过的人懂。你提到的那个边缘AI项目，一年周期能跑通算快的了，我见过不少团队卡在算子兼容性上，明明模型训得好好的，一上自研芯片就各种精度对齐问题，最后不得不砍掉一半算子，性能还不如用现成GPU。

不过我觉得这波自研潮有个隐藏的驱动力大家可能忽略了——就是模型架构和硬件绑定的深度。像Anthropic做2nm定制，大概率不只是为了跑通用模型，而是针对自家Claude的稀疏化推理或者某种特定attention机制做优化。这种软硬协同设计的收益其实比单纯工艺升级更可观，但代价就是锁定供应商，万一三星2nm良率爬坡慢，或者代工报价涨了，整个路线图都得跟着抖。

另外说到硬件碎片化，我倒觉得短期阵痛难免，但长期可能会催生类似CUDA的中间层生态。你看现在PyTorch的backend抽象越来越完善，未来说不定能出现一个统一的编译栈，让不同定制芯片的差异被上层抹平。不过前提是这些大厂愿意开放底层接口，别像某些公司那样搞黑盒封闭。

还有一点挺好奇的——你参与的那个项目，最后有没有遇到热管理或者功耗墙的问题？2nm虽然能效理论提升大，但实际封装和散热方案整合得好不好，往往才是决定能不能真正落地的关键。

野野041 L1

3楼 3小时前

作为一个在AI infra和芯片落地之间反复横跳了七八年的工程师，我觉得你这个帖子问到了痛点。先亮个身份，我之前在头部云厂商做过自研芯片的软件栈适配，现在一家AI公司做推理引擎优化，算是从两头都看过芯片这件事。

先说结论：自研芯片在特定场景下ROI很高，但绝大多数公司根本碰不到那个拐点。你提到的Anthropic和三星的2nm合作，说实话，这更多是战略卡位，不是成本优化。我拆开来讲。

第一个核心问题，定制芯片的ROI怎么算。你提到通用GPU生态完善，这确实是实打实的优势。我举个例子，我们之前部署一个BERT-large的推理服务，用NVIDIA A100，从拿到卡到上线，大概两周。PyTorch转TensorRT，量化校准，调一下动态batch size，基本就稳了。但如果是自研芯片，同样的模型，从算法团队给到我们，到最终跑通并达到性能指标，我经历过的项目里，最短的也花了四个月，长的拖了一年多。这中间的时间成本、人力成本、机会成本，很多公司算账的时候是忽略的。你想想，如果AI公司每三个月迭代一次模型，芯片适配要四个月，那永远在追上一代的模型。

那自研芯片什么时候划算？当你的模型结构足够稳定，并且你的规模足够大。比如Google的TPU，他们最早是为了服务内部的搜索和广告排序，这些模型结构在数年里是相对稳定的。一旦稳定，TPU就能把矩阵乘法的效率压到极致，而且不需要像GPU那样兼容那么多杂七杂八的算子。这时候，自研芯片的每瓦性能确实能甩开通用GPU。但我观察到一个残酷的现实：今天绝大多数AI公司，尤其是做LLM的，模型结构还在剧烈变动。今天用RoPE，明天上GQA，后天搞MOE，大后天又改flash attention的实现方式。每改一次，芯片团队就要重新做算子优化、内存布局调整。这种迭代速度下，自研芯片的硬件迭代周期（12-18个月）根本跟不上算法迭代周期（3-6个月）。

你提到2nm良率问题，这是个很实在的坑。我有个前同事在三星代工那边做过2nm的测试芯片，他跟我聊过，2nm的SRAM良率目前非常不稳定。而LLM推理恰恰对片上SRAM的容量和速度极其敏感。举个具体的例子，LLM推理的瓶颈往往不在计算单元，而在内存带宽。如果芯片的SRAM面积因为良率问题不得不缩减，那原本设计好的64MB SRAM只能跑48MB，意味着更多的数据要频繁访问HBM，带宽压力剧增，推理延迟和功耗都会爆炸。而且，2nm的漏电流控制也是个问题，高负载下热密度惊人，散热方案如果没跟上，性能会剧烈抖动。你提到的Anthropic选择三星，我猜不是因为三星的代工成熟度（实际上三星在先进制程上一直落后台积电），而是因为台积电的产能被苹果和NVIDIA占满了，Anthropic根本拿不到足够多的2nm产能。这其实是一种挤不上车的妥协。

再聊聊你担心的“AI公司变硬件公司会不会拖慢算法创新”。这个我在实际项目中深有体会。我们公司之前为了推自研芯片，算法团队被迫冻结了三个月的模型结构，因为芯片的ISA不支持某些新算子。算法工程师怨声载道，因为竞争对手已经发了新的SOTA论文，他们只能先做仿真模拟，等芯片下一版才能验证。这种“硬件锁死软件”的困境，在传统芯片公司里太常见了。Intel和AMD为什么创新慢？因为他们要维护庞大的指令集兼容性。今天AI公司如果走这条路，很容易复刻同样的命运。但有一个例外：如果你的芯片架构设计得足够灵活，比如用可重构的SIMD阵列或者专用的近存计算引擎，并且你的软件栈有足够好的编译器抽象层，那就能解耦。我目前在做的项目里，我们在芯片和模型之间加了一层IR（中间表示），类似MLIR的思路，算法团队只需要把新算子用该IR描述出来，编译器和运行时自动生成微码。

这样芯片迭代可以跟上算法变化，但代价是芯片面积和功耗会多出10%-15%，因为冗余逻辑增加。这是典型的trade-off。

说到具体的技术方案，我分享一个我们之前在定制芯片上踩过的坑，关于内存带宽和算子融合。当时我们做的是一个针对transformer推理的加速器，设计时我们发现，self-attention中的softmax操作虽然计算量小，但需要频繁读写中间结果（QK矩阵的score），这对HBM的访问压力很大。如果完全按照PyTorch的实现，把每个算子都分开执行，HBM带宽利用效率极低。我们做了个算子融合：把QK矩阵乘、softmax、以及PV矩阵乘融合成一个kernel，中间结果完全留在片上SRAM里，不写回HBM。这个优化让推理吞吐提升了2.8倍，代价是片上SRAM面积增大了40%，芯片成本上升了15%。这个trade-off当时在架构评审会上吵了很久，但最终我们赌对了，因为对于LLM推理场景，内存带宽是硬瓶颈，而面积是软约束。代码层面，这个融合kernel的实现用到了类似于tiling和shared memory预取的技术，类似CUDA里的block reduction，只不过我们在芯片层面用硬件调度器来管理。如果你感兴趣，可以去看一下FlashAttention的paper，它的思路和我们当时做的非常像，只不过我们是在硬件层面固化了一部分调度逻辑。

另外，关于推理场景的批处理优化，你提到2nm能效比提升30%是理论值，这个我极度认同。实际中，批处理的大小、模型的序列长度、甚至输入数据的分布都会严重影响能效。举个例子，我们测试过一个7B的LLM，在batch size=1时，芯片利用率只有12%，大部分时间在等内存。当batch size=32时，利用率能到70%，但功耗反而没线性增长，因为计算单元在满负荷运转时效率更高。但批处理越大，延迟越高，对于实时交互场景（比如聊天机器人），用户能接受的TTFT（首token延迟）是500ms以内，batch size太大反而无法满足延迟SLA。所以定制芯片在做调度策略时，不能只看峰值吞吐，还要考虑延迟约束下的能效效率。我们当时设计了一个自适应batch调度器，根据当前请求的序列长度和优先级，动态调整batch size，并且在芯片上做preemption（抢占）支持，让高优先级请求能插队。这个调度器的硬件开销很小，但软件层的调度算法花了我们一个季度才调稳定。

最后，针对你问的第二个问题，我的看法是，AI公司自研芯片不会拖慢算法创新，前提是他们愿意在软件栈上持续投入，并且接受硬件不是最优的。Google的TPU团队就做得不错，他们每年都会更新芯片架构，同时TPU v5专门针对PaLM的模型结构做了优化，但也没有完全锁定，依然保留了足够的灵活性。反观一些初创公司，芯片流片一次要两千万美元，如果算法团队提出改架构，CEO就会问“你们知道改一次芯片要花多少钱吗？”这种文化下，算法创新必然会被抑制。所以，自研芯片本质上是一个组织能力问题，不是技术问题。如果AI公司能像Google那样，把芯片团队和算法团队放在一起，甚至让芯片工程师轮岗做模型优化，那硬件和软件就能协同进化。否则，自研芯片只会变成一个巨大的成本坑，把公司的创新活力耗死在流片周期里。

总结一下，对于绝大多数AI公司，现阶段最好的策略是拥抱通用GPU，同时通过软件优化来榨干每一分算力。等你做到像Google或Meta那样的规模，每年几十亿美元的算力支出，这时候自研芯片才真正有意义。而2nm这种前沿工艺，更适合财大气粗的巨头去试错，中小公司盲目跟风，大概率会掉进你提到的那个成本陷阱里。以上是我个人的一些实战观察，欢迎继续讨论具体的技术细节。

Z Z_踏雪 L1

4楼 2小时前

定制芯片的坑太真实了，我们之前做AI加速卡，光算子适配就调了半年多，设计文档跟落地效果永远是两码事。2nm那点理论能效提升，被工程落地一稀释，能不能剩20%都是问题。Anthropic选三星赌性挺大的，毕竟良率爬坡阶段，万一翻车成本可全得自己扛。

花花开532 L1

5楼 1小时前

定制芯片的工程落地确实是纸面参数最大的敌人，你那边缘AI项目踩的坑太真实了，模型量化后精度掉点、算子不兼容这种破事能让人debug到怀疑人生。不过2nm在能效比上的提升对推理场景诱惑太大，如果Anthropic能靠三星的产能把量产成本压下来，可能比OpenAI走的路更务实。话说回来，现在各家都搞自研芯片，以后模型部署会不会得看硬件脸色办事？

M Max·凤 L1

6楼 52分钟前

讲真，你提到的2nm良率和工程落地周期才是关键痛点。我这边之前也踩过定制芯片的坑，深度学习算子适配简直噩梦，最后成本反而比买现成方案高了30%。不过换个角度想，大厂自研芯片至少能逼着工具链成熟起来，长远看对社区生态未必是坏事。

L L·野鹤 L1

7楼 10分钟前

你说的工程落地那一段太真实了，我之前也跟过一个类似的项目，芯片选型时参数拉满，结果一跑实际模型，算子不兼容直接卡住，最后不得不重新做量化，光调内存带宽就熬了好几周。所以看到Anthropic这一步，我第一反应不是兴奋，是好奇他们怎么解决软件栈的问题？毕竟三星的2nm就算良率上去了，生态支持能不能跟上也是个问号——比如他们现有的编译器、推理框架能直接适配吗？还是说会像Google那样自研TPU的同时也重写一套软件栈？如果只是把芯片做出来，但开发工具链跟不上，那实际收益可能打折扣。

另外想问一下，你说的推理场景批处理优化具体指的是什么？是类似通过更细粒度的数据流控制来减少等待时间，还是靠更大的片上缓存做数据复用？因为我看一些公开资料里，2nm主要是晶体管密度提升和漏电降低，但推理瓶颈很多时候反而在带宽和内存墙，制程先进能不能直接缓解这个问题，我有点拿不准。

还有，Fable 5恢复服务跟这个芯片布局有什么关联吗？是作为测试平台来跑新芯片的推理任务，还是单纯时间点上巧合？如果真是为了验证新硬件的效果，那他们应该会优先跑一些高负载的批处理场景吧，不知道会不会对普通用户的响应速度有影响。

AI公司自研芯片成风潮，性能提升还是成本陷阱？

全部回复

项目实战专区

热门帖子

Tom·强的其他帖子

AI公司自研芯片成风潮，性能提升还是成本陷阱？

全部回复

项目实战专区

热门帖子

Tom·强 的其他帖子

Tom·强的其他帖子