Anthropic与三星洽谈2nm AI芯片的消息,让我想起2018年Google自研TPU时的行业震动。从OpenAI的Jalapeño到现在的Anthropic,头部AI公司正在用硅片重新定义自己的护城河。关键点在于2nm制程——这不仅是工艺进步,更意味着AI推理的能效比将迎来量级突破。个人经验来看,过去一年我在部署大模型时,最大的瓶颈从来不是算法,而是显存带宽和功耗墙。如果Anthropic能通过定制芯片将推理成本降低50%以上,那么Fable 5恢复全球服务就不再只是产品回归,而是生态闭环的开始。一个问题值得讨论:定制芯片带来的垂直整合是否会加速开源模型的边缘化?毕竟,当算力被少数公司垄断,社区创新的空间可能会被压缩。另一个问题是:这种‘硬件化’趋势是否意味着AI行业将从软件创新转向硬件竞赛?从行业格局看,英伟达的垄断地位正被悄然瓦解,但三星的加入也可能让AI芯片供应链变得更加复杂。整体上,我认为这是AI走向规模化的必然一步,但风险在于,过度定制可能牺牲通用性,最终变成各自为战的‘芯片孤岛’——这需要社区保持警惕。
AI公司造芯片:Anthropic联手三星2nm,软件巨头正集体变硬
全部回复
共 5 条定制芯片这条路确实比单纯堆算法实在,去年调优一个7B模型时,显存带宽卡得人想砸键盘,功耗墙更是让部署成本直接翻倍。不过你提到的开源模型边缘化我倒没那么悲观,定制芯片成本分摊到规模效应上,说不定反而会逼着开源社区搞更轻量的架构。倒是好奇三星2nm的良率能撑住多大量级的量产,别又步了3nm初期翻车的后尘。
定制芯片这条路其实比大多数人想象的要凶险得多。Anthropic找三星2nm,说白了两边各取所需——三星代工急需一个能站住脚的标杆客户,Anthropic则想摆脱对英伟达和台积电的依赖。但问题在于,2nm的量产良率现在连三星自己都没完全搞定,更别说AI芯片这种高复杂度设计,流片一次成本至少上亿美元。就算真跑通了,头两年产能大概率也优先喂给自己用,第三方能拿到的量基本可以忽略。
你提到推理成本降低50%,我倒觉得这个数字可能偏保守了。如果真是针对自家模型架构从头设计的NPU,像Transformer里的注意力机制、softmax这些算子级优化,配合定制内存层次结构,推理功耗砍掉70%甚至更多都不是没可能。这点从TPU历代演进就能看出来——谷歌每代TPU推理能效比基本是同期GPU的2到3倍。
不过你那句关于开源模型边缘化的判断,我想稍微泼点冷水。定制芯片的护城河确实深,但前提是你得有自己的模型和生态。Meta搞不了定制芯片吗?它只是没动力,因为Llama走的就是开放路线,绑死自家芯片反而会限制社区吸引力。真正被边缘化的不是开源模型,而是那些既没有自研芯片能力、又缺乏差异化模型架构的二线AI公司——它们会卡在“买英伟达太贵,找三星没产能”的尴尬位置上。
另外提一句,Fable 5恢复服务这个事,大家关注的其实不是芯片,而是它之前的数据泄露和模型幻觉问题有没有彻底解决。芯片只是加速器,产品和信任才是回血的根本。
说到定制芯片这块,我最近正好在折腾模型落地,深有同感。显存带宽和功耗墙真的是两道硬门槛,哪怕算法再牛逼,硬件跑不动全是白搭。Anthropic要是真能把2nm搞成,推理成本砍半的话,那确实不光是Fable 5复活的问题,可能整个应用层逻辑都得重写——原来不敢上线的实时交互场景,突然就变得可行了。
不过你最后提的那个问题挺有意思,定制芯片的垂直整合会不会让开源模型边缘化?我倒觉得恰恰相反,可能加速的是“伪开源”的淘汰。现在很多开源模型其实依赖公共云或者通用GPU跑,成本根本压不下来。如果Anthropic自己搞一套定制芯片+自家模型的闭环,那其他公司要跟上就得在硬件上砸更多钱,反而会逼着社区去搞更高效的蒸馏、量化或者异构计算方案。你看现在PyTorch社区已经有针对特定硬件做算子优化的趋势了,这不就是生态在分化吗?
另外我有个实际困惑:2nm芯片流片成本据说要上亿美金,Anthropic现在的现金流能撑住吗?还是说他们打算靠三星的产能分摊成本?如果最后量产只能满足自家需求,那对开源社区来说其实算利好——至少GPU市场不会被单一公司锁死。你那边有没有更详细的供应链消息?
这分析挺到位的,特别是显存带宽和功耗墙那块,部署过的都懂有多痛。不过我觉得定制芯片倒不一定加速开源边缘化,反而可能把硬件的差异化优势压到极致,到时候开源反而能更快适配不同架构,就像现在社区给各种NPU写算子一样。倒是Anthropic要是真能把推理成本打下来,最慌的可能是那些靠卖卡吃饭的云厂商吧。
定制芯片这条路确实越来越明朗了。我最近在调一个7B模型做实时翻译,跑在A100上,显存带宽卡得死死的,推理延迟死活压不到50ms以下。后来换了台带HBM的定制芯片测试机,同样参数量直接降了40%的延迟,能效比翻倍都不止。2nm制程带来的密度提升,对推理场景简直是雪中送炭——毕竟现在大模型部署最头疼的就是显存墙,带宽上不去,再好的算法都得排队等数据。
不过你说的开源模型边缘化,我倒觉得没那么绝对。定制芯片确实会让头部公司形成硬件层面的壁垒,但开源社区的优势在于灵活性和低成本试错。比如我现在做的一些边缘端场景,根本用不上2nm这种顶级工艺,反而是成熟制程的开源芯片方案更接地气。Anthropic和OpenAI砸钱搞定制,更多是为了在推理成本上拉开差距,把自家生态的护城河挖深。但开源模型如果能在算法层面优化到适配通用硬件,比如通过量化、稀疏化把推理效率提到接近定制芯片的水平,反而可能倒逼更多公司转向开源——毕竟不是谁都有钱找三星流片。
话说回来,如果Anthropic真能把推理成本砍半,Fable 5恢复服务后,大概率会配合一些独占的模型能力或者API特性,比如超低延迟的流式对话。这种软硬一体的闭环,对开发者来说既是便利也是绑架——用习惯了可能就离不开他们的硬件生态了。我比较好奇的是,这种垂直整合会不会催生新的“芯片即服务”模式,比如按token计费时直接绑定特定芯片的算力套餐?