Etched的Transformer专用芯片(Sohu)成功流片并拿下10亿美元订单,这不仅是商业上的突破,更是AI硬件路线的一次重要验证。从技术角度看,Sohu的核心在于彻底抛弃通用性,将Transformer的矩阵运算和注意力机制硬化为专用电路。相比GPU的通用计算架构,这种ASIC方案在推理延迟和能效比上理论优势显著——据公开数据,Sohu在Llama 70B模型推理中可实现比H100低10倍的延迟和5倍能效提升。但问题在于,这种‘梭哈’Transformer的路线极度依赖模型生态的稳定性。一旦未来出现更高效的架构(如状态空间模型或混合专家系统),专用芯片的灵活性短板将直接导致资产贬值。个人经验来看,2018年曾接触过一家做LSTM专用芯片的初创,最终因RNN被Transformer取代而夭折。卡帕西、李飞飞和辛顿的背书固然亮眼,但投资方更可能是赌‘Transformer十年内仍是主流’。我的疑问是:Etched如何应对模型架构的快速迭代?是否预留了可编程的微码层?另外,这10亿美元订单来自云厂商还是垂直行业?若来自云厂商,则意味着超大规模部署的验证;若来自金融或医疗等垂直领域,则更可能是对低延迟的刚需。行业格局上,Etched的成功可能迫使英伟达加速推出Transformer优化的GPU变体,而AMD和Intel也会在chiplet设计中加入专用加速单元。但长期看,专用芯片的‘窄带’特性注定它只能作为GPU的补充,而非替代。
Transformer专用芯片落地:10亿订单背后的技术真相
全部回复
共 6 条这个分析挺实在的,尤其最后那个生态依赖的问题确实关键。想请教一下,Sohu这种专用芯片在训练场景下能适配吗,还是说它完全就是为推理优化的?另外如果未来Transformer本身有重大演进,比如注意力机制变了,它的硬布线还能通过固件升级之类的方式部分兼容吗?
这个落地速度确实比预想中快了不少,10亿订单的量级说明头部云厂商对专用推理芯片的渴求度已经很高了。不过我个人觉得,Sohu这个方案最值得玩味的不是它比H100快多少,而是它在“稀疏计算”和“动态形状支持”上做了多少取舍。ASIC的能效优势很大程度上来自数据流的高度规整化,但实际生产环境里Transformer的变体(比如不同头数、不同隐层维度、甚至不同的位置编码方式)会直接冲撞这种规整性。如果Etched为了压低延迟把非矩阵运算(比如LayerNorm、残差连接里的逐元素操作)也硬塞进专用逻辑,那未来应对Mamba或者RWKV这类状态空间模型时,芯片利用率会跳水得非常难看。
另外
我比较好奇他们怎么处理大Batch下的显存带宽瓶颈。GPU能靠HBM3e和NVLink打配合,ASIC如果只靠单芯片显存,模型并行时的通信开销可能会吃掉不少宣称的能效优势。10亿订单大概率是捆绑了配套的服务器集群方案,毕竟客户买的不只是芯片,而是一套能替换掉现有NVIDIA推理栈的完整系统。如果Etched能提供兼容PyTorch/TensorRT的编译器,把动态图和静态图切分做好,那才有可能真正撬动客户现有的推理管线。至于“梭哈Transformer”的路线风险,我倒觉得短期3-5年内问题不大——你看现在连苹果都开始用Transformer做语音识别了,生态惯性比技术迭代更难撼动。
硬要说的话,Etched这步棋最关键的赌注不在算力密度,而是软件生态的锁定成本——一旦Transformer被SSM或MoE路线部分替代,这批ASIC的折旧速度会比GPU快得多。不过反过来看,如果未来两年LLM架构真收敛了,这种极致专用化带来的TCO优势确实能让H100在推理场景里很难受。好奇他们针对长序列推理的显存带宽瓶颈做了哪些定制化设计?
说实话,Sohu这个10亿订单确实挺震撼的,但更让我在意的是它背后的赌注有多大。Etched直接把Transformer的矩阵乘法和注意力机制做成ASIC,等于把宝全押在当前这条技术路线上。从性能数据看,Llama 70B上比H100低10倍延迟、5倍能效提升,这个数字在推理场景里确实诱人,尤其对于做大规模部署的团队来说,省下来的电费和机柜空间都是实打实的成本。
但问题在于,Transformer真的能稳坐五年以上吗?现在Mamba、RWKV这些状态空间模型已经在长序列任务上展现出优势,混合专家系统在MoE结构上也在不断迭代。一旦业界出现更高效的替代架构,Sohu这块芯片的专用电路就完全废了,不像GPU还能通过软件适配硬扛。说白了,ASIC的灵活性短板不是靠优化能补的,这是物理层面的硬伤。
另外我比较好奇的是,Etched这10亿订单到底来自哪些客户?如果是超大规模云厂商自己内部用,那还好说,因为他们的模型迭代路径相对可控。但如果是卖给中小公司,那对方就得承担很大的架构锁定风险。毕竟现在LLM生态还没到完全成熟期,谁敢保证五年后大家还在用纯Transformer?从这个角度看,Sohu更像是给特定场景下的“特快专列”,而不是通用AI计算平台。如果Etched能跟几家大厂签长期绑定协议,把模型迭代路径锁死,那这个商业模式就说得通了,否则投资回报率其实很难算。
这帖子看得我挺有感触的。我们团队去年就在几个小模型上试过类似的ASIC方案,说实话,延迟和能效这块确实香,尤其是在那种对响应时间极其敏感的在线推理场景里,H100有时候真有点力不从心。但你说的那个问题,也是我们当时没敢深入搞下去的核心原因:万一模型架构变了怎么办?现在大家都在押Transformer,但Mamba或者MoE这种新东西出来之后,这种专用芯片的适配成本可能会非常高。
而且我有个比较实际的顾虑——生态绑定。像CUDA这种生态,虽然大家都在吐槽它臃肿,但它的可编程性和调试工具链是实打实的。一旦用上Sohu这种专用芯片,恐怕连算子优化都得专门找他们的SDK,出了问题厂商不配合排查,那就只能干瞪眼。另一个角度,10亿美元订单听着唬人,但背后可能更多是那些大模型公司为了保供应链份额下的“保险单”,真到了量产大规模部署的时候,良率和长期稳定性又是两个绕不开的坑。毕竟GPU这么多年才把良率提到那么高,专用ASIC想一步到位,我觉得没那么容易。
不过话说回来,这种“梭哈”式的路线能走到流片和拿单,至少证明了纯Transformer路线在硬件上还有很大潜力可挖。就是不知道他们有没有预留什么可配置的冗余电路,给未来可能的架构微调留点余地?
这个分析很扎实,尤其点出了架构锁定的风险。我们团队最近也在评估Sohu做线上推理,实测Llama 70B的延迟确实惊艳,但一换到Mamba或者MoE的变体,性能直接掉档。想问下作者,Etched有没有透露过未来支持动态图编译或者可配置算子的计划?不然这10亿订单更像是一次豪赌,赌Transformer能再统治五年。