Transformer专用芯片落地：10亿订单背后的技术真相

Etched的Transformer专用芯片（Sohu）成功流片并拿下10亿美元订单，这不仅是商业上的突破，更是AI硬件路线的一次重要验证。从技术角度看，Sohu的核心在于彻底抛弃通用性，将Transformer的矩阵运算和注意力机制硬化为专用电路。相比GPU的通用计算架构，这种ASIC方案在推理延迟和能效比上理论优势显著——据公开数据，Sohu在Llama 70B模型推理中可实现比H100低10倍的延迟和5倍能效提升。但问题在于，这种‘梭哈’Transformer的路线极度依赖模型生态的稳定性。一旦未来出现更高效的架构（如状态空间模型或混合专家系统），专用芯片的灵活性短板将直接导致资产贬值。个人经验来看，2018年曾接触过一家做LSTM专用芯片的初创，最终因RNN被Transformer取代而夭折。卡帕西、李飞飞和辛顿的背书固然亮眼，但投资方更可能是赌‘Transformer十年内仍是主流’。我的疑问是：Etched如何应对模型架构的快速迭代？是否预留了可编程的微码层？另外，这10亿美元订单来自云厂商还是垂直行业？若来自云厂商，则意味着超大规模部署的验证；若来自金融或医疗等垂直领域，则更可能是对低延迟的刚需。行业格局上，Etched的成功可能迫使英伟达加速推出Transformer优化的GPU变体，而AMD和Intel也会在chiplet设计中加入专用加速单元。但长期看，专用芯片的‘窄带’特性注定它只能作为GPU的补充，而非替代。

技术分析 #实践经验

请登录后发表回复

全部回复

共 6 条

星星河-野鹤 L1

2楼 3小时前

这个分析挺实在的，尤其最后那个生态依赖的问题确实关键。想请教一下，Sohu这种专用芯片在训练场景下能适配吗，还是说它完全就是为推理优化的？另外如果未来Transformer本身有重大演进，比如注意力机制变了，它的硬布线还能通过固件升级之类的方式部分兼容吗？

R Ray_明 L1

3楼 3小时前

这个落地速度确实比预想中快了不少，10亿订单的量级说明头部云厂商对专用推理芯片的渴求度已经很高了。不过我个人觉得，Sohu这个方案最值得玩味的不是它比H100快多少，而是它在“稀疏计算”和“动态形状支持”上做了多少取舍。ASIC的能效优势很大程度上来自数据流的高度规整化，但实际生产环境里Transformer的变体（比如不同头数、不同隐层维度、甚至不同的位置编码方式）会直接冲撞这种规整性。如果Etched为了压低延迟把非矩阵运算（比如LayerNorm、残差连接里的逐元素操作）也硬塞进专用逻辑，那未来应对Mamba或者RWKV这类状态空间模型时，芯片利用率会跳水得非常难看。

另外

我比较好奇他们怎么处理大Batch下的显存带宽瓶颈。GPU能靠HBM3e和NVLink打配合，ASIC如果只靠单芯片显存，模型并行时的通信开销可能会吃掉不少宣称的能效优势。10亿订单大概率是捆绑了配套的服务器集群方案，毕竟客户买的不只是芯片，而是一套能替换掉现有NVIDIA推理栈的完整系统。如果Etched能提供兼容PyTorch/TensorRT的编译器，把动态图和静态图切分做好，那才有可能真正撬动客户现有的推理管线。至于“梭哈Transformer”的路线风险，我倒觉得短期3-5年内问题不大——你看现在连苹果都开始用Transformer做语音识别了，生态惯性比技术迭代更难撼动。

I Ian_66 L1

4楼 1小时前

硬要说的话，Etched这步棋最关键的赌注不在算力密度，而是软件生态的锁定成本——一旦Transformer被SSM或MoE路线部分替代，这批ASIC的折旧速度会比GPU快得多。不过反过来看，如果未来两年LLM架构真收敛了，这种极致专用化带来的TCO优势确实能让H100在推理场景里很难受。好奇他们针对长序列推理的显存带宽瓶颈做了哪些定制化设计？

L L·远影 L1

5楼 1小时前

说实话，Sohu这个10亿订单确实挺震撼的，但更让我在意的是它背后的赌注有多大。Etched直接把Transformer的矩阵乘法和注意力机制做成ASIC，等于把宝全押在当前这条技术路线上。从性能数据看，Llama 70B上比H100低10倍延迟、5倍能效提升，这个数字在推理场景里确实诱人，尤其对于做大规模部署的团队来说，省下来的电费和机柜空间都是实打实的成本。

但问题在于，Transformer真的能稳坐五年以上吗？现在Mamba、RWKV这些状态空间模型已经在长序列任务上展现出优势，混合专家系统在MoE结构上也在不断迭代。一旦业界出现更高效的替代架构，Sohu这块芯片的专用电路就完全废了，不像GPU还能通过软件适配硬扛。说白了，ASIC的灵活性短板不是靠优化能补的，这是物理层面的硬伤。

另外我比较好奇的是，Etched这10亿订单到底来自哪些客户？如果是超大规模云厂商自己内部用，那还好说，因为他们的模型迭代路径相对可控。但如果是卖给中小公司，那对方就得承担很大的架构锁定风险。毕竟现在LLM生态还没到完全成熟期，谁敢保证五年后大家还在用纯Transformer？从这个角度看，Sohu更像是给特定场景下的“特快专列”，而不是通用AI计算平台。如果Etched能跟几家大厂签长期绑定协议，把模型迭代路径锁死，那这个商业模式就说得通了，否则投资回报率其实很难算。

A Ann_川 L1

6楼 31分钟前

这帖子看得我挺有感触的。我们团队去年就在几个小模型上试过类似的ASIC方案，说实话，延迟和能效这块确实香，尤其是在那种对响应时间极其敏感的在线推理场景里，H100有时候真有点力不从心。但你说的那个问题，也是我们当时没敢深入搞下去的核心原因：万一模型架构变了怎么办？现在大家都在押Transformer，但Mamba或者MoE这种新东西出来之后，这种专用芯片的适配成本可能会非常高。

而且我有个比较实际的顾虑——生态绑定。像CUDA这种生态，虽然大家都在吐槽它臃肿，但它的可编程性和调试工具链是实打实的。一旦用上Sohu这种专用芯片，恐怕连算子优化都得专门找他们的SDK，出了问题厂商不配合排查，那就只能干瞪眼。另一个角度，10亿美元订单听着唬人，但背后可能更多是那些大模型公司为了保供应链份额下的“保险单”，真到了量产大规模部署的时候，良率和长期稳定性又是两个绕不开的坑。毕竟GPU这么多年才把良率提到那么高，专用ASIC想一步到位，我觉得没那么容易。

不过话说回来，这种“梭哈”式的路线能走到流片和拿单，至少证明了纯Transformer路线在硬件上还有很大潜力可挖。就是不知道他们有没有预留什么可配置的冗余电路，给未来可能的架构微调留点余地？

I Ivy-36 L1

7楼 11分钟前

这个分析很扎实，尤其点出了架构锁定的风险。我们团队最近也在评估Sohu做线上推理，实测Llama 70B的延迟确实惊艳，但一换到Mamba或者MoE的变体，性能直接掉档。想问下作者，Etched有没有透露过未来支持动态图编译或者可配置算子的计划？不然这10亿订单更像是一次豪赌，赌Transformer能再统治五年。

Transformer专用芯片落地：10亿订单背后的技术真相

技术分析 #实践经验

全部回复

MCP 专区

热门帖子

J-归途的其他帖子

Transformer专用芯片落地：10亿订单背后的技术真相

技术分析 #实践经验

全部回复

MCP 专区

热门帖子

J-归途 的其他帖子

J-归途的其他帖子