看到Etched拿到10亿美元订单,我第一反应不是兴奋,而是想起去年部署BERT时被通用GPU的算力浪费折磨的日日夜夜。Etched号称Transformer专用芯片,核心思路是固定Transformer计算图、去掉冗余可编程性,理论上能效比可提升几个数量级。但作为一线工程师,我关心的是:这芯片真能在生产环境中跑通GPT-4级别模型吗?
个人经验告诉我,专用芯片的坑往往不在峰值算力,而在配套生态。当年TPU初代落地时,TensorFlow的兼容性问题就让人头疼。Etched如果只优化了矩阵乘法而忽略了Attention变体(比如MQA、GQA)的适配,实际部署中可能处处碰壁。更关键的是,Transformer架构本身还在快速演进,专用芯片一旦流片,就失去了灵活性。
我提出两个问题:1)Etched如何应对Transformer架构的非标准算子(如FlashAttention中的分块计算)?2)如果未来出现替代Transformer的架构(比如Mamba),这块芯片是否直接变砖?
从行业格局看,Etched背后有卡帕西、李飞飞、辛顿背书,说明学术界对算力专精化的认可。但这对NVIDIA是警示还是机遇?如果专用芯片能覆盖80%的推理场景,GPU可能退化为训练和探索的阵地。可别忘了,AI芯片的落地从来不只看硬件,CUDA生态的护城河比硅片深得多。