英伟达股东大会将Vera Rubin定位为“首个专为AI Agent设计的计算平台”,这听起来很酷,但技术上得拆开看。关键点其实不在“Agent”这个标签,而在于计算架构的演化。从Blackwell到Vera Rubin,核心变化是显存带宽和内存池化能力的提升——这是为了应对多Agent协同推理时的数据吞吐瓶颈。供应链缺口达40%说明需求远超预期,但缺口主要在推理端,而非训练。我个人的经验是,当前很多Agent应用其实用H100就能跑,所谓的“专为Agent设计”更可能是英伟达在引导行业向高并发、低延迟推理场景迁移,从而推动下一代硬件换代。
我的一个质疑是:Vera Rubin是否真的针对Agent的“决策循环”做了优化?还是仅仅在堆算力?如果只是提升推理吞吐,那本质上和Blackwell的差异并不大。我更关心的是其片上网络拓扑是否支持Agent间的实时通信——这才是多Agent系统的瓶颈。
讨论问题:1. 供应链缺口40%集中在推理环节,这是否意味着训练需求已阶段性见顶?2. 如果Agent推理成为主流,计算架构是否会从“单卡强算力”转向“多卡低延迟互联”?
行业视野上,英伟达此举是在为“推理即服务”铺路。一旦Agent应用爆发,云厂商的推理成本结构会彻底改变,传统CPU-based方案可能被边缘化。这对中小模型厂商是利好,但也会加剧对英伟达生态的依赖。