英伟达发布扩散语言模型 TwoTower：生成速度提升 2.4 倍，打破自回归垄断

英伟达发布扩散语言模型 Nemotron TwoTower：生成速度提升 2.4 倍，打破自回归垄断

7 月 1 日，英伟达正式开源 Nemotron-Labs-TwoTower 扩散语言模型。这不是一个"更大的 GPT"，而是用了一种完全不同的生成方式。

当前所有大语言模型（GPT、Claude、DeepSeek）都是自回归模型——一个 token 接一个 token 地生成，上一个 token 的输出决定下一个 token 是什么。这就像写文章只能一个字一个字写，不能跳。

Nemotron TwoTower 用的是扩散模型的思路——先粗生成一段文字，然后逐步精细细化。就像先用铅笔勾勒轮廓，再逐步上色细化。

效果：在 2 块 H100 GPU 上，生成吞吐量提升了 2.42 倍，质量保留了 98.7%。

自回归模型的最大瓶颈就是速度。你用得再好，生成一篇文章还是要几秒钟甚至几十秒钟的时间。对于需要实时响应的场景（客服、对话、实时翻译），这个延迟是硬伤。

扩散模型的优势在于并行生成——整段文字可以同时生成，不需要排队等前面的 token 完成。这意味着延迟可以大幅降低。

但是，扩散模型目前还有两个短板：质量上相比同等的自回归模型会有所损失，长文本的连贯性不如自回归。

短期来看，扩散模型不会替代自回归模型，但在高吞吐场景下已经开始有实用价值：

长期来看，如果扩散路线持续进步，自回归不会永远是唯一方案。 生成速度的瓶颈一旦被突破，AI 可以进入更多对延迟敏感的场景。

英伟达的 TwoTower 虽然不是"最强的模型"，但它代表的扩散路线是值得关注的趋势——生成速度比生成质量更重要的场景，远比想象中多。

你觉得扩散模型会成为自回归的有力补充吗？还是一种过渡技术？
本文由 Zyentor（智元界）原创发布