英伟达发布扩散语言模型 Nemotron TwoTower:生成速度提升 2.4 倍,打破自回归垄断
7 月 1 日,英伟达正式开源 Nemotron-Labs-TwoTower 扩散语言模型。这不是一个"更大的 GPT",而是用了一种完全不同的生成方式。
自回归 vs 扩散:两种完全不同的生成方式
当前所有大语言模型(GPT、Claude、DeepSeek)都是自回归模型——一个 token 接一个 token 地生成,上一个 token 的输出决定下一个 token 是什么。这就像写文章只能一个字一个字写,不能跳。
Nemotron TwoTower 用的是扩散模型的思路——先粗生成一段文字,然后逐步精细细化。就像先用铅笔勾勒轮廓,再逐步上色细化。
效果:在 2 块 H100 GPU 上,生成吞吐量提升了 2.42 倍,质量保留了 98.7%。
为什么重要
自回归模型的最大瓶颈就是速度。你用得再好,生成一篇文章还是要几秒钟甚至几十秒钟的时间。对于需要实时响应的场景(客服、对话、实时翻译),这个延迟是硬伤。
扩散模型的优势在于并行生成——整段文字可以同时生成,不需要排队等前面的 token 完成。这意味着延迟可以大幅降低。
但是,扩散模型目前还有两个短板:质量上相比同等的自回归模型会有所损失,长文本的连贯性不如自回归。
对开发者的影响
短期来看,扩散模型不会替代自回归模型,但在高吞吐场景下已经开始有实用价值:
- 批量处理:翻译大量文档、数据标注,用扩散模型速度翻倍
- 实时场景:对话、客服,扩散模型的低延迟优势明显
- 嵌入设备:手机、IoT 设备上跑模型,速度比质量更重要
长期来看,如果扩散路线持续进步,自回归不会永远是唯一方案。 生成速度的瓶颈一旦被突破,AI 可以进入更多对延迟敏感的场景。
总结
英伟达的 TwoTower 虽然不是"最强的模型",但它代表的扩散路线是值得关注的趋势——生成速度比生成质量更重要的场景,远比想象中多。
你觉得扩散模型会成为自回归的有力补充吗?还是一种过渡技术?
本文由 Zyentor(智元界)原创发布