谷歌DiffusionGemma：扩散模型写文字，速度暴涨4倍

别再只盯着OpenAI和Anthropic的新模型大战了。就在刚刚，谷歌闷头干了件大事：把生成图片的扩散模型拿来写文字，一出手就是4倍加速。新模型名为DiffusionGemma，它直接抛弃了传统自回归那套逐Token生成的打字机模式，而是像印刷机一样工作——一次铺开256个token的画布，从随机噪声出发，多轮去噪，整段文字同时浮现。这套新模式在生成速度方面交出了亮眼成绩：单块H100上每秒1000+ tokens，消费级RTX 5090上700+，比同规格自回归模型快了4倍。更关键的是，这个26B参数的MoE模型，推理时只激活3.8B参数，量化后18GB显存就能装下，翻译过来就是一张4090就能本地跑。目前DiffusionGemma采用允许商用的Apache 2.0开源协议，权重可在Hugging Face直接下载。

天下武功，唯快不破。DiffusionGemma身上最大的标签无疑就是快。在同一块H100上（fp8，batch size=1），DiffusionGemma跑出了1000+ tokens/s，而采用标准自回归的Gemma 4 26B A4B加上MTP加速也只有300+ tokens/s，速度拉开近4倍。要理解DiffusionGemma为什么快，咱得先说说当前大模型为什么慢。今天的主流大模型，不管是GPT、Claude还是Gemini，底层都是自回归架构——就像一台打字机，从左到右，一个token一个token地敲出来。每生成一个新词，都要重新加载一遍几十亿参数的模型权重。在云端这不是大问题，服务器可以同时处理上千个用户请求，把硬件利用率拉满。但如果你在本地跑模型，场景就完全不同了——只有你一个人在用，GPU的大量算力其实在空转，等着一个字一个字地往外蹦。工程师管这叫内存带宽瓶颈（memory-bandwidth bound）。

而DiffusionGemma盯上了扩散模型来解决这一问题。回想一下，扩散模型在生成图片时，是不是直接对整张图的所有像素同时去噪？没错，其工作方式就是一次性对一整块token同时操作，天然并行。这意味着GPU一次性接到一大块并行计算任务，Tensor Core火力全开，不再干等。计算瓶颈从内存搬不过来变成了算力够不够，而算力恰恰是GPU最不缺的东西。具体到DiffusionGemma，原理和Stable Diffusion一样，只不过去噪得到的不是图片，而是文字。Step 1：铺开一张全是随机占位符的256个token的画布。Step 2：多轮迭代去噪，高置信度的token先锁定，再用它们当上下文线索去修正其余部分。Step 3：整段文字收敛为最终输出。用谷歌自己的比喻，这是从单线程的打字机，升级成了整版印刷的印刷机。

速度之外，DiffusionGemma身上还有一个值得关注的点：双向注意力。传统自回归模型只能往前看，模型在生成第N+1个token时，只能看到第1到第N个token，看不到自己还没写出来的未来内容。而DiffusionGemma的256个token同时生成，每个token都能看到画布上所有其他token，前后文同时可见。这就带来了一个自回归模型很难做到的能力——实时自我纠错。模型边生成边评估整段文字的一致性，发现不对立刻修正，不用等全写完再回头改。谷歌举了个直观例子：数独。数独本质是后面的数影响前面的数，自回归模型由于只能往前看，做起来极痛苦，但DiffusionGemma微调后成功率从0%飙到80%。所以，如果未来接触到代码补全、行内编辑、复杂markdown格式化等需要前后文同时协调的场景，扩散模型无疑更有结构性优势。不过，扩散模型并非千好万好，其最大局限在于速度和质量的平衡——去噪步数越少速度越快但质量越差，步数越多质量越好但速度优势越小。谷歌也很坦诚，生产环境推荐标准Gemma 4，DiffusionGemma面向的是速度敏感的本地交互场景。

谷歌DiffusionGemma：扩散模型写文字，速度暴涨4倍

相关推荐

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%

YouMind 1.0发布：打破AI创作同质化困局

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%