别再只盯着OpenAI和Anthropic的新模型大战了。就在刚刚,谷歌闷头干了件大事:把生成图片的扩散模型拿来写文字,一出手就是4倍加速。新模型名为DiffusionGemma,它直接抛弃了传统自回归那套逐Token生成的打字机模式,而是像印刷机一样工作——一次铺开256个token的画布,从随机噪声出发,多轮去噪,整段文字同时浮现。这套新模式在生成速度方面交出了亮眼成绩:单块H100上每秒1000+ tokens,消费级RTX 5090上700+,比同规格自回归模型快了4倍。更关键的是,这个26B参数的MoE模型,推理时只激活3.8B参数,量化后18GB显存就能装下,翻译过来就是一张4090就能本地跑。目前DiffusionGemma采用允许商用的Apache 2.0开源协议,权重可在Hugging Face直接下载。
天下武功,唯快不破。DiffusionGemma身上最大的标签无疑就是快。在同一块H100上(fp8,batch size=1),DiffusionGemma跑出了1000+ tokens/s,而采用标准自回归的Gemma 4 26B A4B加上MTP加速也只有300+ tokens/s,速度拉开近4倍。要理解DiffusionGemma为什么快,咱得先说说当前大模型为什么慢。今天的主流大模型,不管是GPT、Claude还是Gemini,底层都是自回归架构——就像一台打字机,从左到右,一个token一个token地敲出来。每生成一个新词,都要重新加载一遍几十亿参数的模型权重。在云端这不是大问题,服务器可以同时处理上千个用户请求,把硬件利用率拉满。但如果你在本地跑模型,场景就完全不同了——只有你一个人在用,GPU的大量算力其实在空转,等着一个字一个字地往外蹦。工程师管这叫内存带宽瓶颈(memory-bandwidth bound)。
而DiffusionGemma盯上了扩散模型来解决这一问题。回想一下,扩散模型在生成图片时,是不是直接对整张图的所有像素同时去噪?没错,其工作方式就是一次性对一整块token同时操作,天然并行。这意味着GPU一次性接到一大块并行计算任务,Tensor Core火力全开,不再干等。计算瓶颈从内存搬不过来变成了算力够不够,而算力恰恰是GPU最不缺的东西。具体到DiffusionGemma,原理和Stable Diffusion一样,只不过去噪得到的不是图片,而是文字。Step 1:铺开一张全是随机占位符的256个token的画布。Step 2:多轮迭代去噪,高置信度的token先锁定,再用它们当上下文线索去修正其余部分。Step 3:整段文字收敛为最终输出。用谷歌自己的比喻,这是从单线程的打字机,升级成了整版印刷的印刷机。
速度之外,DiffusionGemma身上还有一个值得关注的点:双向注意力。传统自回归模型只能往前看,模型在生成第N+1个token时,只能看到第1到第N个token,看不到自己还没写出来的未来内容。而DiffusionGemma的256个token同时生成,每个token都能看到画布上所有其他token,前后文同时可见。这就带来了一个自回归模型很难做到的能力——实时自我纠错。模型边生成边评估整段文字的一致性,发现不对立刻修正,不用等全写完再回头改。谷歌举了个直观例子:数独。数独本质是后面的数影响前面的数,自回归模型由于只能往前看,做起来极痛苦,但DiffusionGemma微调后成功率从0%飙到80%。所以,如果未来接触到代码补全、行内编辑、复杂markdown格式化等需要前后文同时协调的场景,扩散模型无疑更有结构性优势。不过,扩散模型并非千好万好,其最大局限在于速度和质量的平衡——去噪步数越少速度越快但质量越差,步数越多质量越好但速度优势越小。谷歌也很坦诚,生产环境推荐标准Gemma 4,DiffusionGemma面向的是速度敏感的本地交互场景。