{
"title": "何恺明首推扩散语言模型ELF,105M参数跑赢主流",
"summary": "何恺明团队发布全新连续扩散语言模型ELF,仅用105M参数和45B训练token,在OpenWebText数据集上取得生成困惑度24的成绩,超越一批主流扩散语言模型。ELF将所有去噪过程保留在连续embedding空间,直到最后一步才离散化为token,打破了以往连续扩散方法效果不佳的认知。该工作证明,连续扩散路线在语言生成上同样可行,且效率更高。",
"content": "何恺明也下场做语言模型了。不过,这次他带队走的不是ChatGPT背后那套预测下一个词元的自回归老路,而是另一条在图像领域大火、正被越来越多研究者搬进文本生成的新路线:扩散语言模型。在最新论文中,何恺明团队放出了全新连续扩散语言模型ELF,全称Embedded Language Flows,仅用105M参数和45B训练token,就正面跑赢了一批主流扩散语言模型。

ELF的核心创新在于,它把整个生成过程都留在了连续的embedding空间里,直到最后一步才重新离散化,将表示变回token。此前,扩散语言模型主要分为两派:离散派直接在token空间做扩散,连续派则把token映射成连续embedding再处理。但由于语言本身的离散性,离散路线一直占据上风。何恺明团队认为,问题可能不在于语言必须离散,而在于前人根本没有让连续路线连续到底。以往的Diffusion-LM等方法虽然在embedding空间去噪,但每一步都要算一次token级的交叉熵,相当于把连续轨迹绑在了词表上。

ELF彻底改变了这一局面。它在训练时,离散token先被编码成连续embedding,再加噪处理,模型负责还原干净embedding或直接预测token。推理时,模型从高斯噪声出发,一路在连续空间里去噪,直到最后一步才切换到解码模式,把embedding重新投回token。这种设计让中间的去噪完全交给连续空间,最终的语言生成只留到最后一步离散化,不需要每一步都往词表上硬对齐,也不需要额外训练一个decoder。正是这种干净利落的分离,让ELF能用更少的采样步数和训练token,在OpenWebText上把生成困惑度压到24,低于一系列主流扩散语言模型。

ELF的成功不仅为扩散语言模型开辟了新方向,也给了从业者一个重要启示:在语言建模中,连续表示和离散输出并非水火不容。对于AI从业者而言,ELF的思路值得关注,尤其是在资源受限的场景下,它用更小的模型和更少的数据实现了更优的效果。未来,随着连续扩散方法在文本生成领域的进一步成熟,我们或许能看到更多不依赖自回归范式的语言模型诞生。对于技术社区来说,ELF是一个信号:在语言模型这个赛道上,除了堆算力、拼参数,还有更多结构性的创新空间等待挖掘。"