何恺明首个语言模型：105M参数，不走GPT自回归老路

{
"title": "何恺明首推扩散语言模型ELF，105M参数跑赢主流",
"summary": "何恺明团队发布全新连续扩散语言模型ELF，仅用105M参数和45B训练token，在OpenWebText数据集上取得生成困惑度24的成绩，超越一批主流扩散语言模型。ELF将所有去噪过程保留在连续embedding空间，直到最后一步才离散化为token，打破了以往连续扩散方法效果不佳的认知。该工作证明，连续扩散路线在语言生成上同样可行，且效率更高。",
"content": "何恺明也下场做语言模型了。不过，这次他带队走的不是ChatGPT背后那套预测下一个词元的自回归老路，而是另一条在图像领域大火、正被越来越多研究者搬进文本生成的新路线：扩散语言模型。在最新论文中，何恺明团队放出了全新连续扩散语言模型ELF，全称Embedded Language Flows，仅用105M参数和45B训练token，就正面跑赢了一批主流扩散语言模型。

ELF的核心创新在于，它把整个生成过程都留在了连续的embedding空间里，直到最后一步才重新离散化，将表示变回token。此前，扩散语言模型主要分为两派：离散派直接在token空间做扩散，连续派则把token映射成连续embedding再处理。但由于语言本身的离散性，离散路线一直占据上风。何恺明团队认为，问题可能不在于语言必须离散，而在于前人根本没有让连续路线连续到底。以往的Diffusion-LM等方法虽然在embedding空间去噪，但每一步都要算一次token级的交叉熵，相当于把连续轨迹绑在了词表上。

ELF彻底改变了这一局面。它在训练时，离散token先被编码成连续embedding，再加噪处理，模型负责还原干净embedding或直接预测token。推理时，模型从高斯噪声出发，一路在连续空间里去噪，直到最后一步才切换到解码模式，把embedding重新投回token。这种设计让中间的去噪完全交给连续空间，最终的语言生成只留到最后一步离散化，不需要每一步都往词表上硬对齐，也不需要额外训练一个decoder。正是这种干净利落的分离，让ELF能用更少的采样步数和训练token，在OpenWebText上把生成困惑度压到24，低于一系列主流扩散语言模型。

ELF的成功不仅为扩散语言模型开辟了新方向，也给了从业者一个重要启示：在语言建模中，连续表示和离散输出并非水火不容。对于AI从业者而言，ELF的思路值得关注，尤其是在资源受限的场景下，它用更小的模型和更少的数据实现了更优的效果。未来，随着连续扩散方法在文本生成领域的进一步成熟，我们或许能看到更多不依赖自回归范式的语言模型诞生。对于技术社区来说，ELF是一个信号：在语言模型这个赛道上，除了堆算力、拼参数，还有更多结构性的创新空间等待挖掘。"

何恺明首个语言模型：105M参数，不走GPT自回归老路

相关推荐

Anthropic揭秘Loop：AI Agent核心机制

特斯拉供应链押注，一年造出对标宇树的机器狗

数宗DM Agent OS重塑商品与内容流转逻辑

Anthropic揭秘Loop：AI Agent核心机制

特斯拉供应链押注，一年造出对标宇树的机器狗

讨论 (0 条)