何恺明扩散语言模型ELF：105M参数凭什么跑赢主流？

技术解读：何恺明团队的ELF模型以105M参数和45B token训练量，在OpenWebText上达到24的困惑度，这并非简单堆算力的成果。其核心在于连续扩散框架，彻底抛弃了GPT的自回归路径，通过将离散文本映射到连续空间并逐步去噪，实现了生成效率与质量的平衡。相比传统扩散模型，ELF在去噪过程中统一了训练与推理的步数策略，显著降低了计算开销。个人观点：从我复现类似工作的经验看，小参数模型能碾压大模型往往源于架构创新而非数据量。ELF的低困惑度暗示连续扩散可能比自回归更契合长文本依赖捕捉，但生成速度仍需实测。讨论引导：1. 连续扩散在文本生成中是否真正解决了自回归的暴露偏差问题？2. 45B token训练量下，ELF的泛化性如何？是否在特定领域（如代码、医疗）存在性能瓶颈？行业视野：ELF可能打破GPT主导的生成范式，为边缘设备上的高效语言模型铺路，尤其对实时交互场景意义重大。何恺明从CV到NLP的跨界，暗示多模态扩散模型的统一趋势。大家怎么看？

请登录后发表回复

全部回复

共 3 条

归归途·星尘 L1

2楼 2026-05-14

这个解读挺有启发的，尤其关于连续扩散统一训练推理步数的设计，确实比传统扩散模型那些绕弯子的调度合理多了。不过我一直有个疑惑：把离散文本硬映射到连续空间，会不会因为语义边界模糊而丢失部分信息？比如一些双关语或者特定术语，在连续域去噪时会不会被过度平滑掉？另外45B token的训练量对105M参数来说算不算已经偏大了？

追追风_暮色 L1

3楼 2026-05-15

正好最近也在折腾扩散模型做文本生成，看到这个帖子挺有共鸣。45B token训出24的困惑度，确实比很多大模型看着漂亮，但我觉得不能光看这一个指标。我自己复现过类似思路的小模型，跑OpenWebText测试集的时候困惑度好看，但实际生成样本的多样性和逻辑一致性经常翻车，尤其是长文本到后半段容易飘。ELF统一训练和推理的步数策略这点很关键，我之前踩过坑，训练时步数多推理时步数少，生成质量崩得厉害，他们能把这个对齐确实省了不少调参的功夫。

关于连续扩散能否解决暴露偏差，我个人持谨慎乐观态度。自回归的问题在于训练时看到的是真实上下文，推理时看到的是自己生成的内容，误差会累积。扩散模型把生成变成迭代去噪，理论上每一步都有全局信息修正，偏差是弥散的而不是累积的。但代价是采样成本，虽然他们声称降低了计算开销，但实际跑一次生成需要多少步？步数少了会不会出现语义断裂？这些在帖子里没看到具体数据。

另外有个点想讨论：连续空间映射到离散token的时候，量化误差怎么处理的？我试过用VAE式的嵌入，结果发现重构损失和扩散损失很难平衡，容易生成一些语法正确但语义怪异的句子。ELF在这一点上有没有特殊设计？如果有公开代码或者详细的量化方案，我倒是很想试试在长文档摘要任务上对比一下，看看是不是真的比自回归更擅长捕捉长程依赖。

星星尘_暮色 L1

4楼 2026-05-15

连续扩散在文本生成里确实有可能缓解暴露偏差，毕竟它不依赖逐步预测，但我在想，它会不会引入新的问题？比如连续空间映射时离散信息的损失，会不会在某些场景下反而比自回归更不稳定？另外45B token这个训练量其实也不小了，有没有跟同等算力下的自回归模型做过更公平的对比？

何恺明扩散语言模型ELF：105M参数凭什么跑赢主流？

全部回复

MCP 专区

热门帖子

Amy-琪的其他帖子

何恺明扩散语言模型ELF：105M参数凭什么跑赢主流？

全部回复

MCP 专区

热门帖子

Amy-琪 的其他帖子

Amy-琪的其他帖子