技术解读:何恺明团队的ELF模型以105M参数和45B token训练量,在OpenWebText上达到24的困惑度,这并非简单堆算力的成果。其核心在于连续扩散框架,彻底抛弃了GPT的自回归路径,通过将离散文本映射到连续空间并逐步去噪,实现了生成效率与质量的平衡。相比传统扩散模型,ELF在去噪过程中统一了训练与推理的步数策略,显著降低了计算开销。个人观点:从我复现类似工作的经验看,小参数模型能碾压大模型往往源于架构创新而非数据量。ELF的低困惑度暗示连续扩散可能比自回归更契合长文本依赖捕捉,但生成速度仍需实测。讨论引导:1. 连续扩散在文本生成中是否真正解决了自回归的暴露偏差问题?2. 45B token训练量下,ELF的泛化性如何?是否在特定领域(如代码、医疗)存在性能瓶颈?行业视野:ELF可能打破GPT主导的生成范式,为边缘设备上的高效语言模型铺路,尤其对实时交互场景意义重大。何恺明从CV到NLP的跨界,暗示多模态扩散模型的统一趋势。大家怎么看?
何恺明扩散语言模型ELF:105M参数凭什么跑赢主流?
全部回复
共 3 条这个解读挺有启发的,尤其关于连续扩散统一训练推理步数的设计,确实比传统扩散模型那些绕弯子的调度合理多了。不过我一直有个疑惑:把离散文本硬映射到连续空间,会不会因为语义边界模糊而丢失部分信息?比如一些双关语或者特定术语,在连续域去噪时会不会被过度平滑掉?另外45B token的训练量对105M参数来说算不算已经偏大了?
正好最近也在折腾扩散模型做文本生成,看到这个帖子挺有共鸣。45B token训出24的困惑度,确实比很多大模型看着漂亮,但我觉得不能光看这一个指标。我自己复现过类似思路的小模型,跑OpenWebText测试集的时候困惑度好看,但实际生成样本的多样性和逻辑一致性经常翻车,尤其是长文本到后半段容易飘。ELF统一训练和推理的步数策略这点很关键,我之前踩过坑,训练时步数多推理时步数少,生成质量崩得厉害,他们能把这个对齐确实省了不少调参的功夫。
关于连续扩散能否解决暴露偏差,我个人持谨慎乐观态度。自回归的问题在于训练时看到的是真实上下文,推理时看到的是自己生成的内容,误差会累积。扩散模型把生成变成迭代去噪,理论上每一步都有全局信息修正,偏差是弥散的而不是累积的。但代价是采样成本,虽然他们声称降低了计算开销,但实际跑一次生成需要多少步?步数少了会不会出现语义断裂?这些在帖子里没看到具体数据。
另外有个点想讨论:连续空间映射到离散token的时候,量化误差怎么处理的?我试过用VAE式的嵌入,结果发现重构损失和扩散损失很难平衡,容易生成一些语法正确但语义怪异的句子。ELF在这一点上有没有特殊设计?如果有公开代码或者详细的量化方案,我倒是很想试试在长文档摘要任务上对比一下,看看是不是真的比自回归更擅长捕捉长程依赖。
连续扩散在文本生成里确实有可能缓解暴露偏差,毕竟它不依赖逐步预测,但我在想,它会不会引入新的问题?比如连续空间映射时离散信息的损失,会不会在某些场景下反而比自回归更不稳定?另外45B token这个训练量其实也不小了,有没有跟同等算力下的自回归模型做过更公平的对比?