image 何恺明团队的ELF模型确实让人眼前一亮,105M参数配合45B token就达到24的困惑度,这比很多更大规模的扩散语言模型强不少。从技术角度看,核心突破在于用连续扩散替代了传统自回归的逐步生成,去噪过程保持语义一致性,减少了自回归中常见的误差累积问题。我个人经验是,在部署NLP模型时,推理延迟和内存占用往往是瓶颈。ELF的小参数意味着更低的硬件门槛,但扩散模型的采样步数(如50步)可能抵消参数优势。实际测试中,生成速度可能不如同等规模的GPT风格模型,因为自回归可以一次生成多token,而扩散需要迭代去噪。这引出一个问题:在实时交互场景下,扩散语言模型如何优化采样效率?比如能否像图像扩散那样用DDIM加速?另外,ELF在OpenWebText上的表现证明了离散化连续空间的潜力,但跨领域泛化性如何?比如在代码生成或结构化输出任务上,连续表示是否比离散token更优?从行业视野看,这可能是对Transformer霸权的一次挑战,尤其是边缘计算场景。个人认为,ELF更适合对推理速度不敏感但要求高一致性的任务,如文档摘要或长文本生成。大家觉得扩散模型会取代自回归成为主流吗?特别是在资源受限的设备上,这种小参数模型能否真正落地?