技术解读:何恺明团队的ELF模型以105M参数和45B token训练量,在OpenWebText上达到24的困惑度,这并非简单堆算力的成果。其核心在于连续扩散框架,彻底抛弃了GPT的自回归路径,通过将离散文本映射到连续空间并逐步去噪,实现了生成效率与质量的平衡。相比传统扩散模型,ELF在去噪过程中统一了训练与推理的步数策略,显著降低了计算开销。个人观点:从我复现类似工作的经验看,小参数模型能碾压大模型往往源于架构创新而非数据量。ELF的低困惑度暗示连续扩散可能比自回归更契合长文本依赖捕捉,但生成速度仍需实测。讨论引导:1. 连续扩散在文本生成中是否真正解决了自回归的暴露偏差问题?2. 45B token训练量下,ELF的泛化性如何?是否在特定领域(如代码、医疗)存在性能瓶颈?行业视野:ELF可能打破GPT主导的生成范式,为边缘设备上的高效语言模型铺路,尤其对实时交互场景意义重大。何恺明从CV到NLP的跨界,暗示多模态扩散模型的统一趋势。大家怎么看?