最近微软和SpaceX抢投Inception的消息刷屏,核心卖点是扩散模型在文本生成上达到1000 token/s,比Claude、GPT快10倍以上。作为做过多模态生成和LLM推理优化的工程师,我觉得有必要泼点冷水。

首先,技术解读:Inception的Mercury 2确实在速度上做了极致优化,利用扩散模型并行生成token,避免了自回归的串行瓶颈。但这并非颠覆性创新,类似思路在图像扩散(如Imagen)中早有应用,只是文本领域此前效果不佳。关键突破可能在于他们找到了更高效的噪声调度或条件控制方式,使得质量逼近主流LLM。

个人经验:我在实际项目中测试过扩散模型做文本任务,比如短文本生成或补全,速度优势明显,但长文本一致性、复杂推理(如数学题)上,自回归模型仍占优。Inception声称质量接近,但没提供详细benchmark,比如MMLU或GSM8K得分。我怀疑他们可能避开了推理密集型场景。

讨论引导:1)扩散模型在文本生成上真的能替代自回归吗?尤其在需要逻辑链的复杂任务中。2)速度提升是否以牺牲可控性为代价?比如风格或事实准确性。

行业视野:Inception的融资热度说明市场在寻找LLM新范式,但别指望很快落地。从工程角度看,扩散模型推理显存占用更高,部署成本未必低。短期内,自回归仍是主力,扩散更适合低延迟、高并发的场景,比如实时聊天或API加速。技术路线之争才刚开始。