当微软和SpaceX这两家万亿级巨头同时下场争抢一家成立不到两年的AI初创公司时,行业嗅到了不寻常的气息。这家名为Inception的创业公司,种子轮仅融资5000万美元,如今开价超过10亿美元,溢价20倍。更令人瞩目的是,吴恩达和Andrej Karpathy担任了它的天使投资人。一家小公司凭什么让巨头们如此疯狂?答案藏在它的技术路线里——扩散模型要杀进文本生成的地盘,挑战统治LLM多年的自回归架构。Inception的创始人Stefano Ermon是斯坦福大学计算机教授,也是扩散模型(Diffusion Model)的共同发明人。今天大家用的Midjourney、Sora、Stable Diffusion,底层都跑着他帮助开创的技术。2024年,Ermon拉上UCLA教授Aditya Grover和Cornell教授Volodymyr Kuleshov,在Palo Alto创立了Inception Labs。他们的想法在当时堪称“异端”:把扩散模型从图像领域搬到文本生成领域,彻底替换掉自回归架构。Karpathy在X上公开表示,几乎所有LLM都是从左到右逐个预测token的“克隆体”,而扩散模型从噪声中逐步去噪,能并行生成完整token序列,展现出全新的能力特征。Inception推出的模型家族叫Mercury。2026年2月发布的Mercury 2,根据第三方评测机构Artificial Analysis的测试,输出吞吐量达到每秒约1000个token。作为对比,Claude 4.5 Haiku约为每秒89个token,GPT-5 Mini约为每秒71个token,速度提升了10到14倍。在质量上,Mercury 2的AIME 2025得分91.1,GPQA得分73.6,LiveCodeBench得分67.3,与Claude 4.5 Haiku、GPT-5.2 Mini处于同一水平。Ermon直言:“所有现有大语言模型都是自回归的,逐token生成非常慢。扩散模型先给草稿,再通过神经网络反复精炼,并行输出,从根本上突破速度瓶颈。”这场技术路线的博弈,背后是行业对LLM天花板的深层焦虑。自回归模型虽然可靠,但串行生成的结构性限制让速度难以突破。Inception的扩散模型路线,不仅可能让模型成本下降10倍,还为AI应用打开新场景——实时对话、代码生成、大规模内容生产等领域将直接受益。微软和SpaceX的抢购,本质是在押注下一代AI架构的诞生。对于AI从业者而言,这意味着需要重新审视技术栈:扩散模型能否在更长文本、更复杂推理上追平自回归?答案或许就在Inception接下来的产品迭代中。关注这条路线的发展,可能比追逐下一个LLM参数竞赛更有价值。