在AI视频生成赛道竞争白热化的2026年,Sand.ai完成两轮合计超亿美元融资,投资方阵容包括Look Capital、王慧文家办、经纬创投、IDG、百度风投等一线机构。这家成立仅两年多的公司,凭借对自回归路线的坚持,正在重新定义视频模型的技术边界。创始人曹越的底层逻辑很清晰:视频是通往世界模型最重要的路径,而通往终局需要押注非共识。
Sand.ai的技术路线选择颇具戏剧性。当市场主流都在追捧Diffusion路线时,曹越从第一天就认定自回归是对视频数据最本质的建模方式。他认为视频在时序上是因果关系,物理规律本质是随时间变化的函数,Predict Next Frame、Predict Next Second才是最佳训练范式。2025年初发布的Magi-1验证了这一判断,该模型在Google DeepMind的Physics IQ benchmark上长期保持第一。随后团队率先实现音画同出,成为除Google VEO 3之外最早拿出此类模型的团队。2025年11月,曹越又做出关键决策:将模型架构从Dense转向MoE。他指出,Dense架构下继续Scale Up成本会直线上升,视频模型存在成本、速度、效果的“不可能三角”,MoE是突破它的研究手段。
在应用层面,Sand.ai已经展现出清晰的商业化路径。今年1月上线的音乐Agent产品VidMuse,三个月内达成千万美元ARR体量。公司同时探索数字人、视频Agent等产品方向。曹越认为,创业公司如果没有训练出SOTA模型的能力,很容易被模型厂商整合,因此Sand.ai会坚持模型与应用双线并进。2026年Q3,公司计划发布采用MoE架构的新一代视频生成模型,兼顾高效推理与目前开源领域最大的参数规模,并承诺将其开源。
对于当前热议的世界模型概念,曹越保持冷静。他认为世界模型还处于“前GPT时代”——数据不够、定义不清、技术路线远未收敛。但视频是距离世界Observation最近且体量足够大的数据类型,因此视频模型是通往终局最重要的路径。曹越的思考始终从第一性原理出发,不关心自己是否站在市场共识一边。这种坚持让Sand.ai在短短两年多里完成了从技术探索到商业验证的跨越,也为AI视频生成赛道提供了一个值得关注的样本。