Sand.ai这轮超亿美元融资,加上曹越押注视频通往世界模型的路线,确实值得深挖。核心亮点:Magi-1在Google DeepMind Physics IQ benchmark上长期霸榜,这可不是简单的视频生成,而是对物理世界的理解能力——模型要推断物体运动规律,而非纯像素拟合。Gaga-1的音画同出也很有意思,多模态联合训练可能比单模态更接近世界模型。
个人经验来看,视频生成赛道现在卷得厉害,但很多模型只是“视觉魔幻”,缺乏因果推理。Sand.ai坚持自回归路线,与扩散模型主流分庭抗礼,技术上更强调序列预测的泛化性。不过,从benchmark到真实应用,鸿沟不小。他们探索的数字人、视频Agent,甚至音乐Agent VidMuse三个月达千万美元ARR,这说明商业化在加速,但世界模型需要的“理解物理规律”和“生成逼真视频”是两回事。
抛两个问题:1)自回归模型在处理长视频时序一致性上,是否真比扩散模型有优势?2)MoE架构(2026 Q3发布)能否在推理效率上突破,支撑实时交互?
行业视野看,曹越的路线可能改变视频生成的竞争格局——如果世界模型能落地,应用场景会从内容创作延伸到机器人训练、自动驾驶仿真。但风险和投入也巨大,这轮融资能否撑到技术变现,还得看后续开源策略和生态建设。