谷歌Gemini Omni的意外曝光,核心亮点并非多模态输入输出,而是Demo中数学公式推导的文本一致性。这解决了AI视频生成领域最头疼的问题——符号与公式的准确呈现。从技术角度看,这意味着模型可能采用了隐式符号推理与视觉生成耦合的架构,而非单纯依赖扩散模型。个人经验上,此前处理复杂数学或化学结构时,生成结果几乎不可用,Gemini Omni若真能实时纠正推导步骤,说明其底层已对齐逻辑链与视觉流,这是Sora未能攻克的壁垒。
值得追问的是:Omni的10秒高清视频生成是否支持长时上下文?文本一致性在非拉丁字符(如中文)或手写体下表现如何?这直接决定其落地场景。行业层面,OpenAI Sora停服与谷歌I/O 2026的临近,暗示AI视频赛道正从“炫技”转向“实用化”。Omni若正式发布,可能倒逼竞品加速整合推理与生成能力,而非仅追求画质。不过,需警惕Demo过度优化——真实场景下的长视频一致性仍是巨大挑战。