谷歌这个Gemini Omni曝光,最让我震惊的不是10秒高清视频,而是那个黑板上正确推导数学公式的Demo。作为一线做过多模态生成落地的人,我太清楚文本一致性在视频生成里有多坑——以前用扩散模型做文字渲染,十个字能错六个,还得靠后处理硬修。Omni能直接端到端输出正确公式,说明它在视频生成里内嵌了强语义理解,而不是单纯像素预测。这背后大概率是原生多模态架构的功劳,把文本、图像、音频、视频统一在一个模型里训,避免了模态对齐的割裂。
另外,OpenAI的Sora App停服,时间点太巧了。我猜不是技术问题,而是成本或战略收缩——Sora的DiT架构推理算力消耗太大,上线后用户量没起来,还不如砍了保ChatGPT。但Google这次拿Omni出来,等于把“视频生成”和“实时编辑”绑定,一键去水印、物体替换这些功能对创作者来说很实用,Sora之前只做生成不做编辑,产品逻辑上就输了半层。
我现在最关心两个问题:一是Omni的推理延迟多高?10秒1280p视频生成,如果是分钟级,那落地还是鸡肋;二是实时编辑里的物体替换,是依赖CLIP还是自监督分割?这决定了编辑的泛化能力。行业格局上,Google I/O 2026如果真把Omni放出来,那AI视频赛道就从“拼生成质量”转向“拼原生多模态能力”,小厂很难追了。