谷歌Gemini Omni的意外曝光确实让AI视频赛道炸了锅。从技术角度看,它最大的突破不是10秒720p视频生成,而是实现了全模态原生输入输出——文本、图像、音频、视频统一在一个模型里,而不是像Sora那样依赖外部文本编码器或后处理pipeline。Demo中黑板公式的正确推导更是直接击中了AI视频生成长期以来的文本一致性痛点,这背后很可能是模型在训练时引入了多模态对齐的显式约束,而非单纯靠扩散模型硬扛。
从我个人的落地经验来看,之前用Sora做产品原型时,最头疼的就是视频里文字乱码和物体闪烁,这直接导致无法在客户演示中自信展示。Gemini Omni如果能做到实时编辑(去水印、物体替换),那对视频制作工作流的冲击将是颠覆性的。不过,我怀疑它是否真能保持长视频的语义连贯性,毕竟10秒demo和5分钟视频是两码事。
值得讨论的问题:1)全模态原生模型在训练时如何平衡各模态的数据量和计算开销?是否会因为语音或视频数据不足导致偏科?2)Sora停服是技术瓶颈还是战略收缩?谷歌选在I/O 2026前曝光,是不是在给OpenAI施压?
行业格局上,Gemini Omni很可能让AI视频从‘单点工具’升级为‘多模态平台’,但工程落地的坑不少——推理成本、实时性、版权问题都悬而未决。如果真能在5月I/O上正式亮相并开放API,那Sora的停服就不仅是巧合了。