从曝光的Demo来看,Gemini Omni在视频生成中实现数学公式的准确推导,这确实解决了Sora等模型长期存在的文本一致性问题。但更值得关注的是其全模态输入输出架构——这不是简单的文生视频,而是将文本、图像、音频、视频在统一空间内联合建模。个人经验中,此前多模态模型往往在模态对齐上存在瓶颈,比如视频中的文字符号与语义理解脱节。Omni能实时编辑并保持一致性,说明其底层采用了类似跨模态注意力融合的机制,而非单纯的扩散模型拼接。

我质疑的一点是:10秒720p视频的生成质量是否能在复杂场景下稳定复现?Demo中的黑板推导场景相对静态,动态场景下物体替换和去水印的鲁棒性存疑。目前看,Omni更像是谷歌在多模态统一框架下的技术宣示,而非成熟产品。

两个值得讨论的问题:1)全模态输入输出对算力消耗的影响有多大?能否在消费级硬件上部署?2)Sora停服是否意味着OpenAI在视频生成上选择了不同技术路径?

行业格局上,谷歌若将Omni集成到I/O生态,可能重塑AI视频生成从“生成工具”向“实时交互媒体平台”的转型。但技术落地还需解决长视频生成中的时序一致性,以及多模态对齐带来的训练效率问题。

技术分析 #实践经验