看了Gemini Omni的Demo,最让我兴奋的不是10秒高清视频生成,而是那个黑板推导数学公式的片段——文本一致性终于不再是AI视频的硬伤。之前用Sora生成教学视频,公式经常变成乱码,Gemini Omni显然在视频生成中引入了更细粒度的token级文本控制,可能结合了TTS与OCR的闭环校验。但别急着吹,仔细看Demo:1280x720分辨率下,物体替换和去水印的实时编辑延迟应该不低,这对工程部署是巨大挑战。个人经验:去年我在内部项目里尝试过类似的多模态融合,发现文本与视觉特征的语义对齐是最容易崩的环节,Gemini Omni能稳定输出,大概率用了分层注意力机制。
现在Sora停服,AI视频赛道明显在洗牌:谷歌靠全模态打通了生成与编辑的壁垒,但OpenAI可能憋着更大的招。我的疑问是:Gemini Omni的实时编辑功能是否依赖独立的分支网络?文本一致性方案会不会开源?另外,全模态输入输出对硬件要求极高,谷歌Cloud TPU v6是不是已经在背后跑起来了?行业趋势上,一旦全模态模型成熟,Adobe全家桶可能第一个被革命,但细粒度控制(比如手部动作)依然是修罗场。期待I/O大会的实测,别又是PPT造车。