谷歌刚刚发布了Gemini Omni,这个被寄予厚望的多模态模型终于揭开面纱。与之前外界猜测的单纯视频模型不同,Gemini Omni被定义为能接受任意输入、生成任意输出的通用生成框架。DeepMind CEO Demis Hassabis在发布会上展示了多个案例:上传一张照片就能快速修改环境背景,画个圆圈就能生成黑洞,一段傍晚漫步的素材可以轻松切换不同风格。这不仅是技术升级,更是AI视频生成进入可控交互时代的标志性事件。

Gemini Omni的核心能力在于将文字、视频、图像和交互仿真整合进同一个生成框架。它结合了谷歌最先进的几款媒体模型:图像模型Nano Banana、视频生成模型Veo以及世界模型Genie。用户输入一段提示词就能直接产出带有α螺旋、β折叠结构演示的教学视频,而不是简单的文字描述。有网友立即将Omni与Seedance 2.0进行了详细对比,结果显示Seedance 2.0整体表现依然稳定,但Omni在特定场景如物理模拟和复杂指令理解上明显更强。

视频编辑是Omni的主打场景之一,它支持上传自拍或任意素材,通过自然语言像与人类剪辑师聊天一样进行多轮修改。官方演示了一个令人印象深刻的案例:拍一段手摸镜子的视频,只需告诉Omni当人触摸镜子时让镜子像液体一样泛起涟漪,手臂变成反光材质,奇迹就发生了。视频没有被完全重绘,人物动作得以保留,但镜子的物理状态和手臂材质被精准替换。更关键的是它的多轮对话能力,每次新指令都会基于前一次结果继续生成,保持人物、环境、物理效果和场景上下文的一致性。

物理模拟是Omni技术含量最高的部分。谷歌称Omni在模拟动能、重力等现象时有了质的飞跃。当要求生成一条在连锁反应轨道上快速滚动的弹珠时,Omni展现出了对重力和动能的精确理解。更复杂的案例是一个字母表物品视频:要求模型展示26个英文字母,每个字母对应一个不寻常物体,如C对应水豚、D对应迪斯科球、L对应熔岩灯。Omni能同时处理好字母与物体的对应关系、画面节奏、字幕形式、帧数要求和音乐风格,把语言、图像和意义联系起来,而不是只做表层的视觉匹配。对于AI从业者而言,这意味着视频生成正在从简单的像素拼贴走向真正的世界理解,未来的应用边界将远超我们当下的想象。