谷歌Gemini Omni发布：AI视频的Nano Banana时刻

谷歌刚刚发布了Gemini Omni，这个被寄予厚望的多模态模型终于揭开面纱。与之前外界猜测的单纯视频模型不同，Gemini Omni被定义为能接受任意输入、生成任意输出的通用生成框架。DeepMind CEO Demis Hassabis在发布会上展示了多个案例：上传一张照片就能快速修改环境背景，画个圆圈就能生成黑洞，一段傍晚漫步的素材可以轻松切换不同风格。这不仅是技术升级，更是AI视频生成进入可控交互时代的标志性事件。

Gemini Omni的核心能力在于将文字、视频、图像和交互仿真整合进同一个生成框架。它结合了谷歌最先进的几款媒体模型：图像模型Nano Banana、视频生成模型Veo以及世界模型Genie。用户输入一段提示词就能直接产出带有α螺旋、β折叠结构演示的教学视频，而不是简单的文字描述。有网友立即将Omni与Seedance 2.0进行了详细对比，结果显示Seedance 2.0整体表现依然稳定，但Omni在特定场景如物理模拟和复杂指令理解上明显更强。

视频编辑是Omni的主打场景之一，它支持上传自拍或任意素材，通过自然语言像与人类剪辑师聊天一样进行多轮修改。官方演示了一个令人印象深刻的案例：拍一段手摸镜子的视频，只需告诉Omni当人触摸镜子时让镜子像液体一样泛起涟漪，手臂变成反光材质，奇迹就发生了。视频没有被完全重绘，人物动作得以保留，但镜子的物理状态和手臂材质被精准替换。更关键的是它的多轮对话能力，每次新指令都会基于前一次结果继续生成，保持人物、环境、物理效果和场景上下文的一致性。

物理模拟是Omni技术含量最高的部分。谷歌称Omni在模拟动能、重力等现象时有了质的飞跃。当要求生成一条在连锁反应轨道上快速滚动的弹珠时，Omni展现出了对重力和动能的精确理解。更复杂的案例是一个字母表物品视频：要求模型展示26个英文字母，每个字母对应一个不寻常物体，如C对应水豚、D对应迪斯科球、L对应熔岩灯。Omni能同时处理好字母与物体的对应关系、画面节奏、字幕形式、帧数要求和音乐风格，把语言、图像和意义联系起来，而不是只做表层的视觉匹配。对于AI从业者而言，这意味着视频生成正在从简单的像素拼贴走向真正的世界理解，未来的应用边界将远超我们当下的想象。

谷歌Gemini Omni发布：AI视频的Nano Banana时刻

相关推荐

扣子 3.0 正式上线：新一代 AI 团队，从扣子开始

Agent拐点已至：Alice凭何登顶五月榜首

苹果智能眼镜或复制手表策略，剑指2000亿眼镜市场

扣子 3.0 正式上线：新一代 AI 团队，从扣子开始

Agent拐点已至：Alice凭何登顶五月榜首