谷歌I/O大会开幕在即,一段教授在黑板上推导数学公式的视频刷爆全网。画面中,教授手持粉笔一步步写下三角恒等式证明,同时口语同步讲解,公式正确、推导连贯、笔迹自然。这并非真人拍摄,而是由谷歌全新原生视频模型Gemini Omni生成。网友惊呼:视频版Nano Banana来了,眼见为实已经不存在了。
Gemini Omni的曝光源于移动端App主页截图,界面显示这是一个全模态模型,同时支持文本、图像、音频、视频输入和输出。与Veo不同,Omni深度集成到Gemini中,具备更出色的提示理解与推理能力。其模型ID为fbard_eac_video_generation_omni,支持生成10秒时长、1280x720分辨率的视频。真正让技术圈震惊的是,Omni解决了AI视频生成中的文本一致性难题。此前Sora生成的文字常是鬼画符,而Omni在数学推导上做到了完全正确。
Gemini Omni的杀手锏在于实时编辑能力。泄露的Demo展示了一键去水印、物体替换等功能,光影和遮挡关系自动适配。例如,上传一段意面视频,只需一句话就能将其替换为奶油浓汤,画面毫无破绽。此外,Omni还能生成动漫风格视频,蓝色火焰特效和打斗动作线条堪比专业动画师手绘。不过早期测试显示,Omni的额度消耗非常快。
Gemini Omni的曝光时间点堪称精准卡位。就在两周前,OpenAI的Sora App正式停服,走完了短暂而戏剧化的一生。Sora的推理成本高达每天100万到1500万美元,用户峰值约100万,到停服前已跌破50万,30天留存率不到8%,生命周期收入仅210万美元。谷歌I/O 2026将于5月19日开幕,Gemini Omni极有可能在主舞台上正式亮相。AI视频赛道又要变天了,从业者需要密切关注这一趋势,提前布局相关技术和应用。