今年3月,OpenAI宣布关停Sora,这个曾被捧为AI视频革命的产品,从上线到关停仅6个月,每天烧掉约100万美元算力,总营收却只有210万美元。迪士尼带着10亿美元和200多个角色IP来合作也未能挽救。技术牛和商业成立之间的鸿沟,比想象中更深。4个月后,谷歌出手了,连发两款新模型,试图重新定义AI视频和图像生成的格局。

图像侧,Nano Banana家族现在凑齐四款产品:最顶级的Pro版主打4K精度和专业设计;中间的2代是性能与成本平衡的主力;最新的Lite版则定位快、便宜、走量。Lite版平均不到3秒生成一张图,价格仅为2代的一半,但在文生图Elo评分上达到1251分,仅比Pro版的1270分低不到20分。虽然Pro支持4K分辨率,Lite只到1K,但以入门级价格达到旗舰级性能,确实令人侧目。Lite即日起在Google AI Studio、Gemini API、Gemini app、NotebookLM、Google Photos、Google Ads等平台可用。

视频侧的重头戏是Gemini Omni Flash。它基于多模态全能模型Gemini Omni,专为视频生成和编辑优化,支持文本、图片、视频三种输入。用户只需输入文字描述即可生成10秒视频,并可通过自然语言指令修改背景、调整动作等。关键不同在于,Omni Flash背后连接Gemini的知识体系,能调用对历史、生物、叙事逻辑的理解来构建内容,而非简单拼凑训练数据。例如生成古罗马斗兽场场景时,它“知道”建筑结构和角斗士装束。不过目前限制明显:仅支持10秒视频,角色一致性有局限,自定义音频上传未支持,视频参考输入尚不能正确处理。Interactions API最多支持3轮连续编辑,更像技术预览版。定价为每秒0.10美元,10秒视频约1美元,与谷歌Veo 3.1 Fast相同。

谷歌还展示了三个Demo应用:Anywhere可将用户自拍合成到全球地标前并生成动画;Space Lift用AI重新设计房间并生成预览视频;Omni Product Studio将静态产品图转为电商视频。这些应用体现了图像与视频模型联动的潜力。两款模型均采用SynthID水印,生成内容可通过Gemini app或Chrome验证。对于AI从业者,Nano Banana 2 Lite适合高性价比图像生成,而Gemini Omni Flash则适合探索视频生成与编辑的边界。尽管目前功能有限,但谷歌的技术路径和定价策略为行业提供了新参考。未来,随着模型迭代和更长时长的支持,AI视频生成或迎来更务实的商业化阶段。