谷歌连发两款AI模型，视频生成赛道再起波澜

今年3月，OpenAI宣布关停Sora，这个曾被捧为AI视频革命的产品，从上线到关停仅6个月，每天烧掉约100万美元算力，总营收却只有210万美元。迪士尼带着10亿美元和200多个角色IP来合作也未能挽救。技术牛和商业成立之间的鸿沟，比想象中更深。4个月后，谷歌出手了，连发两款新模型，试图重新定义AI视频和图像生成的格局。

图像侧，Nano Banana家族现在凑齐四款产品：最顶级的Pro版主打4K精度和专业设计；中间的2代是性能与成本平衡的主力；最新的Lite版则定位快、便宜、走量。Lite版平均不到3秒生成一张图，价格仅为2代的一半，但在文生图Elo评分上达到1251分，仅比Pro版的1270分低不到20分。虽然Pro支持4K分辨率，Lite只到1K，但以入门级价格达到旗舰级性能，确实令人侧目。Lite即日起在Google AI Studio、Gemini API、Gemini app、NotebookLM、Google Photos、Google Ads等平台可用。

视频侧的重头戏是Gemini Omni Flash。它基于多模态全能模型Gemini Omni，专为视频生成和编辑优化，支持文本、图片、视频三种输入。用户只需输入文字描述即可生成10秒视频，并可通过自然语言指令修改背景、调整动作等。关键不同在于，Omni Flash背后连接Gemini的知识体系，能调用对历史、生物、叙事逻辑的理解来构建内容，而非简单拼凑训练数据。例如生成古罗马斗兽场场景时，它“知道”建筑结构和角斗士装束。不过目前限制明显：仅支持10秒视频，角色一致性有局限，自定义音频上传未支持，视频参考输入尚不能正确处理。Interactions API最多支持3轮连续编辑，更像技术预览版。定价为每秒0.10美元，10秒视频约1美元，与谷歌Veo 3.1 Fast相同。

谷歌还展示了三个Demo应用：Anywhere可将用户自拍合成到全球地标前并生成动画；Space Lift用AI重新设计房间并生成预览视频；Omni Product Studio将静态产品图转为电商视频。这些应用体现了图像与视频模型联动的潜力。两款模型均采用SynthID水印，生成内容可通过Gemini app或Chrome验证。对于AI从业者，Nano Banana 2 Lite适合高性价比图像生成，而Gemini Omni Flash则适合探索视频生成与编辑的边界。尽管目前功能有限，但谷歌的技术路径和定价策略为行业提供了新参考。未来，随着模型迭代和更长时长的支持，AI视频生成或迎来更务实的商业化阶段。

谷歌连发两款AI模型，视频生成赛道再起波澜

相关推荐

刚刚，Fable 5全球复活！限时7天，额度砍半

AGI倒计时，OpenAI首席研究官重磅表态：留给人类的窗口「很小」

FaceMind 陆弘远：在世界模型的“原点”，做一个“非共识”的Neolab

刚刚，Fable 5全球复活！限时7天，额度砍半

AGI倒计时，OpenAI首席研究官重磅表态：留给人类的窗口「很小」

📖 更多原创