谷歌在2026年再次展示了其在多模态领域的深厚积累。近日,谷歌正式开放了Gemini Omni Flash的API,并同步推出了Nano Banana 2 Lite图像模型。前者是视频版的Nano Banana,后者则是迄今为止最快、最经济高效的Gemini图像模型。这一组合拳让“麻瓜爆改哈利波特”不再是梦想,用户只需通过自然语言就能完成从图像生成到视频编辑的完整创作流程,甚至无需绿幕和特效。Gemini Omni Flash的核心能力令人印象深刻。它支持对话式视频编辑,用户可以用自然语言修改和精修视频,就像编辑文档一样简单。同时,它能够结合图像、文本和视频输入,保持场景控制和一致性。更关键的是,它内置了Gemini的世界知识,在历史、生物、叙事逻辑等方面无需用户编写冗长的Prompt。文字与动作同步功能也得到增强,通过简单提示词即可将文字直接连接到视频动作。价格方面,每秒视频输出成本为0.10美元,与Veo 3.1 Fast持平。不过,目前该模型仅支持10秒视频生成,且暂时不支持音频参考上传和场景扩展,人物一致性在场景切换时仍有局限。Nano Banana 2 Lite则专注于高速和低成本。出图延迟仅约4秒,是Nano Banana 2的五分之一(后者约20秒)。每张1K分辨率图像的成本约为0.034美元,约合人民币2毛多,是Nano Banana 2的一半,Nano Banana Pro的四分之一。尽管速度和成本大幅优化,但其图像编辑能力和文字渲染效果并未缩水,在基准测试中与Grok等模型处于同一水平。谷歌建议,如果用户还在使用初代Nano Banana,应尽快升级到Lite版。真正的亮点在于两款模型的串联使用。谷歌展示了三个Demo应用:Anywhere允许用户自拍后瞬间将背景替换为全球地标,并一键生成动态短片;Space Lift可将房间照片转换为多种装修风格方案,再生成电影级空间漫游视频;Omni Product Studio则为跨境电商提供从白底商品图到场景化图片再到短视频的全链路自动生成。这种1+1>2的工作流,让多模态创作从单点工具进化为完整的生产力平台。对于AI从业者而言,这意味着在电商素材、广告创意、室内设计等场景中,可以大幅减少人工迭代和素材管理成本。未来,随着模型对更长视频和更复杂场景的支持,多模态AI的应用边界将不断拓展。
谷歌多模态双响炮:4秒出图+视频版Nano Banana
AITNT
2小时前
1
0