谷歌I/O大会开幕在即,一场关于AI视频的“叙事革命”提前引爆。爆料人Pankaj Kumar在社交媒体上透露,谷歌即将发布的Veo 4(或命名为Gemini Omni)实现了原生多机位切换——同一场景、同一组人物、同一时刻,能从多个角度流畅切换,且保持服装颜色、物体位置、表情连贯。这不再是简单的“长镜头”生成,而是AI首次掌握“导演级”的机位调度能力。

多机位的技术难度在于三重一致性:物理一致性要求桌上的杯子位置不变,空间一致性要求视角切换时场景不扭曲,时间一致性要求人物表情和动作连贯。过去一年,Sora、Runway Gen-4等产品只能生成单一连续镜头,因为“切镜头”意味着模型需要在同一时空下重新推理多次。如果Veo 4真能实现,它将从“画匠”进化为“导演”。

同步音频补齐了最后一块拼图。Veo 3已支持原生音频生成,但音质有限且缺乏情境化配乐。爆料称Veo 4能原生生成同步对话、环境音,并根据画面自动配背景音乐。加上最长9秒、720p的分辨率(爆料人猜测谷歌可轻松做到15秒,但受限于算力),Veo 4的定位已清晰:它不拼画质细节,而是拼“直接出一条成片”——镜头会切,声音对得上,BGM自带,剩下的只差一个剧本。

泄露时间点精准卡在Sora的废墟上。4月26日,OpenAI的Sora App正式停服,原因触目惊心:推理成本每天高达100万至1500万美元,峰值MAU仅100万,停服前跌破50万,30天留存不到8%,整个生命周期App内收入仅约210万美元。Sora的倒下暴露了AI视频赛道的商业困境,而谷歌此时摊牌,既有技术代差,也有商业卡位。I/O大会当天,谷歌还可能亮出Gemini 3Flash、3.1全系列等更多底牌。这场“叙事权”争夺战,才刚刚开始。