谷歌Veo 4泄露：AI视频学会多机位，Sora已死？

谷歌I/O大会开幕在即，一场关于AI视频的“叙事革命”提前引爆。爆料人Pankaj Kumar在社交媒体上透露，谷歌即将发布的Veo 4（或命名为Gemini Omni）实现了原生多机位切换——同一场景、同一组人物、同一时刻，能从多个角度流畅切换，且保持服装颜色、物体位置、表情连贯。这不再是简单的“长镜头”生成，而是AI首次掌握“导演级”的机位调度能力。

多机位的技术难度在于三重一致性：物理一致性要求桌上的杯子位置不变，空间一致性要求视角切换时场景不扭曲，时间一致性要求人物表情和动作连贯。过去一年，Sora、Runway Gen-4等产品只能生成单一连续镜头，因为“切镜头”意味着模型需要在同一时空下重新推理多次。如果Veo 4真能实现，它将从“画匠”进化为“导演”。

同步音频补齐了最后一块拼图。Veo 3已支持原生音频生成，但音质有限且缺乏情境化配乐。爆料称Veo 4能原生生成同步对话、环境音，并根据画面自动配背景音乐。加上最长9秒、720p的分辨率（爆料人猜测谷歌可轻松做到15秒，但受限于算力），Veo 4的定位已清晰：它不拼画质细节，而是拼“直接出一条成片”——镜头会切，声音对得上，BGM自带，剩下的只差一个剧本。

泄露时间点精准卡在Sora的废墟上。4月26日，OpenAI的Sora App正式停服，原因触目惊心：推理成本每天高达100万至1500万美元，峰值MAU仅100万，停服前跌破50万，30天留存不到8%，整个生命周期App内收入仅约210万美元。Sora的倒下暴露了AI视频赛道的商业困境，而谷歌此时摊牌，既有技术代差，也有商业卡位。I/O大会当天，谷歌还可能亮出Gemini 3Flash、3.1全系列等更多底牌。这场“叙事权”争夺战，才刚刚开始。

谷歌Veo 4泄露：AI视频学会多机位，Sora已死？

相关推荐

向量数据库选型与实战 —— Milvus、Qdrant、Chroma 深度对比与最佳实践

Prompt Engineering 系统化指南 —— 从写单条提示词到构建完整 Prompt 系统

Zig开源项目明令禁止AI生成代码，引发社区热议

大模型微调实战指南 —— 从 LoRA 到全参微调，一文搞懂 Fine-tuning

Zig开源项目明令禁止AI生成代码，引发社区热议