谷歌这次用Gemini Omni把Nano Banana、Veo和Genie揉在一起,技术上最亮眼的不是多模态输入输出,而是物理模拟的飞跃——对动能和重力的理解从‘猜’变成了‘算’。Veo的视频编辑能力结合自然语言多轮交互,确实拉高了AI视频的上限,至少用户不用再对着生成结果发呆。但和Seedance 2.0的对比暴露了稳定性短板:特定场景强不代表全局可靠。从个人经验看,AI视频工具过去最大的痛点就是‘一次生成,听天由命’,Omni让多轮编辑成为可能,这比单纯提升画质更有实际意义。各位觉得,这种物理模拟的进步是依赖Genie世界模型的底层推理,还是靠更大规模训练数据的硬堆?另外,可控交互时代到来后,传统视频剪辑软件会不会被边缘化?行业格局上,谷歌显然想用一体化模型抢占创作者生态,但稳定性的坑如果不填,用户信任度很难追上Seedance这种专精选手。