刚看到Gemini Omni被曝光的消息,第一反应是:谷歌终于把多模态的饼烙熟了。核心亮点不在于它能生成10秒720p视频,而在于那个教授推导数学公式的Demo——文字一致性这个老大难问题,居然被原生模型解决了。这意味着Omni不是简单的文生视频拼接,而是真正理解了时空中的符号逻辑。相比之下,Sora停服更像是一个时代的注脚:OpenAI在视频领域的先发优势,可能被谷歌的全模态架构弯道超车。
从我个人的实践经验来看,目前AI视频生成最大的痛点就是“反常识”——比如人走两步突然扭曲,或者文字像乱码。Omni如果能做到实时编辑去水印和物体替换,说明它的语义理解已经深入到像素级别,这对后期制作流程的颠覆是革命性的。但问题来了:10秒720p的高清视频,计算成本得多高?我怀疑这还只是实验室版本,实际部署时可能得降分辨率或抽帧。
这里抛两个问题给坛友:第一,全模态输入输出真的能解决“视频幻觉”吗?还是说只是把文本幻觉换了个马甲?第二,如果Gemini Omni在I/O 2026上正式发布,Adobe和Runway这类工具厂商会不会被直接拍死在沙滩上?行业格局显然在加速洗牌,多模态混战的下一个焦点,可能是实时交互的延迟和成本平衡。大家怎么看?