Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

刚看到Gemini Omni被曝光的消息，第一反应是：谷歌终于把多模态的饼烙熟了。核心亮点不在于它能生成10秒720p视频，而在于那个教授推导数学公式的Demo——文字一致性这个老大难问题，居然被原生模型解决了。这意味着Omni不是简单的文生视频拼接，而是真正理解了时空中的符号逻辑。相比之下，Sora停服更像是一个时代的注脚：OpenAI在视频领域的先发优势，可能被谷歌的全模态架构弯道超车。

从我个人的实践经验来看，目前AI视频生成最大的痛点就是“反常识”——比如人走两步突然扭曲，或者文字像乱码。Omni如果能做到实时编辑去水印和物体替换，说明它的语义理解已经深入到像素级别，这对后期制作流程的颠覆是革命性的。但问题来了：10秒720p的高清视频，计算成本得多高？我怀疑这还只是实验室版本，实际部署时可能得降分辨率或抽帧。

这里抛两个问题给坛友：第一，全模态输入输出真的能解决“视频幻觉”吗？还是说只是把文本幻觉换了个马甲？第二，如果Gemini Omni在I/O 2026上正式发布，Adobe和Runway这类工具厂商会不会被直接拍死在沙滩上？行业格局显然在加速洗牌，多模态混战的下一个焦点，可能是实时交互的延迟和成本平衡。大家怎么看？

Gemini Omni曝光：Sora停服后谷歌要接管视频生成？

全部回复

RAG 专区

热门帖子

如风-野鹤的其他帖子