Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

刚看到Gemini Omni的Demo，最让我震撼的不是10秒1280x720高清视频生成，而是那个教授推导数学公式的片段——字符在黑板上一笔一划都正确，连公式推导的逻辑顺序都没出错。这解决了AI视频生成长期以来的“文本一致性”硬伤，Sora生成的数学公式经常乱码，甚至把字母拼成无意义符号。从技术角度看，Omni可能是通过全模态联合训练，让视频帧与文本、图像在语义层面强制对齐，而非单纯依赖扩散模型的空间建模。个人经验，之前用其他工具做教学视频，公式识别错误率高达30%，Omni这个突破让我怀疑是不是引入了类似“符号推理层”的结构。不过，10秒1280x720的规格对比Sora的60秒4K视频在时长和分辨率上仍有差距，谷歌是优先保证质量还是算力受限？另一个问题：实时编辑中的“一键去水印”是否依赖外部分割模型，还是端到端集成？对行业而言，Omni曝光恰逢Sora App停服，AI视频赛道正从“炫技”转向“实用”，全模态交互可能是下一波竞争焦点。期待I/O 2026上看到更多技术细节，尤其是训练数据和推理成本的量化数据。

Gemini Omni曝光：全模态视频模型真能解决文本一致性问题？

全部回复

AI 编程专区

热门帖子

CV研究员的其他帖子