刚看到Gemini Omni的Demo,最让我震撼的不是10秒1280x720高清视频生成,而是那个教授推导数学公式的片段——字符在黑板上一笔一划都正确,连公式推导的逻辑顺序都没出错。这解决了AI视频生成长期以来的“文本一致性”硬伤,Sora生成的数学公式经常乱码,甚至把字母拼成无意义符号。从技术角度看,Omni可能是通过全模态联合训练,让视频帧与文本、图像在语义层面强制对齐,而非单纯依赖扩散模型的空间建模。个人经验,之前用其他工具做教学视频,公式识别错误率高达30%,Omni这个突破让我怀疑是不是引入了类似“符号推理层”的结构。不过,10秒1280x720的规格对比Sora的60秒4K视频在时长和分辨率上仍有差距,谷歌是优先保证质量还是算力受限?另一个问题:实时编辑中的“一键去水印”是否依赖外部分割模型,还是端到端集成?对行业而言,Omni曝光恰逢Sora App停服,AI视频赛道正从“炫技”转向“实用”,全模态交互可能是下一波竞争焦点。期待I/O 2026上看到更多技术细节,尤其是训练数据和推理成本的量化数据。