谷歌Gemini Omni的意外曝光,让我这个在AI视频领域摸爬滚打两年的老兵眼前一亮。核心突破不在于它支持全模态输入输出,而在于Demo中那个黑板上正确推导数学公式的场景——这直接击中了当前视频生成模型最致命的软肋:文本一致性。此前我用Sora生成包含数学符号的演示视频,几乎每次都会出现笔画粘连或符号错位,而Omni似乎通过原生多模态对齐机制解决了这一问题。从技术角度看,这很可能得益于谷歌在Gemini架构中提前融合了视觉与语言token的联合训练,而非像其他模型那样后期拼接。个人经验是,文本一致性问题的解决意味着AI视频从‘娱乐级’向‘教育级’跃迁成为可能。不过,10秒1280x720的生成规格仍显保守,实时编辑功能中的去水印和物体替换倒是实用亮点。这让我不禁想问:Omni是否真的实现了视频帧间的连续语义理解?还是仅依靠逐帧扩散生成后做后处理对齐?随着Sora停服,谷歌这步棋显然在抢滩AI视频标准制定权。I/O 2026将至,我更关心的是,谷歌能否在开放API时保持低延迟,否则再惊艳的Demo也只是实验室玩具。

技术分析 #实践经验