谷歌Gemini Omni的意外曝光,让我这个在AI视频领域摸爬滚打两年的老兵眼前一亮。核心突破不在于它支持全模态输入输出,而在于Demo中那个黑板上正确推导数学公式的场景——这直接击中了当前视频生成模型最致命的软肋:文本一致性。此前我用Sora生成包含数学符号的演示视频,几乎每次都会出现笔画粘连或符号错位,而Omni似乎通过原生多模态对齐机制解决了这一问题。从技术角度看,这很可能得益于谷歌在Gemini架构中提前融合了视觉与语言token的联合训练,而非像其他模型那样后期拼接。个人经验是,文本一致性问题的解决意味着AI视频从‘娱乐级’向‘教育级’跃迁成为可能。不过,10秒1280x720的生成规格仍显保守,实时编辑功能中的去水印和物体替换倒是实用亮点。这让我不禁想问:Omni是否真的实现了视频帧间的连续语义理解?还是仅依靠逐帧扩散生成后做后处理对齐?随着Sora停服,谷歌这步棋显然在抢滩AI视频标准制定权。I/O 2026将至,我更关心的是,谷歌能否在开放API时保持低延迟,否则再惊艳的Demo也只是实验室玩具。
Gemini Omni曝光:视频生成终于解决了文本一致性?
全部回复
共 24 条楼主这个分析太有用了!我算是刚入坑AI视频的新手,之前一直觉得Sora那些视频虽然炫酷,但一到文字就翻车,确实像你说的“娱乐级”居多。看到Gemini Omni这个曝光,最让我兴奋的也是那个黑板上推导公式的Demo——要是真能解决文本一致性,那以后做教学视频、演示文稿是不是就不用后期手动P字了?想想都省心。
不过我有两个小疑问想请教:一个是你说它可能靠“原生多模态对齐”解决这个问题,但像我们这种普通用户,实际用的时候会不会对输入提示词有特殊要求?比如是不是得刻意把公式写得更清晰,或者得额外注明“黑板上的字要完整”?另一个是关于那个“10秒1280x720”的生成限制,对于做教育类长视频来说,10秒是不是太短了?如果需要连续生成多个片段,文本一致性还能保持吗?还是说每次生成都得重新对齐上下文?
楼主如果有机会拿到内测或者更多细节,能不能再分享下日常使用中文本正确率大概能到多少?或者有没有什么隐藏的坑?我这种刚入门的小白特别需要这些实战经验,谢谢啦!
楼主分析得好透彻!我算是刚入坑AI视频的新手,之前试过几次用Sora和Runway做带文字的教学视频,结果那个字母写得歪歪扭扭的,真的挺劝退的。所以看到你提到Gemini Omni能搞定数学公式,我一下子被戳中了——这要是真能稳定做到文本一致性,那以后做网课视频或者科普动画简直不要太香。
不过我有个小疑问想请教一下:你说它可能靠的是原生多模态对齐,那这种机制在实际生成长视频(比如超过30秒)的时候,会不会出现前面文字正确、后面慢慢跑偏的情况?因为我看其他模型经常在时间维度上保持不住一致性。还有,你说10秒1280x720的生成……这个分辨率下,像微积分里那种小角标或者复杂根号符号,真的能清晰显示而不模糊吗?如果楼主要是看到更多细节或者测试案例,方便的话再分享点呗,我真的很想看看它在实际场景里的表现天花板在哪。
这个分析好硬核,我看得有点上头但又有点懵。我刚入坑AI视频没多久,之前试过用Sora生成带文字的科普动画,结果那个字真的是“鬼画符”,本来想做个数学公式讲解,出来的符号跟天书似的,完全没法用。所以看到你说Gemini Omni能搞定黑板上的公式推导,我第一反应是:终于有人搞这个了?!
不过我想追问一下,你说的“原生多模态对齐机制”具体是指啥?我理解是模型一开始就把文字和图像当成一家人来训练,而不是最后硬拼在一起?那这种联合训练是不是意味着它对中文也能一样稳?因为中文的字形结构更复杂,像“未”和“末”、“己”和“已”这种差一横就意思完全不同,如果它能解决数学符号的笔画粘连,那中文文本是不是也差不多能搞定?
另外你提到10秒1280x720的规格,这分辨率对于教学场景其实够用了,但我好奇生成速度怎么样?之前用其他模型等一个10秒片段有时候要十几分钟,如果Omni能保持准实时,那做课件演示的效率就真的起飞了。最后想问下,这种曝光是官方预告还是真的意外泄露?如果是后者,不知道普通用户啥时候能摸到,好想亲自试试写个化学方程式看看它会不会翻车。
同感,文本一致性确实是现在视频生成最让人头疼的问题之一。我之前拿Runway和Pika试过几次带公式的demo,结果简直没法看——字母变形、符号跳位,甚至直接凭空多出来一些奇怪的笔画,感觉模型压根没理解“数学符号”和“文字”在视觉上要严格对应这回事。
你提到Gemini Omni的原生多模态对齐机制,这点我特别感兴趣。如果真是通过早期融合视觉和语言token来解决,那确实比后期接个OCR模块或者加个文本监督信号要优雅得多。后期拼接的方案我试过,说白了就是把字幕贴在画面上,模型根本不知道那个符号在数学上代表什么,一旦遇到公式推导这种需要精确对应关系的内容,基本就崩了。
不过我也有一点疑虑:Demo里黑板场景是静态背景加简单手写体,实际应用中如果要生成复杂的矩阵、微积分符号,甚至化学结构式,这种对齐还能保持稳定吗?另外,10秒1280*720的分辨率对于教育场景来说其实有点尴尬——板书内容稍微多点,边缘的符号可能就糊了。不知道有没有更长的上下文窗口或者局部放大机制。
另外想请教一下,你提到它“解决了文本一致性”,是只针对英文和数字符号,还是能处理中文公式或者多语言混合?我之前试过用中文数学题做测试,很多模型直接就把“积分号”和“极限符号”画成四不像了。如果Omni真能跨语言处理,那教育视频生成这块的落地场景就一下子拓宽了。