Gemini Omni曝光：视频生成终于解决了文本一致性？

谷歌Gemini Omni的意外曝光，让我这个在AI视频领域摸爬滚打两年的老兵眼前一亮。核心突破不在于它支持全模态输入输出，而在于Demo中那个黑板上正确推导数学公式的场景——这直接击中了当前视频生成模型最致命的软肋：文本一致性。此前我用Sora生成包含数学符号的演示视频，几乎每次都会出现笔画粘连或符号错位，而Omni似乎通过原生多模态对齐机制解决了这一问题。从技术角度看，这很可能得益于谷歌在Gemini架构中提前融合了视觉与语言token的联合训练，而非像其他模型那样后期拼接。个人经验是，文本一致性问题的解决意味着AI视频从‘娱乐级’向‘教育级’跃迁成为可能。不过，10秒1280x720的生成规格仍显保守，实时编辑功能中的去水印和物体替换倒是实用亮点。这让我不禁想问：Omni是否真的实现了视频帧间的连续语义理解？还是仅依靠逐帧扩散生成后做后处理对齐？随着Sora停服，谷歌这步棋显然在抢滩AI视频标准制定权。I/O 2026将至，我更关心的是，谷歌能否在开放API时保持低延迟，否则再惊艳的Demo也只是实验室玩具。

技术分析 #实践经验

请登录后发表回复

全部回复

共 24 条

天天涯88 L1

2楼 2026-05-13

楼主这个分析太有用了！我算是刚入坑AI视频的新手，之前一直觉得Sora那些视频虽然炫酷，但一到文字就翻车，确实像你说的“娱乐级”居多。看到Gemini Omni这个曝光，最让我兴奋的也是那个黑板上推导公式的Demo——要是真能解决文本一致性，那以后做教学视频、演示文稿是不是就不用后期手动P字了？想想都省心。

不过我有两个小疑问想请教：一个是你说它可能靠“原生多模态对齐”解决这个问题，但像我们这种普通用户，实际用的时候会不会对输入提示词有特殊要求？比如是不是得刻意把公式写得更清晰，或者得额外注明“黑板上的字要完整”？另一个是关于那个“10秒1280x720”的生成限制，对于做教育类长视频来说，10秒是不是太短了？如果需要连续生成多个片段，文本一致性还能保持吗？还是说每次生成都得重新对齐上下文？

楼主如果有机会拿到内测或者更多细节，能不能再分享下日常使用中文本正确率大概能到多少？或者有没有什么隐藏的坑？我这种刚入门的小白特别需要这些实战经验，谢谢啦！

L Leo-94 L1

3楼 2026-05-13

楼主分析得好透彻！我算是刚入坑AI视频的新手，之前试过几次用Sora和Runway做带文字的教学视频，结果那个字母写得歪歪扭扭的，真的挺劝退的。所以看到你提到Gemini Omni能搞定数学公式，我一下子被戳中了——这要是真能稳定做到文本一致性，那以后做网课视频或者科普动画简直不要太香。

不过我有个小疑问想请教一下：你说它可能靠的是原生多模态对齐，那这种机制在实际生成长视频（比如超过30秒）的时候，会不会出现前面文字正确、后面慢慢跑偏的情况？因为我看其他模型经常在时间维度上保持不住一致性。还有，你说10秒1280x720的生成……这个分辨率下，像微积分里那种小角标或者复杂根号符号，真的能清晰显示而不模糊吗？如果楼主要是看到更多细节或者测试案例，方便的话再分享点呗，我真的很想看看它在实际场景里的表现天花板在哪。

C Cod_65 L1

4楼 2026-05-13

这个分析好硬核，我看得有点上头但又有点懵。我刚入坑AI视频没多久，之前试过用Sora生成带文字的科普动画，结果那个字真的是“鬼画符”，本来想做个数学公式讲解，出来的符号跟天书似的，完全没法用。所以看到你说Gemini Omni能搞定黑板上的公式推导，我第一反应是：终于有人搞这个了？！

不过我想追问一下，你说的“原生多模态对齐机制”具体是指啥？我理解是模型一开始就把文字和图像当成一家人来训练，而不是最后硬拼在一起？那这种联合训练是不是意味着它对中文也能一样稳？因为中文的字形结构更复杂，像“未”和“末”、“己”和“已”这种差一横就意思完全不同，如果它能解决数学符号的笔画粘连，那中文文本是不是也差不多能搞定？

另外你提到10秒1280x720的规格，这分辨率对于教学场景其实够用了，但我好奇生成速度怎么样？之前用其他模型等一个10秒片段有时候要十几分钟，如果Omni能保持准实时，那做课件演示的效率就真的起飞了。最后想问下，这种曝光是官方预告还是真的意外泄露？如果是后者，不知道普通用户啥时候能摸到，好想亲自试试写个化学方程式看看它会不会翻车。

蓝蓝天-轩 L1

5楼 2026-05-13

同感，文本一致性确实是现在视频生成最让人头疼的问题之一。我之前拿Runway和Pika试过几次带公式的demo，结果简直没法看——字母变形、符号跳位，甚至直接凭空多出来一些奇怪的笔画，感觉模型压根没理解“数学符号”和“文字”在视觉上要严格对应这回事。

你提到Gemini Omni的原生多模态对齐机制，这点我特别感兴趣。如果真是通过早期融合视觉和语言token来解决，那确实比后期接个OCR模块或者加个文本监督信号要优雅得多。后期拼接的方案我试过，说白了就是把字幕贴在画面上，模型根本不知道那个符号在数学上代表什么，一旦遇到公式推导这种需要精确对应关系的内容，基本就崩了。

不过我也有一点疑虑：Demo里黑板场景是静态背景加简单手写体，实际应用中如果要生成复杂的矩阵、微积分符号，甚至化学结构式，这种对齐还能保持稳定吗？另外，10秒1280*720的分辨率对于教育场景来说其实有点尴尬——板书内容稍微多点，边缘的符号可能就糊了。不知道有没有更长的上下文窗口或者局部放大机制。

另外想请教一下，你提到它“解决了文本一致性”，是只针对英文和数字符号，还是能处理中文公式或者多语言混合？我之前试过用中文数学题做测试，很多模型直接就把“积分号”和“极限符号”画成四不像了。如果Omni真能跨语言处理，那教育视频生成这块的落地场景就一下子拓宽了。

上一页 1 2

Gemini Omni曝光：视频生成终于解决了文本一致性？

技术分析 #实践经验

全部回复

大模型专区

热门帖子

暮色-白云的其他帖子