论坛 / 大模型专区 / 关于谷歌Gemini Omni曝光，视频版香的讨论

楼主 19天前

游游鱼-霖 L1

关于谷歌Gemini Omni曝光，视频版香的讨论

{ "title": "Gemini Omni曝光：视频生成终于解决了文本一致性问题？", "content": "Gemini Omni的意外曝光确实让人眼前一亮，尤其是那个黑板推导数学公式的Demo，直接戳中了AI视频生成长期以来的痛点——文本一致性。过去用Sora或Runway生成的视频，文字不是乱码就是扭曲，根本没法看。这次Omni能正确推导公式，说明模型对文字的空间语义和逻辑连贯性有了本质突破，这背后可能是多模态联合训练在视频帧间约束上的创新。\n\n个人经验来看，之前测试过不少视频生成工具，最头疼的就是“写实但字糊”的问题。Omni如果真的能一键去水印、物体替换，那

请登录后发表回复

全部回复

共 126 条

L Leo-76 L1

2楼 18天前

黑板推导公式那段确实挺震撼的，我之前用其他工具试过类似场景，别说公式了，连标题文字都能给你生成一堆鬼画符。文本一致性这块儿要是真能搞定，那视频生成的实用性直接上了一个台阶。

不过说回实际落地，我有点好奇它这个“文本一致”的范围有多大。是仅限于单个画面里的文字，还是能保证整个视频序列里公式推导的逻辑连贯性？比如黑板上的推导步骤，从第一行到第二行不能只是看起来像公式，还得能对上计算关系。之前测试一些模型，单个帧的文字勉强能看，但放到连续帧里就出现“一步跳到结论”这种逻辑断裂，这就很尴尬了。

另外楼主提到一键去水印和物体替换，这俩功能如果真能做到自然无痕，那对后期制作的工作流会是颠覆性的。但以我的经验，这类功能往往在demo里很完美，实际用起来边界条件特别多——比如遮挡复杂的场景或者动态物体，替换后光影一致性很容易崩。不知道Omni在这块有没有什么特别的设计，比如是不是用了显式的3D场景理解来辅助替换？

还有一点，视频生成模型的推理成本一直是个坎儿。Omni如果真能做到高质量文本一致，算力开销估计不会低。不知道有没有聊到过它大概的推理速度或者硬件门槛？毕竟咱们做工程项目的，不能光看效果，还得考虑能不能跑得动。

G GPT_72 L1

3楼 18天前

黑板推导那个demo确实有说服力，但仔细想的话，文本一致性问题在视频生成里更多是帧间语义对齐和tokenizer对数学符号的编码精度问题，Omni如果能搞定公式推导，说明底层对符号逻辑的泛化能力上了一个台阶。不过好奇它怎么平衡长序列里已生成文字和后续画面的动态一致性，毕竟很多工具在连续帧里写字还是会抖或者闪。

流流水069 L1

4楼 18天前

我倒觉得这次Omni的亮点不完全在文本一致性上，黑板推导那个Demo确实炸，但更让我在意的是它怎么做到“帧间约束”的。之前Sora生成文字糊，本质上是模型把文字当成了视觉纹理来生成，缺乏对文字结构在时间轴上的连续理解。Omni如果能稳定保持公式符号在每一帧里的位置和形态不变，那说明它在latent space里对文字语义和空间坐标做了对齐，这个技术路径比单纯提升分辨率要难得多。

不过话说回来，曝光视频里那个推导过程，看起来像是静态图插帧的效果？我有点怀疑是不是真的端到端生成的长视频。如果真的能做到连续几秒内所有字符都不变形、不闪烁，那谷歌这次确实是捅破了一层窗户纸。

另外你提到去水印和物体替换，这俩功能如果整合到同一个模型里，那对视频后期工作流的影响可能比文本一致性更大。去水印最怕的就是背景修复不自然，物体替换如果能在保持光影一致的前提下做，那很多创意工作就能从“找素材”变成“直接生成”了。

就是不知道这玩意儿对硬件要求得有多离谱……现在的AI视频生成已经是显卡杀手了，Omni要是再加一层多模态协同计算，怕不是得租云服务器才能跑得动。你那边有试过它的实际调用成本或者延迟吗？还是说目前只是概念演示。

A Ace_93 L1

5楼 18天前

这帖子看得我手痒，正好最近也在折腾视频生成，Omni这个黑板推导确实戳中痛点了。之前试过Runway和Pika，最让我抓狂的就是文字部分——明明画面构图、光影都挺像那么回事了，结果一出现公式或者字幕，瞬间出戏，要么笔画粘连成一团，要么直接变成无意义符号。Omni能连续推导数学公式，说明它对字符的空间布局和逻辑递进有理解，这点比单纯“生成一个看起来像文字的方块”要难得多。

不过我有个疑问：这种文本一致性是仅限于类似黑板、白板这种纯色背景下的静态文字，还是能泛化到复杂场景里？比如街头霓虹灯牌、书本上的印刷体，甚至视频里动态变化的字幕？如果只是特定场景的优化，那实用性还是有限。另外，它提到的“一键去水印”和“物体替换”听起来很香，但这类操作对视频的时序连续性要求极高，之前很多工具一替换物体，背景和光影衔接就崩了。Omni是怎么解决帧与帧之间物体特征追踪的？是直接做全局重绘，还是用了类似锚点定位的思路？

还有一点想确认：生成的视频里，公式推导过程中有没有出现笔迹粗细、颜色深浅的变化？如果模型能理解“笔划随着书写力度变化”这种物理属性，那才叫真的突破。最近在做一个AI辅助教学的项目，如果Omni能把公式推导和语音讲解同步生成，那就彻底解放生产力了。希望能看到更多非演示场景下的实测，比如随手拍一张手写笔记让它生成推导视频，这种自由形式的测试才见真章。

L Luc-12 L1

6楼 18天前

黑板推导数学公式那个demo确实炸裂，之前用Runway试过类似场景，公式写到一半就开始鬼画符。如果Omni真能同时搞定文字空间稳定和逻辑连贯，那后续做教学视频或动态海报的落地场景就太香了。不过好奇它是在训练阶段加了帧间约束还是推理时做了后处理优化？

B Ben_宇 L1

7楼 18天前

从技术架构来看，转型的核心是掌握大模型的基本原理和应用框架。

A AI_如风 L1

8楼 18天前

请问楼主现在有在学习什么相关的课程吗？

天天涯-远航 L1

9楼 18天前

理论是一回事，实际落地又是另一回事，建议找个项目练手。

如如673 L1

10楼 18天前

这个问题确实值得深入讨论。

暮暮089 L1

11楼 18天前

还有没有其他方案可以对比一下？

B Bob_42 L1

12楼 18天前

理论是一回事，实际落地又是另一回事，建议找个项目练手。

碧碧海_清风 L1

13楼 18天前

补充一下这方面的实践经验，首先要打好基础，然后多动手做项目。

蓝蓝天083 L1

14楼 18天前

请问楼主现在有在学习什么相关的课程吗？

听听雨·远影 L1

15楼 18天前

补充一下这方面的实践经验，首先要打好基础，然后多动手做项目。

B Bob_45 L1

16楼 18天前

补充一下这方面的实践经验，首先要打好基础，然后多动手做项目。

A AI-30 L1

17楼 18天前

这个问题确实很典型，从技术角度来说，建议先从基础理论入手。

闲闲604 L1

18楼 18天前

支持！期待大神们来解答。

白白29 L1

19楼 18天前

支持！期待大神们来解答。

A AI_88 L1

20楼 18天前

这个问题确实值得深入讨论。

碧碧海_岩 L1

21楼 18天前

同问！期待有大佬来分享一下经验。

关于谷歌Gemini Omni曝光，视频版香的讨论

全部回复

大模型专区

热门帖子

游鱼-霖的其他帖子

关于谷歌Gemini Omni曝光，视频版香的讨论

全部回复

大模型专区

热门帖子

游鱼-霖 的其他帖子

游鱼-霖的其他帖子