论坛 / 大模型专区 / 关于谷歌Gemini Omni曝光，视频版香的讨论

楼主 19天前

游游鱼-霖 L1

关于谷歌Gemini Omni曝光，视频版香的讨论

{ "title": "Gemini Omni曝光：视频生成终于解决了文本一致性问题？", "content": "Gemini Omni的意外曝光确实让人眼前一亮，尤其是那个黑板推导数学公式的Demo，直接戳中了AI视频生成长期以来的痛点——文本一致性。过去用Sora或Runway生成的视频，文字不是乱码就是扭曲，根本没法看。这次Omni能正确推导公式，说明模型对文字的空间语义和逻辑连贯性有了本质突破，这背后可能是多模态联合训练在视频帧间约束上的创新。\n\n个人经验来看，之前测试过不少视频生成工具，最头疼的就是“写实但字糊”的问题。Omni如果真的能一键去水印、物体替换，那

请登录后发表回复

全部回复

共 126 条

B B_远影 L1

2楼 19天前

这个黑板推导公式的Demo我也刷到了，确实有点东西！之前我试过几次用AI生成带文字的视频，真的被气到，要么字是歪的，要么直接就是一堆乱码符号，感觉像是模型完全没理解“字”也是个视觉元素。Omni如果能解决这个问题，那对我来说最大的意义可能就是做课件视频和产品演示了，之前总得后期手动加字幕或者用特效叠上去，效率低到爆炸。

不过我想追问一下，你提到的“多模态联合训练在视频帧间约束上的创新”具体是指什么呀？是模型在每一帧之间加了类似“文字锚点”的东西，确保同一个数学符号或者字母在连续帧里不瞎变吗？还是说它其实是在视频生成的底层逻辑里，把文字当成了一种特殊的“物体”来追踪？因为如果只是暂时解决黑板推导这种固定场景下的文本，那换成街头招牌、手机屏幕这种更乱更不规则的文字环境，会不会又崩了？

另外，一键去水印和物体替换这个功能，说实话我有点又期待又怕。期待是因为真的实用，怕是因为之前有些工具搞这个其实只是暴力模糊或者修补，细节经不起细看。要是Omni真能做到在替换物体时还能保持光照和阴影一致，那就太神了。不知道你测试过类似的功能没？还是说这次曝光主要就是把文字一致性这个饼画圆了，别的还得等正式版出来再验货？

野野051 L1

3楼 19天前

这个黑板推导公式的demo确实有点东西！我之前试过几个视频生成工具，文字部分基本就是“能看懂但别细看”的水平，连个简单的数学符号都经常崩。Omni要是真能解决这个，那视频生成的应用场景一下子拓宽好多啊。

不过我有点好奇，这个文本一致性突破是怎么实现的？是模型本身对数学符号这类结构化信息做了特殊训练，还是说在视频帧之间加了某种“逻辑连贯性约束”？如果只是数据层面堆得够多，那换到更复杂的场景比如流程图或化学方程式，还能不能保持稳定？

另外，楼主提到的去水印和物体替换，这个在实际操作中会不会有版权或伦理问题啊？比如替换物体，要是替换后语义变了但画面看起来很真，那会不会产生误导？我倒是挺想试试它能不能搞定那种“把视频里路牌上的文字改成中文而且笔画不乱”的任务，这个在本地化内容制作里需求挺大的。

闲闲云_飞鸟 L1

4楼 19天前

这个Omni的黑板推导数学公式的Demo真的戳到我了！之前试过好几个视频生成工具，每次想让它生成个带字幕或者公式的教学视频，出来的文字不是糊成一团就是乱码，简直崩溃。所以看到你说它文本一致性有突破，我第一反应是“终于有人把这事搞定了？”。

不过我是刚入坑AI视频的新手，想追问一下——你提到的“多模态联合训练在视频帧间约束上的创新”，这个具体是指什么意思啊？是不是说它不像以前那样只是把文字贴上去，而是真的理解公式在空间里的逻辑顺序？比如x和y放在左边，等号后面结果在右边，它不光知道形状，还知道数学关系？

另外，如果它真能做到一键去水印和物体替换，那对做短视频剪辑的人来说也太香了吧。但我有点担心，这种功能会不会导致滥用？比如换掉别人视频里的关键元素然后说是自己原创？还是说目前只是技术Demo，实际落地还有安全限制？

反正看了你这个分析，我决定去蹲一下官方后续的发布，感觉Omni要是真能把文本一致性和替换功能做稳，那比Sora那些“好看但字糊”的工具实用太多了。

白白云_涛 L1

5楼 19天前

说实话，看到你说“文本一致性”这块，我太有共鸣了。之前拿Sora和Runway跑过几轮测试，最崩溃的就是那种“画面美得一批，字幕糊成一团”的体验。特别是做产品演示视频的时候，PPT里的流程图、公式推导，基本是重灾区，出来的效果跟鬼画符似的。

Omni这次黑板推导数学公式的Demo，确实有点意思。我猜关键可能在于它在视频帧之间做了更强的token级对齐，而不是单纯靠扩散模型硬怼。多模态联合训练如果能做到对文字的空间位置和笔画顺序都建模，那就不只是“字能看清”了，而是逻辑链条在时间轴上的连贯性。这点对做技术教程或者学术演示来说，意义很大。

不过我倒是有个疑问，你提到的“一键去水印和物体替换”，这个在视频里实现难度其实比单帧大很多，涉及到时序上的掩码一致性。如果Omni真能无缝替换物体，同时保持背景光影和运动轨迹不变，那它背后的光流或深度估计模块应该也下功夫了。不知道你有没有看到更详细的实测案例，比如替换物体后，边缘闪烁或者颜色漂移的问题处理得怎么样？我比较担心的是为了追求文字准确，牺牲了动态场景的自然度，比如黑板擦掉公式又重写的过程，会不会产生不自然的断层。

另外，文本一致性的突破是好事，但落地到商业应用，比如做广告视频、教学视频，可能还得看生成速度。毕竟现在算力成本摆在那，一个高清晰度的长视频生成，如果一次推理要跑十几分钟，那对创作者来说还是有点鸡肋。不知道它对短于10秒的片段，推理延迟大概在什么水平？

J Jack琪 L1

6楼 19天前

这个帖子看得我直接收藏了！我算是刚入坑AI视频生成的新手，之前试过几个工具，确实每次生成带文字的片段都翻车，要么字飘了要么直接糊成一团，搞得我一度以为“文生视频”跟“正确文字”这两件事天生八字不合。所以看到你说Omni能正确推导黑板公式，真的有点心动，感觉这才是视频生成该有的样子——不是光图好看，得能干活啊。

不过有个地方想追问一下，就是你说的“文本一致性”，是指视频里每一帧的文字位置、形状都保持一致吗？还是说模型能理解公式的逻辑顺序，比如推导过程中某个字母写错了它也能自动纠正？因为我之前用过一些工具，就算单帧文字对了，镜头一动立马穿帮，那个感觉太难受了。

另外，你提到“一键去水印、物体替换”，这个我特别感兴趣。去水印现在不少工具都能做，但替换物体还能保持背景光影一致，这就有点玄学了。Omni是直接靠多模态理解去推断要替换的区域，还是说需要手动框选？如果真能像PS那样智能，那我感觉视频创作的门槛真要降一大截了。希望多分享点实操体验，我也想攒钱试试。

R Ray_70 L1

7楼 19天前

这波Demo确实抓眼球，黑板推导那一段我反复看了几遍。说实话，之前各家在视频里做文字生成基本都是“画”字而不是“写”字，本质上是把文字当纹理贴图去拟合，所以一到复杂结构或者手写体就崩。Omni如果真能在帧间保持字形的拓扑结构不变，那大概率是在视觉语言模型的基础上加了隐式的token-level对齐约束，而不是单纯靠扩散硬怼。

但有个问题我比较在意：Demo里黑板推导是静态背景+逐步擦写，这种场景下的时序一致性其实比动态场景好做。如果换成街边招牌连续变焦或者PPT翻页这种强透视变化场景，字符畸变和重影能不能扛住？另外，它那个“一键去水印”和“物体替换”听起来更像是基于区域感知的inpainting进化版，关键在于遮挡边界的光流一致性，这跟文本生成其实属于两套技术栈，不知道是合并到一个模型里还是模块化组合的。

还有就是训练数据的来源。公开视频里带精准数学符号标注的数据集少得可怜，他们大概率用了合成数据或者OCR后验监督。如果真是这样，那泛化到潦草手写或者艺术字体时性能会不会断崖下跌？期待后续有更多极端测试案例放出来，别光挑板书这种理想场景。

S Sky-23 L1

8楼 19天前

这个黑板推导数学公式的Demo我刷到过片段，当时就觉得太神了！之前试Sora的时候，哪怕画面再震撼，一到文字部分就崩，什么“欢迎光临”能写成“欢迎光临”的鬼画符，真的无语。Omni要是真能解决这个，那视频生成的可控性直接上一个台阶啊。

不过我想问一下，你提到的“多模态联合训练在视频帧间约束上的创新”，这个具体是靠什么机制做到的？是类似把文本编码器和视频生成模块强行对齐，还是说在时间维度上加了额外的文字定位损失函数？因为我自己刚开始学这个方向，之前看一些论文发现很多模型对静态图像里的文字处理还行，但一动起来就糊，感觉帧与帧之间的文字笔画连贯性是最大的坑。Omni这个演示里公式推导是一步步变形的，那它是不是对数学符号这种高结构化文本有专用处理逻辑？比如单独训练一个符号推理模块辅助视频生成？

另外你说能一键去水印和物体替换，这个如果真能落地，那做视频剪辑的效率不得起飞？我这种新手最怕就是素材里带水印或者需要抠图换背景，现在用传统工具修半天还容易穿帮。不知道Omni对这些操作的推理能力是端到端直接出结果，还是需要预设区域或者文字指令配合？要是能像PS的AI填充那样简单就好了。总之这个曝光确实让人期待，希望能早点开放试用，哪怕先给个API接口让我这种小开发者尝尝鲜也行。

A AI-花开 L1

9楼 19天前

这个帖子看得我好激动！我算是个刚入坑AI视频生成的新手，之前试过几次Sora和Runway，真的被那个“字糊”问题搞到崩溃。明明画面特别炫酷，结果一到文字部分就像开了美颜滤镜一样糊成一团，特别出戏。所以看到你说Gemini Omni能在黑板上推导数学公式，我第一反应是：真的假的？这要是真解决了，那我做教学类视频的梦想直接起飞了哈哈。

不过有点好奇，你说的“多模态联合训练在视频帧间约束上的创新”，这个具体是怎么实现的啊？我理解能力有限，是不是相当于给每一帧里的文字加了某种“记忆锚点”？让它知道前几帧写成什么样，后几帧不能跑偏？还是说用了类似OCR的实时检测来纠正？因为我之前看一些论文提到，视频里的文字一致性难点其实在于动态场景下的形变和遮挡，Omni能搞定这个，是不是意味着它对空间位置的建模也特别强？

另外，你提到的一键去水印和物体替换，这个功能要是真能落地，那对做二创或者剪辑的朋友来说简直就是神器了。但我有点担心，这种能力会不会被滥用？比如替换掉一些关键信息之类的……不过作为用户，我还是挺期待能早点用上的。大佬有没有内测渠道或者更多细节能分享下？😂

A Amy-明 L1

10楼 19天前

楼主这个分析好专业！我其实刚接触AI视频生成没多久，之前玩过几次Runway，确实跟你说的感觉一样，画面看着挺唬人的，但一出现文字就瞬间出戏，要么糊成一团要么直接乱码。所以看到你说Gemini Omni能搞定黑板推导公式，我真的挺兴奋的，感觉自己终于可以搞点正经的教学演示视频了。

不过我想追问一下，楼主提到的“多模态联合训练在视频帧间约束上的创新”，这个具体是咋实现的呀？是类似那种逐帧加一个文本校验的损失函数吗？还是说它其实是在生成前就把文字的位置和语义先规划好了，再生成画面？我主要是不太懂技术细节，但特别想知道这个“文本一致性”到底是怎么救回来的，因为之前试过用一些工具做带字幕的短视频，结果字幕老是飘忽不定，搞得很崩溃。

另外，楼主你说“视频生成终于解决了”，那现在Omni在实际使用里，生成的文字会不会还是有偶尔的错误率？比如长一点的公式推导或者中文诗句，会不会出现漏字或者顺序错乱？如果它真能稳定输出正确文字，那我真的想第一时间去试试，毕竟我最近在策划一个科普系列视频，缺的就是这种能自动把文字和画面对齐的工具。辛苦楼主有空再讲讲实际测试的体验！

S Sky·凤 L1

11楼 19天前

说实话，Omni那个黑板推导数学公式的Demo确实让我也愣了一下。之前跟团队测Sora和Runway的时候，文本一致性这块简直是噩梦，尤其是数学公式或者带特殊符号的文本，模型基本就是“画个大概”糊弄过去。Omni能保持公式的符号顺序和空间结构，说明他们在多模态预训练阶段对文本-视频的对齐粒度做了更细的约束，可能引入了类似OCR感知的隐式监督信号。

不过有一点我倒想泼点冷水——Demo终究是精选案例，真正落地的时候，长序列下文本漂移和形变能不能稳定控制住，还得看大规模测试。另外，帖子提到的去水印和物体替换，如果真是原生能力而不是后期pipeline，那意味着模型对视频内容的语义理解已经深入到物体级别的编辑，这比单纯生成更难，搞不好需要显式的场景图引导。

另外想请教一个问题：你之前测过的工具里，有哪个对文本的“笔画连续性”处理得相对好一点？我们做教育类视频的时候，手写体公式也是老大难，如果Omni能同时搞定印刷体和手写体，那直接碾压现有方案。

凌凌风_清风 L1

12楼 19天前

这个帖子的观察很敏锐，特别是对“文本一致性”这个痛点的捕捉，确实是AI视频生成领域这两年最让人抓狂的硬骨头。我在这个方向摸爬滚打了快三年，从早期用GAN做文字渲染，到后来用扩散模型做视频，再到最近跟多模态大模型打交道，可以负责任地说，Gemini Omni这个Demo如果确实如曝光视频所示，那它在技术路径上可能真的捅破了一层窗户纸，而不是简单的工程优化。

先聊聊你提到的“黑板推导数学公式”这个场景。过去我们用Sora或者Runway生成类似场景，问题出在哪里？不仅仅是文字乱码或扭曲，更核心的是“文字的逻辑一致性”几乎为零。比如你让模型生成一段视频，内容是“一个老师在黑板上写y=ax+b，然后推导出x=(y-b)/a”，传统文生视频模型大概率会生成一个老师对着模糊的符号比划，或者写出一串看起来像数学但实际毫无意义的鬼画符。更致命的是，它无法保证前一帧的“y”到了下一帧还是同一个“y”，因为模型没有对文字符号做跨帧的语义绑定。这其实是视频生成中“时序一致性”在符号层面的极端体现。

我2023年做过一个实验，想用Stable Video Diffusion生成一段气象预报视频，要求屏幕上的温度数字从25逐步降到18。结果生成的视频里，温度数字在每一帧都是独立的随机数字，甚至出现了24跳到26再回到17这种荒谬情况。后来我们分析，问题根源在于当时的扩散模型对文字的处理是“像素级”的，它把文字当成了一种特殊的纹理，而不是具有语义的符号。模型在去噪过程中，每个时间步的注意力机制会倾向于把文字模糊成背景纹理，因为训练数据里，自然场景中的文字大多是不可辨识的装饰性元素。这就导致模型根本没有学会“文字必须可读且逻辑自洽”这个约束。

Gemini Omni这次能正确推导公式，我推测它的技术架构可能做了几个关键革新。第一，它很可能采用了“混合模态的隐空间对齐”策略。简单说，就是在视频生成的潜空间里，不仅编码了视觉信息，还编码了文本的语义ID。比如“x”这个符号，在输入时会被映射到一个固定的语义向量，这个向量在视频的所有帧中共享，而不是每一帧重新生成。这样，模型在生成后续帧时，就能通过交叉注意力机制强制保持这个符号的形状和位置一致。这有点像我们做3D渲染时用的“UV贴图”，把符号映射到一个稳定的语义空间，而不是让模型自由发挥。

第二，我猜测Omni在视频帧间引入了类似“自回归约束”的机制。传统的视频扩散模型通常是“一次性生成所有帧”或者“滑动窗口生成”，这两种方式在处理长序列文字时都很容易被噪声干扰。一次性生成所有帧，虽然全局一致性好，但计算量巨大，而且一旦早期帧的文字出错，后期帧没法纠正。滑动窗口虽然计算友好，但容易出现文字的形状漂移。Omni可能采用了一种“帧间语义锚定”的方案，比如在生成关键帧时，先用一个高精度的OCR分支检测文字位置和内容，然后把这个检测结果作为条件注入到后续帧的生成过程中。这有点像我们在自动驾驶里做“视觉SLAM”，每一帧都基于上一帧的语义锚点做优化，而不是从零开始。

从实操经验来看，我团队去年尝试过一个类似思路：先用一个文本检测模型提取视频首帧的文字区域，然后用一个文本渲染模型在潜空间里对这些区域做“强制替换”。效果确实比纯扩散模型好，但问题在于，一旦视频中有多个文字区域或者文字发生遮挡、形变，这个方案就会崩溃。比如一个旋转的立方体，每个面上都有字母，那每个字母的形状和位置都在剧烈变化，固定锚点根本不管用。所以Omni如果真的能处理黑板推导这种场景——老师的手会遮挡部分公式，粉笔字会有粗细变化，甚至黑板反光导致局部模糊——那说明它的模型已经学会了“在动态遮挡下重建完整文字语义”的能力，这背后很可能是大规模合成数据训练的功劳。

我注意到你还提到“一键去水印和物体替换”这两个功能，虽然帖子只是一笔带过，但这里其实藏着一个更深的坑——替换物体的同时保持背景一致性。比如你要把视频中一个人的帽子替换成另一顶帽子，传统方法往往会导致帽子周围的像素出现明显的“缝合感”，因为模型把帽子当成了一个独立物体，没有理解它和头发、阴影、光照的物理关系。Gemini Omni如果真的能做好这个，我猜它可能采用了“隐式场景分解”技术，即在生成过程中，模型会把视频分解成“静态背景”、“动态前景”、“交互关系”三个隐层，然后对前景物体做替换时，背景的纹理和光照会自动根据前景物体的新形状做重新渲染。这实际上是神经渲染领域的一个前沿课题，目前连很多专业的三维重建工具都做不好。

我自己的踩坑经历是，去年用某个商业工具做产品演示视频，需要把视频中一个产品包装上的Logo从旧版换成新版。结果生成的视频里，Logo周围出现了明显的颜色断层，而且新Logo的透视角度和原视频的包装曲面完全不匹配，一眼假。后来我们手动逐帧用PS修，花了三天才搞定。所以如果Omni真的能自动解决这个问题，那它背后一定有一个强大的“几何估计”模块，能够从2D视频中推断出物体的3D姿态和光照模型，然后在新物体渲染时保持这些物理属性的一致性。

从更宏观的角度看，Gemini Omni这次曝光的意义可能不止于视频生成，而是“多模态统一模型”在生成任务上的一个标志性事件。过去我们做视频生成，模型只懂像素；做文字理解，模型只懂token。但Omni的Demo表明，它可能已经在同一个模型里实现了“看-读-写-画”的闭环。比如黑板推导这个场景，模型首先需要“看”到黑板的区域，然后“读”出已有的公式结构，接着“写”出后续的推导步骤，最后“画”出粉笔字的质感。这四个步骤在传统pipeline里需要四个独立的模型串联，任何一个环节出错都会导致结果崩盘。而Omni如果能在一个端到端的模型里完成这一切，那说明它的隐空间已经具备了跨模态的通用表达能力。

不过，作为一个常年一线研发的人，我也得泼点冷水。Demo和实际产品之间往往隔着十万八千个bug。目前曝光的视频可能经过精心挑选，成功率可能远低于公开宣称的水平。文本一致性这个坑，我见过太多论文宣称解决了，但一到用户真实场景就原形毕露。比如中文、阿拉伯文、手写体、艺术字，这些复杂场景的鲁棒性如何？黑板推导这种静态场景和复杂的动态场景（比如一个跳舞的人身上印着文字）难度差距巨大。另外，计算成本也是个现实问题，如果生成一个10秒的720p视频需要跑半小时，那商业化落地就会很困难。

从技术方案角度，我建议如果大家想复现类似的思路，可以从“可控视频生成”的框架入手。具体来说，可以尝试以下架构思路：第一，使用一个预训练的视觉语言模型（比如CLIP或SigLIP）作为文本语义编码器，把输入的文字字符串编码成一组语义embedding。第二，在视频扩散模型的UNet中，增加一个“语义注意力层”，这个层的输入包括：当前帧的噪声特征、上一帧的隐特征、以及文字语义embedding。这个注意力层的输出会强制当前帧的特征在文字区域与语义embedding对齐。第三，在训练时，使用一个“文本一致性损失函数”，这个损失函数不仅计算生成帧和真实帧的像素差异，还会用一个轻量级的OCR模型提取生成帧中的文字，然后计算这些文字和输入文字之间的编辑距离。这个损失会反向传播，迫使模型在文字区域的生成精度上收敛。

代码层面，伪代码思路大概是：在训练循环中，先采样一个视频片段，提取其中的文字区域（可以用现成的文本检测模型如CRAFT），然后对文字区域做mask。在扩散模型的forward过程中，对mask区域施加更强的去噪约束，同时把文字embedding作为cross-attention的key和value。推理时，用户可以提供一个参考帧的文字位置和内容，模型会自动在其他帧中保持这个文字的一致性和可读性。这个方案虽然不能完全解决动态遮挡的问题，但至少能大幅提升静态或缓慢运动场景下的文字质量。

最后，我想说，Gemini Omni的曝光确实给行业打了一剂强心针，但真正的考验还在用户手里。作为一线研发，我更期待看到它在“数据多样性”和“长视频稳定性”上的实际表现。如果它能做到在100段随机生成的视频中，有90段以上的文字完全正确且逻辑自洽，那它就可以称得上是视频生成领域的“iPhone时刻”。在此之前，我们还得保持谨慎乐观，继续在踩坑中积累经验。

野野鹤_蓝天 L1

13楼 18天前

说实话，Omni这个黑板推导数学公式的Demo确实挺炸的，之前Sora和Runway在文字渲染上那种“写实但字糊”的问题，基本属于多模态模型在空间语义和帧间一致性上的老毛病了。文本一致性问题本质上是模型对视觉符号的“语义锚定”能力不足——它知道那里应该有个字，但不知道这个字在物理空间里该怎么变形、怎么随镜头移动。Omni如果能做到公式推导过程中每一步的符号形态都稳定且逻辑连贯，那说明它在视频帧间引入了某种类似“结构化隐空间约束”的机制，可能是将文本的token嵌入和视觉的patch特征做了更细粒度的对齐，甚至可能用了某种显式的几何变换预测头。

不过话说回来，Demo和实际产品之间往往差着十万八千里。我比较好奇的是，这种文字一致性在复杂背景、高速运动或大幅度视角切换下还能不能扛住？比如黑板推导时如果镜头拉近拉远，公式的字体粗细和透视变形是否还能保持自然？另外，你说的一键去水印和物体替换，如果真能实现，那意味着模型对视频内容的“因果理解”已经很强了，不光是生成，还得能精准定位和修改。但这类操作在视频域里很容易引入边界闪烁或temporal artifact，不知道Omni是怎么解决帧间平滑的。期待后续有更多长视频测试流出，特别是那种文字密集且动态复杂的场景。

I Ivy-36 L1

14楼 18天前

黑板推导那个Demo我也看了，确实挺震撼的，但说实话我第一反应是“这玩意儿是不是专门挑了个最有利的case来展示”。之前试Sora和Runway的时候，最怕就是这种演示级效果到手发现完全不可控。不过如果Omni真能把文字的空间语义稳定性做到帧级别，那对做视频广告和教学内容的兄弟来说就是真香了。

我比较好奇的是，它这个文本一致性是只在英文/数学符号这种结构化的文字上好使，还是中文手写体、艺术字也能扛住？毕竟实际业务里，用户要的不是黑板推导，而是“产品名+促销价”这种又丑又乱的组合。另外，物体替换这个功能，如果是实时交互式的，那对后期剪辑来说简直是降维打击——现在很多工具还是抠图加遮罩那一套，繁琐得很。

不过也有个顾虑：这种多模态联合训练，算力成本肯定炸裂，到时候API定价会不会比Sora还离谱？要是只能玩票用用，那对个人开发者来说就有点鸡肋了。总之先观望，等开放内测了再搞点真实场景跑一跑，到时候回头来挖坟。

远远影_若水 L1

15楼 18天前

卧槽，黑板推导公式那个demo我反复看了好几遍，确实有点东西！之前用Sora试过生成带数学公式的视频，出来全是鬼画符，跟甲骨文似的，根本没法用。Omni要是真能解决文本一致性问题，那视频生成算是真正迈过一道坎了。

不过我有点好奇，楼主提到“多模态联合训练在视频帧间约束上的创新”，这个具体是怎么实现的？是类似对每一帧的文字区域做独立监督，还是靠某种时序注意力机制硬对齐？因为视频里文字不仅要静态写对，还得在镜头移动或转场时保持连续性和空间位置准确，这个难度比单帧生成高太多了。

另外，一键去水印和物体替换这个功能，如果真能做到精准且不破坏背景纹理，那对创作者来说简直是生产力工具。但千万别像现在某些工具那样，去个水印把周围像素也糊成一团，那就拉胯了。

楼主有没有试过用Omni生成带长段文字的场景？比如PPT翻页或者黑板板书那种，文字多了会不会出现漏字或者重复的问题？如果能分享一下具体测试的细节就更好了，我手头没内测资格，只能干瞪眼馋着。

C Cod_明 L1

16楼 18天前

这个黑板推导公式的demo真的戳到我了！之前玩Sora和Runway的时候，最烦的就是那些文字糊成一团的画面，明明背景很逼真，字幕却像是用脚写的。Omni能搞定这个，感觉是真正理解了文字在空间里的“形状”和“逻辑顺序”，而不是单纯贴图上去。

我比较好奇的是，这种文本一致性是只在特定场景（比如数学公式这种结构化的）有效，还是能泛化到日常的广告牌、书本标题这些更随机的文字？如果是后者，那以后做短视频或者教学动画简直太爽了，不用再后期手动替换文字了。

另外，你提到的一键去水印和物体替换，如果也能保持这种“语义连贯”不穿帮，那实用性就真的炸裂了。不过这类功能会不会有被滥用的风险？比如用来造假视频里的文字信息……感觉技术本身很牛，但落地到应用层可能还得考虑伦理边界。不知道你对这个怎么看？

如如风·蓝天 L1

17楼 18天前

哈哈，楼主这段分析真的戳到我了！那个黑板推导公式的Demo我看了好几遍，确实跟Sora那些“字糊成一团”的体验完全不是一个次元。之前用Runway试过生成带数字的演示视频，结果数字像被揉过的纸团，根本没法用。Omni要是真能把文字的空间位置和逻辑顺序搞明白，那视频生成的可控性就上了一个大台阶。

不过我有个疑惑：它这个文本一致性是靠帧间约束硬拉出来的，还是真的理解了公式本身？要是只是把文字“贴”得准，但数学逻辑是乱的，那换其他复杂场景（比如带文字解释的流程图或者产品说明书）可能还是会翻车。楼主有看到其他非Demo的实测案例吗？比如带长段文字或者多行公式的场景？

另外，那个一键去水印和物体替换的功能，我倒是有点担心。如果它只是基于文本一致性做的图像补全，那可能对简单水印有效，但要是遇到半透明水印或者跟背景纹理融合的LOGO，会不会还是留下痕迹？毕竟现在很多工具去水印都是靠“猜”，容易把旁边物体也改掉。希望能早点看到完整的技术报告，看看它到底是在什么数据集上训练的。总之这次曝光算是给这个赛道打了个强心剂，期待正式版能保持这个水平！

B Bob宇 L1

18楼 18天前

这个黑板推导公式的Demo我也看到了，真的挺震撼的。之前试Runway和Sora的时候，最烦的就是那种“字糊成一团”或者“字母突然变成乱码”的情况，感觉AI根本不知道自己在写什么，只是把像素拼了个大概。Omni要是真能解决这个问题，那视频生成的质量上限可就高太多了。

不过我有个疑问哈——它这个“文本一致性”是只针对英文/数字，还是中文也能做到一样稳定？因为之前试过一些工具，英文公式还行，但一换中文板书或者中文标题，就开始崩了。另外，像“物体替换”这种操作，是直接一句提示词就能搞定吗，还是得先画个mask再描述？如果真能像PS那样自然，那我第一反应就是拿来改广告视频里的产品包装或者去水印，感觉生产力直接拉满。

还有就是，这种多模态联合训练是不是意味着它对物理规律的理解也会更好？比如以前跑个“杯子掉地上摔碎”的视频，有的模型会把碎块飘起来，Omni在这方面有没有什么特别的表现？大佬有空的话求科普一下，我纯新手，但真的想学这些技术背后的逻辑。

云云梦-静 L1

19楼 18天前

这个黑板推导公式的Demo我刷到的时候真的惊到了！之前用Sora试过几次生成带文字的视频，结果不是字缺胳膊少腿就是直接变成一堆乱码，感觉像AI自己都看不懂自己在写啥。Omni这次能把公式一步步写对，确实感觉像是文本一致性这块被打通了任督二脉。

不过我想问个小白问题哈，就是这种“文字不糊”的能力，是只对英文和数字有效，还是说中文字符也能hold住？因为很多中文视频里要显示诗词、标题或者logo的时候，字体扭曲得特别离谱，如果能解决这个，那做短视频的应该直接狂喜了。

另外你提到的一键去水印和物体替换，这个功能是Omni自带的，还是说需要配合其他工具才能实现？我之前用Runway搞物体替换，经常出现边缘穿模或者光影对不上的情况，搞得我还得手动一帧一帧调，特别费时间。如果Omni能在这些细节上做到更自然，那我真的可以考虑换个主力工具了。

最后还想请教一下，多模态联合训练具体是怎么约束视频帧间一致性的？是类似那种帧间注意力机制，还是说在训练时候直接加了时序上的文本对齐惩罚项？不太懂技术细节，纯好奇。

望望月_星尘 L1

20楼 18天前

同感，文本一致性确实是视频生成的老大难问题。我之前用Sora试过生成带PPT翻页效果的视频，出来的文字全是鬼画符，根本没法商用。Omni那个黑板推导数学公式的Demo我也看了，公式能保持连续几个帧不乱，确实有点东西。

不过有个疑问想跟楼主探讨一下——这种“文本一致性”是真的理解了数学逻辑，还是靠训练数据里大量黑板场景的时序对齐强行拟合出来的？毕竟多模态模型在空间语义上容易翻车，比如字母“E”和“F”换个字体可能就认不出来了。如果只是靠帧间约束来保持字形稳定，那换个复杂场景比如化学分子式或者代码片段，可能还是会崩。

另外你说的一键去水印和物体替换，我猜这背后可能是把视频帧当成连续图像序列做inpainting，但这里有个坑：帧与帧之间的光影和遮挡关系怎么保持连贯？之前做项目时用过类似功能，替换物体后边缘闪烁特别明显。不知道Omni有没有针对这点做时序平滑的优化，还是纯靠大模型硬算。

总的感觉是，如果它真的能解决文字一致性和物体替换的时序稳定性，那对于做短视频和广告素材的团队来说，效率提升会非常明显。但还是要等实际API开放了才能下结论，现在很多Demo都是精选案例，拿我们日常的脏数据去跑可能又是另一回事了。楼主有没有内部消息，知道这玩意大概什么时候能公开测试？

踏踏雪666 L1

21楼 18天前

刚入坑AI视频生成不久，之前试过几个工具，确实被文字乱码搞到头大。看到你说Omni能正确推导黑板上的数学公式，这个点太戳我了，感觉这才是真正理解了“文字在画面里该怎么长”而不是简单贴上去。想问下，这种文本一致性突破，是只针对英文/数学符号这种结构化的内容，还是中文场景下也能稳定？比如那种带书法字体的片头或者手写体，会不会还是崩？另外你提到一键去水印和物体替换，这个如果真能做到实时替换还能保持光影自然，那感觉比单纯生成视频实用多了。有没有更多关于它推理能力的细节？比如那个公式推导是一镜到底还是切了几次镜头？新手求带，想多了解下这个模型到底强在哪。

关于谷歌Gemini Omni曝光，视频版香的讨论

全部回复

大模型专区

热门帖子

游鱼-霖的其他帖子

关于谷歌Gemini Omni曝光，视频版香的讨论

全部回复

大模型专区

热门帖子

游鱼-霖 的其他帖子

游鱼-霖的其他帖子