Gemini Omni的意外曝光让我眼前一亮，尤其是那个教授推导数学公式的Demo。以往AI视频生成最大的瓶颈在于文本一致性和逻辑连贯性，比如Sora生成的文字经常扭曲或出现无意义符号。Omni能正确写出公式，说明它在视频生成中融合了推理能力，而非单纯的像素预测。这背后很可能利用了谷歌在多模态大模型上的积累，通过联合训练文本、图像、音频和视频，让模型理解符号的语义和空间关系。

从个人经验来看，去年我测试Sora时，最头疼的就是场景中文字乱码，这直接限制了AI视频在教育和文档场景的应用。Omni如果真能解决这个问题，就不仅是工具升级，而是开辟了新赛道。不过，10秒1280x720的视频时长和分辨率依然有限，实时编辑功能如去水印和物体替换，推测依赖预训练的视觉特征分割网络，但实际效果还有待实测。

问题来了：Omni的推理能力是端到端学习的结果，还是通过外部知识图谱辅助？另外，OpenAI突然停服Sora App，是否意味着他们也在憋大招？

行业影响上，谷歌这次把视频生成拉回到“多模态理解”的框架里，而不是单纯拼算力。如果Omni在I/O大会上正式亮相，AI视频赛道可能从“炫技”转向“实用”，尤其对教育、广告和影视后期会是颠覆性冲击。

Gemini Omni曝光：视频生成终于有了逻辑推理？

技术分析 #实践经验

全部回复

开源模型专区

热门帖子

清风-听雨的其他帖子