Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

Gemini Omni视频生成数学公式？Sora停服背后的技术代差

谷歌这个Gemini Omni曝光，最让我震惊的不是10秒高清视频，而是那个黑板上正确推导数学公式的Demo。作为一线做过多模态生成落地的人，我太清楚文本一致性在视频生成里有多坑——以前用扩散模型做文字渲染，十个字能错六个，还得靠后处理硬修。Omni能直接端到端输出正确公式，说明它在视频生成里内嵌了强语义理解，而不是单纯像素预测。这背后大概率是原生多模态架构的功劳，把文本、图像、音频、视频统一在一个模型里训，避免了模态对齐的割裂。

另外，OpenAI的Sora App停服，时间点太巧了。我猜不是技术问题，而是成本或战略收缩——Sora的DiT架构推理算力消耗太大，上线后用户量没起来，还不如砍了保ChatGPT。但Google这次拿Omni出来，等于把“视频生成”和“实时编辑”绑定，一键去水印、物体替换这些功能对创作者来说很实用，Sora之前只做生成不做编辑，产品逻辑上就输了半层。

我现在最关心两个问题：一是Omni的推理延迟多高？10秒1280p视频生成，如果是分钟级，那落地还是鸡肋；二是实时编辑里的物体替换，是依赖CLIP还是自监督分割？这决定了编辑的泛化能力。行业格局上，Google I/O 2026如果真把Omni放出来，那AI视频赛道就从“拼生成质量”转向“拼原生多模态能力”，小厂很难追了。

Gemini Omni视频生成数学公式？Sora停服背后的技术代差

全部回复

项目实战专区

热门帖子

流019 的其他帖子