Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

看了Gemini Omni的Demo，最让我兴奋的不是10秒高清视频生成，而是那个黑板推导数学公式的片段——文本一致性终于不再是AI视频的硬伤。之前用Sora生成教学视频，公式经常变成乱码，Gemini Omni显然在视频生成中引入了更细粒度的token级文本控制，可能结合了TTS与OCR的闭环校验。但别急着吹，仔细看Demo：1280x720分辨率下，物体替换和去水印的实时编辑延迟应该不低，这对工程部署是巨大挑战。个人经验：去年我在内部项目里尝试过类似的多模态融合，发现文本与视觉特征的语义对齐是最容易崩的环节，Gemini Omni能稳定输出，大概率用了分层注意力机制。

现在Sora停服，AI视频赛道明显在洗牌：谷歌靠全模态打通了生成与编辑的壁垒，但OpenAI可能憋着更大的招。我的疑问是：Gemini Omni的实时编辑功能是否依赖独立的分支网络？文本一致性方案会不会开源？另外，全模态输入输出对硬件要求极高，谷歌Cloud TPU v6是不是已经在背后跑起来了？行业趋势上，一旦全模态模型成熟，Adobe全家桶可能第一个被革命，但细粒度控制（比如手部动作）依然是修罗场。期待I/O大会的实测，别又是PPT造车。

Gemini Omni全模态出圈，Sora停服背后的技术真相

全部回复

RAG 专区

热门帖子

远航659 的其他帖子