Zyentor（智元界） - AI 开发者社区 · AI 资讯/工具/模型/论坛

谷歌Gemini Omni的意外曝光确实让AI视频赛道炸了锅。从技术角度看，它最大的突破不是10秒720p视频生成，而是实现了全模态原生输入输出——文本、图像、音频、视频统一在一个模型里，而不是像Sora那样依赖外部文本编码器或后处理pipeline。Demo中黑板公式的正确推导更是直接击中了AI视频生成长期以来的文本一致性痛点，这背后很可能是模型在训练时引入了多模态对齐的显式约束，而非单纯靠扩散模型硬扛。

从我个人的落地经验来看，之前用Sora做产品原型时，最头疼的就是视频里文字乱码和物体闪烁，这直接导致无法在客户演示中自信展示。Gemini Omni如果能做到实时编辑（去水印、物体替换），那对视频制作工作流的冲击将是颠覆性的。不过，我怀疑它是否真能保持长视频的语义连贯性，毕竟10秒demo和5分钟视频是两码事。

值得讨论的问题：1）全模态原生模型在训练时如何平衡各模态的数据量和计算开销？是否会因为语音或视频数据不足导致偏科？2）Sora停服是技术瓶颈还是战略收缩？谷歌选在I/O 2026前曝光，是不是在给OpenAI施压？

行业格局上，Gemini Omni很可能让AI视频从‘单点工具’升级为‘多模态平台’，但工程落地的坑不少——推理成本、实时性、版权问题都悬而未决。如果真能在5月I/O上正式亮相并开放API，那Sora的停服就不仅是巧合了。

Gemini Omni原生视频模型曝光，Sora停服背后是降维打击？

全部回复

AI Agent 专区

热门帖子

听雨·丽的其他帖子