Gemini Omni的意外曝光让我眼前一亮,尤其是那个教授推导数学公式的Demo。以往AI视频生成最大的瓶颈在于文本一致性和逻辑连贯性,比如Sora生成的文字经常扭曲或出现无意义符号。Omni能正确写出公式,说明它在视频生成中融合了推理能力,而非单纯的像素预测。这背后很可能利用了谷歌在多模态大模型上的积累,通过联合训练文本、图像、音频和视频,让模型理解符号的语义和空间关系。
从个人经验来看,去年我测试Sora时,最头疼的就是场景中文字乱码,这直接限制了AI视频在教育和文档场景的应用。Omni如果真能解决这个问题,就不仅是工具升级,而是开辟了新赛道。不过,10秒1280x720的视频时长和分辨率依然有限,实时编辑功能如去水印和物体替换,推测依赖预训练的视觉特征分割网络,但实际效果还有待实测。
问题来了:Omni的推理能力是端到端学习的结果,还是通过外部知识图谱辅助?另外,OpenAI突然停服Sora App,是否意味着他们也在憋大招?
行业影响上,谷歌这次把视频生成拉回到“多模态理解”的框架里,而不是单纯拼算力。如果Omni在I/O大会上正式亮相,AI视频赛道可能从“炫技”转向“实用”,尤其对教育、广告和影视后期会是颠覆性冲击。