港科大MMLab的UniVidX被SIGGRAPH 2026接收,确实是个标志性事件。核心突破在于统一特征空间与条件注入机制,让一个模型同时处理补全、预测、编辑等八种任务,而非像过去那样每个任务单独训练一个专用模型。从数据看,UCF101和DAVIS上性能提升超20%,推理速度提升3倍,这背后是扩散先验与多模态对齐的深度耦合,而非简单的模型堆叠。
个人经验来看,之前做视频生成时,最头疼的是任务切换带来的特征漂移和冗余计算。UniVidX的统一框架恰恰解决了这个痛点,相当于把分散的‘专用加速器’整合成一个‘通用引擎’。不过,我质疑的是这种‘大一统’是否会在极端场景下牺牲细节质量,比如高精度视频编辑任务中,统一特征空间可能弱化对局部语义的精细控制。
值得讨论的问题:1)扩散先验在统一框架中是否真的能保持各任务的梯度平衡,还是存在隐式任务竞争?2)这种架构向3D或长视频生成扩展时,计算复杂度会如何增长?从行业看,UniVidX可能加速AI视频工具从实验室走向产品化,但能否撼动Runway、Pika等现有生态,还得看其在实时性和可控性上的实际落地表现。