AI 真的理解世界吗?
当一个杯子从桌面掉落,大语言模型可以告诉你 “它会碎”,却无法推演这个过程:它如何下落?碎片如何飞散?液体如何溅开?
这揭示了一个关键问题:语言只是对世界的抽象描述,它可以表达结果,却无法刻画过程。真实世界并不是符号组成的,而是连续变化的物理系统。
相比之下,视觉直接记录了世界的演化 —— 物体的结构、运动以及背后的因果关系,都体现在视觉信号中。这使得视觉成为 AI 学习世界变化最直接、最完整的信息来源。
图 1:语言只能对事件结果进行抽象概括,而视觉才能呈现世界变化的连续过程。
这也是为什么越来越多研究者如 Yann LeCun,Fei-Fei Li 等开始重新思考:如果世界模型是通向通用智能的关键,那么它的起点不应该是语言,而应该是视觉。
人类理解世界,不只是 “说出结论”,而是 “看见变化”。视觉世界模型的目标,正是让 AI 通过视觉学习世界的运行规律,并据此推演未来。
为了理清视觉与世界模型之间的深层联系,并为该领域的未来研究提供一张清晰的脉络图,北京交通大学靳潇杰、魏云超、赵耀等学者联合新加坡国立大学、腾讯、字节等国内外研究机构知名学者,发布了首篇视觉世界模型长篇综述:From Seeing to Knowing the World: A Survey of Vision World Models。
这项工作提出了一次关键的概念转变:
视觉不应仅仅被视为一种输入模态,而应成为塑造世界模型表征方式、学习机制以及评估体系的核心驱动力
。 在这一 “以视觉为中心” 的视角下,研究团队不仅首次系统性定义了视觉世界模型,还构建了一个贯通 “表征 - 学习 - 模拟” 的统一分析框架,在同一框架下重组四大技术路线、厘清评测体系,并进一步提出面向下一代世界模型的关键研究方向。调研的最新进展截止至 2026 年 4 月 1 日。
论文标题: From Seeing to Knowing the World: A Survey of Vision World Models
项目主页:https://aiworldlab.github.io/survey/
论文链接:
https://aiworldlab.github.io/survey/preprint.pdf
代码 / 资源整理:https://github.com/AIWorldLab/Awesome-Vision-World-Model
1. 为什么现在需要一篇视觉世界模型综述?
世界模型已经成为当前 AI 研究中最受关注的话题之一,该方向的发展跨视频生成、表征学习、具身智能、自动驾驶等多个研究社区。这些路线普遍开始依赖视觉信号,但在多数范式中,视觉仍更多被视为一种观测输入:视频生成方法更关注未来内容的视觉逼真度与时空一致性,表征预测方法强调在潜在空间中捕捉世界演化的预测结构,而状态转移和具身智能相关方法则更重视基于紧凑状态进行长时程推演与决策支持。
图 2:视觉世界模型研究技术路线。上半部分梳理主流模型架构,下半部分归纳不同领域中的数据集与评测基准。
虽然这些路线都在尝试回答 “AI 如何从视觉中建立对世界变化的内部模型” 这一核心问题,但它们长期沿着各自的范式独立发展,存在定义不统一、分类彼此割裂、评测标准难以对齐等问题。
也正因如此,当前迫切需要一篇真正以视觉为中心、能够在统一框架下重新组织这一领域的系统综述。相比于单纯汇总已有工作,这篇综述更重要的地方在于提出了一次关键的视角转换:
视觉不应仅仅被视为世界模型的输入模态,而应成为定义模型如何表征世界、学习规律与评估能力的核心出发点

2. 视觉世界模型统一框架
团队首先给出了 VWM 简洁且明确的定义:
视觉世界模型能够从视觉数据中学习世界知识,并基于交互条件生成未来世界状态

并将 VWM 的研究统一为一个框架内的三个核心组件:
视觉编码 (Vision Encoding)
: 如何将各类原始视觉信号(图像、视频、点云、光流信息等)转化为利于建模世界变化的表征。
知识学习 (Knowledge Learning)
: 模型需要从视觉中到底学到了什么?我们将其归纳为三个递进的层次:时空连贯性(Spatio-temporal Coherence)、物理动力学(Physical Dynamics)以及因果机制(Causal Mechanisms)。具体而言,时空连贯性要求物体在空间与时间上的持续性,其位置和形态变化保持连贯;物理动力学为物体在重力、接触、运动等物理约束下的变化规律,保证未来演化的物理合理性;而因果机制则表示动作、事件与结果之间的因果关系,使模型能够理解 “做什么会导致什么”。
可控模拟 (Controllable Simulation)
: 基于学到的知识,模型在交互条件(如机器人动作、文本指令)的引导下,对未来的潜在状态进行推演。
图 3:视觉世界模型统一框架。从视觉编码、知识学习到可控模拟,系统刻画 VWM 如何从观测中学习世界规律,并在交互条件下推演未来,实现闭环模拟。
这个框架的重要性在于,它第一次比较系统地回答了:
一个视觉世界模型到底应该学什么,靠什么学,又该如何被控制和评估。
3. 当前视觉世界模型,主要分成哪几条技术路线?
依据上述统一框架,现有方法可被归纳成四大代表性范式,包含七种子范式。研究团队
不再把这些路线割裂开,而是放到同一套框架下进行比较

图 4:视觉世界模型方法架构图。每类范式上半部分展示模型架构,下半部分给出其如何实现视觉编码、知识学习和可控模拟的过程。
1. 序列生成(Sequential Generation)
通常会把图像或视频转成 token 序列,然后像语言模型一样一步一步预测未来。它的优势是可扩展性强、适合长上下文,缺陷是长时预测易出现误差累积和漂移,对精细几何、物理交互的模拟效果有限。子范式包括基于视觉自回归的世界模型(visual autoregressive model),以及与大语言模型对齐的多模态自回归世界模型(MLLM-guided multimodal autoregressive model)。
图 5:视觉自回归视觉世界模型代表方法总览。每个方法分析其视觉编码器、所学习的世界知识、交互输入和模拟输出类型。
2. 扩散生成(Diffusion-based Generation)
通常在连续潜空间中通过迭代去噪生成未来。在视觉质量上更强,也更适合生成连贯、逼真的未来片段,但代价是推理开销更大。子范式包括经典的潜空间扩散世界模型(latent diffusion)和当前的主流思路自回归扩散世界模型(Autoregressive Diffusion)。
图 6:扩散生成视觉世界模型代表方法总览。
3. 表征预测(Embedding Prediction)
不执着于生成完整视频,而是直接预测未来的 embedding。这样的好处是能把重点放在 “学规律” 而不是 “画细节” 上,更适合规划、推理和效率优先的场景。但其缺点是可解释性相对较弱。该范式的典型代表是 JEPA 系列。
4. 状态转移(State Transition)
将视觉输入压缩为紧凑的隐状态,通过递归状态转移建模世界随时间