本文的共同第一作者王禹博,张钧天分别为复旦大学和中国人民大学高瓴人工智能学院的硕士研究生,主要研究方向为多模态大模型和 Reasoning 等,预计 2027 年 6 月毕业,如有多模态大模型 / Reasoning 相关的优质发展机会,欢迎大家联系: yubowang25@m.fudan.edu.cn , zhangjuntian@ruc.edu.cn。通讯作者是刘雨涵,目前在 MBZUAI 担任研究员,研究方向为多模态大模型,Agent 和 Misinformation 等。
近年来,随着思维链(Chain-of-Thought)技术的普及,多模态大模型(VLMs)的多步推理能力得到了显著提升。然而,这种依赖显式文本的推理路径正面临着一个严重的 “信息带宽瓶颈”:在离散的文本分词过程中,连续且丰富的视觉细节往往会被大量丢失。
为了解决这一痛点,由 MBZUAI、复旦大学、中国人民大学高瓴人工智能学院以及哈佛大学联合组成的研究团队,提出了一种名为
Laser
的全新隐式视觉推理范式。该研究从认知心理学中汲取灵感,引入了 “Forest-before-Trees” 的认知机制,通过动态窗口对齐学习(DWAL),首次实现了在隐空间中维持视觉特征的 “概率叠加” 状态。
研究实验结果显示,Laser 不仅在 6 个主流基准测试中刷新了隐式推理的 SOTA 纪录,更以极致的效率将推理 Token 消耗大幅降低了 97% 以上。这一工作为构建更原生、更高效的多模态智能提供了全新的视角。目前,该论文已被 ACL 2026 Main Conference 正式接收。
论文标题: Forest Before Trees: Latent Superposition for Efficient Visual Reasoning
论文链接: https://arxiv.org/pdf/2601.06803
代码仓库: https://github.com/ybb6/laser
数据集链接:https://huggingface.co/datasets/wybb/Laser-ScanPath
1. 传统隐式推理的困境:过早的语义坍缩
如前文所述,纯文本的思维链在多模态大模型中不仅面临着视觉细节丢失的 “信息带宽瓶颈”,还存在另一个隐患:语言先验(Language Priors)的干扰。在生成冗长文本推理的过程中,模型往往会过度依赖固有的语言逻辑,从而产生幻觉或忽视了图像本身传递的视觉信息。
为了绕开显式文本带来的这些局限,学界近期开始探索将推理过程转移到高维空间的 “隐式推理(Latent Space Reasoning)”。但现有的隐式推理方法大多依然沿用传统大语言模型的自回归框架。它们在隐空间中强迫模型进行严格的逐点映射 —— 即在每一步推理中,都要求模型去精准预测紧接着的下一个具体概念或视觉特征。
研究团队指出,这种逐点映射与人类真实的视觉感知规律背道而驰。人类在观察复杂图像时,往往遵循 “Forest-before-Trees” 的层级性原则,即先建立对整体画面的宏观语义把控,再逐步聚焦于局部的特定细节。如果强迫模型在尚未完全掌握全局上下文之时,就 “过早地发生语义坍缩”,将其隐状态死死锁定在某个具体的局部概念上,就会引发严重的 “管中窥豹” 效应,使模型难以捕捉更复杂的视觉逻辑关系。
然而,打破这种逐点约束也面临着巨大的技术鸿沟:如果放任隐状态保持模糊的未坍缩状态,在缺乏外部强监督信号的情况下,模型极易迷失方向,导致隐空间发散为毫无意义的高熵噪声。如何在探索全局的概率叠加与精准聚焦的答案收敛之间找到平衡,成为了阻碍隐式推理发展的一大难题,而这也正是 Laser 范式要攻克的核心目标。
2. Laser 核心机制:动态窗口对齐与隐式叠加
基于上述洞察,研究团队提出了
Laser(Latent Superposition for Effective Visual Reasoning)
。其核心创新在于放弃逐点预测,转而采用
动态窗口对齐学习(Dynamic Windowed Alignment Learning, DWAL)
。
动态语义窗口
: Laser 不再只预测紧接着的下一个词,而是让当前的隐状态与一个包含未来潜在语义的动态有效窗口进行对齐。
认知流的过渡
: 随着推理过程的推进,语义窗口会自然缩小,从而强制模型完成从全局探索到局部精准定位的渐进式过渡。这种机制使得隐状态能够维持一种 “概率叠加” 状态,在编码高层全局语义的同时,将具体细节保留在潜在状态中。
自修正与熵正则化干预
: 为了在缺乏外部强监督的情况下稳定这种无约束的学习过程,团队设计了自修正叠加机制(Self-Refined Superposition)来构建稳定的软目标。同时,研究引入了熵正则化干预(Entropy-Regularized Intervention),当模型不确定性较高时动态注入硬性引导,而在模型掌握全局上下文时恢复软叠加,形成一种隐式的课程学习。
3. 数据基石:ScanPath 认知轨迹
为了支撑 Laser 的隐式对齐训练,研究团队摒弃了依赖显式边界框(Bounding Boxes)等视觉 COT 的强监督手段,选择通过隐式潜空间对齐来桥接感知与语言。为此研究团队专门构建了包含约 27 万样本的 ScanPath 数据集,
为动态窗口对齐(DWAL)提供完美契合 “Forest-before-Trees” 规律的训练载体
。团队将 GPT-4o 设定为 “视觉认知引擎” ,基于全局优先假设(Global Precedence Hypothesis)对合成数据施加了极其严格的生成约束:
严格的 “全局到局部” 扫描逻辑
:要求序列必须从最宽泛的全局锚点起步,逐步将焦点缩小到相关主体,并最终落脚于解答查询所需的关键视觉证据上。
演绎轨迹而非静态描述
:这一特定的结构确保了数据呈现的是动态的视觉演绎轨迹,而不是对图像表面元素的静态描述。
原子化与去语法化
:为了提炼出高密度的 “语义锚点”,生成内容被要求必须是原子级别的特定视觉概念,并强制剔除所有的语法修饰词(如 is, the, a 等停用词)。
在这些严苛的要求下,ScanPath 成功将视觉推理过程解构成了一系列离散的语义节点,并在人工评估中取得了 91.5% 的逻辑有效率。这份认知扫描路径数据,为后续模型在隐空间中维持概率叠加提供了最核心的监督目标。
4. 具体方法
动态语义窗口(Dynamic Semantic Windows)
在标准自回归框架下,优化目标通常是强迫隐状态 去最小化预测下一个具体词元 的负对数似然。而 Laser 为每一步推理 t 定义了一个动态语义窗口 :
这里的优化目标不再是单一的 “点”,而是让隐状态 尽可能覆盖窗口 内的所有有效语义信息。随着推理步数 t 的增加,这个窗口会自然缩小,直到只包含最终答案相关的细节,从而在学习范式上完美契合了人类 “Forest-before-Trees” 的视觉处理规律。
自修正的隐式叠加(Self-Refined Superposition)
如何在动态窗口 内指导模型的学习?在缺乏
ACL 2026|告别冗长思维链!Laser用「概率叠加」重塑多模态大模型隐式推理
AITNT
23天前
5
0
本文由 Zyentor(智元界) 原创发布,转载请注明出处。
欢迎在 技术论坛 讨论本文相关内容