物理世界智能的优化：从文本思考到多模态思考

{
title: "打破语言盲推：E-ViC让AI用视觉思考空间问题",
summary: "旷视联合北京人形机器人创新中心研发的空间感知优化算法E-ViC被ACL 2026录用。E-ViC通过将缩放、标点、画框等视觉操作定义为决策原语，让模型在推理中直接与图像像素交互，而非依赖纯文本思维链。在五项空间理解基准测试中，E-ViC平均提升10.1%，在精细定位任务上超越参数量四倍的大模型和GPT-5。该工作指向物理世界智能的自主感知突破，为AI从数字空间走向物理现实铺路。",
content: "当人类面对复杂空间问题时，会下意识地用手指比划、用笔标注、凑近观察细节。这种边看边想、边动边确认的过程，是空间认知的核心。然而，当前主流的视觉语言大模型却在推理时依赖纯文字思维链——将视觉信息压缩成文字描述后再用语言推理。这好比让人蒙上眼睛，只凭口头描述操作物理世界。语言擅长传递语义，却天然损失了几何精度，对于物理世界中的任务执行而言，这种语言盲推是根本性的瓶颈。\n\n旷视联合北京人形机器人创新中心研发的E-ViC（具身视觉链）正是为打破这一瓶颈而生。其核心思路是让推理回归视觉本身：将缩放、标点、画框、轨迹绘制等视觉操作定义为可执行的决策原语，使模型在推理过程中直接与图像像素交互——圈出目标区域、标注关键坐标、绘制运动路径，而非转译成文字进行纯文本推理。这种看一步、想一步、确认一步的闭环推理，是人类处理空间问题的自然方式。更值得关注的是训练方式的创新：E-ViC不依赖人工标注的推理轨迹，而是通过强化学习让模型自主涌现出主动调用视觉工具验证假设的策略。模型并非被教导何时该看哪里，而是在反复试错中自己学会了什么时候值得放大图像、在哪里标注落点。在五项空间理解基准测试中，E-ViC相比基座模型平均提升10.1%，在需要精细定位的任务上取得最大突破，甚至超越了参数量为其四倍的大模型以及GPT-5等商业旗舰模型。\n\n这项工作背后指向更宏观的目标：让智能体真正具备在物理世界中自主行动的能力。物理世界的智能区别于纯数字世界，它要求智能体在四个维度实现自主：自主感知（主动融合多传感器信号、调整观察内容）、自主记忆（构建分层记忆体系）、自主决策（借助慢思考进行长程拆解与动态重规划）、自主执行（将空间推理转化为可操作指令）。E-ViC正是在自主感知层面迈出的关键一步，它赋予模型主动与环境交互的能力，而不再是被动地接受一张图、输出一个答案。\n\n从感知到决策，从数字空间到物理现实，真正的智能必须扎根于对物理世界的深刻理解。E-ViC是这条路上的重要探索，它让AI不再局限于文字游戏，而是真正学会看、想、动。对于AI从业者而言，这一方向提示我们：多模态模型的下一步突破，或许不在于更大的参数规模或更多的训练数据，而在于让模型学会像人类一样，在物理世界中边看边想、边动边确认。"
}

物理世界智能的优化：从文本思考到多模态思考

相关推荐

Anthropic揭秘Loop：AI Agent核心机制

特斯拉供应链押注，一年造出对标宇树的机器狗

数宗DM Agent OS重塑商品与内容流转逻辑

Anthropic揭秘Loop：AI Agent核心机制

特斯拉供应链押注，一年造出对标宇树的机器狗

讨论 (0 条)