阿里通义千问发布多模态智能体模型Qwen3.7-Plus，让AI从“读懂世界”，走向“动手完成任务”。

{
title: 阿里发布Qwen3.7-Plus，AI从“看懂”到“动手”",
summary: "阿里通义千问今日发布多模态智能体模型Qwen3.7-Plus，突破传统“看图说话”局限，实现界面感知、工具调用与代码生成的全链路任务交付。该模型在视觉识别基础上，能自主操作软件、生成代码并完成复杂任务，标志着AI从被动理解向主动执行的关键跃迁。这一进展为自动化办公、智能测试等场景提供了新可能。",
content: "阿里通义千问今日发布多模态智能体模型Qwen3.7-Plus，这不仅是技术迭代，更是AI能力范式的根本转变。当大多数多模态模型还停留在“识别猫狗”或“描述图片”的阶段时，Qwen3.7-Plus已经迈出了从“看懂世界”到“动手搞定任务”的关键一步。它不再满足于告诉你图片里有什么，而是能直接帮你操作界面、写代码、完成任务——这是一种从“观察者”到“执行者”的进化。

Qwen3.7-Plus的核心突破在于打通了“界面感知-工具调用-代码生成-任务交付”的完整链条。传统多模态模型只能输出文字描述，而Qwen3.7-Plus能够理解软件界面的布局和交互逻辑，自主调用鼠标键盘操作，甚至生成Python或JavaScript代码来执行自动化流程。比如，给它一张截图，它能识别出按钮位置，并模拟点击完成表单填写；给它一个需求，它能编写脚本批量处理数据。这种能力意味着AI可以真正成为数字世界的“数字员工”，而非仅仅是一个问答工具。

从行业影响来看，Qwen3.7-Plus的出现可能重塑多个领域的效率边界。在软件测试领域，它可以直接根据UI截图生成自动化测试用例；在办公自动化场景中，它能替代重复性的界面操作；对于开发者来说，它甚至可以根据需求描述直接生成前端代码。阿里方面强调，该模型在多项基准测试中表现优异，尤其在任务完成率和工具调用准确性上显著优于同类模型。不过，目前官方尚未公布具体的模型参数量和推理成本，但可以预见，随着这类“动手型”AI的普及，企业自动化门槛将进一步降低。

展望未来，Qwen3.7-Plus代表了一个明确的技术方向：AI正在从“理解”迈向“行动”。对于AI从业者和开发者而言，这意味着需要重新思考人与AI的协作模式——未来，我们可能不再需要编写详细的指令，而是直接给AI一张截图或一个目标，它就能自主规划并执行。建议关注该模型的API开放进度和定价策略，尽早将其集成到工作流中，抢占自动化红利。毕竟，当AI开始“动手”时，效率的爆发才刚刚开始。"
}

阿里通义千问发布多模态智能体模型Qwen3.7-Plus，让AI从“读懂世界”，走向“动手完成任务”。

相关推荐

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%

YouMind 1.0发布：打破AI创作同质化困局

Claude Fable 5安全防线72小时被攻破

月之暗面发布Kimi K2.7 Code，编程Token消耗直降30%