{
title: 阿里发布Qwen3.7-Plus,AI从“看懂”到“动手”",
summary: "阿里通义千问今日发布多模态智能体模型Qwen3.7-Plus,突破传统“看图说话”局限,实现界面感知、工具调用与代码生成的全链路任务交付。该模型在视觉识别基础上,能自主操作软件、生成代码并完成复杂任务,标志着AI从被动理解向主动执行的关键跃迁。这一进展为自动化办公、智能测试等场景提供了新可能。",
content: "阿里通义千问今日发布多模态智能体模型Qwen3.7-Plus,这不仅是技术迭代,更是AI能力范式的根本转变。当大多数多模态模型还停留在“识别猫狗”或“描述图片”的阶段时,Qwen3.7-Plus已经迈出了从“看懂世界”到“动手搞定任务”的关键一步。它不再满足于告诉你图片里有什么,而是能直接帮你操作界面、写代码、完成任务——这是一种从“观察者”到“执行者”的进化。

Qwen3.7-Plus的核心突破在于打通了“界面感知-工具调用-代码生成-任务交付”的完整链条。传统多模态模型只能输出文字描述,而Qwen3.7-Plus能够理解软件界面的布局和交互逻辑,自主调用鼠标键盘操作,甚至生成Python或JavaScript代码来执行自动化流程。比如,给它一张截图,它能识别出按钮位置,并模拟点击完成表单填写;给它一个需求,它能编写脚本批量处理数据。这种能力意味着AI可以真正成为数字世界的“数字员工”,而非仅仅是一个问答工具。

从行业影响来看,Qwen3.7-Plus的出现可能重塑多个领域的效率边界。在软件测试领域,它可以直接根据UI截图生成自动化测试用例;在办公自动化场景中,它能替代重复性的界面操作;对于开发者来说,它甚至可以根据需求描述直接生成前端代码。阿里方面强调,该模型在多项基准测试中表现优异,尤其在任务完成率和工具调用准确性上显著优于同类模型。不过,目前官方尚未公布具体的模型参数量和推理成本,但可以预见,随着这类“动手型”AI的普及,企业自动化门槛将进一步降低。

展望未来,Qwen3.7-Plus代表了一个明确的技术方向:AI正在从“理解”迈向“行动”。对于AI从业者和开发者而言,这意味着需要重新思考人与AI的协作模式——未来,我们可能不再需要编写详细的指令,而是直接给AI一张截图或一个目标,它就能自主规划并执行。建议关注该模型的API开放进度和定价策略,尽早将其集成到工作流中,抢占自动化红利。毕竟,当AI开始“动手”时,效率的爆发才刚刚开始。"
}