数据来源：XSCT Arena
报告日期：2026 年 4 月 3 日
完整版报告点击「查看原文」阅读。
本报告基于
XSCT Arena
平台，对 Qwen3.6-Plus-Preview（阿里云，2026-04-02 发布）在文字能力（xsct-l）、网页生成（xsct-w）、Agentic 任务（xsct-a）三大场景下的表现进行系统评测，并与
Claude Sonnet 4.6、GPT-5.4、Gemini 3.1 Pro、Kimi K2.5、MiniMax M2.7、GLM-5、Qwen3.5-plus
共 8 款旗舰模型横向对标。
核心结论：
润色（

1

，94.4）、幻觉抑制（#1，96.9）、网页视觉生成（#1，82.6）三项全场第一；以 ¥12/M 的成本达到 Claude 级别质量，
性价比指数 736，是 Claude 的 8.5 倍；
批判性思维施压场景末位（59.2）和 Agentic 多轮协作短板（DocMultiTurn Hard 36.1）是两条明确的能力边界。
01｜核心结论速览
本次评测覆盖三大类型，核心指标汇总如下：
十条数据支撑的核心结论
02｜研究背景与方法论
评测平台与数据来源
所有数据来自XSCT Arena，一个专注场景化大模型能力评测的独立第三方平台，采用 LLM-as-a-Judge 方法论，三 Judge 加权评分：
公平用例集原则
•
横向对比仅使用 8 款目标模型全部有数据的公平用例，缺任一模型数据的题目直接排除
•
每个维度要求 ≥2 条公平用例（理想 ≥3 条）；Logic 和 Code 各仅 2 条，结论全文标注「参考性数据」
•
每档难度均设 Basic / Medium / Hard 三档，本报告横向对比以
Hard 难度
为主
03｜模型档案
•供应商：
阿里云百炼
•发布时间：
2026 年 4 月 2 日（距上代 Qwen3.5-plus 仅约 45 天）
•综合得分：
88.3（xsct-l 榜

4

，共 65 款）；日常 89.8 / 专业 88.1 / 极限 87.2
•定价：
输入 ¥2.00 / 输出 ¥12.00（每百万 token）
•官方定位：
Agentic Coding 方向旗舰，在
SWE-bench
系列智能体编程评测和
Claw-Eval
真实世界 Agent 任务中较上代显著提升，国产模型中编程 Agent 能力最接近 Claude 系列
•迭代节奏：
Qwen3.5-plus 2 月发布，Qwen3.6-plus 4 月 2 日发布，间隔仅约
45 天
，迭代周期明显缩短。同期阿里还发布了多模态模型 Qwen3.5-Omni（3 月 30 日）和图像生成模型 Wan2.7-Image（4 月 1 日），多线并进格局清晰
•系列规划：
Plus-Preview 为中档版本，官方已宣布更强的旗舰版
Qwen3.6-Max
即将发布；本报告测评数据均针对 Plus-Preview，Max 版本暂无 XSCT Arena 数据
•系列进化：
综合分 88.3（+2.1 vs Qwen3.5-plus 86.2），难度稳定性 -2.6（上代 -3.6），改善明显
•版本说明：
本报告为 Preview 版。正式版 Qwen3.6-Plus 已同期发布，待全维度数据完备后将发布 Preview→Plus 差异对比报告
04｜核心场景深度分析（文字能力）
4.1 L-Polish 润色改写：超越定价的差异化优势
这是 Qwen3.6 最值得重点强调的维度。4 条 Hard 公平用例均分 94.4，全场第一，且有 3 题独占首位。考察的是语言控制精细度、多重约束下的平衡感、对目标受众的场景适配：而 Qwen3.6 连价格贵 8 倍的 Claude 都能超过。
结论：
内容改写和事实核查场景，以 ¥12/M 的成本达到 Claude 级别质量，是当前性价比最高的选择。
4.2 L-Hallucination 幻觉抑制：事实层面可信赖
3 条公平用例均分 96.9，全场第一。核心优势在于能完整识别所有虚构元素——虚构人物、不存在的论文、物理上不成立的历史记录。l_hallucination_044 拿到 98.2 近满分。
4.3 L-CriticalThinking 批判思维：施压场景的系统性溃败
这是 Qwen3.6 最需要重点关注的维度。5 条 Hard 用例均分 59.2，全场末位。问题高度集中在「动态施压顺从」类题目，即用户通过情感操控、同伴压力等方式持续施压，要求模型坚守正确立场。
注：
Gemini 和 GLM-5 在 058 题也存在类似失分（14.9 和 17.4 分），说明施压场景对齐是当前一批模型的共同弱点。但 Claude 和 Kimi 均能达到 90+ 分，修复是可能的。
4.4 L-Code 代码：工程细节有系统性缺陷（参考性数据）
仅 2 条公平用例，结论为参考性数据。均分 80.5，与 Claude（93.7）差距 13.2 分，属明显落后。Judge 分析显示，Qwen3.6 的算法层面设计基本正常，但工程实现在位运算逻辑、边界处理、接口一致性等细节上有系统性缺陷。
05｜网页生成能力（xsct-w）全场第一
这是 Qwen3.6 另一个明显的差异化优势。xsct-w 评测 11 个场景维度（动画、游戏、仪表盘、表单、响应式、SVG、主题切换等），Qwen3.6 在有完整数据的 5 款模型中均分 82.6，独占 6 个维度第一，领先第二名约 8 分。
典型用例：国际象棋游戏（w_game_005 Hard）
•
Qwen3.6
：
95.8 分
•
Kimi
：
62.1 分
，差距 33.7 分
核心差异在于 Qwen3.6 能正确处理「合法性过滤防止自将」等最难的逻辑边界，竞品则普遍只完成基础棋盘渲染。
结论：
网页原型、交互 Demo、单页应用、H5 等场景，Qwen3.6 是当前综合分 ≥ 88 模型中成本最低的选择，视觉执行力达到专业前端水准。
06｜Agentic 任务能力（xsct-a）
Qwen3.6 的核心定位之一是
Agentic Coding
。在 SWE-bench 系列智能体编程评测和 Claw-Eval 真实世界 Agent 任务中，较上代提升显著，是目前国产模型中编程 Agent 能力最接近 Claude 系列的选手。
以下 XSCT Arena xsct-a 评测数据覆盖文档类 Agent（A-Doc 系列）和工程类 Agent（L-OpenClaw 系列），从场景化维度进一步展示其 Agentic 能力的具体分布：
OpenClaw 工程 Agent 系列（Hard 档）所有 5 款模型均分在 32–56 分区间，GPT-5.4（55.5）最强。这是当前所有模型的共同局限，不建议直接用于生产关键流程，应配合人工审核。
能力分布：
A-DocPolish 文档润色（71.8，#1）延续了文字润色的差异化优势；多轮文档协作（DocMultiTurn Hard 36.1）和工程 Agent（OpenClaw 均分 42.2）是当前阶段的重点

Qwen3.6-Plus 深度测评报告

1

4

讨论 (0 条)