Qwen3.6-27B
Qwen
image-text-to-text
transformers
Qwen/Qwen3.6-27B
2,273,063
下载量
1231
收藏数
8
浏览量
apache-2.0
许可
简介
> [!Note] > This repository contains model weights and configuration files for the post-trained model in the Hugging Face Transformers format. > > These artifacts are compatible with Hugging Face Transformers, vLLM, SGLang, KTransformers, etc.
模型卡片
许可协议
apache-2.0
框架
transformers
任务
image-text-to-text
模型配置
模型类型
qwen3_5
架构
Qwen3_5ForConditionalGeneration
模型详情
已翻译Qwen3.6-27B
[!Note]
本仓库包含经过后训练的模型权重和配置文件,格式为 Hugging Face Transformers 格式。这些产物兼容 Hugging Face Transformers、vLLM、SGLang、KTransformers 等框架。
继二月份发布 Qwen3.5 系列之后,我们很高兴地分享 Qwen3.6 的首个开放权重变体。基于社区的直接反馈,Qwen3.6 优先考虑稳定性和实际应用价值,为开发者提供更直观、响应更迅速且真正高效的编码体验。
Qwen3.6 亮点
本次发布带来了重大升级,尤其在以下方面:
- Agentic Coding(智能体编程): 模型现在能够更流畅、更精准地处理前端工作流和仓库级推理。
- 思维保留: 我们引入了一个新选项,用于保留历史消息中的推理上下文,从而简化迭代开发并减少开销。

更多详情,请参阅我们的博客文章 Qwen3.6-27B。
模型概述
- 类型:带视觉编码器的因果语言模型
- 训练阶段:预训练与后训练
- 语言模型
- 参数量:27B
- 隐藏层维度:5120
- Token Embedding:248320(已填充)
- 层数:64
- 隐藏层布局:16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))
- Gated DeltaNet:
- 线性注意力头数:V 为 48,QK 为 16
- 头维度:128
- Gated Attention:
- 注意力头数:Q 为 24,KV 为 4
- 头维度:256
- 旋转位置编码维度:64
- 前馈网络:
- 中间维度:17408
- LM 输出:248320(已填充)
- MTP:经过多步训练
- 上下文长度:原生 262,144,可扩展至 1,010,000 个 token。
基准测试结果
语言
Qwen3.5-27BQwen3.5-397B-A17BGemma4-31BClaude 4.5 OpusQwen3.6-35B-A3BQwen3.6-27B
Coding Agent(编码智能体)
SWE-bench Verified
75.0
76.2
52.0
80.9
73.4
77.2
SWE-bench Pro
51.2
50.9
35.7
57.1
73.4
77.2
正在翻译中,请稍候...
标签
qwen3_5
conversational
license:apache-2.0
eval-results
endpoints_compatible
deploy:azure
region:us