Qwen3.5-4B
简介
> [!Note] > This repository contains model weights and configuration files for the post-trained model in the Hugging Face Transformers format. > > These artifacts are compatible with Hugging Face Transformers, vLLM, SGLang, KTransformers, etc.
模型卡片
模型配置
模型详情
已翻译Qwen3.5-4B
[!Note]
本仓库包含后训练模型的模型权重和配置文件,格式为 Hugging Face Transformers 格式。这些产物与 Hugging Face Transformers、vLLM、SGLang、KTransformers 等兼容。
近几个月来,我们加大了对基础模型的研发力度,致力于提供卓越的实用性和性能。Qwen3.5 实现了重大飞跃,融合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破,为开发者和企业带来前所未有的能力与效率。
Qwen3.5 亮点
Qwen3.5 具备以下增强特性:
-
统一视觉语言基础:多模态 token 的早期融合训练在推理、编码、智能体和视觉理解基准测试中达到了与 Qwen3 跨代持平的水平,并超越了 Qwen3-VL 模型。
-
高效混合架构:Gated Delta Networks 结合稀疏 Mixture-of-Experts,以极低的延迟和成本开销实现高吞吐量推理。
-
可扩展的 RL 泛化能力:强化学习在百万智能体环境中进行扩展,任务分布复杂度逐步提升,以实现稳健的现实世界适应性。
-
全球语言覆盖:扩展支持 201 种语言和方言,实现包容性的全球部署,并具备细致入微的文化和区域理解能力。
-
下一代训练基础设施:与纯文本训练相比,多模态训练效率接近 100%;异步 RL 框架支持大规模智能体框架和环境编排。

更多详情,请参阅我们的博客文章 Qwen3.5。
模型概述
- 类型:带视觉编码器的因果语言模型
- 训练阶段:预训练与后训练
- 语言模型
- 参数量:4B
- 隐藏层维度:2560
- Token Embedding:248320(已填充)
- 层数:32
- 隐藏层布局:8 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))
- Gated DeltaNet:
- 线性注意力头数:V 为 32,QK 为 16
- 注意力头维度:128
- Gated Attention:
- 注意力头数:Q 为 16,KV 为 4
- 注意力头维度:256
- 旋转位置编码维度:64
- 前馈网络:
- 中间层维度:9216
- LM 输出:248320(与 token embedding 绑定)
- MTP:采用多步训练
- 上下文长度:原生 262,144 token,可扩展至 1,010,000 token。
基准测试结果
语言能力
GPT-OSS-120BGPT-OSS-20BQwen3-Next-80B-A3B-ThinkingQwen3-30BA3B-Thinking-2507Qwen3.5-9BQwen3.5-4B
知识与 STEM
MMLU-Pro
80.8
74.8
82.7
80.9
正在翻译中,请稍候...