Qwen3.5-4B

Qwen image-text-to-text transformers

Qwen/Qwen3.5-4B

6,181,955

下载量

525

收藏数

18

浏览量

apache-2.0

许可

简介

> [!Note] > This repository contains model weights and configuration files for the post-trained model in the Hugging Face Transformers format. > > These artifacts are compatible with Hugging Face Transformers, vLLM, SGLang, KTransformers, etc.

模型卡片

许可协议 apache-2.0

框架 transformers

任务 image-text-to-text

模型配置

模型类型 qwen3_5

架构 Qwen3_5ForConditionalGeneration

模型详情

已翻译

Qwen3.5-4B

[!Note]
本仓库包含后训练模型的模型权重和配置文件，格式为 Hugging Face Transformers 格式。

这些产物与 Hugging Face Transformers、vLLM、SGLang、KTransformers 等兼容。

近几个月来，我们加大了对基础模型的研发力度，致力于提供卓越的实用性和性能。Qwen3.5 实现了重大飞跃，融合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破，为开发者和企业带来前所未有的能力与效率。

Qwen3.5 亮点

Qwen3.5 具备以下增强特性：

统一视觉语言基础：多模态 token 的早期融合训练在推理、编码、智能体和视觉理解基准测试中达到了与 Qwen3 跨代持平的水平，并超越了 Qwen3-VL 模型。
高效混合架构：Gated Delta Networks 结合稀疏 Mixture-of-Experts，以极低的延迟和成本开销实现高吞吐量推理。
可扩展的 RL 泛化能力：强化学习在百万智能体环境中进行扩展，任务分布复杂度逐步提升，以实现稳健的现实世界适应性。
全球语言覆盖：扩展支持 201 种语言和方言，实现包容性的全球部署，并具备细致入微的文化和区域理解能力。
下一代训练基础设施：与纯文本训练相比，多模态训练效率接近 100%；异步 RL 框架支持大规模智能体框架和环境编排。

基准测试结果

更多详情，请参阅我们的博客文章 Qwen3.5。

模型概述

类型：带视觉编码器的因果语言模型
训练阶段：预训练与后训练
语言模型
- 参数量：4B
- 隐藏层维度：2560
- Token Embedding：248320（已填充）
- 层数：32
- 隐藏层布局：8 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))
- Gated DeltaNet：
  - 线性注意力头数：V 为 32，QK 为 16
  - 注意力头维度：128
- Gated Attention：
  - 注意力头数：Q 为 16，KV 为 4
  - 注意力头维度：256
  - 旋转位置编码维度：64
- 前馈网络：
  - 中间层维度：9216
- LM 输出：248320（与 token embedding 绑定）
- MTP：采用多步训练
上下文长度：原生 262,144 token，可扩展至 1,010,000 token。

基准测试结果

语言能力

GPT-OSS-120BGPT-OSS-20BQwen3-Next-80B-A3B-ThinkingQwen3-30BA3B-Thinking-2507Qwen3.5-9BQwen3.5-4B

知识与 STEM

MMLU-Pro
80.8
74.8
82.7
80.9

Qwen3.5-4B

简介

模型卡片

模型配置

模型详情

Qwen3.5-4B

Qwen3.5 亮点

模型概述

基准测试结果

语言能力

标签

操作

详细信息