模型库 / Qwen/Qwen3.5-35B-A3B

Qwen3.5-35B-A3B

Qwen image-text-to-text transformers
Qwen/Qwen3.5-35B-A3B
3,425,126
下载量
1423
收藏数
12
浏览量
apache-2.0
许可

简介

> [!Note] > This repository contains model weights and configuration files for the post-trained model in the Hugging Face Transformers format. > > These artifacts are compatible with Hugging Face Transformers, vLLM, SGLang, KTransformers, etc.

模型卡片

许可协议 apache-2.0
框架 transformers
任务 image-text-to-text

模型配置

模型类型 qwen3_5_moe
架构 Qwen3_5MoeForConditionalGeneration

模型详情

已翻译

Qwen3.5-35B-A3B

Qwen Chat

[!Note]
本仓库包含 Hugging Face Transformers 格式的 post-trained 模型的权重和配置文件。

这些产物兼容 Hugging Face Transformers、vLLM、SGLang、KTransformers 等框架。

[!Tip]
对于需要托管式、可扩展推理且无需维护基础设施的用户,官方 Qwen API 服务由 阿里云模型服务灵积 提供。

特别地,Qwen3.5-Flash 是 Qwen3.5-35B-A3B 对应的托管版本,具备更多生产级特性,例如默认支持 1M 上下文长度和官方内置工具。
更多信息请参考 用户指南

在过去的几个月里,我们更加专注于开发具有卓越实用性和性能的基础模型。Qwen3.5 代表了一次重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可及性方面的突破,为开发者和企业提供了前所未有的能力和效率。

Qwen3.5 亮点

Qwen3.5 具备以下增强特性:

  • 统一视觉语言基础:多模态 token 的早期融合训练实现了与 Qwen3 的跨代持平,并在推理、编程、智能体及视觉理解基准测试上超越 Qwen3-VL 模型。

  • 高效混合架构:Gated Delta Networks 结合稀疏 Mixture-of-Experts,以极低的延迟和成本开销实现高吞吐量推理。

  • 可扩展的 RL 泛化能力:在百万智能体环境中进行强化学习扩展,任务分布逐步复杂化,以实现强大的现实世界适应性。

  • 全球语言覆盖:扩展支持 201 种语言和方言,实现包容性的全球部署,具备精细的文化和区域理解能力。

  • 下一代训练基础设施:与纯文本训练相比,多模态训练效率接近 100%,异步 RL 框架支持大规模智能体框架和环境编排。

Benchmark Results

更多详情请参考我们的博客文章 Qwen3.5

模型概述

  • 类型:带视觉编码器的因果语言模型
  • 训练阶段:预训练 & 后训练
  • 语言模型
    • 参数数量:总计 35B,激活 3B
    • 隐藏维度:2048
    • Token Embedding:248320(填充后)
    • 层数:40
    • 隐藏布局:10 × (3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE))
    • Gated DeltaNet:
      • 线性注意力头数:V 为 32,QK 为 16
      • 头维度:128
    • Gated Attention:
      • 注意力头数:Q 为 16,KV 为 2
      • 头维度:256
      • 旋转位置编码维度:64
    • Mixture Of Experts
      • 专家数量:256
      • 激活专家数量:8 个路由 + 1 个共享
      • 专家中间维度:512
    • LM 输出:248320(填充后)
    • MTP:经过多步训练
  • 上下文长度:原生 262,144,可扩展至 1,010,000 个 token。

基准测试结果

语言

GPT-5-mini 2025-08-07
GPT-OSS-120B
Qwen3-235B-A22B
Qwen3.5-122B-A10B
Qwen3.5-27B
Qwen3.5-35B-A3B

标签

qwen3_5_moe conversational base_model:Qwen/Qwen3.5-35B-A3B-Base base_model:finetune:Qwen/Qwen3.5-35B-A3B-Base license:apache-2.0 eval-results endpoints_compatible deploy:azure

操作


详细信息

厂商
Qwen
任务
image-text-to-text
框架
transformers
模型类型
qwen3_5_moe
许可(HF)
apache-2.0