Qwen3-ASR-1.7B

Qwen automatic-speech-recognition

Qwen/Qwen3-ASR-1.7B

2,021,550

下载量

793

收藏数

170

浏览量

apache-2.0

许可

简介

The Qwen3-ASR family includes Qwen3-ASR-1.7B and Qwen3-ASR-0.6B, which support language identification and ASR for 52 languages and dialects. Both leverage large-scale speech training data and the strong audio understanding capability of their foundation model, Qwen3-Omni. Experiments show that the 1.7B version achieves state-of-the-art performance among open-source ASR models and is competitive with the strongest proprietary commercial APIs. Here are the main features:

模型卡片

许可协议 apache-2.0

任务 automatic-speech-recognition

模型配置

模型类型 qwen3_asr

架构 Qwen3ASRForConditionalGeneration

模型详情

已翻译

Qwen3-ASR

概述

简介

Qwen3-ASR 系列包括 Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B，支持 52 种语言和方言的语种识别与 ASR。两者均利用大规模语音训练数据及其基础模型 Qwen3-Omni 强大的音频理解能力。实验表明，1.7B 版本在开源 ASR 模型中达到了最先进的性能，并与最强的专有商业 API 具有竞争力。以下是其主要特点：

一体化：Qwen3-ASR-1.7B 和 Qwen3-ASR-0.6B 支持 30 种语言和 22 种中文方言的语种识别与语音识别，以及来自多个国家和地区的英语口音。
卓越且快速：Qwen3-ASR 系列 ASR 模型在复杂的声学环境和具有挑战性的文本模式下保持高质量和稳健的识别能力。Qwen3-ASR-1.7B 在开源和内部基准测试中均表现出色。而 0.6B 版本实现了准确性与效率的权衡，在 128 并发下吞吐量达到 2000 倍。两者均支持单模型流式/离线统一推理，并支持长音频转录。
新颖且强大的强制对齐方案：我们推出了 Qwen3-ForcedAligner-0.6B，支持对 11 种语言中长达 5 分钟语音内的任意单元进行时间戳预测。评估表明，其时间戳准确性超越了基于 E2E 的强制对齐模型。
全面的推理工具包：除了开源 Qwen3-ASR 系列的架构和权重外，我们还发布了一个功能强大的全功能推理框架，支持基于 vLLM 的批量推理、异步服务、流式推理、时间戳预测等。

模型架构

发布模型说明与下载

以下是 Qwen3-ASR 模型的介绍和下载信息。请根据需求选择并下载模型。

模型	支持语言	支持方言	推理模式	音频类型
Qwen3-ASR-1.7B & Qwen3-ASR-0.6B	中文 (zh)、英语 (en)、粤语 (yue)、阿拉伯语 (ar)、德语 (de)、法语 (fr)、西班牙语 (es)、葡萄牙语 (pt)、印尼语 (id)、意大利语 (it)、韩语 (ko)、俄语 (ru)、泰语 (th)、越南语 (vi)、日语 (ja)、土耳其语 (tr)、印地语 (hi)、马来语 (ms)、荷兰语 (nl)、瑞典语 (sv)、丹麦语 (da)、芬兰语 (fi)、波兰语 (pl)、捷克语 (cs)、菲律宾语 (fil)、波斯语 (fa)、希腊语 (el)、匈牙利语 (hu)、马其顿语 (mk)、罗马尼亚语 (ro)	安徽、东北、福建、甘肃、贵州、河北、河南、湖北、湖南、江西、宁夏、山东、陕西、山西、四川、天津、云南、浙江、粤语（香港口音）、粤语（广东口音）、吴语、闽南语	离线 / 流式	语音、歌声、带背景音乐的歌曲
Qwen3-ForcedAligner-0.6B	中文、英语、粤语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语	--	NAR	语音

在 qwen-asr 包或 vLLM 中加载模型时，模型权重将根据模型名称自动下载。但是，如果您的运行时环境不允许在执行期间下载权重，您可以使用以下命令手动将模型权重下载到本地目录：

# Download through ModelScope (recommended for users in Mainland China)
pip install -U modelscope
modelscope download --model Qwen/Qwen3-ASR-1.7B  --local_dir ./Qwen3-ASR-1.7B
modelscope download --model Qwen/Qwen3-ASR-0.6B --local_dir ./Qwen3-ASR-0.6B
modelscope download --model Qwen/Qwen3-ForcedAligner-0.6B --local_dir ./Qwen3-ForcedAligner-0.6B
# Download through Hugging Face
pip install -U "huggingface_hub[cli]"
huggingface-cli download Qwen/Qwen3-ASR-1.7B --local-dir ./Qwen3-ASR-1.7B
huggingface-cli download Qwen/Qwen3-ASR-0.6B --local-dir ./Qwen3-ASR-0.6B
huggingface-cli download Qwen/Qwen3-ForcedAligner-0.6B --local-dir ./Qwen3-ForcedAligner-0.6B

快速开始

环境设置

使用 Qwen3-ASR 最简单的方法是从 PyPI 安装 qwen-asr Python 包。这将拉取所需的运行时依赖项，并允许您加载任何已发布的 Qwen3-ASR 模型。如果您想进一步简化环境设置，也可以使用我们的官方 Docker 镜像。qwen-asr 包提供两个后端：transformers 后端和 vLLM 后端。不同后端的使用说明请参考 Python 包使用。我们建议使用全新、隔离的环境，以避免与现有包产生依赖冲突。您可以像这样创建一个干净的 Python 3.12 环境：

conda create -n qwen3-asr python=3.12 -y
conda activate qwen3-asr

运行以下命令以获得支持 transformers 后端的最小安装：

pip install -U qwen-asr

要启用 vLLM 后端以获得更快的推理和流式支持，请运行：

pip install -U qwen-asr[vllm]

如果您想在本地开发或修改代码，请以可编辑模式从源代码安装：

git clone https://github.com/QwenLM/Qwen3-ASR.git
cd Qwen3-ASR
pip install -e .
# support vLLM backend
# pip install -e ".[vllm]"

此外，我们建议使用 FlashAttention 2 来减少 GPU 内存使用并加速推理速度，特别是对于长输入和大批量大小。

pip install -U flash-attn --no-build-isolation

如果您的机器内存小于 96GB 且 CPU 核心较多，请运行：

MAX_JOBS=4 pip install -U flash-attn --no-build-isolation

另外，您应该拥有硬