Qwen3-VL-Embedding-2B
简介
The **Qwen3-VL-Embedding** and **Qwen3-VL-Reranker** model series are the latest additions to the Qwen family, built upon the recently open-sourced and powerful Qwen3-VL foundation model. Specifically designed for multimodal information retrieval and cross-modal understanding, this suite accepts diverse inputs including text, images, screenshots, and videos, as well as inputs containing a mixture of these modalities.
模型卡片
模型配置
模型详情
已翻译Qwen3-VL-Embedding-2B
亮点
Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型系列是 Qwen 家族的最新成员,基于近期开源且强大的 Qwen3-VL 基础模型构建。该系列专为多模态信息检索和跨模态理解而设计,支持多种输入形式,包括文本、图像、截图和视频,以及包含这些模态混合的输入。
Embedding 模型生成高维向量,适用于检索和聚类等广泛场景;而 Reranker 模型则旨在优化这些结果,构建一套完整的先进多模态搜索流程。
-
多模态通用性:两个模型在统一框架内无缝处理多种输入——包括文本、图像、截图和视频。它们在图像-文本检索、视频-文本匹配、视觉问答(VQA)和多模态内容聚类等多样化多模态任务中均展现出领先性能。
-
统一表示学习(Embedding):Embedding 模型利用 Qwen3-VL 架构,在共享空间中生成语义丰富的向量,同时捕捉视觉和文本信息。这有助于在不同模态之间进行高效的相似度计算和检索。
-
高精度重排序(Reranker):我们还推出了 Qwen3-VL-Reranker 系列,作为 embedding 模型的补充。Reranker 以(查询,文档)对作为输入——其中查询和文档均可包含任意单一或混合模态——并输出精确的相关性分数。在检索流程中,这两个模型通常协同使用:embedding 模型负责高效的初步召回,而 reranker 则在后续的重排序阶段优化结果。这种两阶段方法显著提升了检索精度。
-
卓越实用性:该系列继承了 Qwen3-VL 的多语言能力,支持超过 30 种语言,非常适合全球应用。它在实际场景中具有高度实用性,提供灵活的向量维度、针对特定用例的可定制指令,即使在量化 embedding 下也表现出色。这些能力使开发者能够将两个模型无缝集成到现有流程中,释放强大的跨语言和跨模态理解能力。
模型概览
Qwen3-VL-Embedding-2B 具有以下特点:
- 模型类型:多模态 Embedding
- 支持语言:30 种以上语言
- 支持输入模态:文本、图像、截图、视频以及任意多模态组合(例如文本+图像、文本+视频)
- 参数量:2B
- 上下文长度:32k
- Embedding 维度:最高 2048,支持用户自定义输出维度,范围从 64 到 2048
更多详情,包括基准评估、硬件要求和推理性能,请参阅我们的技术报告、博客、GitHub。
Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型列表
| 模型 | 大小 | 模型层数 | 序列长度 | Embedding 维度 | 量化支持 | MRL 支持 | 指令感知 |
|---|---|---|---|---|---|---|---|
| Qwen3-VL-Embedding-2B | 2B | 28 | 32K | 2048 | 是 | 是 | 是 |
| Qwen3-VL-Embedding-8B | 8B | 36 | 32K | 4096 | 是 | 是 | 是 |
| Qwen3-VL-Reranker-2B | 2B | 28 | 32K | - | - | - | 是 |
| Qwen3-VL-Reranker-8B | 8B | 36 | 32K | - | - | - | 是 |
注意:
-量化支持表示对输出 embedding 支持的量化后处理。
-MRL 支持表示 embedding 模型是否支持自定义最终 embedding 的维度。
-指令感知表示 embedding 或 reranking 模型是否支持根据不同任务自定义输入指令。
我们的评估表明,对于大多数下游任务,使用指令(instruct)通常比不使用指令能带来 1% 到 5% 的提升。因此,我们建议开发者针对自己的任务和场景创建定制化的指令。在多语言环境中,我们也建议用户用英文编写指令,因为模型训练过程中使用的大多数指令最初都是用英文编写的。
模型性能
MMEB-V2 评估结果
MMEB-V2 基准测试结果。除 IFM-TTE 外,所有模型均具有 b
正在翻译中,请稍候...
标签
操作
详细信息
- 厂商
- Qwen
- 任务
- sentence-similarity
- 框架
- sentence-transformers
- 模型类型
- qwen3_vl
- 许可(HF)
- apache-2.0