模型库 / Qwen/Qwen3-VL-Embedding-2B

Qwen3-VL-Embedding-2B

Qwen sentence-similarity sentence-transformers
Qwen/Qwen3-VL-Embedding-2B
2,267,689
下载量
398
收藏数
17
浏览量
apache-2.0
许可

简介

The **Qwen3-VL-Embedding** and **Qwen3-VL-Reranker** model series are the latest additions to the Qwen family, built upon the recently open-sourced and powerful Qwen3-VL foundation model. Specifically designed for multimodal information retrieval and cross-modal understanding, this suite accepts diverse inputs including text, images, screenshots, and videos, as well as inputs containing a mixture of these modalities.

模型卡片

许可协议 apache-2.0
框架 sentence-transformers
任务 sentence-similarity
sentence-transformers transformers multimodal embedding qwen embedding

模型配置

模型类型 qwen3_vl
架构 Qwen3VLForConditionalGeneration

模型详情

已翻译

Qwen3-VL-Embedding-2B

亮点

Qwen3-VL-EmbeddingQwen3-VL-Reranker 模型系列是 Qwen 家族的最新成员,基于近期开源且强大的 Qwen3-VL 基础模型构建。该系列专为多模态信息检索和跨模态理解而设计,支持多种输入形式,包括文本、图像、截图和视频,以及包含这些模态混合的输入。

Embedding 模型生成高维向量,适用于检索和聚类等广泛场景;而 Reranker 模型则旨在优化这些结果,构建一套完整的先进多模态搜索流程。

  • 多模态通用性:两个模型在统一框架内无缝处理多种输入——包括文本、图像、截图和视频。它们在图像-文本检索、视频-文本匹配、视觉问答(VQA)和多模态内容聚类等多样化多模态任务中均展现出领先性能。

  • 统一表示学习(Embedding):Embedding 模型利用 Qwen3-VL 架构,在共享空间中生成语义丰富的向量,同时捕捉视觉和文本信息。这有助于在不同模态之间进行高效的相似度计算和检索。

  • 高精度重排序(Reranker):我们还推出了 Qwen3-VL-Reranker 系列,作为 embedding 模型的补充。Reranker 以(查询,文档)对作为输入——其中查询和文档均可包含任意单一或混合模态——并输出精确的相关性分数。在检索流程中,这两个模型通常协同使用:embedding 模型负责高效的初步召回,而 reranker 则在后续的重排序阶段优化结果。这种两阶段方法显著提升了检索精度。

  • 卓越实用性:该系列继承了 Qwen3-VL 的多语言能力,支持超过 30 种语言,非常适合全球应用。它在实际场景中具有高度实用性,提供灵活的向量维度、针对特定用例的可定制指令,即使在量化 embedding 下也表现出色。这些能力使开发者能够将两个模型无缝集成到现有流程中,释放强大的跨语言和跨模态理解能力。

模型概览

Qwen3-VL-Embedding-2B 具有以下特点:

  • 模型类型:多模态 Embedding
  • 支持语言:30 种以上语言
  • 支持输入模态:文本、图像、截图、视频以及任意多模态组合(例如文本+图像、文本+视频)
  • 参数量:2B
  • 上下文长度:32k
  • Embedding 维度:最高 2048,支持用户自定义输出维度,范围从 64 到 2048

更多详情,包括基准评估、硬件要求和推理性能,请参阅我们的技术报告博客GitHub

Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 模型列表

模型 大小 模型层数 序列长度 Embedding 维度 量化支持 MRL 支持 指令感知
Qwen3-VL-Embedding-2B 2B 28 32K 2048
Qwen3-VL-Embedding-8B 8B 36 32K 4096
Qwen3-VL-Reranker-2B 2B 28 32K - - -
Qwen3-VL-Reranker-8B 8B 36 32K - - -

注意
- 量化支持 表示对输出 embedding 支持的量化后处理。
- MRL 支持 表示 embedding 模型是否支持自定义最终 embedding 的维度。
- 指令感知 表示 embedding 或 reranking 模型是否支持根据不同任务自定义输入指令。
我们的评估表明,对于大多数下游任务,使用指令(instruct)通常比不使用指令能带来 1% 到 5% 的提升。因此,我们建议开发者针对自己的任务和场景创建定制化的指令。在多语言环境中,我们也建议用户用英文编写指令,因为模型训练过程中使用的大多数指令最初都是用英文编写的。

模型性能

MMEB-V2 评估结果

MMEB-V2 基准测试结果。除 IFM-TTE 外,所有模型均具有 b

标签

qwen3_vl image-text-to-text multimodal embedding qwen embedding arxiv:2601.04720 base_model:Qwen/Qwen3-VL-2B-Instruct base_model:finetune:Qwen/Qwen3-VL-2B-Instruct

操作


详细信息

厂商
Qwen
任务
sentence-similarity
框架
sentence-transformers
模型类型
qwen3_vl
许可(HF)
apache-2.0