Qwen2.5-VL-3B-Instruct

Qwen image-text-to-text transformers en

Qwen/Qwen2.5-VL-3B-Instruct

3,391,498

下载量

643

收藏数

33

浏览量

-

许可

简介

许可证名称：qwen-research 许可证链接：https://huggingface.co/Qwen/Qwen2.5-VL-3B-Instruct/blob/main/LICENSE 语言： - 英语流水线标签：图像-文本到文本标签： - 多模态库名称：transformers

模型卡片

语言

en

框架 transformers

任务 image-text-to-text

multimodal

模型配置

模型类型 qwen2_5_vl

架构 Qwen2_5_VLForConditionalGeneration

模型详情

已翻译

license_name: qwen-research
license_link: https://huggingface.co/Qwen/Qwen2.5-VL-3B-Instruct/blob/main/LICENSE
language:
- en
pipeline_tag: image-text-to-text
tags:
- multimodal
library_name: transformers

Qwen2.5-VL-3B-Instruct

简介

自 Qwen2-VL 发布以来的五个月里，众多开发者在 Qwen2-VL 视觉语言模型基础上构建了新模型，并为我们提供了宝贵的反馈。在此期间，我们专注于构建更有用的视觉语言模型。今天，我们很高兴地介绍 Qwen 家族的最新成员：Qwen2.5-VL。

主要增强功能：

视觉理解能力：Qwen2.5-VL 不仅擅长识别常见物体（如花、鸟、鱼、昆虫），还能高效分析图像中的文本、图表、图标、图形和布局。
智能代理能力：Qwen2.5-VL 可直接作为视觉代理使用，能够进行推理并动态操控工具，支持电脑和手机操作。
长视频理解与事件捕捉：Qwen2.5-VL 能够理解超过 1 小时的视频，并且新增了通过定位相关视频片段来捕捉事件的能力。
多格式视觉定位能力：Qwen2.5-VL 可通过生成边界框或点来精确定位图像中的物体，并能提供稳定的 JSON 格式坐标和属性输出。
结构化输出生成：对于发票扫描件、表单、表格等数据，Qwen2.5-VL 支持其内容的结构化输出，有利于金融、商业等领域的应用。

模型架构更新：

视频理解的动态分辨率和帧率训练：

我们通过采用动态 FPS 采样，将动态分辨率扩展到时间维度，使模型能够以不同采样率理解视频。相应地，我们更新了时间维度上的 mRoPE，加入 ID 和绝对时间对齐，使模型能够学习时间序列和速度，最终获得定位特定时刻的能力。

精简高效的视觉编码器

我们通过在 ViT 中策略性地引入 window attention，提升了训练和推理速度。ViT 架构进一步通过 SwiGLU 和 RMSNorm 进行了优化，使其与 Qwen2.5 LLM 的结构保持一致。

我们提供了三个模型，参数量分别为 3B、7B 和 72B。本仓库包含经过指令微调的 3B Qwen2.5-VL 模型。更多信息请访问我们的博客和 GitHub。

评估

图像基准测试

基准测试	InternVL2.5-4B	Qwen2-VL-7B	Qwen2.5-VL-3B
MMMUval	52.3	54.1	53.1
MMMU-Proval	32.7	30.5	31.6
AI2Dtest	81.4	83.0	81.5
DocVQAtest	91.6	94.5	93.9
InfoVQAtest	72.1	76.5	77.1
TextVQAval	76.8	84.3	79.3
MMBench-V1.1test	79.3	80.7	77.6
MMStar	58.3	60.7	55.9
MathVistatestmini	60.5	58.2	62.3
MathVisionfull	20.9	16.3	21.2

视频基准测试

基准测试	InternVL2.5-4B	Qwen2-VL-7B	Qwen2.5-VL-3B
MVBench	71.6	67.0	67.0
VideoMME	63.6/62.3	69.0/63.3	67.6/61.5
MLVU	48.3	-	68.2
LVBench	-	-	43.3
MMBench-Video	1.73	1.44	1.63
EgoSchema	-	-	64.8
PerceptionTest	-	-	66.9
TempCompass	-	-	64.4
LongVideoBench	55.2	55.6	54.2
CharadesSTA/mIoU	-	-	38.8

智能代理基准测试

基准测试	Qwen2.5-VL-3B
ScreenSpot	55.5
ScreenSpot Pro	23.9
AITZ_EM	76.9
Android Control High_EM	63.7
Android Control Low_EM	22.2
AndroidWorld_SR	90.8
MobileMiniWob++_SR	67.9

环境要求

Qwen2.5-VL 的代码已集成到最新的 Hugging Face transformers 中，建议您通过以下命令从源码构建：

pip install git+https://github.com/huggingface/transformers accelerate

否则可能会遇到以下错误：

KeyError: 'qwen2_5_vl'

快速开始

下面我们提供简单示例，展示如何使用 🤖 ModelScope 和 🤗 Transformers 使用 Qwen2.5-VL。

Qwen2.5-VL 的代码已集成到最新的 Hugging Face transformers 中，建议您通过以下命令从源码构建：

pip install git+https://github.com/huggingface/transformers accelerate

o

Qwen2.5-VL-3B-Instruct

简介

模型卡片

模型配置

模型详情

Qwen2.5-VL-3B-Instruct

简介

主要增强功能：

模型架构更新：

评估

图像基准测试

视频基准测试

智能代理基准测试

环境要求

快速开始

标签

操作

详细信息