Qwen2.5-VL-7B-Instruct

Qwen image-text-to-text transformers en

Qwen/Qwen2.5-VL-7B-Instruct

8,728,021

下载量

1765

收藏数

45

浏览量

apache-2.0

许可

简介

许可证：apache-2.0 语言： - 英语流水线标签：图像-文本到文本标签： - 多模态库名称：transformers

模型卡片

许可协议 apache-2.0

语言

en

框架 transformers

任务 image-text-to-text

multimodal

模型配置

模型类型 qwen2_5_vl

架构 Qwen2_5_VLForConditionalGeneration

模型详情

已翻译

license: apache-2.0
language:
- en
pipeline_tag: image-text-to-text
tags:
- multimodal
library_name: transformers

Qwen2.5-VL-7B-Instruct

简介

自 Qwen2-VL 发布以来的五个月里，众多开发者在 Qwen2-VL 视觉语言模型的基础上构建了新模型，并为我们提供了宝贵的反馈。在此期间，我们专注于构建更有用的视觉语言模型。今天，我们很高兴地介绍 Qwen 家族的最新成员：Qwen2.5-VL。

主要增强功能：

视觉理解能力：Qwen2.5-VL 不仅擅长识别常见物体（如花、鸟、鱼、昆虫），还能高度胜任图像中的文本、图表、图标、图形和布局分析。
智能代理能力：Qwen2.5-VL 可直接作为视觉代理使用，能够进行推理并动态操控工具，支持计算机和手机操作。
长视频理解与事件捕捉：Qwen2.5-VL 能够理解超过 1 小时的视频，并且新增了通过精确定位相关视频片段来捕捉事件的能力。
多格式视觉定位能力：Qwen2.5-VL 能够通过生成边界框或点来精确定位图像中的物体，并能提供稳定的 JSON 格式输出坐标和属性。
结构化输出生成：对于发票扫描件、表单、表格等数据，Qwen2.5-VL 支持对其内容进行结构化输出，有利于金融、商业等领域的应用。

模型架构更新：

视频理解的动态分辨率和帧率训练：

我们将动态分辨率扩展到时间维度，采用动态 FPS 采样，使模型能够以不同的采样率理解视频。相应地，我们更新了时间维度上的 mRoPE，加入了 ID 和绝对时间对齐，使模型能够学习时间序列和速度，最终获得精确定位特定时刻的能力。

精简高效的视觉编码器

我们通过在 ViT 中策略性地实现窗口注意力，提升了训练和推理速度。ViT 架构进一步通过 SwiGLU 和 RMSNorm 进行了优化，使其与 Qwen2.5 LLM 的结构保持一致。

我们提供了三个模型，参数规模分别为 30 亿、70 亿和 720 亿。本仓库包含经过指令微调的 70 亿参数 Qwen2.5-VL 模型。更多信息，请访问我们的博客和 GitHub。

评估

图像基准测试

基准测试	InternVL2.5-8B	MiniCPM-o 2.6	GPT-4o-mini	Qwen2-VL-7B	Qwen2.5-VL-7B
MMMUval	56	50.4	60	54.1	58.6
MMMU-Proval	34.3	-	37.6	30.5	41.0
DocVQAtest	93	93	-	94.5	95.7
InfoVQAtest	77.6	-	-	76.5	82.6
ChartQAtest	84.8	-	-	83.0	87.3
TextVQAval	79.1	80.1	-	84.3	84.9
OCRBench	822	852	785	845	864
CC_OCR	57.7			61.6	77.8
MMStar	62.8			60.7	63.9
MMBench-V1.1-Entest	79.4	78.0	76.0	80.7	82.6
MMT-Benchtest	-	-	-	63.7	63.6
MMStar	61.5	57.5	54.8	60.7	63.9
MMVetGPT-4-Turbo	54.2	60.0	66.9	62.0	67.1
HallBenchavg	45.2	48.1	46.1	50.6	52.9
MathVistatestmini	58.3	60.6	52.4	58.2	68.2
MathVision	-	-	-	16.3	25.07

视频基准测试

基准测试	Qwen2-VL-7B	Qwen2.5-VL-7B
MVBench	67.0	69.6
PerceptionTesttest	66.9	70.5
Video-MMEwo/w subs	63.3/69.0	65.1/71.6
LVBench		45.3
LongVideoBench		54.7
MMBench-Video	1.44	1.79
TempCompass		71.7
MLVU		70.2
CharadesSTA/mIoU	43.6

代理基准测试

基准测试	Qwen2.5-VL-7B
ScreenSpot	84.7
ScreenSpot Pro	29.0
AITZ_EM	81.9
Android Control High_EM	60.1
Android Control Low_EM	93.7
AndroidWorld_SR	25.5
MobileMiniWob++_SR	91.4

环境要求

Qwen2.5-VL 的代码已集成到最新的 Hugging Face transformers 中，我们建议您通过以下命令从源码构建：

pip install git+https://github.com/huggingface/transformers accelerate

否则您可能会遇到

Qwen2.5-VL-7B-Instruct

简介

模型卡片

模型配置

模型详情

Qwen2.5-VL-7B-Instruct

简介

主要增强功能：

模型架构更新：

评估

图像基准测试

视频基准测试

代理基准测试

环境要求

标签

操作

详细信息