模型库 / Qwen/Qwen2.5-VL-7B-Instruct

Qwen2.5-VL-7B-Instruct

Qwen image-text-to-text transformers en
Qwen/Qwen2.5-VL-7B-Instruct
8,728,021
下载量
1729
收藏数
17
浏览量
apache-2.0
许可

简介

许可证:apache-2.0 语言: - 英语 流水线标签:图像-文本到文本 标签: - 多模态 库名称:transformers

模型卡片

许可协议 apache-2.0
语言
en
框架 transformers
任务 image-text-to-text
multimodal

模型配置

模型类型 qwen2_5_vl
架构 Qwen2_5_VLForConditionalGeneration

模型详情

已翻译

license: apache-2.0
language:
- en
pipeline_tag: image-text-to-text
tags:
- multimodal
library_name: transformers


Qwen2.5-VL-7B-Instruct

简介

自 Qwen2-VL 发布以来的五个月里,众多开发者在 Qwen2-VL 视觉语言模型的基础上构建了新模型,并为我们提供了宝贵的反馈。在此期间,我们专注于构建更有用的视觉语言模型。今天,我们很高兴地介绍 Qwen 家族的最新成员:Qwen2.5-VL。

主要增强功能:

  • 视觉理解能力:Qwen2.5-VL 不仅擅长识别常见物体(如花、鸟、鱼、昆虫),还能高度胜任图像中的文本、图表、图标、图形和布局分析。

  • 智能代理能力:Qwen2.5-VL 可直接作为视觉代理使用,能够进行推理并动态操控工具,支持计算机和手机操作。

  • 长视频理解与事件捕捉:Qwen2.5-VL 能够理解超过 1 小时的视频,并且新增了通过精确定位相关视频片段来捕捉事件的能力。

  • 多格式视觉定位能力:Qwen2.5-VL 能够通过生成边界框或点来精确定位图像中的物体,并能提供稳定的 JSON 格式输出坐标和属性。

  • 结构化输出生成:对于发票扫描件、表单、表格等数据,Qwen2.5-VL 支持对其内容进行结构化输出,有利于金融、商业等领域的应用。

模型架构更新:

  • 视频理解的动态分辨率和帧率训练

我们将动态分辨率扩展到时间维度,采用动态 FPS 采样,使模型能够以不同的采样率理解视频。相应地,我们更新了时间维度上的 mRoPE,加入了 ID 和绝对时间对齐,使模型能够学习时间序列和速度,最终获得精确定位特定时刻的能力。

  • 精简高效的视觉编码器

我们通过在 ViT 中策略性地实现窗口注意力,提升了训练和推理速度。ViT 架构进一步通过 SwiGLU 和 RMSNorm 进行了优化,使其与 Qwen2.5 LLM 的结构保持一致。

我们提供了三个模型,参数规模分别为 30 亿、70 亿和 720 亿。本仓库包含经过指令微调的 70 亿参数 Qwen2.5-VL 模型。更多信息,请访问我们的 博客GitHub

评估

图像基准测试

基准测试 InternVL2.5-8B MiniCPM-o 2.6 GPT-4o-mini Qwen2-VL-7B Qwen2.5-VL-7B
MMMUval 56 50.4 60 54.1 58.6
MMMU-Proval 34.3 - 37.6 30.5 41.0
DocVQAtest 93 93 - 94.5 95.7
InfoVQAtest 77.6 - - 76.5 82.6
ChartQAtest 84.8 - - 83.0 87.3
TextVQAval 79.1 80.1 - 84.3 84.9
OCRBench 822 852 785 845 864
CC_OCR 57.7 61.6 77.8
MMStar 62.8 60.7 63.9
MMBench-V1.1-Entest 79.4 78.0 76.0 80.7 82.6
MMT-Benchtest - - - 63.7 63.6
MMStar 61.5 57.5 54.8 60.7 63.9
MMVetGPT-4-Turbo 54.2 60.0 66.9 62.0 67.1
HallBenchavg 45.2 48.1 46.1 50.6 52.9
MathVistatestmini 58.3 60.6 52.4 58.2 68.2
MathVision - - - 16.3 25.07

视频基准测试

基准测试 Qwen2-VL-7B Qwen2.5-VL-7B
MVBench 67.0 69.6
PerceptionTesttest 66.9 70.5
Video-MMEwo/w subs 63.3/69.0 65.1/71.6
LVBench 45.3
LongVideoBench 54.7
MMBench-Video 1.44 1.79
TempCompass 71.7
MLVU 70.2
CharadesSTA/mIoU 43.6

代理基准测试

基准测试 Qwen2.5-VL-7B
ScreenSpot 84.7
ScreenSpot Pro 29.0
AITZ_EM 81.9
Android Control High_EM 60.1
Android Control Low_EM 93.7
AndroidWorld_SR 25.5
MobileMiniWob++_SR 91.4

环境要求

Qwen2.5-VL 的代码已集成到最新的 Hugging Face transformers 中,我们建议您通过以下命令从源码构建:

pip install git+https://github.com/huggingface/transformers accelerate

否则您可能会遇到

标签

qwen2_5_vl multimodal conversational en arxiv:2309.00071 arxiv:2409.12191 arxiv:2308.12966 license:apache-2.0

操作


详细信息

厂商
Qwen
任务
image-text-to-text
框架
transformers
模型类型
qwen2_5_vl
许可(HF)
apache-2.0
语言
en