Qwen2.5-VL-7B-Instruct
简介
许可证:apache-2.0 语言: - 英语 流水线标签:图像-文本到文本 标签: - 多模态 库名称:transformers
模型卡片
模型配置
模型详情
已翻译license: apache-2.0
language:
- en
pipeline_tag: image-text-to-text
tags:
- multimodal
library_name: transformers
Qwen2.5-VL-7B-Instruct
简介
自 Qwen2-VL 发布以来的五个月里,众多开发者在 Qwen2-VL 视觉语言模型的基础上构建了新模型,并为我们提供了宝贵的反馈。在此期间,我们专注于构建更有用的视觉语言模型。今天,我们很高兴地介绍 Qwen 家族的最新成员:Qwen2.5-VL。
主要增强功能:
-
视觉理解能力:Qwen2.5-VL 不仅擅长识别常见物体(如花、鸟、鱼、昆虫),还能高度胜任图像中的文本、图表、图标、图形和布局分析。
-
智能代理能力:Qwen2.5-VL 可直接作为视觉代理使用,能够进行推理并动态操控工具,支持计算机和手机操作。
-
长视频理解与事件捕捉:Qwen2.5-VL 能够理解超过 1 小时的视频,并且新增了通过精确定位相关视频片段来捕捉事件的能力。
-
多格式视觉定位能力:Qwen2.5-VL 能够通过生成边界框或点来精确定位图像中的物体,并能提供稳定的 JSON 格式输出坐标和属性。
-
结构化输出生成:对于发票扫描件、表单、表格等数据,Qwen2.5-VL 支持对其内容进行结构化输出,有利于金融、商业等领域的应用。
模型架构更新:
- 视频理解的动态分辨率和帧率训练:
我们将动态分辨率扩展到时间维度,采用动态 FPS 采样,使模型能够以不同的采样率理解视频。相应地,我们更新了时间维度上的 mRoPE,加入了 ID 和绝对时间对齐,使模型能够学习时间序列和速度,最终获得精确定位特定时刻的能力。
- 精简高效的视觉编码器
我们通过在 ViT 中策略性地实现窗口注意力,提升了训练和推理速度。ViT 架构进一步通过 SwiGLU 和 RMSNorm 进行了优化,使其与 Qwen2.5 LLM 的结构保持一致。
我们提供了三个模型,参数规模分别为 30 亿、70 亿和 720 亿。本仓库包含经过指令微调的 70 亿参数 Qwen2.5-VL 模型。更多信息,请访问我们的 博客 和 GitHub。
评估
图像基准测试
| 基准测试 | InternVL2.5-8B | MiniCPM-o 2.6 | GPT-4o-mini | Qwen2-VL-7B | Qwen2.5-VL-7B |
|---|---|---|---|---|---|
| MMMUval | 56 | 50.4 | 60 | 54.1 | 58.6 |
| MMMU-Proval | 34.3 | - | 37.6 | 30.5 | 41.0 |
| DocVQAtest | 93 | 93 | - | 94.5 | 95.7 |
| InfoVQAtest | 77.6 | - | - | 76.5 | 82.6 |
| ChartQAtest | 84.8 | - | - | 83.0 | 87.3 |
| TextVQAval | 79.1 | 80.1 | - | 84.3 | 84.9 |
| OCRBench | 822 | 852 | 785 | 845 | 864 |
| CC_OCR | 57.7 | 61.6 | 77.8 | ||
| MMStar | 62.8 | 60.7 | 63.9 | ||
| MMBench-V1.1-Entest | 79.4 | 78.0 | 76.0 | 80.7 | 82.6 |
| MMT-Benchtest | - | - | - | 63.7 | 63.6 |
| MMStar | 61.5 | 57.5 | 54.8 | 60.7 | 63.9 |
| MMVetGPT-4-Turbo | 54.2 | 60.0 | 66.9 | 62.0 | 67.1 |
| HallBenchavg | 45.2 | 48.1 | 46.1 | 50.6 | 52.9 |
| MathVistatestmini | 58.3 | 60.6 | 52.4 | 58.2 | 68.2 |
| MathVision | - | - | - | 16.3 | 25.07 |
视频基准测试
| 基准测试 | Qwen2-VL-7B | Qwen2.5-VL-7B |
|---|---|---|
| MVBench | 67.0 | 69.6 |
| PerceptionTesttest | 66.9 | 70.5 |
| Video-MMEwo/w subs | 63.3/69.0 | 65.1/71.6 |
| LVBench | 45.3 | |
| LongVideoBench | 54.7 | |
| MMBench-Video | 1.44 | 1.79 |
| TempCompass | 71.7 | |
| MLVU | 70.2 | |
| CharadesSTA/mIoU | 43.6 |
代理基准测试
| 基准测试 | Qwen2.5-VL-7B |
|---|---|
| ScreenSpot | 84.7 |
| ScreenSpot Pro | 29.0 |
| AITZ_EM | 81.9 |
| Android Control High_EM | 60.1 |
| Android Control Low_EM | 93.7 |
| AndroidWorld_SR | 25.5 |
| MobileMiniWob++_SR | 91.4 |
环境要求
Qwen2.5-VL 的代码已集成到最新的 Hugging Face transformers 中,我们建议您通过以下命令从源码构建:
pip install git+https://github.com/huggingface/transformers accelerate
否则您可能会遇到
正在翻译中,请稍候...