Qwen2.5-VL-3B-Instruct
简介
许可证名称:qwen-research 许可证链接:https://huggingface.co/Qwen/Qwen2.5-VL-3B-Instruct/blob/main/LICENSE 语言: - 英语 流水线标签:图像-文本到文本 标签: - 多模态 库名称:transformers
模型卡片
模型配置
模型详情
已翻译license_name: qwen-research
license_link: https://huggingface.co/Qwen/Qwen2.5-VL-3B-Instruct/blob/main/LICENSE
language:
- en
pipeline_tag: image-text-to-text
tags:
- multimodal
library_name: transformers
Qwen2.5-VL-3B-Instruct
简介
自 Qwen2-VL 发布以来的五个月里,众多开发者在 Qwen2-VL 视觉语言模型基础上构建了新模型,并为我们提供了宝贵的反馈。在此期间,我们专注于构建更有用的视觉语言模型。今天,我们很高兴地介绍 Qwen 家族的最新成员:Qwen2.5-VL。
主要增强功能:
-
视觉理解能力:Qwen2.5-VL 不仅擅长识别常见物体(如花、鸟、鱼、昆虫),还能高效分析图像中的文本、图表、图标、图形和布局。
-
智能代理能力:Qwen2.5-VL 可直接作为视觉代理使用,能够进行推理并动态操控工具,支持电脑和手机操作。
-
长视频理解与事件捕捉:Qwen2.5-VL 能够理解超过 1 小时的视频,并且新增了通过定位相关视频片段来捕捉事件的能力。
-
多格式视觉定位能力:Qwen2.5-VL 可通过生成边界框或点来精确定位图像中的物体,并能提供稳定的 JSON 格式坐标和属性输出。
-
结构化输出生成:对于发票扫描件、表单、表格等数据,Qwen2.5-VL 支持其内容的结构化输出,有利于金融、商业等领域的应用。
模型架构更新:
- 视频理解的动态分辨率和帧率训练:
我们通过采用动态 FPS 采样,将动态分辨率扩展到时间维度,使模型能够以不同采样率理解视频。相应地,我们更新了时间维度上的 mRoPE,加入 ID 和绝对时间对齐,使模型能够学习时间序列和速度,最终获得定位特定时刻的能力。
- 精简高效的视觉编码器
我们通过在 ViT 中策略性地引入 window attention,提升了训练和推理速度。ViT 架构进一步通过 SwiGLU 和 RMSNorm 进行了优化,使其与 Qwen2.5 LLM 的结构保持一致。
我们提供了三个模型,参数量分别为 3B、7B 和 72B。本仓库包含经过指令微调的 3B Qwen2.5-VL 模型。更多信息请访问我们的 博客 和 GitHub。
评估
图像基准测试
| 基准测试 | InternVL2.5-4B | Qwen2-VL-7B | Qwen2.5-VL-3B |
|---|---|---|---|
| MMMUval | 52.3 | 54.1 | 53.1 |
| MMMU-Proval | 32.7 | 30.5 | 31.6 |
| AI2Dtest | 81.4 | 83.0 | 81.5 |
| DocVQAtest | 91.6 | 94.5 | 93.9 |
| InfoVQAtest | 72.1 | 76.5 | 77.1 |
| TextVQAval | 76.8 | 84.3 | 79.3 |
| MMBench-V1.1test | 79.3 | 80.7 | 77.6 |
| MMStar | 58.3 | 60.7 | 55.9 |
| MathVistatestmini | 60.5 | 58.2 | 62.3 |
| MathVisionfull | 20.9 | 16.3 | 21.2 |
视频基准测试
| 基准测试 | InternVL2.5-4B | Qwen2-VL-7B | Qwen2.5-VL-3B |
|---|---|---|---|
| MVBench | 71.6 | 67.0 | 67.0 |
| VideoMME | 63.6/62.3 | 69.0/63.3 | 67.6/61.5 |
| MLVU | 48.3 | - | 68.2 |
| LVBench | - | - | 43.3 |
| MMBench-Video | 1.73 | 1.44 | 1.63 |
| EgoSchema | - | - | 64.8 |
| PerceptionTest | - | - | 66.9 |
| TempCompass | - | - | 64.4 |
| LongVideoBench | 55.2 | 55.6 | 54.2 |
| CharadesSTA/mIoU | - | - | 38.8 |
智能代理基准测试
| 基准测试 | Qwen2.5-VL-3B |
|---|---|
| ScreenSpot | 55.5 |
| ScreenSpot Pro | 23.9 |
| AITZ_EM | 76.9 |
| Android Control High_EM | 63.7 |
| Android Control Low_EM | 22.2 |
| AndroidWorld_SR | 90.8 |
| MobileMiniWob++_SR | 67.9 |
环境要求
Qwen2.5-VL 的代码已集成到最新的 Hugging Face transformers 中,建议您通过以下命令从源码构建:
pip install git+https://github.com/huggingface/transformers accelerate
否则可能会遇到以下错误:
KeyError: 'qwen2_5_vl'
快速开始
下面我们提供简单示例,展示如何使用 🤖 ModelScope 和 🤗 Transformers 使用 Qwen2.5-VL。
Qwen2.5-VL 的代码已集成到最新的 Hugging Face transformers 中,建议您通过以下命令从源码构建:
pip install git+https://github.com/huggingface/transformers accelerate
o
正在翻译中,请稍候...