模型库 / Qwen/Qwen2.5-VL-3B-Instruct

Qwen2.5-VL-3B-Instruct

Qwen image-text-to-text transformers en
Qwen/Qwen2.5-VL-3B-Instruct
3,391,498
下载量
643
收藏数
8
浏览量
-
许可

简介

许可证名称:qwen-research 许可证链接:https://huggingface.co/Qwen/Qwen2.5-VL-3B-Instruct/blob/main/LICENSE 语言: - 英语 流水线标签:图像-文本到文本 标签: - 多模态 库名称:transformers

模型卡片

语言
en
框架 transformers
任务 image-text-to-text
multimodal

模型配置

模型类型 qwen2_5_vl
架构 Qwen2_5_VLForConditionalGeneration

模型详情

已翻译

license_name: qwen-research
license_link: https://huggingface.co/Qwen/Qwen2.5-VL-3B-Instruct/blob/main/LICENSE
language:
- en
pipeline_tag: image-text-to-text
tags:
- multimodal
library_name: transformers


Qwen2.5-VL-3B-Instruct

简介

自 Qwen2-VL 发布以来的五个月里,众多开发者在 Qwen2-VL 视觉语言模型基础上构建了新模型,并为我们提供了宝贵的反馈。在此期间,我们专注于构建更有用的视觉语言模型。今天,我们很高兴地介绍 Qwen 家族的最新成员:Qwen2.5-VL。

主要增强功能:

  • 视觉理解能力:Qwen2.5-VL 不仅擅长识别常见物体(如花、鸟、鱼、昆虫),还能高效分析图像中的文本、图表、图标、图形和布局。

  • 智能代理能力:Qwen2.5-VL 可直接作为视觉代理使用,能够进行推理并动态操控工具,支持电脑和手机操作。

  • 长视频理解与事件捕捉:Qwen2.5-VL 能够理解超过 1 小时的视频,并且新增了通过定位相关视频片段来捕捉事件的能力。

  • 多格式视觉定位能力:Qwen2.5-VL 可通过生成边界框或点来精确定位图像中的物体,并能提供稳定的 JSON 格式坐标和属性输出。

  • 结构化输出生成:对于发票扫描件、表单、表格等数据,Qwen2.5-VL 支持其内容的结构化输出,有利于金融、商业等领域的应用。

模型架构更新:

  • 视频理解的动态分辨率和帧率训练

我们通过采用动态 FPS 采样,将动态分辨率扩展到时间维度,使模型能够以不同采样率理解视频。相应地,我们更新了时间维度上的 mRoPE,加入 ID 和绝对时间对齐,使模型能够学习时间序列和速度,最终获得定位特定时刻的能力。

  • 精简高效的视觉编码器

我们通过在 ViT 中策略性地引入 window attention,提升了训练和推理速度。ViT 架构进一步通过 SwiGLU 和 RMSNorm 进行了优化,使其与 Qwen2.5 LLM 的结构保持一致。

我们提供了三个模型,参数量分别为 3B、7B 和 72B。本仓库包含经过指令微调的 3B Qwen2.5-VL 模型。更多信息请访问我们的 博客GitHub

评估

图像基准测试

基准测试 InternVL2.5-4B Qwen2-VL-7B Qwen2.5-VL-3B
MMMUval 52.3 54.1 53.1
MMMU-Proval 32.7 30.5 31.6
AI2Dtest 81.4 83.0 81.5
DocVQAtest 91.6 94.5 93.9
InfoVQAtest 72.1 76.5 77.1
TextVQAval 76.8 84.3 79.3
MMBench-V1.1test 79.3 80.7 77.6
MMStar 58.3 60.7 55.9
MathVistatestmini 60.5 58.2 62.3
MathVisionfull 20.9 16.3 21.2

视频基准测试

基准测试 InternVL2.5-4B Qwen2-VL-7B Qwen2.5-VL-3B
MVBench 71.6 67.0 67.0
VideoMME 63.6/62.3 69.0/63.3 67.6/61.5
MLVU 48.3 - 68.2
LVBench - - 43.3
MMBench-Video 1.73 1.44 1.63
EgoSchema - - 64.8
PerceptionTest - - 66.9
TempCompass - - 64.4
LongVideoBench 55.2 55.6 54.2
CharadesSTA/mIoU - - 38.8

智能代理基准测试

基准测试 Qwen2.5-VL-3B
ScreenSpot 55.5
ScreenSpot Pro 23.9
AITZ_EM 76.9
Android Control High_EM 63.7
Android Control Low_EM 22.2
AndroidWorld_SR 90.8
MobileMiniWob++_SR 67.9

环境要求

Qwen2.5-VL 的代码已集成到最新的 Hugging Face transformers 中,建议您通过以下命令从源码构建:

pip install git+https://github.com/huggingface/transformers accelerate

否则可能会遇到以下错误:

KeyError: 'qwen2_5_vl'

快速开始

下面我们提供简单示例,展示如何使用 🤖 ModelScope 和 🤗 Transformers 使用 Qwen2.5-VL。

Qwen2.5-VL 的代码已集成到最新的 Hugging Face transformers 中,建议您通过以下命令从源码构建:

pip install git+https://github.com/huggingface/transformers accelerate

o

标签

qwen2_5_vl multimodal conversational en arxiv:2309.00071 arxiv:2409.12191 arxiv:2308.12966 eval-results

操作


详细信息

厂商
Qwen
任务
image-text-to-text
框架
transformers
模型类型
qwen2_5_vl
语言
en