Gemma-4-31B-IT-NVFP4
简介
描述: Gemma 4 31B IT 是由 Google DeepMind 构建的开放多模态模型,支持文本和图像输入,能够将视频作为帧序列进行处理,并生成文本输出。该模型旨在为推理、智能体工作流、编程和多模态理解提供前沿性能。
模型卡片
模型配置
模型详情
已翻译模型概述
描述:
Gemma 4 31B IT 是由 Google DeepMind 构建的开放多模态模型,可处理文本和图像输入,能够将视频作为帧序列进行处理,并生成文本输出。该模型旨在为消费级 GPU 和工作站上的推理、智能体工作流、编码和多模态理解提供前沿性能,拥有 256K token 的上下文窗口,并支持超过 140 种语言。该模型采用混合注意力机制,将局部滑动窗口注意力与全局注意力交错结合,在全局层中使用统一的 Keys 和 Values,并采用 Proportional RoPE(p-RoPE)以支持长上下文性能。NVIDIA Gemma 4 31B IT NVFP4 模型使用 NVIDIA Model Optimizer 进行了量化。
该模型可用于商业/非商业用途。
第三方社区注意事项
此模型并非 NVIDIA 拥有或开发。该模型是根据第三方针对此应用和用例的要求开发和构建的;请参阅非 NVIDIA Gemma 4 31B IT 模型卡
许可与使用条款:
Apache License 2.0 | Gemma | Google AI for Developers
部署地域:
全球
用例:
用例: 适用于文本生成、聊天机器人与对话式 AI、文本摘要、图像数据提取、推理、编码、多模态理解、函数调用以及研究或教育用途。
发布日期:
Hugging Face [2026年4月2日] 通过 链接
模型架构:
架构类型: Transformer
网络架构: Gemma 4
模型参数数量: 30.7B
词汇表大小: 262,144
输入:
输入类型: 文本、图像、视频
输入格式: 字符串、红绿蓝(RGB)、视频(MP4/WebM)
输入参数: 一维(1D)、二维(2D)、三维(3D)
与输入相关的其他属性: 支持可变的图像宽高比和分辨率,可配置的视觉 token 预算(70、140、280、560 和 1120),以及每秒一帧、最长 60 秒的视频输入。
输入上下文长度(ISL): 256K
输出:
输出类型: 文本
输出格式: 字符串
输出参数: 1D(一维):序列
与输出相关的其他属性: 为聊天、推理、编码、多模态理解和函数调用工作流生成文本响应。
我们的 AI 模型旨在/优化在 NVIDIA GPU 加速系统上运行。通过利用 NVIDIA 的硬件(例如 GPU 核心)和软件框架(例如 CUDA 库),与仅使用 CPU 的解决方案相比,该模型实现了更快的训练和推理时间。
软件集成:
支持的运行时引擎:
* vLLM
支持的硬件微架构兼容性:
NVIDIA Blackwell
首选操作系统:
* Linux
模型版本:
模型版本为 v1.0,使用 nvidia-modelopt v0.42.0 进行了 NVFP4 量化
训练、测试和评估数据集:
我们使用下述数据集对模型进行了校准,并使用评估数据集下提到的基准进行了评估。
我们未对此 Model Optimizer 版本进行训练或测试。下面训练和测试数据集部分提到的方法代表了第三方用于训练和测试底层 Gemma 4 31B IT 模型的数据收集和标注方法。
校准数据集:
链接: cnn_dailymail
数据集的数据收集方法: 自动化。
数据集的标注方法: 自动化。
属性: cnn_dailymail 数据集是一个英文数据集,包含超过 30 万篇由 CNN 和 Daily Mail 记者撰写的独特新闻文章。
训练数据集
数据模态: 文本、图像、音频、其他(代码)
训练数据收集: 自动化
训练标注: 未公开
训练属性: 大规模多模态预训练数据,涵盖网络文档、代码、图像和音频,截止日期为 2025 年 1 月,覆盖超过 140 种语言。数据已针对 CSAM、敏感数据、质量和安全性进行了过滤。
测试数据集
测试数据收集: 未公开
测试标注: 未公开
测试属性: 未公开
评估数据集:
数据集的数据收集方法: 混合:人工、自动化
数据集的标注方法: 混合:人工、自动化
属性: 我们在包括 GPQA 在内的基准上评估了该模型,GPQA 是一个包含 448 道由生物学、物理学和化学领域专家编写的多项选择题的数据集。
推理:
引擎: vLLM
测试硬件: NVIDIA Hopper H100
正在翻译中,请稍候...