gemma-4-E4B-it
简介
Hugging Face | GitHub | Launch Blog | Documentation License: Apache 2.0 | Authors: Google DeepMind
模型卡片
模型配置
模型详情
已翻译Hugging Face |
GitHub |
发布博客 |
文档
许可证: Apache 2.0 | 作者: Google DeepMind
Gemma 是由 Google DeepMind 构建的一系列开放模型。Gemma 4 模型是多模态的,支持文本和图像输入(小型模型支持音频),并生成文本输出。此次发布包括预训练和指令微调两种变体的开放权重模型。Gemma 4 拥有高达 256K token 的上下文窗口,并保持对超过 140 种语言的多语言支持。
Gemma 4 兼具 Dense 和 Mixture-of-Experts (MoE) 架构,非常适合文本生成、编码和推理等任务。该模型提供四种不同的尺寸:E2B、E4B、26B A4B 和 31B。其多样化的尺寸使其能够部署在从高端手机到笔记本电脑和服务器的各种环境中,从而普及最先进的 AI 技术。
Gemma 4 引入了关键的能力和架构进步:
-
推理 – 该系列中的所有模型都被设计为高性能推理器,具有可配置的思考模式。
-
扩展的多模态能力 – 处理文本、支持可变宽高比和分辨率的图像(所有模型)、视频和音频(E2B 和 E4B 模型原生支持)。
-
多样且高效的架构 – 提供不同尺寸的 Dense 和 Mixture-of-Experts (MoE) 变体,以实现可扩展的部署。
-
针对端侧设备优化 – 较小的模型专为在笔记本电脑和移动设备上高效本地执行而设计。
-
更大的上下文窗口 – 小型模型拥有 128K 的上下文窗口,而中型模型支持 256K。
-
增强的编码与智能体能力 – 在编码基准测试中取得了显著改进,同时原生支持函数调用,为高性能自主智能体提供动力。
-
原生系统提示支持 – Gemma 4 引入了对
system角色的原生支持,从而实现更结构化、更可控的对话。
模型概览
Gemma 4 模型旨在每种尺寸下提供前沿性能,针对从移动和边缘设备(E2B、E4B)到消费级 GPU 和工作站(26B A4B、31B)的部署场景。它们非常适合推理、智能体工作流、编码和多模态理解。
这些模型采用混合注意力机制,将局部滑动窗口注意力与全局注意力交错结合,确保最后一层始终是全局的。这种混合设计提供了轻量级模型的处理速度和低内存占用,同时不牺牲处理复杂长上下文任务所需的深度感知。为了优化长上下文的内存,全局层采用了统一的 Key 和 Value,并应用了 Proportional RoPE (p-RoPE)。
Dense 模型
| 属性 | E2B | E4B | 31B Dense |
|---|---|---|---|
| 总参数量 | 23 亿有效参数(含 embedding 为 51 亿) | 45 亿有效参数(含 embedding 为 80 亿) | 307 亿 |
| 层数 | 35 | 42 | 60 |
| 滑动窗口 | 512 tokens | 512 tokens | 1024 tokens |
| 上下文长度 | 128K tokens | 128K tokens | 256K tokens |
| 词表大小 | 262K | 262K | 262K |
| 支持模态 | 文本、图像、音频 | 文本、图像、音频 | 文本、图像 |
| 视觉编码器参数量 | 约 1.5 亿 | 约 1.5 亿 | 约 5.5 亿 |
| 音频编码器参数量 | 约 3 亿 | 约 3 亿 | 无音频 |
E2B 和 E4B 中的 "E" 代表 "有效" 参数。较小的模型采用了 Per-Layer Embeddings (PLE) 技术,以在端侧设备部署中最大化参数效率。PLE 并非为模型增加更多层或参数,而是为每个解码器层提供其自身针对每个 token 的小型 embedding。这些 embedding 表很大,但仅用于快速查找,这就是有效参数量远小于总参数量的原因。
Mixture-of-Experts (MoE) 模型
| 属性 | 26B A4B MoE |
|---|---|
| 总参数量 | 252 亿 |
| 激活参数量 | 38 亿 |
| 层数 | 30 |
| 滑动窗口 | 1024 tokens |
| 上下文长度 | 256K tokens |
| 词表大小 | 262K |
| 专家数量 | 8 个激活 / 128 个总计 和 1 个共享 |
| 支持模态 | 文本、图像 |
| 视觉编码器参数量 | 约 5.5 亿 |
26B A4B 中的 "A" 代表 "激活参数",与模型包含的总参数形成对比。
正在翻译中,请稍候...