gemma-4-26B-A4B-it-AWQ-4bit
简介
Version 26.05.01 Calibration STEM and Agentic Languages EN ZH HI AR RU JA KO NL FR ES Model Size 16.01 GB Contact Email
模型卡片
模型配置
模型详情
已翻译 版本
26.05.01
校准
STEM 与 Agentic
语言
EN ZH HI AR RU
JA KO NL FR ES
模型大小
16.01 GB
联系方式
Email
Hugging Face |
GitHub |
发布博客 |
文档
许可证: Apache 2.0 | 作者: Google DeepMind
Gemma 是由 Google DeepMind 构建的开放模型系列。Gemma 4 模型是多模态的,能够处理文本和图像输入(小型模型支持音频),并生成文本输出。本次发布包含预训练和指令微调两种变体的开放权重模型。Gemma 4 支持高达 256K token 的上下文窗口,并保持对超过 140 种语言的多语言支持。
Gemma 4 采用 Dense 和 Mixture-of-Experts (MoE) 两种架构,非常适合文本生成、编码和推理等任务。该模型提供四种不同的尺寸:E2B、E4B、26B A4B 和 31B。多样化的尺寸使其能够部署在从高端手机到笔记本电脑和服务器的各种环境中,让最先进的 AI 技术更加普及。
Gemma 4 引入了关键的能力与架构进步:
-
推理 – 该系列中的所有模型都被设计为高性能的推理器,并支持可配置的思考模式。
-
扩展的多模态能力 – 支持文本、图像(所有模型均支持可变宽高比和分辨率)、视频和音频(E2B 和 E4B 模型原生支持)。
-
多样且高效的架构 – 提供不同尺寸的 Dense 和 Mixture-of-Experts (MoE) 变体,以实现可扩展的部署。
-
针对端侧设备优化 – 较小的模型专为在笔记本电脑和移动设备上高效本地执行而设计。
-
更大的上下文窗口 – 小型模型支持 128K 上下文窗口,而中型模型支持 256K。
-
增强的编码与 Agentic 能力 – 在编码基准测试中取得显著改进,同时原生支持函数调用,为高性能的自主 agent 提供动力。
-
原生系统提示支持 – Gemma 4 引入了对
system角色的原生支持,从而实现更结构化、更可控的对话。
模型概览
Gemma 4 模型旨在每种尺寸下都提供前沿性能,针对从移动和边缘设备(E2B、E4B)到消费级 GPU 和工作站(26B A4B、31B)的部署场景。它们非常适合推理、agentic 工作流、编码和多模态理解。
这些模型采用混合注意力机制,将局部滑动窗口注意力与全局注意力交错结合,确保最后一层始终是全局的。这种混合设计提供了轻量级模型的处理速度和低内存占用,同时不牺牲复杂长上下文任务所需的深度感知能力。为了优化长上下文的内存使用,全局层采用了统一的键值对,并应用了比例 RoPE(
正在翻译中,请稍候...