gemma-4-26B-A4B-it-GGUF
简介
See Unsloth Dynamic 2.0 GGUFs for our quantization benchmarks.
模型卡片
模型配置
模型详情
已翻译阅读我们的 Gemma 4 运行指南!
量化基准测试请参见 Unsloth Dynamic 2.0 GGUFs。
4月11日更新:请重新下载以获取Google最新的chat template和llama.cpp修复。
Gemma 4现可在 Unsloth Studio 中运行和微调。阅读我们的指南。
查看Gemma 4的所有版本(GGUF、16-bit等),请访问我们的模型集合。
Gemma 4 E4B(4-bit GGUF)在Unsloth Studio中运行并支持工具调用的示例:
Hugging Face |
GitHub |
发布博客 |
文档
许可证:Apache 2.0 | 作者:Google DeepMind
Gemma是由Google DeepMind构建的开放模型系列。Gemma 4模型是多模态的,支持文本和图像输入(小型模型支持音频),并生成文本输出。本次发布包括预训练和指令微调两种变体的开放权重模型。Gemma 4的上下文窗口高达256K tokens,并支持超过140种语言的多语言能力。
Gemma 4兼具Dense和Mixture-of-Experts(MoE)架构,非常适合文本生成、编码和推理等任务。该模型提供四种不同尺寸:E2B、E4B、26B A4B和31B。多样化的尺寸使其可部署于从高端手机到笔记本电脑和服务器的多种环境,推动了先进AI技术的普及。
Gemma 4引入了关键的能力与架构升级:
-
推理 – 该系列所有模型均设计为高性能推理器,支持可配置的思考模式。
-
扩展多模态能力 – 处理文本、图像(支持可变宽高比和分辨率,所有模型)、视频和音频(E2B和E4B模型原生支持)。
-
多样且高效的架构 – 提供不同尺寸的Dense和Mixture-of-Experts(MoE)变体,便于可扩展部署。
-
针对端侧优化 – 较小模型专为在笔记本电脑和移动设备上高效本地执行而设计。
-
更大的上下文窗口 – 小型模型支持128K上下文窗口,中型模型支持256K。
-
增强的编码与智能体能力 – 在编码基准测试中取得显著提升,同时原生支持函数调用,赋能强大的自主智能体。
-
原生系统提示支持 – Gemma 4引入了对
system角色的原生支持,使对话更加结构化和可控。
模型概览
Gemma 4模型旨在每种尺寸下提供前沿性能,针对从移动和边缘设备(E2B、E4B)到消费级GPU和工作站(26B A4B、31B)的部署场景。它们非常适合推理、智能体工作流、编码和多模态理解。
这些模型采用混合注意力机制,将局部滑动窗口注意力与全局注意力交错结合,确保最后一层始终为全局注意力。这种混合设计在提供轻量级模型处理速度和低内存占用的同时,不牺牲处理复杂长上下文任务所需的深度感知能力。为优化长上下文的内存使用,全局层采用统一的Keys
正在翻译中,请稍候...