gpt-oss-20b
简介
Try gpt-oss · Guides · Model card · OpenAI blog
模型卡片
模型配置
模型详情
已翻译尝试 gpt-oss ·
指南 ·
模型卡片 ·
OpenAI 博客
欢迎来到 gpt-oss 系列,这是 OpenAI 的开放权重模型,专为强大的推理、智能体任务以及多样化的开发者使用场景而设计。
我们发布了两种版本的开放模型:
- gpt-oss-120b — 适用于生产环境、通用目的、高推理需求,可放入单个 80GB GPU(如 NVIDIA H100 或 AMD MI300X)(117B 参数,其中 5.1B 活跃参数)
- gpt-oss-20b — 适用于低延迟、本地或专用场景(21B 参数,其中 3.6B 活跃参数)
两个模型均基于我们的 harmony 响应格式 进行训练,并且必须配合该格式使用,否则无法正常工作。
[!NOTE]
本模型卡片专门介绍较小的gpt-oss-20b模型。更大模型请参见gpt-oss-120b。
亮点
- 宽松的 Apache 2.0 许可证: 自由构建,无需担心 copyleft 限制或专利风险——非常适合实验、定制和商业部署。
- 可配置的推理强度: 根据具体使用场景和延迟需求,轻松调整推理强度(低、中、高)。
- 完整思维链: 完全访问模型的推理过程,便于调试并增强对输出的信任。不适用于向最终用户展示。
- 可微调: 通过参数微调,完全定制模型以适应特定使用场景。
- 智能体能力: 利用模型的原生能力进行函数调用、网页浏览、Python 代码执行以及结构化输出。
- MXFP4 量化: 模型在训练后对 MoE 权重进行了 MXFP4 量化,使得
gpt-oss-120b可在单个 80GB GPU(如 NVIDIA H100 或 AMD MI300X)上运行,而gpt-oss-20b模型可在 16GB 内存内运行。所有评估均使用相同的 MXFP4 量化完成。
推理示例
Transformers
你可以使用 Transformers 来运行 gpt-oss-120b 和 gpt-oss-20b。如果使用 Transformers 的聊天模板,它会自动应用 harmony 响应格式。如果直接使用 model.generate,则需要通过聊天模板手动应用 harmony 格式,或使用我们的 openai-harmony 包。
首先,安装必要的依赖项来配置环境:
pip install -U transformers kernels torch
配置完成后,可以通过运行以下代码片段来运行模型:
from transformers import pipeline
import torch
model_id = "openai/gpt-oss-20b"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype="auto",
device_map="auto",
)
messages = [
{"role": "user", "content": "Explain quantum mechanics clearly and concisely."},
]
outputs = pipe(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])
或者,你可以通过 Transformers Serve 运行模型,以启动一个兼容 OpenAI 的 Web 服务器:
transformers serve
transformers chat localhost:8000 --model-name-or-path openai/gpt-oss-20b
了解更多关于如何使用 Transformers 运行 gpt-oss 的信息。
vLLM
vLLM 推荐使用 uv 进行 Python 依赖管理。你可以使用 vLLM 启动一个兼容 OpenAI 的 Web 服务器。以下命令将自动下载模型并启动服务器。
uv pip install --pre vllm==0.10.1+gptoss \
--extra-index-url https://wheels.vllm.ai/gpt-oss/ \
--extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
--index-strategy unsafe-best-match
vllm serve openai/gpt-oss-20b
了解更多关于如何使用 vLLM 运行 gpt-oss 的信息。
PyTorch / Triton
要了解如何使用 PyTorch 和 Triton 运行此模型,请查看我们的 gpt-oss 仓库中的参考实现。
Ollama
如果你尝试在消费级硬件上运行 gpt-oss,可以在安装 Ollama 后运行以下命令。
# gpt-oss-20b
ollama pull gpt-oss:20b
ollama run gpt-oss:20b
了解更多关于如何使用 Ollama 运行 gpt-oss 的信息。
LM Studio
如果你使用 LM Studio,可以使用以下命令进行下载。
# gpt-oss-20b
lms get openai/gpt-oss-20b
请查看我们的 awesome 列表,获取更广泛的 gpt-oss 资源和推理合作伙伴信息。
下载模型
你可以直接从 Hugging Face CLI 从 Hugging Face Hub 下载模型权重:
# gpt-oss-20b
huggingface-cli download openai/gpt-oss-20b --include "original/*" --local-dir gpt-oss-20b/
pip install gpt-oss
python -m gpt_oss.chat model/
推理级别
你可以调整推理
正在翻译中,请稍候...