模型库 / openai/gpt-oss-120b

gpt-oss-120b

openai text-generation transformers
openai/gpt-oss-120b
4,387,264
下载量
4768
收藏数
10
浏览量
apache-2.0
许可

简介

Try gpt-oss · Guides · Model card · OpenAI blog

模型卡片

许可协议 apache-2.0
框架 transformers
任务 text-generation
vllm

模型配置

模型类型 gpt_oss
架构 GptOssForCausalLM

模型详情

已翻译

尝试 gpt-oss ·
指南 ·
模型卡片 ·
OpenAI 博客

欢迎来到 gpt-oss 系列,这是 OpenAI 的开放权重模型,专为强大的推理、智能体任务和多样化的开发者用例而设计。

我们发布了两种版本的开放模型:
- gpt-oss-120b — 面向生产环境、通用目的、高推理需求的用例,可适配单张 80GB GPU(如 NVIDIA H100 或 AMD MI300X)(117B 参数,其中 5.1B 活跃参数)
- gpt-oss-20b — 面向低延迟、本地或专用用例(21B 参数,其中 3.6B 活跃参数)

两个模型均基于我们的 harmony 响应格式 进行训练,且必须配合 harmony 格式使用,否则无法正常工作。

[!NOTE]
本模型卡片专注于较大的 gpt-oss-120b 模型。查看 gpt-oss-20b 了解较小模型。

亮点

  • 宽松的 Apache 2.0 许可证: 自由构建,无需受版权限制或专利风险影响——非常适合实验、定制和商业部署。
  • 可配置的推理力度: 根据具体用例和延迟需求,轻松调整推理力度(低、中、高)。
  • 完整思维链: 完全访问模型的推理过程,便于调试并增强对输出的信任。不建议向最终用户展示。
  • 可微调: 通过参数微调,完全根据特定用例定制模型。
  • 智能体能力: 利用模型的原生能力进行函数调用、网页浏览Python 代码执行和结构化输出。
  • MXFP4 量化: 模型在训练后对 MoE 权重进行了 MXFP4 量化,使 gpt-oss-120b 可在单张 80GB GPU(如 NVIDIA H100 或 AMD MI300X)上运行,gpt-oss-20b 模型可在 16GB 内存内运行。所有评估均基于相同的 MXFP4 量化。

推理示例

Transformers

你可以使用 Transformers 运行 gpt-oss-120bgpt-oss-20b。如果使用 Transformers 的聊天模板,它将自动应用 harmony 响应格式。如果直接使用 model.generate,则需要通过聊天模板手动应用 harmony 格式,或使用我们的 openai-harmony 包。

首先,安装必要的依赖以配置环境:

pip install -U transformers kernels torch 

配置完成后,运行以下代码片段来执行模型:

from transformers import pipeline
import torch

model_id = "openai/gpt-oss-120b"

pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "user", "content": "Explain quantum mechanics clearly and concisely."},
]

outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

或者,你可以通过 Transformers Serve 运行模型,以启动一个兼容 OpenAI 的 Web 服务器:

transformers serve
transformers chat localhost:8000 --model-name-or-path openai/gpt-oss-120b

了解更多关于如何使用 Transformers 运行 gpt-oss 的信息。

vLLM

vLLM 推荐使用 uv 进行 Python 依赖管理。你可以使用 vLLM 启动一个兼容 OpenAI 的 Web 服务器。以下命令将自动下载模型并启动服务器。

uv pip install --pre vllm==0.10.1+gptoss \
    --extra-index-url https://wheels.vllm.ai/gpt-oss/ \
    --extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
    --index-strategy unsafe-best-match

vllm serve openai/gpt-oss-120b

了解更多关于如何使用 vLLM 运行 gpt-oss 的信息。

PyTorch / Triton

要了解如何使用 PyTorch 和 Triton 运行此模型,请查看我们在 gpt-oss 仓库中的参考实现

Ollama

如果你尝试在消费级硬件上运行 gpt-oss,可以在安装 Ollama 后运行以下命令。

# gpt-oss-120b
ollama pull gpt-oss:120b
ollama run gpt-oss:120b

了解更多关于如何使用 Ollama 运行 gpt-oss 的信息。

LM Studio

如果你使用 LM Studio,可以使用以下命令进行下载。

# gpt-oss-120b
lms get openai/gpt-oss-120b

查看我们的 awesome 列表,获取更广泛的 gpt-oss 资源和推理合作伙伴信息。


下载模型

你可以直接从 Hugging Face CLI 从 Hugging Face Hub 下载模型权重:

# gpt-oss-120b
huggingface-cli download openai/gpt-oss-120b --include "original/*" --local-dir gpt-oss-120b/
pip install gpt-oss
python -m gpt_oss.chat model/

推理级别

你可以调整推理

标签

gpt_oss vllm conversational arxiv:2508.10925 license:apache-2.0 eval-results endpoints_compatible 8-bit

操作


详细信息

厂商
openai
任务
text-generation
框架
transformers
模型类型
gpt_oss
许可(HF)
apache-2.0