DeepSeek-R1

deepseek-ai text-generation transformers

deepseek-ai/DeepSeek-R1

3,681,237

下载量

13326

收藏数

37

浏览量

mit

许可

简介

DeepSeek-R1

模型卡片

许可协议 mit

框架 transformers

模型配置

模型类型 deepseek_v3

架构 DeepseekV3ForCausalLM

模型详情

已翻译

DeepSeek-R1

论文链接👁️

1. 引言

我们推出了第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。
DeepSeek-R1-Zero 是一个通过大规模强化学习（RL）训练的模型，无需以监督微调（SFT）作为前置步骤，在推理任务上展现了卓越的性能。
通过 RL，DeepSeek-R1-Zero 自然涌现出许多强大且有趣的推理行为。
然而，DeepSeek-R1-Zero 也面临一些挑战，例如无休止的重复、可读性差以及语言混杂。为了解决这些问题并进一步提升推理性能，
我们推出了 DeepSeek-R1，它在 RL 之前引入了冷启动数据。
DeepSeek-R1 在数学、代码和推理任务上达到了与 OpenAI-o1 相当的性能。
为了支持研究社区，我们开源了 DeepSeek-R1-Zero、DeepSeek-R1，以及基于 Llama 和 Qwen 从 DeepSeek-R1 蒸馏得到的六个密集模型。DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越了 OpenAI-o1-mini，为密集模型取得了新的最优结果。

注意：在本地运行 DeepSeek-R1 系列模型之前，我们建议先阅读使用建议部分。

2. 模型概述

后训练：在基座模型上进行大规模强化学习

我们直接将强化学习（RL）应用于基座模型，而不依赖监督微调（SFT）作为前置步骤。这种方法使模型能够探索思维链（CoT）来解决复杂问题，从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展现出自我验证、反思和生成长 CoT 等能力，这标志着研究社区的一个重要里程碑。值得注意的是，这是首个公开研究，验证了 LLM 的推理能力可以仅通过 RL 来激发，而无需 SFT。这一突破为未来在该领域的进展铺平了道路。
我们介绍了开发 DeepSeek-R1 的流程。该流程包含两个 RL 阶段，旨在发现更优的推理模式并与人类偏好对齐，以及两个 SFT 阶段，为模型的推理和非推理能力提供种子。
我们相信，这一流程将通过创造更好的模型来惠及整个行业。

蒸馏：小模型也能拥有强大能力

我们证明了推理模式

DeepSeek-R1

简介

模型卡片

模型配置

模型详情

DeepSeek-R1

1. 引言

2. 模型概述

标签

操作

详细信息