模型库 / deepseek-ai/DeepSeek-R1

DeepSeek-R1

deepseek-ai text-generation transformers
deepseek-ai/DeepSeek-R1
3,681,237
下载量
13326
收藏数
12
浏览量
mit
许可

简介

DeepSeek-R1 <!-- markdownlint-disable first-line-h1 --> <!-- markdownlint-disable html --> <!-- markdownlint-disable no-duplicate-header -->

模型卡片

许可协议 mit
框架 transformers

模型配置

模型类型 deepseek_v3
架构 DeepseekV3ForCausalLM

模型详情

已翻译

DeepSeek-R1

论文链接👁️

1. 引言

我们推出了第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。
DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,无需以监督微调(SFT)作为前置步骤,在推理任务上展现了卓越的性能。
通过 RL,DeepSeek-R1-Zero 自然涌现出许多强大且有趣的推理行为。
然而,DeepSeek-R1-Zero 也面临一些挑战,例如无休止的重复、可读性差以及语言混杂。为了解决这些问题并进一步提升推理性能,
我们推出了 DeepSeek-R1,它在 RL 之前引入了冷启动数据。
DeepSeek-R1 在数学、代码和推理任务上达到了与 OpenAI-o1 相当的性能。
为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1,以及基于 Llama 和 Qwen 从 DeepSeek-R1 蒸馏得到的六个密集模型。DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越了 OpenAI-o1-mini,为密集模型取得了新的最优结果。

注意:在本地运行 DeepSeek-R1 系列模型之前,我们建议先阅读使用建议部分。

2. 模型概述


后训练:在基座模型上进行大规模强化学习

  • 我们直接将强化学习(RL)应用于基座模型,而不依赖监督微调(SFT)作为前置步骤。这种方法使模型能够探索思维链(CoT)来解决复杂问题,从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展现出自我验证、反思和生成长 CoT 等能力,这标志着研究社区的一个重要里程碑。值得注意的是,这是首个公开研究,验证了 LLM 的推理能力可以仅通过 RL 来激发,而无需 SFT。这一突破为未来在该领域的进展铺平了道路。

  • 我们介绍了开发 DeepSeek-R1 的流程。该流程包含两个 RL 阶段,旨在发现更优的推理模式并与人类偏好对齐,以及两个 SFT 阶段,为模型的推理和非推理能力提供种子。
    我们相信,这一流程将通过创造更好的模型来惠及整个行业。


蒸馏:小模型也能拥有强大能力

  • 我们证明了推理模式

标签

deepseek_v3 conversational custom_code arxiv:2501.12948 license:mit eval-results text-generation-inference endpoints_compatible

操作


详细信息

厂商
deepseek-ai
任务
text-generation
框架
transformers
模型类型
deepseek_v3
许可(HF)
mit