DeepSeek-R1
简介
DeepSeek-R1 <!-- markdownlint-disable first-line-h1 --> <!-- markdownlint-disable html --> <!-- markdownlint-disable no-duplicate-header -->
模型卡片
模型配置
模型详情
已翻译DeepSeek-R1
论文链接👁️
1. 引言
我们推出了第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。
DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,无需以监督微调(SFT)作为前置步骤,在推理任务上展现了卓越的性能。
通过 RL,DeepSeek-R1-Zero 自然涌现出许多强大且有趣的推理行为。
然而,DeepSeek-R1-Zero 也面临一些挑战,例如无休止的重复、可读性差以及语言混杂。为了解决这些问题并进一步提升推理性能,
我们推出了 DeepSeek-R1,它在 RL 之前引入了冷启动数据。
DeepSeek-R1 在数学、代码和推理任务上达到了与 OpenAI-o1 相当的性能。
为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1,以及基于 Llama 和 Qwen 从 DeepSeek-R1 蒸馏得到的六个密集模型。DeepSeek-R1-Distill-Qwen-32B 在多个基准测试中超越了 OpenAI-o1-mini,为密集模型取得了新的最优结果。
注意:在本地运行 DeepSeek-R1 系列模型之前,我们建议先阅读使用建议部分。
2. 模型概述
后训练:在基座模型上进行大规模强化学习
-
我们直接将强化学习(RL)应用于基座模型,而不依赖监督微调(SFT)作为前置步骤。这种方法使模型能够探索思维链(CoT)来解决复杂问题,从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展现出自我验证、反思和生成长 CoT 等能力,这标志着研究社区的一个重要里程碑。值得注意的是,这是首个公开研究,验证了 LLM 的推理能力可以仅通过 RL 来激发,而无需 SFT。这一突破为未来在该领域的进展铺平了道路。
-
我们介绍了开发 DeepSeek-R1 的流程。该流程包含两个 RL 阶段,旨在发现更优的推理模式并与人类偏好对齐,以及两个 SFT 阶段,为模型的推理和非推理能力提供种子。
我们相信,这一流程将通过创造更好的模型来惠及整个行业。
蒸馏:小模型也能拥有强大能力
- 我们证明了推理模式
正在翻译中,请稍候...