DeepSeek-V4-Pro

deepseek-ai text-generation transformers

deepseek-ai/DeepSeek-V4-Pro

1,339,144

下载量

3838

收藏数

39

浏览量

mit

许可

简介

DeepSeek-V4：迈向高效百万级Token上下文智能

模型卡片

许可协议 mit

框架 transformers

模型配置

模型类型 deepseek_v4

架构 DeepseekV4ForCausalLM

模型详情

已翻译

DeepSeek-V4: 迈向高效百万token上下文智能

技术报告👁️

引言

我们推出 DeepSeek-V4 系列的预览版本，包括两个强大的混合专家（MoE）语言模型——参数量1.6T（激活49B）的 DeepSeek-V4-Pro 和参数量284B（激活13B）的 DeepSeek-V4-Flash——两者均支持百万token的上下文长度。

DeepSeek-V4 系列在架构和优化方面引入了多项关键升级：

混合注意力架构： 我们设计了一种结合压缩稀疏注意力（CSA）和高度压缩注意力（HCA）的混合注意力机制，大幅提升长上下文效率。在1M token上下文设置下，与 DeepSeek-V3.2 相比，DeepSeek-V4-Pro 仅需 27% 的单 token 推理 FLOPs 和 10% 的 KV cache。
流形约束超连接（mHC）： 我们引入 mHC 来增强传统残差连接，在保持模型表达能力的同时，提升跨层信号传播的稳定性。
Muon 优化器： 我们采用 Muon 优化器以实现更快的收敛速度和更高的训练稳定性。

我们在超过 32T 多样化且高质量的 token 上对两个模型进行预训练，随后进行全面的后训练流程。后训练采用两阶段范式：先通过 SFT 和基于 GRPO 的 RL 独立培养领域特定专家，再通过 on-policy 蒸馏进行统一模型整合，将不同领域的独特能力融合到单一模型中。

DeepSeek-V4-Pro-Max 作为 DeepSeek-V4-Pro 的最大推理努力模式，显著提升了开源模型的知识能力，牢固确立了其作为当今最佳开源模型的地位。它在编程基准测试中达到顶级性能，并在推理和智能体任务上大幅缩小了与领先闭源模型的差距。与此同时，DeepSeek-V4-Flash-Max 在给予更大思考预算时，能够达到与 Pro 版本相当的推理性能，不过其较小的参数量自然使其在纯知识任务和最复杂的智能体工作流上略逊一筹。

模型下载

模型	总参数量	激活参数量	上下文长度	精度	下载地址
DeepSeek-V4-Flash-Base	284B	13B	1M	FP8 混合	HuggingFace \| ModelScope
DeepSeek-V4-Flash	284B	13B	1M	FP4 + FP8 混合*	HuggingFace \| ModelScope
DeepSeek-V4-Pro-Base	1.6T	49B	1M	FP8 混合	HuggingFace \| ModelScope
DeepSeek-V4-Pro	1.6T