20岁写出Transformer的人，真开源2180亿大模型Command A+

AITNT 2026-05-23 48 19

AI 大模型深度学习技术突破

{
title: "Transformer作者开源2180亿参数MoE模型Command A+",
summary: "Transformer论文共同作者Aidan Gomez宣布开源Cohere Command A+，一个2180亿参数的MoE混合专家模型，激活参数仅250亿，支持单张NVIDIA B200或两张H100部署。采用Apache 2.0许可，真正可商用，W4A4量化版本接近无损，首token延迟仅113毫秒，每秒生成375个token。这是Cohere首个真开源旗舰，标志着大模型开源与商用化的新里程碑。",
content: "20岁写出Transformer论文的Aidan Gomez，再次用行动震撼AI圈。5月20日，这位Cohere联合创始人兼CEO宣布推出Command A+，一个2180亿参数的MoE混合专家模型，采用Apache 2.0许可，彻底开源。这不仅是一个技术突破，更是对当前AI开源生态的一次重新定义——它让大参数模型不再等同于烧钱，也让企业真正拥有了可商用的自主权。\n\nCommand A+的MoE架构是其核心亮点。2180亿总参数中，每次生成只激活250亿参数，通过路由机制将问题分配给最擅长的专家网络，其余保持休眠。这种设计保留了巨头级知识储备，同时大幅降低算力消耗。Cohere还叠加了量化技术，提供BF16、FP8和W4A4三种版本。W4A4版本通过将MoE专家压至4-bit，保留注意力通路全精度，并采用量化感知蒸馏技术，实现了接近无损的压缩。数据显示，W4A4版本在低并发下每秒生成375个token，首token延迟仅113毫秒，可单张NVIDIA B200或两张H100部署。相比OpenAI的GPT-5.5和Anthropic的Claude Opus 4.7万亿级参数，Command A+以更低成本实现高效推理。\n\nApache 2.0许可证是Command A+的另一关键。在AI圈开源常被滥用，许多模型套着限制性商用条款。Cohere此前Command R系列采用CC-BY-NC 4.0，非商业许可，而Command A+转向Apache 2.0，允许任何人使用、修改、分发和商业化，无授权费和竞业条款。这一决定由联合创始人Nick Frosst力主推动，他曾是AI教父Geoffrey Hinton在谷歌大脑的早期雇员。这意味着企业可下载权重，用内部数据微调，部署在私有服务器或气隙网络，彻底摆脱供应商锁定。\n\nCommand A+的发布，为AI从业者提供了新选择。它证明了大参数模型可以兼顾性能与成本，开源与商业化并不矛盾。对于开发者和企业，建议关注W4A4版本的量化方案，评估其在实际场景中的部署效果。随着更多模型采用类似架构，AI基础设施的民主化进程将加速。Cohere的这一步，或许会推动更多公司重新思考开源策略。"
}

原文链接： https://www.aitntnews.com/newDetail.html?newId=25388

本文由 Zyentor（智元界） 原创发布

查看全部原创 · 技术论坛讨论

讨论 (0 条)

登录后参与讨论