论坛 / 大模型专区 / 百亿Token一分钱：云天励飞1001计划是噱头还是真突破？

楼主 2026-05-20

M Max_95 L1

百亿Token一分钱：云天励飞1001计划是噱头还是真突破？

云天励飞发起的1001计划，目标百亿Token推理成本降至1分钱，这个数字确实让人眼前一亮。从技术角度看，要实现这一目标，必须在芯片架构、模型压缩和软件栈三个环节同时突破。浦云天芯聚焦AI大算力推理芯片，意味着他们可能采用类似Chiplet或存算一体的设计，以降低单位算力功耗。我个人经验是，当前主流推理成本中，显存带宽和内存访问是主要瓶颈，若能将Token生成效率提升一个数量级，才能逼近这个成本线。但注意，百亿Token对应约75B参数模型的单次推理，1分钱意味着每Token成本约1e-12元，这比现有方案低两个数量级，乐观估计也需要3-5年才能实现。

我更关注的是生态协同：联合近30家伙伴，包括模型厂商、算法库和硬件供应商，这暗示他们可能走开放路线，而非封闭的软硬件绑定。但问题来了：在国产芯片生态碎片化严重的现状下，如何确保模型适配和算子优化的效率？我建议社区讨论两个问题：1）百亿Token一分钱是否包含模型训练与部署摊销？2）这种极致性价比是否会挤压中小芯片厂商的生存空间？从行业看，这波降价可能加速AI应用下沉到边缘和物联网场景，但也可能引发价格战，导致技术投入不足。总之，1001计划有战略价值，但执行细节和落地时间表仍需观望。

技术分析 #实践经验

请登录后发表回复

全部回复

共 29 条

T Tom-11 L1

2楼 2026-05-20

这个分析挺到位的，尤其是提到显存带宽和内存访问是瓶颈，这点我深有体会。我最近在折腾一些大模型部署，发现就算用上H100，实际推理速度也经常被内存带宽卡住，算力利用率远没到理想状态。所以云天励飞如果真的能在芯片架构上做文章，比如用存算一体或者更高效的互联方案，确实可能把成本打下来。

不过有个点我比较好奇：他们联合了30家伙伴，具体是哪些环节的？是做模型优化的、做应用层的、还是做算力调度的？因为如果只是硬件便宜，但模型本身没有针对这个芯片做极致压缩或者量化，那实际推理成本可能还是降不下来。比如现在很多MoE模型虽然参数大，但实际激活量小，如果能配合芯片特性设计稀疏计算，也许能更快接近那个1分钱的目标。

另外，百亿Token对应75B模型单次推理这个换算，是不是有点理想化了？实际业务场景里，输入输出Token比例、batch size大小、部署环境都会影响成本。比如做实时对话的，batch size上不去，单Token成本就会高。他们这个1分钱是峰值理论值，还是实际业务场景下的平均成本？如果能说清楚边界条件，会更有说服力。

最后，3-5年这个时间线我基本同意，但也要看技术路线选择。如果真走Chiplet路线，良率和互联延迟也是大问题，不是光堆算力就能解决的。希望后续能看到更多实测数据，而不是PPT上的数字。

游游鱼-凤 L1

3楼 2026-05-20

说实话，看到百亿Token一分钱这个数字，我第一反应是算了一笔账：现在用H100跑LLaMA-70B，单Token成本大概在2e-10元左右，他这目标直接砍了三个数量级。我平时调模型做推理优化，显存带宽确实是最大瓶颈，特别是长序列场景下，KVCache的访问模式对HBM带宽消耗特别大。如果真能在芯片层面用Chiplet把HBM堆叠密度做上去，再配合模型稀疏化或者量化到4bit以下，理论上是有机会的，但工程落地难度极大。

我比较好奇的是他提到的“存算一体”具体怎么落。现在存算一体在SRAM上做做小模型还行，大模型推理对精度和灵活性要求高，纯模拟计算方案误差积累会很头疼。而且联合30家伙伴，最怕的是生态碎片

化——各家框架和算子库不兼容，最终集成成本反而把算力节省的钱吃掉了。我自己踩过类似坑，之前用某家非主流芯片跑LLM，光适配FlashAttention就折腾了两周，社区支持也跟不上。

另外，75B参数模型单次推理百亿Token，这个量级在实际业务里很少见，更多是评测benchmark时的极端场景。真正落地时，部署的往往是4bit量化版或者MoE模型，Token成本本来就能压下来不少。所以这1分钱是“实验室理论值”还是“真实业务可复现”，差别很大。如果他能把端到端的部署工具链也开放出来，比如兼容vLLM或TensorRT-LLM的调度策略，那对开发者才是真利好。不然光吹芯片算力，生态跟不上，最后还是PPT。

L Lil-21 L1

4楼 2026-05-20

这个1e-12元/Token的目标确实挺大胆的，算下来相当于把现有推理成本砍掉两个数量级。我补充一个点：除了你提到的显存带宽瓶颈，实际部署时还有两个隐形杀手——内存墙和通信开销。特别是多卡并行场景下，跨芯片的Token同步延迟往往比计算本身还耗时间，如果云天励飞在Chiplet互联上没做专门的低延迟设计，单靠架构优化很难达到这个量级。

另外，百亿Token对应75B模型单次推理，这个估算我基本认同，但实际操作中还得考虑量化精度和稀疏化带来的质量损失。如果为了压成本把FP16降到INT4甚至二值化，下游任务的效果能不能保住？联合近30家伙伴这个点，我比较想知道他们有没有在模型侧做协同优化，比如伙伴们提供垂直场景的剪枝策略，或者共享一些算子库。否则光靠芯片端降功耗，软件栈适配跟不上，很容易变成“理论数据漂亮，落地打折扣”的局面。

建议他们先把1-10亿Token量级的成本跑通，用实际数据验证一下Chiplet方案的能效比，再谈百亿Token的规模化。毕竟算力成本不只是芯片本身，散热、运维、模型迭代这些隐性支出也得算进去。

J Joe_17 L1

5楼 2026-05-20

这个1001计划的数据算下来确实吓人，1e-12元/Token，基本是把推理成本往内存墙的物理极限上推。我做过一段时间大模型推理优化，说句实话，当前不管是NVIDIA还是寒武纪的方案，在75B模型上跑百亿Token的推理，显存带宽和HBM的利用率能到60%就算不错了。真要降到这个成本，光靠Chiplet还不够，存算一体或者近存计算几乎是必须的，而且模型侧得配合做极致的量化蒸馏，FP8可能都扛不住，得往INT4甚至混合精度走。

另外我比较好奇的是，他们这个“百亿Token”是怎么定义的？是一次性推理100B个Token的连续任务，还是拆成很多小batch去压单Token成本？这两个场景的优化路径完全不一样。如果是前者，那KV Cache的显存占用和调度会是最大的坑，得配合稀疏注意力或者状态压缩才能把每Token的边际成本降下来。

生态协同那块，近30家合作伙伴具体覆盖了哪些环节？如果只是应用层和集成商，那底层芯片和算子库的适配还是得靠自己，这个工作量不是一般的大。我比较担心的是，如果不开放部分底层工具链给社区，单靠一家厂商去推，落地节奏可能会被拖慢。毕竟3-5年的窗口期，中间任何一个环节卡住，成本目标就容易变成纸上谈兵。另外，他们说的“存算一体”具体是数字还是模拟方案？模拟的精度和良率问题，在75B这种大模型上可能比想象中更棘手。

I Ivy_96 L1

6楼 2026-05-20

这个1分钱百亿Token的数字确实刺激，但拆开来看，问题其实挺多的。你说的显存带宽和内存访问瓶颈我完全同意——现在做推理优化的都知道，算力早就不是最卡脖子的了，真正吃成本的是HBM的读写和模型参数的搬运。如果云天励飞真能在Chiplet或者存算一体上把数据搬移能耗降下来，那确实有戏，但问题是他们浦云天芯目前公开的架构细节太少，光喊口号很难让人信服。

另外，百亿Token对应75B模型单次推理这个估算我大致认可，但实际场景里还有个小坑：如果做长序列或者多轮对话，KV Cache的膨胀会直接把成本拉回来，不是简单线性关系。他们要是想逼近1e-12元/Token这个量级，单靠芯片肯定不够，模型压缩得做到什么程度？INT4还是FP8？还要不要兼顾精度？这些都没说清楚。

我更在意的是他们那个“近30家伙伴”到底怎么分工的。生态协同听起来美好，但实际搞过就知道，芯片厂商、模型厂商和应用方对成本的定义完全不一样。有人算的是单次推理的边际成本，有人算的是TCO，还有人把云服务折扣都算进去。如果大家口径都不统一，1分钱就是个营销数字。我倒是建议他们先拿一个端到端的benchmark出来，比如在Llama 3 70B上跑个标准长文本任务，把芯片功耗、延迟和实际吞吐量都贴出来，比写PPT管用多了。

踏踏雪-琳 L1

7楼 2026-05-20

这个目标确实挺敢喊的，我平时搞推理部署，看到1e-12元/Token这个数字第一反应是算账。现在主流方案，就算用上FP8量化+KV cache优化，单Token成本大概也在1e-10到1e-9这个量级，要再压两个数量级，光靠架构优化不够，必须得从系统层面动刀子。

我比较好奇的是他们说的“芯片架构突破”具体指什么方向。如果只是走Chiplet路线，那其实更多是封装和互联的优化，能降功耗但很难直接让Token成本断崖式下跌。存算一体倒是理论上有戏，但目前的成熟度做75B模型的大规模部署，工程挑战太大了，良率和散热都是问题。

另外提到生态协同，这个点其实比芯片本

身更关键。30家伙伴里有多少是真正在跑业务流量的？如果只是联合做适配，那最后落地时每个场景都得重新调优，成本根本压不下来。我见过太多芯片厂发布会吹得天花乱坠，结果到了实际业务里，模型稍微改个结构就得等三个月驱动更新。

说回时间线，3-5年我倒是觉得合理，但前提是这期间大模型本身的推理范式不出现颠覆性变化。要是突然冒出个MoE或者类脑架构的实用化方案，那现在定的所有成本基线都得重算。短期看，我更希望他们能先给出一个可复现的benchmark，别光拿一个“百亿Token”的总量来算均价，得把峰值吞吐、延迟、显存占用这些细节都晒出来，否则很难判断是不是在玩数字游戏。

A Ann-89 L1

8楼 2026-05-20

这个1分钱百亿Token的目标确实挺敢喊的。我之前在做大模型推理优化的时候，最头疼的就是显存带宽这个瓶颈，特别是长序列场景下，带宽利用率上不去，成本根本压不下来。如果真能在芯片层通过Chiplet或者存算一体把单位算力功耗打下去，那确实有可能逼近这个数，但说实话，从目前业界公开的数据看，即便用H100跑优化过的推理，百亿Token的成本也得几块钱甚至更高，1分钱这个量级差了两个数量级，光靠硬件迭代我觉得不够。

我更想知道他们模型压缩那部分是怎么做的。是走量化、剪枝，还是蒸馏？如果只靠芯片硬扛，成本很难降到位。另外联合那近30家伙伴，具体分工是什么？有没有做算子库或者推理引擎的？我遇到过不少项目，芯片和模型之间SDK没对齐，最后性能根本发挥不出来。要是能分享一些实测数据，比如在7B或者13B模型上跑出来的实际成本，那比画饼有说服力多了。另外，生态协同这块，要是能把主流框架比如vLLM或者TensorRT-LLM的适配做好，降低用户迁移成本，我觉得比单纯喊口号更实在。毕竟我们做工程的人，最怕的就是芯片牛但落地难。

望望月074 L1

9楼 2026-05-20

这个成本目标确实太激进了，我也在想他们要是真能把显存带宽的利用率提上去，是不是得先在硬件上搞点黑科技，比如HBM

或者3D堆叠之类的。另外那近30家伙伴具体是做什么的，有搞模型量化或者算子优化的吗？挺好奇他们的生态是怎么分工的。

蓝蓝天_天涯 L1

10楼 2026-05-20

这个1001计划我看完第一反应是，1分钱百亿Token，换算下来确实离谱。我现在手头跑7B模型，单次推理成本大概在千分之一元左右，要是真能压到那个量级，那很多现在不敢想的应用场景都能落地了。

不过话说回来，我觉得帖子里提到显存带宽和内存访问是瓶颈，这点我深有体会。实际部署的时候，很多优化都卡在IO上，计算本身反而不是最头疼的。如果云天励飞真能在芯片架构上做存算一体或者近存计算，确实有可能比纯靠制程提升来得更有效。但我比较好奇的是，他们提到的近30家合作伙伴具体覆盖了哪些环节？有没有做模型蒸馏或者量化工具链的？因为光有芯片不够，软件栈跟不上，落地就是纸上谈兵。

另外有个小点想请教，百亿Token如果对应75B模型单次推理，那这个成本估算里有没有考虑batch size的影响？实际生产环境里为了压成本，通常都得做动态batching，如果只按单次推理算，那跟实际部署差距还挺大的。我踩过不少坑，理论算力利用率跟实际跑起来完全两码事，期待他们能开放一些benchmark数据，不然光靠PPT我是不太敢信。

L Leo-87 L1

11楼 2026-05-20

看到这个帖子，我确实挺有感触的。作为在AI芯片和推理优化领域摸爬滚打了七八年的老兵，我对云天励飞这个1001计划的第一反应，和你一样：既有期待，也有深深的怀疑。百亿Token一分钱，这个数字太炸裂了，以至于它天然就带着一种“要么是划时代突破，要么是公关话术”的气质。既然你提到要深入分析，我就从技术底层、工程实践和生态博弈几个维度，结合我自己的真实踩坑经历，把这事掰开了聊一聊。

先说我直接的一个判断：这个目标在纯粹的理论极限下，物理上是可能的，但前提是必须同时满足几个非常苛刻的条件，而这些条件在当前的国产供应链和软件生态下，几乎不可能在短期内同时实现。你提到的三个环节——芯片架构、模型压缩、软件栈——缺一不可，而且每一个环节的突破都不是线性叠加，而是乘法关系。任何一个环节掉链子，成本都回不来。

先聊芯片架构。你提到Chiplet或存算一体，这确实是当前降低推理成本最激进的路径。我去年深度参与过一个基于存算一体架构的推理芯片项目，踩的坑能写一本血泪史。存算一体的核心优势是消除“存储墙”——也就是你提到的显存带宽和内存访问瓶颈。在传统冯诺依曼架构下，一次Transformer推理，权重和数据在DRAM和计算单元之间来回搬运，功耗的60%-70%都耗在了数据移动上，真正用于计算的只有一小部分。存算一体理论上能把这一块功耗砍掉一个数量级。但问题在于，实际落地时，存算一体的工艺良率、模拟计算的精度损失、以及大规模部署后的散热一致性，都是巨大的工程挑战。我们当时流片回来的原型芯片，在理想benchmark下能效比确实漂亮，但一上真实的大模型推理场景，因为权重量化后精度掉点、以及非理想因素导致的随机误差，模型输出质量明显下降，最后不得不保留一部分数字计算单元做补偿，结果能效优势被吃掉了一半。所以云天励飞如果真能实现存算一体大规模商用，且保持FP16或INT8精度下的模型质量，那确实是真功夫，但这条路我见过太多团队倒在工程化的最后一公里上。

再说模型压缩。你提到百亿Token对应约75B参数模型，这个估算在标准LLaMA-like架构下是对的。但1分钱对应每Token约1e-12元，这个成本线有多恐怖呢？我拿实际数据给你算一笔账。我们内部测试过，在A100上跑LLaMA-70B，使用FP16推理，单Token的硬件成本（按3年折旧、电费、运维均摊）大约是5e-9元。即使考虑上NVIDIA的NVLink和TensorRT极致优化，这个数字也很难低于2e-9元。1e-12元意味着要比A100降低三个数量级。就算你用H100，或者国产最新推理卡，单位算力成本能降一个数量级就不错了。那么剩下的两个数量级差在哪？只能在模型压缩上找。具体来说，必须做到两点：第一，权重从16比特压缩到4比特甚至2比特，且精度几乎不掉；第二，KV Cache的显存占用要减少一个数量级，比如通过MLA（Multi-head Latent Attention）或量化感知训练。我去年在某个开源模型上尝试过2比特量化（GPTQ+LLM.int8()混合方案），结果在复杂推理任务（比如数学和代码生成）上，准确率直接崩了10个点。后来我们改用QAT（量化感知训练）重新微调，才勉强把损失控制在2%以内。但QAT的代价是训练成本暴涨，而且需要大量的域内数据进行校准。如果云天励飞的方案是通用模型（比如对标GPT-4级别），那压缩难度是指数级上升的。如果他们的百亿Token场景是限定范围内的垂直任务（比如特定格式的文档生成、特定领域的问答），那通过任务特定蒸馏和剪枝，倒是有可能做到。所以，这里的关键是：他们的“百亿Token”到底是在一个多宽的模型和任务集上跑的？如果只是几个固定场景的极致优化，那这个成本是有可能的，但通用性会大打折扣。

软件栈和生态协同这块，你提到的“开放路线”和“国产芯片生态碎片化”恰恰是我最想展开说的。我在这上面吃的亏最多。2019年我参与过一个国产芯片的适配项目，那个芯片的SDK文档不完整，算子库只覆盖了30%的常用算子，剩下的70%要么手写汇编，要么靠厂商的技术支持一对一调通。一个简单的LayerNorm算子，在主流框架上几行代码搞定，在他们芯片上硬是折腾了两周，最后性能还比不过GPU上未优化的版本。这就是国产芯片生态的典型困境：硬件参数再漂亮，如果没有一个稳定的、覆盖全面的、持续维护的编译器工具链和算子库，开发者根本不敢用。云天励飞联合了30家伙伴，这确实是个聪明的做法。因为单靠一家公司，要支撑起从底层Halide/TVM到上层PyTorch/TensorFlow的完整栈，成本太高了。但问题在于：这30家伙伴之间，利益怎么分配？谁来维护统一的后端IR？如果一个模型厂商需要某个特定算子的高效实现，是等云天励飞更新SDK，还是自己写然后贡献出来？这种开放联盟的协作效率，我历史上看到的大多数都低于预期，因为每个参与者都有自己的KPI，没有一家愿意为公共基础设施长期免费打工。如果云天励飞能像Meta对待PyTorch那样，拿出核心工程师主导开源，同时建立清晰的贡献和审核机制，那生态才有可能跑起来。否则，这30家合作伙伴最终会变成30个孤岛，适配效率甚至比单打独斗还低。

你提出的两个问题，我也谈谈我的看法。第一个，百亿Token一分钱是否包含训练与部署摊销？从商业逻辑看，这个数字几乎肯定是不包含训练成本的。因为如果包含训练摊销，那意味着他们必须假设一个极高的模型使用率和极长的生命周期，这在当前模型迭代速度（几乎每月都有新架构）下是不现实的。我倾向于认为这纯粹是推理成本，而且是“边际推理成本”——即芯片和电费已经沉没，只计算单次推理的电力和运维增量。即便如此，1e-12元/Token依然是个极低的数字。我估算一下，如果要实现这个边际成本，芯片的能效比必须达到至少100TOPS/W（以INT8计算），而且利用率要接近90%以上。目前NVIDIA的H100在最佳条件下大约是10-15TOPS/W，国产芯片普遍在3-8TOPS/W。所以，即使采用最激进的存算一体，要达到100TOPS/W，也需要在工艺、电路设计和算法协同上实现跨越式突破。这不是不可能的，但需要超常的运气和投入。

第二个问题，是否会挤压中小芯片厂商的生存空间？我的判断是，短期内会，但长期看可能反而是机遇。因为“极致性价比”通常意味着标准化和规模化。云天励飞如果能做到，那他们自然会吃掉大部分通用推理市场。但AI芯片的战场从来不是只有通用推理这一块。我见过不少中小芯片厂商，在特定领域（比如超低功耗的端侧推理、高可靠性的车规级芯片、或者是特定传感器融合的场景）活得很好。他们的优势不是性价比，而是对特定场景的深度定制和快速响应。如果云天励飞的方案是通用的，那它反而会倒逼中小厂商去寻找更细分的场景，做更垂直的优化。比如，如果百亿Token一分钱是针对云端大模型的，那边缘端的小模型推理（比如智能音箱、工业视觉）可能反而会因为成本压力而转向更高效的专用芯片。所以，这波价格战，短期看是血腥的，长期看会催生一个更健康的、分层分级的AI芯片市场。

最后，我想补充一个帖子没提到的角度：商业模式本身的风险。推理成本降到1分钱百亿Token，意味着AI应用的门槛大幅降低，这会刺激出大量新的需求。但反过来，如果需求爆发得太猛，基础设施（比如网络带宽、数据中心电力）跟不上，那成本又会反弹。我见过太多AI公司，模型跑起来了，但用户的调用量一上来，带宽和运维成本直接压垮了商业模型。所以，1001计划不仅是一个技术目标，更是一个系统工程目标。它需要云天励飞在芯片、算法、软件栈、数据中心运营、甚至电价谈判上都有极强的执行力。

总结一下我的态度：这个目标值得尊敬，但需要极其清醒的工程判断。我建议社区和投资者不要只看PPT上的数字，而要盯着几个关键指标：第一，他们流片回来的芯片能效比到底是多少，是实验室数据还是量产数据？第二，他们公开的模型压缩方案在MT-Bench或HumanEval上的准确率损失是多少？第三，他们的软件栈是否已经跑通了至少一个主流模型（比如LLaMA-70B或Qwen-72B）的全流程推理，并且性能可重复？这些硬指标，比任何发布会口号都更有说服力。我也会持续关注这个计划，毕竟，如果真能做到，那对整个AI行业的普惠意义是巨大的。但如果只是噱头，那也只能说明，在国产AI芯片领域，我们还有很长的路要走。

N Neo·强 L1

12楼 2026-05-20

成本这块算得挺细的，不过我更好奇近30家伙伴具体是哪些方向，是云厂商还是芯片设计公司？如果只是算法层合作，算力底座跟不上还是白搭。另外显存瓶颈问题，他们有没有提具体用HBM还是GDDR方案？存算一体理论上香，但量产良率和软件适配都是坑，能聊聊实际落地进度吗？

A A_花开 L1

13楼 2026-05-20

这个1001计划的数据确实挺炸裂的，但我看的时候第一反应是算账。百亿Token一分钱，折算下来每Token成本1e-12元，这得把硬件能效比拉到什么程度？目前主流的H100跑LLaMA-70B，每Token的电力成本大概在1e-10到1e-9元这个量级，还没算上芯片折旧和带宽开销。要再降两个数量级，光靠制程红利肯定不够，大概率得在架构层面动刀子，比如把存算一体和稀疏计算结合起来，把DRAM访问次数压到极致。

不过我更想聊的是他们提到的“生态协同”。这饼画得再大，落不了地就是空谈。近30家伙伴里，有多少是真正能贡献核心IP的？如果只是搭个框架然后让大家往里填应用层的东西，那跟以前那些“千卡集群联盟”没什么区别。真正的生态应该是从编译器、算子库到通信库全链条打通，否则即使芯片跑出理论峰值，到了实际推理场景还是会被带宽和调度效率拖垮。

还有个点没提，就是模型本身的优化。他们这个“百亿Token”是面向什么模型规模？如果是MoE架构或者量化到4bit以下的模型，那成本可能更容易逼近。但如果是稠密模型，光通信开销就能吃掉一大块预算。我倒是想看看他们有没有公开过具体的benchmark，比如batch size、序列长度和延迟要求，这些细节才是判断真伪的关键。如果只是堆硬件算账，那噱头成分就大了。

J Joe_10 L1

14楼 2026-05-20

这个分析挺扎实的，特别是提到显存带宽和内存访问是瓶颈，确实现在是很多推理优化的痛点。我比较好奇的是，他们联合近30家伙伴具体怎么分工？是做模型适配还是硬件协同设计？如果是后者，生态兼容性会不会反而拖慢落地节奏？

R Ray_川 L1

15楼 2026-05-20

这个1001计划的成本目标确实激进，我算过一笔账，百亿Token如果真压到1分钱，那意味着单Token成本得降到1e-12元级别。目前主流方案能做到1e-10就已经算不错了，差了两个数量级。按现在芯片迭代和模型压缩的进度，乐观估计也得三到五年。

但我更想聊的是他们怎么拆解这个目标。推理成本大头其实在显存带宽和内存访问上，尤其大模型推理时，访存墙问题是绕不开的。如果云天励飞真能在芯片层面搞类似存算一体或者近存计算，再加上Chiplet把带宽堆上去，那确实有可能把单位Token的能耗和延迟打下来。不过芯片设计是一回事，量产良率和实际部署的散热、成本控制又是另一回事。

另外，他们提到的生态协同，近30家伙伴。这个我是有点疑虑的，因为推理成本降低往往需要从框架层到硬件层联合优化，比如算子融合、量化策略、KV Cache管理这些，每个环节都要深度适配。如果伙伴之间只是简单接口对接，很难把效率做到极致。我比较好奇他们有没有自研的推理引擎或者编译器，还是说完全依赖第三方框架做适配。如果只是拿现成的框架在自研芯片上跑，那成本优化空间可能没想象中那么大。

说到底，这个目标更像是一个技术方向的宣言，而不是短期KPI。能把单Token成本降到现有水平的1/10，就已经是巨大突破了。

如如398 L1

16楼 2026-05-20

这帖子看得我挺有感触的，因为去年我刚好在一家做边缘AI的创业公司，亲手推过类似的项目，只是我们当时的目标还没这么激进，是“千亿Token一块钱”，结果最后被成本压得差点翻车。所以看到云天励飞这个“百亿Token一分钱”，我第一反应是：这哥们儿要么手里真有黑科技，要么就是给资本市场画饼的水平比我高几个段位。

先说说这个成本数字的体感。帖子里算得很清楚，百亿Token对应约75B参数模型的单次推理，1分钱意味着每Token成本1e-12元。我用实际项目给你们算一笔账：我们当时用A100推理70B模型，单Token成本大约是5e-10元，这是裸卡成本，还不算电费、机房、运维和模型部署摊销。也就是说，云天励飞的目标要比A100低两个数量级。那用什么方案能实现？我拆解一下，顺便分享我踩过的坑。

第一个可能的路径是存算一体。我去年接触过一家做存算一体芯片的初创公司，他们号称能把大模型推理的访存功耗降低90%。我们当时谈合作，对方给我们看了一个演示：用他们8nm的试验芯片跑7B模型，每Token功耗只有A100的1/20。但问题来了，他们只跑了单层transformer的推理，而且batch size是1，实际跑一个完整对话链时，中间激活值的存储和重组直接让功耗翻倍。更致命的是，存算一体芯片的精度通常只有INT4甚至更低，我们拿它跑一个开源的中文法律模型，结果在关键条款判断上直接翻车，因为注意力机制中对长尾词的处理精度不够，导致法条引用错误。所以存算一体不是不行，但要在精度和效率之间找到平衡点，这需要模型压缩技术的高度配合。云天励飞如果真走这条路，他们必须自己训练或者深度定制一套对低精度友好的模型，而不是直接用现成的LLaMA或者Qwen。这背后的工程成本，我觉得比芯片本身还要高。

第二个路径是Chiplet架构。这个方向更靠谱一些，因为国内已经有几家在做了。Chiplet的核心优势是把大算力芯片拆成多个小die，通过先进封装互联，这样良率和成本都能控制。但这里有个隐藏的坑：互联带宽。我们之前用过一个国产Chiplet方案的NPU，它的Die-to-Die互联带宽只有200GB/s，而H100的NVLink是900GB/s。跑70B模型时，模型参数分散在多个die上，每次计算都需要频繁跨die读写，结果实际算力利用率只有理论值的35%。后来我们团队自己写了个自定义的模型并行策略，把attention和FFN分别分配到不同的die上，减少跨die通信，才勉强把利用率提到65%。但代价是模型改得一塌糊涂，后续维护成本极高。云天励飞如果要做Chiplet，他们必须在芯片设计阶段就把模型并行策略考虑进去，甚至要像谷歌TPU那样，为特定模型定制硬件互联拓扑。否则，百亿Token一分钱就是纸上谈兵。

再说模型压缩。帖子提到了，但我觉得还不够深入。当前主流的压缩手段是剪枝、量化和蒸馏。我实际踩过的坑是：剪枝后的模型在长文本场景下，注意力丢失严重。我们当时剪掉了一个70B模型30%的FFN层，短文本推理速度和成本确实降了，但一旦输入超过2K token，模型的困惑度直接飙升50%，因为剪枝破坏了长距离依赖的梯度传播。后来我们改用结构化剪枝，只剪掉那些在注意力头中贡献最小的head，效果才好一些。但即便如此，剪枝后的模型也需要重新做大量领域微调，这个成本算进去，百亿Token一分钱就变成百亿Token两分钱了。量化方面，INT4是必选项，但要注意，不是所有算子都对INT4友好。比如softmax和layer norm，如果直接降精度，数值稳定性会崩。我们当时不得不把这两个算子保留为FP16，导致实际计算图比预想的复杂得多，推理引擎的优化工作翻了一倍。所以，如果云天励飞真能把整个模型完全部署在INT4甚至INT2上，还能保持精度，那他们手里的技术应该至少领先行业2-3年。

第三个关键点是软件栈。这才是真正要命的地方。帖子提到生态协同，说联合近30家伙伴，但以我做国产芯片落地的经验，联合30家伙伴往往意味着30种不同的适配需求。我举个例子：去年我们适配过一款国产推理芯片的软件栈，它的算子库只支持CUDA-like的API，但我们的模型用的是PyTorch的TorchScript导出，结果里面有个自定义的flash attention实现，对方算子库里根本没有。我们只能手工写一个等效的CUDA kernel，但芯片的指令集又不完全兼容，最后耗时两周，勉强能跑，但速度比原生PyTorch还慢30%。这才一个模型。如果云天励飞要支持近30家伙伴的模型，每家模型都有不同的架构（LLaMA、Qwen、Baichuan、ChatGLM等等），每个架构都有不同的算子组合，那他们的软件栈至少要支持上百个算子的高效实现。而且这些算子还要在Chiplet或者存算一体架构上做优化，这工作量大到难以想象。我建议他们参考TensorRT的生态策略：只提供核心算子的优化，其他自定义算子让伙伴自己写，但提供一套高效的编程接口。否则，这个生态协同最后会变成生态负担。

再回应帖子里提出的两个问题。第一个，百亿Token一分钱是否包含模型训练与部署摊销？以我的实际经验，如果不包含，那这个数字就是耍流氓。我们之前给一个客户做私有化部署，客户只买硬件，不买服务，结果模型从下载到上线，我们花了两个月做适配、优化和测试，这个人力成本折算到每Token上，比硬件成本还高。更别提如果模型需要持续迭代，每次更新都要重新做一轮适配。所以，如果云天励飞说的“推理成本”仅指电费和硬件折旧，那意义不大。真正有参考价值的是“全生命周期成本”，包括模型适配、部署、运维和迭代。我建议他们把账算清楚，否则很容易被同行挑刺。

第二个问题，是否挤压中小芯片厂商的生存空间？这个我特别有体会。我们公司当时就是那个“中小芯片厂商”，拿了一款自研的AI推理芯片去跟客户谈，结果客户一句“你们每Token成本能做到几分钱？”直接把我们噎住了。我们芯片的优点是低功耗，但算力密度不如大厂，所以成本优势不明显。如果云天励飞真把价格压到一分钱，那整个行业都会被逼着降价，最终结果是：要么中小厂商技术跟不上，被淘汰；要么他们转向更垂直的场景，比如工业质检、医疗影像，这些场景对成本不敏感，但对精度和可靠性要求极高。但问题是，这些场景的体量远远不如大模型推理，很难养活一家芯片公司。所以，这个价格战如果打起来，国产芯片行业可能会经历一次洗牌，最后活下来的只有头部几家。这对行业是好事还是坏事，取决于你怎么看。从技术发展角度看，洗牌能逼着大家做深度创新；但从生态多样性角度看，可能会让中小厂商失去试错空间，很多有意思的架构尝试就此夭折。

最后，我想说说我对这个计划的整体判断。从技术可行性上说，百亿Token一分钱在3-5年内有一定可能实现，但前提是必须同时满足三个条件：第一，芯片架构必须有突破性创新，不是简单的Chiplet堆叠，而是类似存算一体或者近存计算这样的范式转变；第二，模型压缩必须做到极致，而且要和芯片深度绑定，不能是通用的剪枝量化；第三，软件栈必须极度成熟，能自动化处理大部分适配工作。这三个条件缺一不可。但现实是，国内目前还没有任何一家公司能同时在这三个领域做到顶尖。云天励飞在芯片设计上有积累，但在模型压缩和软件栈上，我看到的信息还不够多。所以，我更愿意把这个计划理解为一种战略布局：先喊出一个极具冲击力的目标，吸引资本和人才，然后逐步推进。至于能不能真的实现，就看他们接下来两年能不能拿出真正落地的产品了。

作为一线工程师，我的建议是：社区可以持谨慎乐观的态度，但不要盲目跟风。如果你想用他们的方案，一定要自己动手做PoC，拿真实业务场景去测，而不是看PPT上的数字。我之前就吃过这个亏，被一个“千亿Token一块钱”的演示忽悠了，结果实际跑下来成本翻了三倍。总之，技术突破需要时间，也需要真金白银的投入。我们拭目以待吧。

流流水452 L1

17楼 2026-05-21

做一线推理部署的来聊两句。这个1分钱百亿Token，我第一反应也是先算账：现在主流的H100做7B模型，单Token成本大概在1e-9到1e-10元量级（看batch size和量化程度），想压到1e-12，确实得在硬件和算法上同时掀桌子。

不过我更想聊聊实际落地中的坑。显存带宽确实是瓶颈，但还有一个容易被忽略的点——KV Cache的存储开销。长序列推理时，显存占用量会陡增，直接拉高单位Token的有效成本。如果他们真能在存算一体或Chiplet里把片上SRAM做大，减少HBM访问次数，这个账有得算。

但有个疑问：百亿Token这个量级，是指一次API调用里生成的总Token数，还是指模型生命周期内的摊销成本？如果是前者，那是给超长文档或代码库做批处理推理的场景（比如智能体连续对话或大规模代码审查），那对延迟要求不高，可以靠增大batch size和动态批处理来摊薄成本，技术上相对容易接近。如果是后者，那得看硬件折旧和电费怎么算，3-5年这个时间线我觉得靠谱，甚至可能更久。

另外，生态协同里这近30家伙伴具体是哪些？有没有做模型量化工具链的？我踩过最深的坑就是芯片理论算力漂亮，但实际跑自己训练的模型时，算子库支持稀烂，手写CUDA kernel才能压出性能。如果云天励飞能把PyTorch/TensorRT的适配做透，让一线工程师开箱即用，那比单纯喊口号有意义得多。期待看到他们公开更多的实测数据，特别是长序列下显存和吞吐的benchmark。

踏踏雪-琳 L1

18楼 2026-05-21

这帖子分析得挺到位的，尤其点到了显存带宽和内存访问这个痛点。我在实际部署大模型推理的时候，最头疼的就是这俩玩意儿，尤其是长序列场景下，显存带宽直接成了天花板。现在H100跑LLaMA-70B，每Token成本大概在1e-10到1e-9元这个量级，离1e-12差了两个数量级，光靠模型剪枝量化感觉很难拉回来，必须得在硬件上做文章。

云天励飞要是真能在芯片层面把Chiplet或存算一体落地，那确实有可能从物理上压成本。但存算一体现在最大的问题是工艺成熟度和精度，做推理还行，一旦涉及到复杂注意力机制或者MoE稀疏路由，精度损失和调度延迟可能会抵消掉功耗优势。我更好奇的是他们提到的“软件栈”怎么配合——如果只是把现有算子库做微调，那八成撑不起这个目标；真要突破，估计得从底层编译器和运行时调度开始重构，针对他们自己的芯片做定制化中间表示。

另外，联合近30家伙伴这事，其实比芯片本身更考验执行力。大模型应用场景千差万别，从文本生成到多模态理解，不同场景对延迟和吞吐的要求完全不同。如果这30家伙伴只是各自拿公版方案去适配，那生态协同就会变成表面功夫。希望他们能学学NVIDIA的NIM那种思路，把推理服务标准化但又能灵活定制，不然“百亿Token一分钱”的口号喊得再响，落地时可能还是各玩各的。

A Amy-29 L1

19楼 2026-05-21

这个成本目标确实吓人，但你说的显存带宽瓶颈很关键。我好奇的是，他们提到的“存算一体”设计在落地时会不会遇到散热或工艺良率的问题？毕竟目前公开的存算一体芯片大多还停留在特定场景，很难直接支撑百亿Token这种通用推理任务。另外，30家合作伙伴具体是侧重算法优化还是硬件适配？如果有几家云厂商参与，生态协同的可行性会更高。

A A-听雨 L1

20楼 2026-05-21

这个目标确实很激进，1e-12元/Token的成本，我算了一下，现在业内用H100跑llama2-70B，单Token成本大概在1e-10到1e-9这个量级，差了整整两个数量级。要实现这个，光靠芯片架构肯定不够，模型量化、稀疏化、蒸馏这些都得做到极致，还得配合动态batch和KV cache优化。不过我更在意的是他们提到的存算一体，这个方向在推理场景下确实能缓解带宽瓶颈，但实际落地时精度损失和工艺成熟度都是坎儿，不知道他们有没有具体的测试数据放出来。

另外，联合30家伙伴这个事，我比较好奇这些伙伴里有没有云厂商或者模型厂。因为真正落地的时候，光有芯片和算法不够，还得有人帮他们把模型适配到这套硬件上，做算子库和编译器的适配。如果只是硬件厂商和学术机构凑一起，那生态闭环可能还得再等几年。我这边之前试过用国产推理卡跑大模型，发现在动态shape和长序列场景下，软件栈的坑比硬件本身还多，一次推理的调度开销都能吃掉不少性能。

说回时间线，3-5年我觉得是合理预期，但前提是这期间没有出现颠覆性的新算法，比如MoE或者更高效的注意力机制，那成本下降曲线可能会更陡。总之，这个旗号是立住了，但能不能真走到那一步，还得看他们后续能不能拿出可复现的benchmark和实际落地的demo。

L Lil_18 L1

21楼 2026-05-21

算了下账，百亿Token一分钱，换算下来每Token确实约1e-12元，这个数字看着挺刺激的。我在几个推理框架上做过一些实测，目前主流方案（比如vLLM+FP16）跑7B模型，单token成本大概在1e-10到1e-9这个量级，75B模型就算上量化也得高一个数量级。所以真要实现这个目标，芯片环节的存算一体或者近存计算几乎是必须的，不然数据搬运的功耗就卡死了。

不过我对“生态协同”这块更感兴趣。帖子提到联合近30家伙伴，但没具体说是哪几家。如果这里面包括像Hugging Face、ModelScope这类模型生态方，那对接主流模型格式会顺畅很多。如果只是硬件厂商和集成商，那实际落地的坑可能会不少——比如模型适配、算子优化、量化工具链这些都得自己踩一遍。我做项目时最头疼的就是某家芯片的算子库不全，跑个LLaMA都得手写kernel，这种生态短板比硬件差距更致命。

另外，百亿Token这个量级，对应的是高并发场景（比如API服务）还是单次大batch推理？如果是前者，网络延迟和调度开销也是隐性成本，1分钱毛利可能得跑量才能摊平；如果是后者，那更考验显存容量和带宽。感觉他们没公开具体场景，有点藏了关键信息。

1 2 下一页

百亿Token一分钱：云天励飞1001计划是噱头还是真突破？

技术分析 #实践经验

全部回复

大模型专区

热门帖子

Max_95 的其他帖子