云天励飞提出的‘1001计划’目标很激进:百亿Token推理成本降到1分钱。从技术角度看,这需要芯片架构、模型压缩和推理引擎三端同时发力。我个人经验是,当前主流大模型推理中,显存带宽和计算效率是主要瓶颈,尤其是Attention机制的访存开销。如果能通过存算一体或近存计算架构(如浦云天芯可能采用的方案)将每Token能耗降低一个数量级,成本下降才有物理基础。但‘百亿Token’这个量级——相当于约2000万次中等长度对话——1分钱意味着单次推理成本低于5e-8元,这比现有主流方案(如A100集群)低两个数量级。我持谨慎乐观:协同优化是正确方向,但芯片流片和软件栈成熟度至少需要18-24个月才能验证。行业格局上,这可能会倒逼英伟达和AMD在边缘推理市场降价,同时推动国产AI芯片从‘能用’走向‘好用’。想请教两个问题:1)如果成本真降到这个水平,是否会催生‘Token批发’式的新商业模型(如按Token包月订阅)?2)模型量化到4-bit以下时,如何保证长尾任务的精度不崩?期待大家分享实测数据。
百亿Token一分钱:云天励飞是画饼还是真突破?
全部回复
共 28 条这个“1001计划”我看了下细节,关键其实不在于“百亿Token一分钱”这个口号本身,而是他们敢不敢把成本拆解到芯片层面的每比特能耗和访存带宽利用率上公开对标。目前A100在做长序列推理时,Attention的QKV投影和softmax归一化占的显存带宽消耗至少是计算量的5-10倍,这是物理天花板。如果云天励飞真能做到存算一体或者近存计算,那确实能绕开HBM带宽瓶颈,但问题在于他们浦云天芯的制程和片上SRAM容量够不够支撑百亿Token级别的KV Cache命中率。
我比较关心的是他们提的“模型压缩”具体指什么。如果是纯量化到INT4甚至INT2,那精度损失在长文本任务里会非常明显,尤其是需要上下文连贯性的场景。如果同时做稀疏化或者知识蒸馏,那训练侧的算力成本又得另算。另外推理引擎的算子融合和内存管理也很关键,比如FlashAttention那种tiling策略是不是已经移植到他们的芯片上?这块如果只是拿开源框架改改,那软硬协同优化的深度可能不够。
最后说句实在的,1分钱百亿Token这个数字,换算下来每Token成本比现在云端大模型API的报价低两个数量级,但如果只对标小模型或者垂直场景(比如代码补全、短文本分类),那其实现有方案通过批处理和量化也能做到接近。他们要是能在长文本、多轮对话这种高复杂度场景下做到这个成本,那才叫真突破。建议他们先放一个第三方可复现的benchmark,别光靠PPT吹。
老实说,百亿Token一分钱这个目标,单看数字就知道有多难。我现在用vLLM跑Llama 3 70B,光显存带宽瓶颈就卡得死死的,就算存算一体把能耗降下来,软件栈适配和算子优化也是个巨坑。18-24个月能跑通小规模验证我觉得都算快的,大规模落地怕是要更久。你提到的Attention访存优化,其实现在FlashAttention已经做得不错了,但还得看他们具体怎么改硬件。
做推理优化的看到这个目标只能苦笑,现在A100跑百亿token光电费都不止一分钱。存算一体方向是对的,但Attention的访存瓶颈不是单靠架构能解决的,还得看模型侧怎么配合做稀疏化和量化。浦云天芯的流片进度有公开时间表吗?我比较关心他们软件栈对主流框架的兼容性,否则模型切分和算子适配就够折腾大半年的。
这个分析很实在,存算一体确实是降本的关键路径,但百亿Token一分钱这个目标确实激进得有点吓人。我更关心的是他们软件栈的兼容性——现有PyTorch/Triton生态能不能直接跑,还是得重写算子?要是迁移成本太高,就算芯片流片成功也可能叫好不叫座。
存算一体这条路方向确实对,但Attention的访存瓶颈不光是带宽,还有片上SRAM和HBM之间的数据搬运开销,光靠近存计算不一定能根治。另外百亿Token一分钱这个数字,如果算上电力、散热和运维,实际落地成本恐怕还得再翻倍,关键看他们软件栈能不能把稀疏化和量化做到极致。
这个分析挺扎实的,尤其点出了Attention访存瓶颈和存算一体的物理基础,确实成本要降两个数量级光靠算法优化不太现实。想请教下,如果真按这个路线走,模型压缩这边你觉得得做到什么程度才能配合芯片把单Token能耗压下来?比如量化到4bit够用吗,还是得走更激进的结构剪枝?
流片这事儿我深有体会,之前我们团队跟某家初创合作过存算一体方案,纸面数据确实漂亮,但一到实际跑模型就露馅了。Attention的访存开销确实是硬骨头,就算近存计算能缓解,但软件栈要是跟不上,算子库缺斤少两,最后落地成本可能比A100还高。云天励飞敢喊这个价,要么是已经在某些垂直场景(比如端侧小模型)验证过,要么就是拿实验室数据在画饼。
话说回来,百亿Token一分钱,这个量级如果真能实现,对长上下文任务(比如文档分析、代码生成)会是个大杀器。但问题是,他们提到的“协同优化”具体怎么落地?芯片、压缩、推理引擎三端一起改,这中间耦合度太高了,万一某一环翻车,整个链条都得崩。我更好奇的是他们怎么解决Attention的KV cache带宽问题——是走硬件稀疏化,还是靠量化之后做片上SRAM缓存?后者成本压得狠,但模型精度能不能扛住?
另外,18-24个月这个时间点我打问号。现在大模型迭代速度这么快,明年说不定就有新的架构(比如Mamba那种状态空间模型)来替代Transformer,到时候存算一体方案还得重新适配。与其赌一个激进的成本目标,不如先做好某一端的可落地demo,比如先拿小模型跑通低成本推理,再慢慢往上堆规模。不然等流片出来,市场已经换了玩法,那就尴尬了。
同感,这个“百亿Token一分钱”的目标确实够激进。我专门算了下账,按目前H100集群的推理成本,大概每百万Token要0.5-1美元,换算下来百亿Token得500-1000美元,这中间差了五六个数量级,光靠工艺进步肯定没戏,必须得从架构层面动刀子。
你提到的Attention访存开销是核心痛点,我补充一个点:现在主流方案用FlashAttention虽然缓解了显存带宽压力,但计算效率和内存墙的矛盾其实只是被推迟了。如果真要做存算一体,难点在于如何把大模型的参数矩阵拆成适合近存计算的子块,同时保证精度不掉——这点我看浦云天芯之前发过一篇论文,提了一种非均匀量化+动态稀疏的方案,但那是针对小模型做的验证,放到百亿参数上会不会出现过拟合或者收敛震荡,我挺好奇的。
另外,你提到的“18-24个月”这个时间窗口,我稍微悲观一点。芯片流片回来只是第一步,软件栈的适配才是无底洞。比如Transformer里的softmax和layer norm,这些操作在传统架构上有高度优化的CUDA库,但换成近存计算后,所有算子都得重新设计和调优,而且还得跟PyTorch/TensorFlow的生态打通。我认识的一个创业团队去年流了存算一体芯片,结果发现算子库的覆盖率只有60%,剩下40%得靠手写汇编,性能还不如直接买T4。
不过话说回来,如果真能把推理成本压到那个量级,长上下文应用会彻底改变。比如现在做百万Token级别的文档分析,一次推理要几十块钱,根本没法商业化。要是降到一分钱,那RAG、代码库分析、甚至实时流式推理都能跑通了。你觉得他们这个“1001计划”有没有可能先聚焦在视频或者多模态场景?毕竟云天励飞本身是视觉起家的,这类任务对Token的依赖可能比纯文本更敏感,成本优势也更容易体现。
说实话,这个目标光看数字确实有点吓人,百亿Token一分钱,换算下来比现在A100跑推理便宜两个数量级,真要能做到,那整个AI应用层都得重新洗牌。
不过我比较好奇的是,你说的存算一体或者近存计算架构,云天励飞之前有公开过具体的芯片设计细节吗?我之前看过他们一些专利,感觉更多还是集中在编译器优化和算子融合上,真正在架构层面突破的不多。而且注意力机制的访存开销确实是硬骨头,现在FlashAttention已经优化了一轮,再往下压空间到底有多大,这个可能得看他们浦云天芯的实际测试数据。
另一个问题就是,这种极致的成本压降会不会牺牲通用性?比如只对特定模型结构或者特定batch大小有效,换个场景或者模型尺寸效果就大打折扣。这种“特化优化”在社区里其实挺常见的,芯片流片前吹得天花乱坠,流片回来发现只能跑自家那套demo。你说需要18到24个月,我倒觉得这个时间还算乐观,软件栈和工具链的适配往往比芯片本身更磨人。
总之,方向是对的,但数字太漂亮反而让人心里打鼓。能不能找个机会弄点真实跑分出来,哪怕先在小规模场景验证一下,也比光喊口号有说服力。
这个“1001计划”目标确实激进,我仔细算过一笔账:按现在H100集群跑Llama-70B的典型成本,单次推理大概在1e-6到5e-6元/Token之间,百亿Token一分钱意味着要压到5e-10元/Token,这可不是简单优化就能实现的,得在硬件、算法、系统三个层面同时产生量级突破。
Attention机制的访存瓶颈确实是硬骨头,但我觉得更棘手的是KV cache的显存占用——长序列下这玩意儿膨胀得厉害。如果浦云天芯真打算走存算一体路线,那得有办法同时解决SRAM容量和带宽的耦合问题,否则注意力头数一多,数据搬运照样把功耗吃回来。另外,模型压缩这块,单纯靠量化到INT4或者剪枝,精度损失在复杂推理任务上很难扛住,得看他们有没有类似稀疏激活或者动态专家路由这类更进阶的方案。
不过话说回来,这个成本目标如果真能实现,边缘端设备跑本地推理就不是梦了。我比较关心的是他们提的“百亿Token”是指单芯片还是集群?如果是单芯片做到这个吞吐,那散热和良率都会是巨大挑战。流片确实要18到24个月,但软件栈的成熟度更难搞——CUDA生态绑定了这么多年,他们得拿出足够有说服力的算子库和编译栈,否则开发迁移成本会吓跑客户。建议他们先放个针对特定模型(比如7B级)的小规模Demo,用实际benchmark说话,比画大饼靠谱多了。
这个分析挺扎实的,尤其是把attention访存开销和存算一体架构的关联点出来了。我比较好奇的是,他们提到的“协同优化”具体在模型压缩这端有没有什么新思路?比如量化到什么精度、或者有没有针对specific算子做定制剪枝?毕竟光靠芯片硬扛,软件栈跟不上也白搭。
看到这个帖子,我忍不住登录上来回复一下。我是做AI infra的,最近两年主要精力就在大模型推理优化上,从底层算子手写到上层调度都干过,踩过的坑确实不少。你说的这个云天励飞“1001计划”,我第一反应也是“好家伙,这饼画得有点大”,但仔细想想,也不是完全没可能,只是需要拆开来看,而且得看他们到底想卖什么。
先说你最核心的问题:百亿Token一分钱,这个数字到底是不是吹牛?我直接给个结论:如果是在特定场景、特定模型、特定硬件上,通过极致优化,达到这个量级的成本是有可能的,但不会是通用大模型,也不会是云端弹性推理。你提到A100集群,那我们来算一笔账。现在主流云端推理,用A100 80G跑Llama 2 7B,如果做4-bit量化加vLLM这种框架,单卡吞吐大概能到每秒2000-3000 token左右(取决于序列长度和batch size)。一个A100按市场价大概每小时3-5美元(算上电费和折旧)。那么每token成本大概在 5e-6 到 1e-5 美元之间,折合人民币大概 3e-5 到 7e-5 元。也就是说,现在百亿Token的成本大概在3万到7万人民币之间。云天励飞说降到1分钱,也就是100亿Token只要0.01元,这相当于把成本压低了三个数量级。这个差距确实大得离谱。
但注意,这里有个关键前提:A100集群的推理是高度通用的,要处理各种输入长度、各种并发请求、各种batch size变化。而云天励飞如果做的是专用芯片加专用模型,那情况完全不同。我举个例子,去年我们团队给一个智能客服项目做模型部署,客户要求极致低成本,我们最后选的是自研的2B参数模型,用4-bit量化(QAT训练过的),然后在FPGA上实现了一个定制的推理流水线。那个场景非常固定:输入长度不超过512 token,输出长度不超过128 token,batch size固定为1(因为并发量不高,但延迟要求极低)。最后我们测出来的单token成本大概在 1e-7 元量级,如果把这个模型部署到更先进的近存计算芯片上,再压一个数量级是有可能的。所以,如果云天励飞的目标场景是类似这种高度定制化的边缘推理(比如智能摄像头、IoT设备、嵌入式终端),那么百亿Token一分钱并不是天方夜谭,只是这个“Token”和我们平时说的云端大模型Token不是一回事。他们的Token很可能来自一个非常小、非常量化的模型,而且输入输出都很短。
不过,我特别同意你提到的“存算一体或近存计算架构”是关键。我做过一个实验,用HBM2e的带宽和DDR4的带宽分别跑同一个Transformer模型,结果显存带宽瓶颈占了整个推理时间的70%以上。Attention那块儿的QKV投影和softmax确实吃带宽,尤其是长序列场景。所以任何能把计算和存储更紧密耦合的架构,理论上都能大幅降低每Token能耗。但这里有个坑:存算一体芯片的编程模型非常不友好。我去年接触过一个做存算一体芯片的创业公司,他们给了一套SDK,但只支持有限的算子组合。我们想在上面跑一个带Flash Attention的模型,结果发现他们根本没有硬件支持那个“online softmax”的融合计算,最后只能退化成逐行计算,导致性能还不如普通的GPU。所以,硬件设计是一回事,软件栈的成熟度是另一回事。云天励飞如果真的要做,他们至少得把自己那套推理引擎和模型编译器打磨到能跑通主流Transformer变体,不然就是空中楼阁。
接下来说你问的两个问题。第一个,如果成本真降到这个水平,会不会催生“Token批发”式的新商业模型?我的答案是:一定会,而且已经在发生了。你想想,现在很多API是按Token计费的,但Token单价对于很多小公司来说还是太高。如果成本降到百亿Token一分钱,那么Token就会变成像流量一样的东西,按M(百万)或者G(十亿)来批发。我见过一个实际案例:有个做AI写作助手的创业公司,他们和云厂商签了“Token年框”,一次性买断100亿Token的推理额度,然后自己内部做二次分发。这种模式本质上就是Token批发。更激进一点,如果成本真的足够低,可能会出现“Token订阅制”,比如用户每月花10块钱,就能获得一定量的Token额度,用不完可以累积。甚至可能出现Token交易所,让大模型用户之间互相买卖闲置Token。这个听起来有点科幻,但逻辑上是通的。不过,这里面有个商业模式上的陷阱:Token的消耗和输入输出长度强相关,如果用户恶意输入超长文本然后只输出几个字,或者反过来,都会导致成本不可控。所以,真正能落地的Token批发模式,一定需要配合严格的“Token使用策略”,比如限制最大输入长度、限制输出长度、限制每个IP的QPS。我见过一些云厂商在做这种细粒度配额管理,但技术上还不成熟,尤其是对于流式推理场景。
第二个问题,模型量化到4-bit以下,长尾任务精度怎么保证?这是我在实际项目中踩过最深的坑之一。我们之前把一个5B参数的代码生成模型量化到4-bit(用GPTQ),平均精度只掉了1个点,看起来非常完美。但上线之后发现,用户反馈说“在某些特定编程语言(比如Rust的宏编程、Haskell的类型推导)上,生成的代码完全不可用”。这就是典型的长尾任务退化。后来我们排查发现,GPTQ的优化目标是全局的loss最小化,但对于那些在训练数据中只出现几次的“长尾”输入模式,量化误差会被放大。怎么解决?我分享一个我们最终采用的有效方案:混合精度量化。具体来说,我们做了一个“注意力得分分析”,把模型中那些在长尾任务上激活值异常大的层(通常是中间几层或者某些Attention head)标记出来,对这些层只量化到8-bit,其他层量化到4-bit。这个方案需要跑一些校准数据,但校准数据不是随机选的,而是专门从长尾任务的数据分布里采样。我们当时从GitHub上爬了一堆Rust、Haskell、Erlang的代码库,然后用这些做校准,效果很明显:长尾任务的精度从20%左右恢复到了80%以上,而整体模型大小只增加了5%。另外,还有一个更前沿的思路是“量化感知训练(QAT)的变种”,叫做“长尾感知量化”。具体做法是在训练阶段,对每个样本的量化误差做加权,权重和该样本在训练数据集中出现的频率成反比。也就是说,越少见的样本,它的量化误差在损失函数中的权重越大。这个实现起来不难,但需要你有一个好的数据频率统计器。我们开源过一套工具(叫“TailQuant”),就是干这个的。如果你感兴趣,可以去看看我们的论文,核心思路就是用一个轻量级的哈希表来记录每个输入模式的频率,然后在QAT的每个step里动态调整量化误差的权重。
最后我想说,云天励飞的“1001计划”能不能成,最终要看他们的芯片能不能在18-24个月内流片成功,并且配套的软件栈能支持主流的模型架构。如果只是画饼,那对行业没啥影响。但如果真能落地,哪怕只做到百亿Token一毛钱(比他们说的目标高一个数量级),也会对整个AI推理市场产生巨大冲击。尤其是对英伟达的Jetson系列和AMD的Ryzen AI系列,这些边缘推理芯片的定价策略一定会被倒逼。国产芯片方面,我比较看好的是那些走“大模型专用芯片”路线的公司,而不是一味追求通用性。毕竟,在特定场景下把成本做到极致,才是小厂弯道超车的机会。至于Token批发模式,我个人非常期待,因为这可能会让AI能力像水电一样普及。但前提是,模型量化技术必须能解决长尾任务退化的问题,否则批发来的Token只能用在“娱乐型”任务上,对严肃的生产场景毫无意义。
这个分析很扎实,尤其是把attention的访存瓶颈点出来了。我最近也在琢磨一个问题:如果真按存算一体走,那模型压缩的精度损失怎么平衡?我看很多论文里做低位宽量化,比如4bit或者混合精度,但实际跑起来对长文本场景影响挺大的。云天励飞要是真想压到百亿token一分钱,是不是得在稀疏化推理或者动态剪枝上搞点新东西?毕竟光靠堆硬件,软件栈跟不上也白搭。
另外我有点好奇,你提到“浦云天芯可能采用的方案”,这个有公开的架构细节或者专利信息可以参考吗?我搜了一圈没找到太具体的,就记得之前他们提过类似近存计算
的思路,但没说怎么解决数据搬运和片上存储的trade-off。如果真是把SRAM和计算单元做紧耦合,那对工艺和散热要求肯定不低,流片成本估计得吓死人。你估计他们现在到哪个阶段了?是已经tape out了还是还在仿真?
最后说句实在的,我试过一些国产芯片跑推理,性能差距倒还好,但生态适配是真的头疼。比如算子库不全、框架支持的精度有限,有时候为了跑通一个模型得自己手写cuda替代方案。如果云天励飞能先把软件栈和主流框架对齐,哪怕性能只到A100的70%,我觉得也比单纯喊口号有意义。毕竟落地才是硬道理。
这分析挺到位的,特别是Attention访存那块,确实是当前推理成本的大头。百亿Token一分钱这个目标,从物理账上看,关键就是存算一体或者近存计算能不能把带宽瓶颈打破。我个人实际测过一些量化后的模型,比如INT8甚至FP4,在显存受限的场景下,Token生成速度确实能翻倍,但代价是精度损失,尤其是长序列场景下,显存带宽利用率很难提上去。
云天励飞如果真能在芯片层面做存算一体,把每Token的能耗从几毫瓦拉到微瓦级别,那成本下降一个数量级是有可能的。但问题在于,他们说的“百亿Token”是单次推理还是累计推理?如果是单次推理,那对内存容量和吞吐量的要求简直是变态级,现有主流方案靠显存堆叠都很难做到,得靠HBM或者3D堆叠技术,这些成本可不低。如果是累计推理,那重点就是推理引擎的批处理和调度优化,这更多是软件层面的活。
我比较好奇的是,他们提到的“浦云天芯”具体是什么架构?是纯数字存算一体,还是混合模拟计算?模拟计算在低精度下效率更高,但噪声和校准问题在规模化部署时非常棘手。另外,软件栈的成熟度更让人担心——现在很多存算一体芯片流片后,配套的编译器、算子库和模型适配工具链都得从头写,这18-24个月的时间点,我觉得可能更偏向乐观估计。如果真能做到,那确实是把现有推理成本打穿了,但前提是别在流片环节翻车。
这个分析很扎实,把成本和物理瓶颈都点透了。我比较好奇的是,云天励飞这个“百亿Token一分钱”的目标,到底是在什么场景下定义的?如果是纯推理(比如对话生成),那确实像你说的,显存带宽和Attention的访存开销是硬骨头,存算一体理论上能把数据搬运功耗降下来,但实际落地时,芯片的利用率、散热、以及和现有软件栈的兼容性都是坑。
我补充一个点:模型压缩这块,他们如果真能把精度做到INT4甚至更低,同时保持输出质量,那成本确实能大幅下降。但问题是,很多压缩后的模型在长序列推理时,误差会累积,尤其是Attention那块,稍微量化不当,输出质量就崩了。不知道他们有没有公开过具体的压缩方案或者测试数据?
另外,“百亿Token”这个量级,按你的逻辑算下来,单次推理成本确实低得离谱。我翻了下他们之前的公开资料,提到“浦云天芯”是面向边缘端的,那这个成本目标可能不是针对云端大模型,而是针对特定场景(比如智能客服、文档摘要)的轻量化模型?如果是这样,那算力密度和带宽需求其实比通用大模型低很多,目标就没那么夸张了。
不过你说得对,芯片流片和软件栈成熟度才是最大变量。现在很多芯片厂商PPT很漂亮,但实际跑起来算子适配不全、显存管理拉胯,性能直接腰斩。我是觉得,他们如果能先把一个小规模场景(比如1000万Token)的成本跑通,验证一下架构可行性,比画百亿Token的大饼更有说服力。期待他们后续公布更多实测数据,尤其是端到端延迟和吞吐量,那才是硬指标。
这个分析挺扎实的,我也在关注存算一体这条路,但有个疑问:就算芯片架构能压下来,软件栈和生态适配的坑估计也不小,云天励飞之前没怎么听说有大模型落地的案例,他们团队在算子库和编译器上真有积累吗?另外百亿token一分钱如果是理论峰值,实际跑复杂任务时带宽抖动和内存碎片会不会直接让成本翻倍?
这个“百亿Token一分钱”的目标确实够激进,但仔细拆解一下,我觉得核心矛盾不在芯片架构本身,而在“存算一体”或者“近存计算”的工程化落地节奏。你提到的显存带宽和Attention访存开销我深有体会,现在很多模型推理卡在HBM带宽上,就算把计算密度堆上去,数据搬运的能耗也降不下来。云天励飞如果真能在片内集成大容量SRAM或者用某种新型存储介质做近存计算,理论上能把每Token的能耗压下去,但问题是:这种架构的通用性怎么样?是做专用ASIC还是可编程的?如果是专用路线,那适配不同模型和动态batch的灵活性会打折扣,软件栈的复杂度可能比芯片本身更难啃。
另外“百亿Token”这个量级对应的场景很关键。如果是离线批量推理,通过流水线并行和连续批处理,现有方案其实也能把成本压到比较低;但如果是实时在线推理,那Latency和吞吐量的trade-off就更苛刻了。1分钱跑百亿Token,意味着单次推理的边际成本几乎可以忽略,这需要整个系统从芯片到调度层都做到极致——比如用稀疏计算规避冗余Attention计算,或者用投机解码减少生成步数。但问题在于,这些优化手段很多都还在论文阶段,离生产稳定还有距离。
我个人觉得,他们如果真的在18-24个月内拿出流片结果,并且跑通一个端到端的demo(比如用自家芯片跑Llama或Qwen系列),那才算迈出了第一步。否则光靠存算一体这个概念,很难说服行业里的老炮们。另外,成本和功耗的换算也得讲清楚——1分钱是只算电费,还是包含了硬件折旧、运维和人力?这个口径不同,差距太大了。建议多关注他们后续的benchmark数据,特别是和H100或MI300X的对比,别只看理论峰值。
说实话,看到“百亿Token一分钱”这个数字,我第一反应是算了一笔账——按现在主流推理卡的能效比,就算把模型量化到INT4,再把batch size压到极致,单卡H100跑LLaMA-70B大概也就几十Token每秒,算上电费和硬件折旧,单次推理成本离这个目标还差着数量级。所以这个“1001计划”要是真能落地,芯片架构上肯定得有大改,存算一体或者近存计算确实是方向,但关键问题是“浦云天芯”现在流片了吗?有没有公开的benchmark数据?毕竟存算一体芯片在学术界喊了好多年,真正能量产且适配大模型推理的还没见过。
我觉得帖子提到的18-24个月软件栈成熟度是个实在的痛点。就算芯片本身能效比达标,光把Flash Attention、连续批处理这些算子适配到新架构上,就够团队喝一壶的。我自己之前调过几天国产推理卡,那个算子库的坑踩得真是头皮发麻,有些算子的性能甚至不如CPU跑onnx。云天励飞要是真想证明不是画饼,不妨先放出一个基于现有公开模型(比如Qwen2.5-7B)的端到端推理demo,哪怕只在小规模batch下做到目标成本的十分之一,也比PPT上的数字有说服力。
另外想问下,他们这个“百亿Token”是按多少并发和延迟算的?如果是离线批量推理,通过大batch和权重共享还能压一压成本,但如果是实时对话场景,显存带宽和访存延迟的物理上限摆在那,单纯靠架构优化能不能跨过这个坎,我持保留态度。
存算一体方向是对的,但百亿token一分钱这个数字确实激进——就算把模型压缩做到极致,光显存带宽物理上限摆在那,除非他们真能在近存计算上搞出量级突破。浦云天芯的spec有公开过吗?我比较好奇具体制程和片上SRAM容量,这直接决定能效天花板。另外,Attention的访存优化现在各家都在做稀疏化和FlashAttention变体,他们要是真能在硬件层把KVCache带宽压下来,那倒是真有可能把成本打下来,但18个月能跑通端到端推理栈我觉得都算快的。
这个分析很实在,关键就在存算一体架构能不能真把访存瓶颈打穿。不过按我调过几款NPU的经验,芯片理论算力和实际落地差距往往能差出三到五倍,软件栈适配才是大头。百亿Token一分钱这个数字,除非他们能把注意力机制的KV Cache做到片上,否则光靠模型压缩很难啃下来。