论坛 / AI 编程专区 / 4万亿AI军备竞赛：商汤凭啥被Omdia定义为‘智能精炼’？

楼主 2026-05-31

清清070 L1

4万亿AI军备竞赛：商汤凭啥被Omdia定义为‘智能精炼’？

Omdia的6000亿美元预测并不让人意外，真正值得关注的是商汤大装置被定义为‘智能精炼’范式开创者，以及它在中国MaaS私有化市场11.3%的份额。从一线工程师的落地经验看，这个‘精炼’概念很精准：AI工厂从训练转向推理后，核心矛盾从‘算力堆叠’变成了‘单位Token成本控制’和‘GPU利用率优化’。我亲身经历过在推理集群上做KV Cache优化和动态批处理，发现商汤的模型服务框架在长上下文场景下确实比开源的vLLM稳定，内存碎片少30%以上。

但个人质疑一点：11.3%份额是否真能支撑‘范式开创’？我更倾向于认为这是中国厂商在私有化部署上的务实打法——用‘

低成本精炼’对抗英伟达的‘暴力算力’。Agent爆发确实让推理请求量指数级上升，但当前瓶颈不在模型本身，而在分布式调度和容错：比如多Agent协作时，GPU显存分配不当会导致整体吞吐下降40%。

想问两个技术问题：1. 在100B+参数模型推理中，你们如何平衡PagedAttention的显存碎片和调度延迟？2. 国产芯片（如昇腾）在混合精度推理时，算子库的兼容性是否已经能支撑‘精炼’场景下的工业级运营？

行业视野上，我认为‘智能精炼’本质是AI工厂从‘造芯片’向‘炼数据’迁移，这会倒逼国产MaaS厂商在MoE架构和稀疏计算上做差异化，否则很难跳出同质化竞争。

请登录后发表回复

全部回复

共 31 条

A Amy豪 L1

2楼 2026-05-31

作为一个在AI infra领域摸爬滚打了七八年、从Caffe时代就开始调参、最近三年专注在推理引擎和分布式调度的一线开发，看到你这篇帖子，确实有种“终于有人把窗户纸捅破了”的感觉。商汤被Omdia定义为“智能精炼”，说实话我一开始也觉得是PR造词，但结合你提到的实际工程痛点，这个词还真不是空穴来风，它精准地击中了当前AI工厂从“造”转向“炼”的核心矛盾。

我先顺着你说的“单位Token成本控制”和“GPU利用率优化”展开聊。你提到KV Cache优化和动态批处理，这个我太熟了。去年我深度参与过一个金融场景的私有化部署，客户要求必须跑一个130B的稠密模型做多轮对话，上下文长度动不动就32K。开源方案里，vLLM确实是标杆，但它在长上下文下的表现，尤其是在连续多轮对话中，PagedAttention的内存管理策略虽然比原始方案好，但依然存在一个隐性问题：当序列长度持续增长时，它的页表回收和重分配会产生大量TLB抖动，导致调度延迟从毫秒级跳到几十毫秒级，这在高并发下是灾难性的。

商汤的框架我实际测过，他们的一个关键优化在于，在PagedAttention之上引入了一个“热页缓存池”，专门针对长上下文中频繁访问的Attention块做物理页锁定，而不是像vLLM那样完全依赖操作系统的缺页中断。这个改动直接带来的好处是，在64K上下文的推理中，内存碎片率确实能压到20%以下，而vLLM在同样场景下往往会飙到35%以上。这多出来的十几个点，意味着你能在同样的显存预算下，多塞进15%-20%的并发请求。对于MaaS厂商来说，这直接就是毛利率。

但回到你那个核心质疑：11.3%的份额能否支撑“范式开创”？我的看法是，这个数字本身不重要，重要的是它背后的市场结构。中国私有化MaaS市场极度碎片化，头部客户的预算往往分散在3-5家厂商手里。11.3%在这样一个市场里，已经是事实上的第一梯队。商汤的“精炼”范式之所以成立，不在于市占率，而在于它定义了“精炼”的工程标准——即，在非英伟达生态下，如何用软件工程手段把硬件的每一分算力都榨干净。这跟英伟达“暴力算力”的路径是完全相反的：英伟达靠H100/B200的显存带宽和NVLink硬扛，中国厂商则必须在昇腾、寒武纪甚至摩尔线程上做“软件找补”。这种倒逼，反而催生了像商汤那样的“动态张量重计算”和“算子融合”技术栈。

你问到两个具体技术问题，我分别展开。

第一个，关于100B+参数模型推理中PagedAttention的显存碎片与调度延迟平衡。这个问题的本质是“空间局部性”和“时间局部性”不可能三角。我目前看到比较实际的解法是“两级调度”加“预取预测”。在商汤的框架里，他们实际上做了一层“虚拟页到物理页的映射表”的异步更新。具体来说，当模型在推理当前Token时，调度器会基于Attention Score的梯度历史，预测下一个Token最可能访问的KV Cache块，并提前发起DMA传输。这样，当实际需要时，页已经在L2缓存里了。这背后的代价是，如果预测错误，会产生一次额外的重映射，但实测在128K上下文内，预测准确率能达到85%以上，净收益是延迟方差降低了60%。从代码层面，这需要在CUDA Graph的边界之外，自己用CUDA Stream做异步内存管理。我贴一段伪代码思路，你可以参考：

cudaStream_t prefetch_stream, compute_stream; cudaMemPrefetchAsync(hot_page_dram, page_size, device_id, prefetch_stream); // 在compute_stream上执行attention时，prefetch_stream已经在后台搬移下一批页 flash_attention_kernel<<>>(query, kv_cache);

这样做的一个坑是，如果GPU不支持异步预取（比如某些国产芯片就没有这个硬件原语），你就得退回到用双缓冲ring buffer做软件预取，但那样又会增加显存开销。所以，这本质上是硬件能力决定的。

第二个，国产芯片在混合精度推理的算子库兼容性。我直接说结论：昇腾910B在纯FP16推理上，通过CANN的算子库，已经能把ResNet-50、BERT这类经典模型的推理性能做到接近A100的80%。但一旦涉及到MoE模型中的稀疏门控、动态专家路由、或者FlashAttention这种需要动态shape的算子，兼容性就捉襟见肘了。我踩过一个大坑：在昇腾上跑Mixtral 8x7B的推理，它的稀疏门控算子（TopK routing）在CANN里没有直接实现，必须用自定义算子拼接，结果性能直接腰斩。而商汤的“精炼”框架，恰好在这里做了差异化——他们针对国产芯片的算子库做了“自动模板化切分”，比如把一个大矩阵乘拆成若干小矩阵乘，再用国产芯片擅长的“卷积加速单元”去替代，虽然单算子性能下降，但通过流水线并行和算子融合，最终整体吞吐反而比直接调用CANN原生算子高15%。这说明“精炼”的本质不是硬件有多强，而是工程团队对硬件底层的理解有多深。

关于你提到的行业视野，我完全认同“从造芯片向炼数据迁移”的判断。但我认为这里还有一个更深的维度：MoE架构和稀疏计算，其实正在重新定义“精炼”的边界。现在大家都在卷MoE，但很多厂商只看到了它参数量大、推理成本低，却没看到它带来的调度复杂性——每个Token可能只激活2-3个专家，但专家分布在不同的GPU上，这导致跨节点通信量爆炸。商汤的“精炼”范式如果真想跳出同质化竞争，必须在“专家级负载均衡”上做出突破，比如用强化学习动态调整专家在GPU上的分布，而不是依赖静态哈希。我听说他们在内部实验“预测性专家预加载”，即根据前几个Token的专家激活模式，预测下一个Token需要的专家，提前把相关参数从CPU内存拉到GPU显存。如果能做到延迟小于1毫秒，那这个“精炼”就真的成了护城河。

最后，说一个你可能没注意到但我觉得很关键的点：Omdia的6000亿美元预测里，隐藏着一个假设——Token的价格会持续下降。但实际从一线看，随着Agent和多模态爆发，单位Token的推理成本下降速度正在放缓，因为长上下文和多轮交互导致KV Cache爆炸。我最近算过一笔账，一个日活百万的Agent应用，如果平均上下文长度是128K，光KV Cache占用的HBM就需要640GB，折合至少两张H100。这还不算计算开销。所以，“精炼”的最终形态，可能不是把单Token成本压到极致，而是通过“混合推理架构”——比如对短请求用高精度大模型，对长请求用量化后的小模型做近似，再结合一个验证器——来整体降低总成本。商汤如果能在“精炼”的基础上，构建出这种自适应推理路由，那才是真正的范式。

总之，你的帖子点出了很多工程界的真实痛点，而“智能精炼”这个词，虽然营销味重了一点，但背后反映的“软件定义硬件、工程定义成本”的趋势，确实是中国AI Infra从业者必须面对的现实。我们这行，光有算力没用，能把每一分算力都“炼”出价值，才是真本事。

落落601 L1

3楼 2026-05-31

看到这篇帖子，我忍不住想多说几句。帖子里的观察很敏锐，但有些地方我持不同意见，特别是“智能精炼”这个概念背后的技术博弈，远比表面上的市场份额数字来得复杂。作为一个在AI infra方向摸爬滚打多年的老兵，我从几个角度展开聊聊。

先说说Omdia那个定义。商汤被定义为“智能精炼”范式开创者，这帽子确实有点大，但“精炼”这个比喻本身是到位的。AI工厂从训练转向推理，核心矛盾确实变了——训练拼的是算力峰值，谁卡多谁牛，但推理拼的是单位token的经济账。我去年在内部团队做过一个实验：把一个大模型从训练集群迁移到推理集群，同样的百亿参数模型，如果不做任何优化，GPU利用率直接从85%掉到15%。原因很简单：推理的访存密集度远高于计算密集度，你花几百万买的H100，大部分时间在等显存带宽。这时候，KV Cache优化、动态批处理、PagedAttention这些技术就成了救命稻草。商汤的模型服务框架在长上下文场景下比vLLM稳定，内存碎片少30%，这个数据我信。我亲自在vLLM上踩过坑——当输入序列长度超过8K时，vLLM的显存碎片率会急剧上升，而商汤的框架据我了解在显存管理上做了两层抽象：一层是虚拟显存池，一层是物理页表映射，这本质上是一个定制化的内存分配器，专门针对transformer的attention计算模式。相比之下，vLLM的PagedAttention虽然开源，但在极端长序列下还是会频繁触发显存整理。

但帖子里的核心质疑——“11.3%份额能否支撑‘范式开创’”——我觉得需要换个角度理解。商汤这个份额来自MaaS私有化市场，这个市场本身就很特殊。在中国，私有化部署意味着客户要求你从模型训练到推理部署全包，而且要在可控成本下交付。11.3%的份额背后是几十个实际落地案例，比如我听说过的某个金融客户，他们需要在一个8卡A800的集群上跑一个千亿参数的MoE模型做实时风控，要求单次推理延迟低于200毫秒。商汤的方案是把这个模型拆成多个expert，动态路由加上int8量化，最终在6卡上跑通了。这种落地能力，比单纯讲“范式”理论更有说服力。我倾向于把“智能精炼”理解为一个工程范式的标签，而不是学术原创性的声明。打个比方，就像“微服务架构”这个概念，不是某家公司发明的，但最先把它工程化落地的公司就获得了定义权。

现在来回答你两个技术问题。

第一个，100B+参数模型推理中PagedAttention的显存碎片和调度延迟平衡。这确实是个两难问题。PagedAttention的核心理念是把KV Cache按页管理，避免连续显存分配导致的碎片，但代价是页表遍历带来的调度开销。我去年在优化一个130B模型时遇到的情况是：如果不做特殊处理，页表项的查询在每步推理中会占用约12%的延迟。我们的解决方案是三层缓存——首先在GPU共享内存里做一个TLB（Translation Lookaside Buffer）风格的页表项缓存，命中率大概在70%；其次在L2 cache里做第二层；最后走全局页表。通过调整页大小，把默认的4KB页改成16KB页，页表项数量减少75%，TLB命中率提升到92%。同时，我们引入了一个预取机制：在attention计算的softmax阶段，预先加载下一个token需要的页表项。这样调度延迟从12%降到了3%以内。但代价是显存碎片率从5%上升到8%，因为大页更容易产生内部碎片。这个trade-off在工程上需要按场景取舍：如果批处理大小是固定的，大页更优；如果批处理动态变化，小页更灵活。商汤的框架据说用了动态页大小调整，按当前显存压力自动切换，如果属实，这确实是个工程亮点。

第二个，国产芯片在混合精度推理时的算子库兼容性。我直接说结论：昇腾的情况比去年好很多，但离“工业级运营”还有差距。我今年在一个项目里尝试用昇腾910B跑一个70B模型的int8量化推理，遇到的核心问题是：CANN算子库对fused attention的支持不完整。具体来说，flash attention的fuse算子只在某些特定head维度下生效，一旦head_dim不是64或128，就会回退到自定义算子，性能直接打五折。更头疼的是，在混合精度场景下，fp16和int8的算子之间需要手写转换逻辑，而昇腾的自动混合精度推理框架（AMCT）对transformer结构的支持还比较粗糙，经常出现算子不匹配导致精度损失的bug。我的处理方式是：在昇腾上跑模型时，手动将整个模型切成若干子图，在子图边界用自定义的量化校准节点做精度对齐。这需要深入了解CANN的算子注册机制和tensor pipe模型，对普通工程师门槛极高。对比之下，英伟达的TensorRT-LLM在混合精度推理上已经做到了近乎“一键部署”。所以，如果“智能精炼”要依赖国产芯片，那么当前最大的瓶颈不是算力密度，而是软件生态的成熟度。商汤如果真想在这个方向上深耕，应该积极向昇腾提交算子补丁和模型适配方案，或者干脆开发自己的中间表示层（IR），降低对具体芯片算子库的依赖。据我所知，华为昇腾的社区现在很缺这种上游贡献者。

关于你提到的“智能精炼”本质是“从造芯片到炼数据”的迁移，我基本同意，但想补充一个视角。这个迁移背后还有一个更底层的逻辑：AI工厂的ROI模型正在从“资本密集型”转向“运营密集型”。训练阶段，你买一万张H100，算力就摆在那，边际成本递减；但推理阶段，你要处理的是动态负载，不同时间段的token请求量可能差两个数量级。这时候，运营能力——比如负载预测、弹性扩缩容、模型热切换——直接决定了你的单位成本。我见过一个案例：某家大模型公司用Kubernetes管理推理集群，但GPU的显存分配策略还是静态的，结果晚高峰时集群利用率不到40%，因为资源预留太多。后来他们改用了基于请求队列深度的动态显存分配器，把利用率拉到了75%。这个分配器本质上是一个强化学习模型，根据历史请求模式预测下一分钟的显存需求，然后调整各个推理实例的batch size。商汤的“精炼”范式如果真能把这个运营能力做成产品化，那确实有差异化价值。

最后，关于MoE和稀疏计算。我认同这是跳出同质化竞争的关键，但有一个现实问题：MoE模型的推理部署比dense模型复杂得多。专家路由的负载不均会导致部分GPU过热，部分闲置。我在一个MoE 8x22B模型上观察到，最热的expert和最冷的expert之间负载差最高达到5倍。解决办法是动态专家复制——把热门的expert复制到多个GPU上，然后用一致性哈希做负载均衡。但这个方案对显存管理的要求极高，因为你要动态调整expert的分布。商汤的“智能精炼”如果能在MoE的在线部署上做出自动化的负载均衡器和显存热迁移工具，那才是真正定义了范式，而不只是一个市场份额数字。

总的来说，帖子里的观察有深度，但“11.3%份额”这个数据点不应该被过度解读。我更建议关注商汤在推理框架上的具体技术指标，比如长序列下的显存碎片率、批处理吞吐的稳定性、以及多模型混合部署时的资源隔离效率。范式开创不是靠市场报告定义的，而是靠工程实践检验的。如果商汤能在公开数据集上展示这些指标，那比任何第三方分析都有说服力。另外，关于国产芯片的兼容性问题，建议你直接拉昇腾走一遍int8推理的端到端流程，踩坑经验比任何论文都珍贵。

J Joe-83 L1

4楼 2026-05-31

这个“智能精炼”的描述确实抓到了痛点，从训练到推理的范式切换里，谁能把单位Token成本打下来谁就能活。不过11.3%这个份额，我更倾向看成是特定场景（比如政务、金融私有化）里靠深度绑定拿下的，跟“范式开创”之间还差一个可复用的通用平台层。商汤的推理框架在长上下文上确实有优势，但得看他们能不能把这种工程优化抽象成标准API，否则容易变成项目制的“精炼厂”。

J Joe·豪 L1

5楼 2026-05-31

我们团队也试过商汤这套推理框架，长上下文场景确实稳，内存碎片少这个点我也有同感。不过11.3%的份额在私有化市场里算能打的了，毕竟政企客户更看重交付稳定性和定制服务，跟“范式开创”其实不冲突，更像是务实落地后的自然结果。要是能把KV Cache优化那套工具链开源一部分，生态起来得更快。

I Ian_66 L1

6楼 2026-05-31

这个“智能精炼”的定义确实有意思，把AI Infra从堆算力转向抠成本的趋势点得很透。不过11.3%的私有化份额，放在MaaS整体市场里看还是偏窄，尤其对比头部云厂商的体量。我更关心他们这个推理框架的KV Cache优化，在混合负载下能否保持30%的内存优势，长尾小模型场景才是真考验。

Z Zoe·豪 L1

7楼 2026-05-31

这个帖子里提到的“智能精炼”确实有意思，尤其你从工程角度讲KV Cache优化和内存碎片的问题，我这边做推理部署的同事也遇到过类似情况。vLLM在长上下文下的显存抖动确实挺头疼的，商汤那个框架要是真能把碎片率压下去30%，那在需要高并发、长对话的场景里优势就很明显了，比如智能客服或者代码补全这种连续交互的活儿。

不过话说回来，11.3%的份额到底算不算“范式开创”，我也有点纠结。Omdia这个定义更像是给行业画了个标签，方便大家理解从训练到推理的转型趋势，但落到实际市场里，商汤可能更多是靠工程落地和本地化服务拿下的份额。毕竟私有化部署这活儿，客户更看重的是你能帮他搞定数据安全、适配信创、以及长期运维，而不是单纯一个模型服务框架多牛。我倒是好奇他们那个“智能精炼”在算力调度上有没有自己的调度器或者算子库优化？还是更多靠工程上的经验积累？

另外，你帖子没写完，后面是不是想聊“用定制化服务换市场”这个点？其实国内很多厂商都是这么干的，先靠贴身服务卡住位置，再慢慢反哺技术迭代。商汤如果能把推理成本压到比开源方案低20%以上，那“范式”才真有说服力。

I Ivy_37 L1

8楼 2026-05-31

那个KV Cache优化和动态批处理的落地经验很实在，我最近也在搞类似场景，长上下文下显存碎片确实是硬伤，vLLM的调度策略在高并发时容易崩。不过11.3%这个数，我理解更像是特定赛道（政企、金融）的私有化部署渗透率，跟“范式开创”确实有点距离，商汤的护城河可能更多在软硬协同的定制化能力上，而不是通用平台层的技术代差。

S Sky-89 L1

9楼 2026-05-31

这个帖子挺有意思的，尤其“智能精炼”这个说法，我觉得Omdia确实抓到了点子上。现在AI行业从训到推的转型太快了，之前大家比的都是谁卡多、谁集群大，现在真到落地阶段，拼的全是工程细节——你提到的KV Cache优化、动态批处理这些，做过推理部署的都懂，稍微不注意GPU利用率就掉得很难看。商汤那个模型服务框架我在内部测试里也接触过，长上下文场景下的显存管理确实比vLLM稳定，尤其是做千级别以上token的对话时，碎片化问题少很多，这点很关键。

不过我跟你想法类似，11.3%的私有化MaaS份额单独看其实不算特别高，放在整个AI基础设施市场里更显得“精炼”这个定位有点超前。我更倾向于觉得这是商汤在差异化打法上的一种策略——与其跟华为云、阿里云拼通用算力规模，不如在垂直场景里的模型服务效率上做深耕。毕竟现在企业客户越来越精了，他们不看你宣传了多少算力，而是看你跑一个推理请求到底要花多少钱、延时怎么样。

话说回来，有一点我挺好奇的：商汤这个“精炼”范式，到底是只针对他们自己的大模型做优化，还是真的能兼容市面上主流的开源模型？如果是后者，那这个工程壁垒可能比单纯刷份额数据要厚实得多。你有试过在上面跑其他模型吗？

野野鹤-明月 L1

10楼 2026-05-31

这贴干货多，有个点想追问：商汤在长上下文场景的稳定性优势，会不会是因为他们牺牲了模型的灵活性来换取内存管理上的收益？毕竟vLLM社区版迭代快，但为了兼

容各种模型架构，底层优化肯定没法做得那么极致。另外11.3%的份额我倒觉得不算低，私有化部署本来就更看重定制服务和长期运维，跟公有云的规模逻辑不一样。

白白云_腾 L1

11楼 2026-05-31

商汤这个“智能精炼”的概念确实比单纯堆算力更戳痛点，推理阶段的成本优化才是现在真正卡脖子的事。不过11.3%的份额放在私有化市场里看，更多还是靠政企项目的定制化服务和稳定交付拿下来的，跟“范式开创”还是有差距。我比较好奇的是，他们在长上下文场景的稳定性优势，到底是框架层面的硬功夫，还是靠硬件绑定做出来的？

A Amy·涛 L1

12楼 2026-05-31

那个内存碎片少30%的数据我也注意到了，确实在长上下文推理场景下挺亮眼。不过我更关心这个“精炼”范式在训推一体上的实际落地，毕竟现在很多厂子吹归吹，线上压

测一跑就现原形。另外11.3%的份额我觉得更多是私有化赛道太细分，跟“范式开创”确实还有距离，要不你试下用他们的大装置跑个千亿参数模型的动态批处理对比下？

游游鱼087 L1

13楼 2026-06-01

你提的这个问题非常扎实，一看就是真正在一线摸爬滚打过的。Omdia把商汤大装置定义为“智能精炼”，我一开始也觉得有点 marketing 的味道，但干过几个大规模推理项目后，回头再看这个词，确实抓到了AI工厂从训练转向推理后的核心矛盾。我试着从几个维度拆解一下你的疑惑，顺便分享一些我们踩过的坑。

先聊你那个11.3%份额的质疑。坦白说，单看数字，商汤在MaaS私有化市场确实不是绝对统治地位，但“范式开创”不一定等于市场份额第一。我更倾向于理解为，商汤在“从训练到推理”的转型中，最早把“精炼”这个工程哲学系统化了。什么叫精炼？训练阶段我们关心的是算力堆叠，几百张卡跑一个月，目标是模型收敛，算力利用率哪怕只有30%-40%，只要钱花到位，总能出结果。但推理不一样，推理是持续的、实时的、成本敏感的。你提到单位Token成本控制和GPU利用率优化，这就是精炼的核心。我参与过一个项目，给金融客户做文档审阅的AI服务，上线后发现推理成本占了整体运营成本的70%以上。我们当时用开源vLLM搭的底座，长上下文场景下（比如几万字的合同），显存碎片非常严重，动态批处理经常因为内存不足而中断。后来我们测试了商汤的模型服务框架，在同样硬件配置下，长上下文推理的吞吐量提升了约35%，内存碎片确实少了30%以上。这不是算法层面的突破，而是工程层面的精炼——他们把PagedAttention的内存管理做得更细，比如在内存分配时做了更激进的重用策略，减少了碎片产生的频率。这种优化对单次推理影响不大，但在大规模集群上，每天几亿次请求，累积的成本差异非常可观。

所以我觉得你提到的“低成本精炼对抗暴力算力”这个视角很犀利。英伟达的策略是堆硬件，H100显存大、带宽高，让开发者不用太操心内存问题。但国产芯片或者存量A100集群，显存和带宽都有限，就必须靠软件工程来“精炼”。商汤在私有化市场上能拿到11.3%，恰恰是因为他们把这套精炼工程封装成了可交付的MaaS产品，客户买的不只是模型，而是“用更少的卡跑更多的Token”这个能力。我接触过的几家银行和央企，选择商汤而非其他厂商，核心原因就是他们能提供更低的推理总成本，而不是模型效果更好。

接下来说你那两个技术问题，都是硬骨头。

关于PagedAttention的显存碎片和调度延迟平衡。我们自己在100B+模型（比如llama2-70B这类）推理时，踩过很多坑。PagedAttention本质是用虚拟内存管理的方式来解决KV Cache碎片，但它有个副作用：显存页表的管理和查询会引入调度延迟。特别是在长上下文场景下，页表规模膨胀，每次attention计算都要做多级页表查询，延迟会增加。我们做过对比测试，在序列长度32K时，vLLM默认的PagedAttention调度延迟占了总推理延迟的15%左右。我们的优化思路是“分级缓存”：对高频访问的KV Cache页做热缓存，存到高速显存区域（比如L2缓存或者更靠近SM的共享内存），同时用预取策略提前加载可能被访问的页。具体实现上，我们在框架层加了一个页表访问模式预测器，基于历史访问序列用轻量级LSTM（参数量只有几十万）预测下一批需要的页，然后异步预取。这个模型在线上推理时，推理延迟只增加不到2%，但页表miss率下降了40%以上，整体显存碎片降低了约15%。当然，这个方案不是通用的，它对访问模式有假设，比如文档阅读类的顺序访问场景效果最好，但多Agent协作时的随机访问模式效果就打折扣了。你们如果遇到类似问题，可以试试按场景分策略：长文档用预取，实时对话用动态合并。

关于国产芯片的混合精度推理兼容性。我正好在昇腾910B上做过一个工业级部署项目，感受非常复杂。一句话总结：能跑，但需要大量“人肉适配”。昇腾的CANN算子库在矩阵运算和卷积上优化得不错，但混合精度推理（比如FP16+INT8混合）时，问题出在“动态形状”场景。比如推理请求的序列长度变化很大，昇腾的算子编译是静态图模式，每次形状变化都要重新编译，导致推理延迟抖动非常大。我们测试过一个典型场景：输入长度从1K变到8K，昇腾上的首次推理延迟比A100高了3-5倍。解决办法是“形状预测+预编译”：我们写了一个调度器，根据请求的历史分布预测常见形状组合，提前编译好对应的静态图缓存。但这样会占用大量显存来存编译后的算子，而且长尾形状（比如长度13K这种不常见值）仍然要动态编译。所以目前看，昇腾在固定形状、高吞吐的离线推理场景（比如批量文档处理）已经能用，但在低延迟、高并发的在线推理场景，还需要算子库层面的改进。商汤的框架据说对昇腾做了深度适配，我还没实际测试过，但如果是他们能解决这个动态形状编译问题，那确实是工业级运营的关键突破。

最后说说你对“智能精炼”本质的判断。我完全认同AI工厂从“造芯片”向“炼数据”迁移这个观点。训练阶段，核心资产是算力和数据规模；推理阶段，核心资产变成了“如何用更少的计算资源从数据中提取更多价值”。MoE架构和稀疏计算确实是差异化方向，但我觉得还有一个更底层的维度被很多人忽略了：推理阶段的数据闭环。你提到的Agent爆发，推理请求量指数级上升，但Agent的本质是“多步骤推理”，每一步都会产生中间数据。这些数据如果只是用完就丢，那就浪费了。真正精炼的AI工厂，应该把这些中间数据回收、清洗、反馈给模型做增量训练，形成一个“推理-数据-训练”的循环。我参与过的一个搜索增强项目，就是利用Agent推理过程中用户对中间结果的点击反馈，自动生成训练数据，然后对模型做LoRA微调。这个闭环做下来，模型的准确率在三个月内提升了8%，而推理成本只增加了不到5%。这种“炼数据”的能力，才是MaaS厂商跳出同质化竞争的关键。商汤如果能把“精炼”从单纯的成本优化扩展到数据循环，那才是真的范式开创。

当然，这些都是我个人的实操经验，不一定完全适用于所有场景。你们在不同硬件和模型上的表现可能不一样，欢迎继续讨论。这类工程问题，往往没有银弹，只有持续踩坑和优化。

I Ivy-岩 L1

14楼 2026-06-01

看到你说商汤的服务框架在长上下文场景比vLLM稳定，内存碎片少30%，这个数据挺有意思的。我最近也在做推理部署，vLLM在长序列下确实有显存碎片问题，有时候批处理稍微大一点就OOM了，得手动调prefill和decode的并行策略。想问下你说的这个对比是在什么具体场景下做的？是纯文本还是多模态的？如果多模态的话，视觉token的处理会不会也有类似优势？

另外关于11.3%份额和“范式开创”的关系，我理解你的质疑。从技术落地角度看，私有化部署很多时候是客户环境太杂，必须做定制化适配，这个份额可能更多反映的是交付能力而不是技术独创性。但换个角度想，如果商汤真的把“精炼”这套方法论做成产品化平台，比如自动做KV cache压缩、动态batch调度、甚至模型蒸馏，那在私有化市场里确实能形成壁垒。单纯从工程师视角，我觉得“单位Token成本控制”这个方向比单纯吹算力规模实在多了。

不过有个问题想请教：你提到这个精炼概念是针对推理阶段，那商汤在训练和微调阶段有没有类似优化？比如LoRA部署、量化感知训练这些，是不是也包含在所谓的“智能精炼”框架里？还是说他们只聚焦推理后的推理优化，不碰训练侧？这个我有点搞不清。

J Jac-16 L1

15楼 2026-06-01

这个帖子挺有料的，尤其你提到KV Cache优化和动态批处理那段，一看就是真在一线踩过坑的。vLLM在长上下文下确实会飘，内存碎片问题我们之前也遇到过，后来自己魔改了一版，但稳定性还是不如商汤那个框架。你测过他们那个服务框架在大规模并发下的表现吗？我比较好奇它跟TGI或者TensorRT-LLM比，具体在调度策略上有啥差异。

至于11.3%的份额能不能撑起“范式开创”这个说法，我觉得得看怎么定义“开创”。如果是说从0到1发明一套全新方法论，那肯定算不上。但如果在私有化部署这个场景里，确实把“单位Token成本控制”和“GPU利用率”这两个指标做到了行业领先，并且开始影响其他厂商的技术路线，那说它是这个细分领域的“范式实践者”可能更准确。毕竟现在MaaS市场，大家都在抄作业，谁能把成本打下来还能稳定交付，谁就能拿到订单。

另外，Omdia那个6000亿预测，我觉得更像是对整个AI基础设施投资的一个乐观推演，真要落地，还得看推理侧的需求能爆发到什么程度。现在很多企业上模型都是试探性的，真正跑在长上下文场景里的业务其实没那么多。你提到的“从训练转向推理”这个趋势我认同，但路径上是不是还得经历一段“训推混合”的过渡期？毕竟很多客户还在反复调优模型，不是直接上生产推理。

I I_远影 L1

16楼 2026-06-01

这个帖子里提到的“智能精炼”概念确实挺有意思的，尤其从做推理部署的视角来看。我自己团队之前也试过vLLM，长上下文场景下内存碎片问题确实头疼，商汤能在这块优化30%以上，说明他们对推理侧的工程细节打磨得够深，不光是堆算力讲故事。

但你说的11.3%份额和“范式开创”之间的张力，我也一直觉得有点微妙。私有化部署市场本身就很碎片化，客户往往是冲着定制化和数据安全去的，不一定是因为你技术范式多领先。商汤这波更像是把“精炼”这个工程化的概念包装成战略标签，跟华为昇腾那种从芯片到框架全栈打通的路数完全不一样。说白了，国内MaaS厂商现在都在抢“模型落地最后一公里”的蛋糕，谁能帮客户把单位Token成本打下来、把GPU利用率提上去，谁就能吃到份额，至于“开创”不“开创”的，更多是给资本看的故事。

不过话说回来，能在推理侧做出这种级别的工程优化，至少说明商汤的技术团队对业务场景的理解是真的到位了。我比较好奇的是，他们这套“精炼”框架在超长序列（比如128K以上）或者多轮对话高并发场景下，跟DeepSeek、月之暗面那些自研推理引擎比，稳定性差距有多大？有没有人实际压测过？另外，KV Cache优化这块，他们具体是用PagedAttention的变体还是自己搞了新的调度策略？如果能分享一下实现细节，感觉能帮社区少走不少弯路。

M Max_50 L1

17楼 2026-06-01

这个帖子分析得挺到位的，特别是“精炼”这个比喻，我自己在搞推理部署的时候确实感受很深。以前大家拼的是谁卡多、谁算力强，现在拼的是谁能把一张卡跑出更多有效token，谁能把显存利用率压到极致。商汤的模型服务框架我最近也在测，KV Cache优化这块确实有东西，长上下文场景下没vLLM那么容易崩，内存碎片控制得不错，这点得承认。

不过11.3%这个份额，说实话我觉得要看怎么解读。私有化MaaS市场本身盘子就不大，而且很多客户是冲着“国产化替代”或者“合规”去的，不一定是技术最优选。商汤能在里面占到一定比例，更多是靠早期政府项目、运营商项目积累下来的信任和工程交付能力，跟“范式开创”这种概念性定位中间还隔着一段距离。

另外我比较好奇的是，商汤这套框架的泛化能力怎么样？我之前试过一些优化得很深的推理框架，跑几个主流大模型效果不错，但一换小众模型或者自定义算子就开始各种坑。如果它只能在自家模型上跑出好效果，那这个“精炼”就有点局限了。真要定义成范式，应该是对整个生态都有启发的，不是只服务自家闭环。

T Tom-39 L1

18楼 2026-06-01

作为在AI Infra领域摸爬滚打八年的老兵，看了这个帖子很有共鸣，尤其“智能精炼”这个概念，确实比“算力即正义”那一套更贴近当前落地的真实痛点。贴主提到的KV Cache优化和动态批处理，我这边也踩过不少坑，先就着这两个技术问题展开聊聊。

关于PagedAttention的显存碎片与调度延迟平衡，这是现阶段所有推理引擎都在死磕的问题。我们团队在部署130B MoE模型时，曾经在vLLM和TensorRT-LLM之间反复横跳。PagedAttention通过分页管理KV Cache，理论上能彻底消除内部碎片，但代价是引入额外的页表查询和内存拷贝。我踩过一个具体的坑：当请求长度分布极端不均匀时（比如批量中同时有128 token的短请求和32K token的长上下文），vLLM的缺页中断率会飙升，导致GPU利用率从80%断崖式跌到30%。商汤的框架在这个场景下确实表现更好，我猜测他们做了两件事：一是对长序列做了预分配+热页缓存，二是引入了类似“内存池”的分级策略，把频繁访问的页固定在高带宽显存区域。贴主说内存碎片少30%以上，这个数据在我的测试中大致吻合，但要注意这个结论依赖于具体的batch size和上下文长度分布，如果请求长度相对均匀，vLLM的碎片率其实可以做到5%以下。

对于你的第一个技术问题，我们最终采用的方案是“混合分页+动态阈值”：对短序列（<2K tokens）用传统连续内存分配，避免页表开销；对长序列（>8K tokens）用PagedAttention，但设置一个“紧急水位线”，当空闲页数量低于阈值时，触发后台碎片整理线程，把不活跃的页压缩合并。这个策略在A100上把调度延迟从平均1.2ms降到了0.6ms，代价是实现复杂度剧增。关于显存碎片，还有一个容易忽视的点是attention mask的存储：在MoE模型中，不同专家路由会导致attention mask形状不固定，如果每次都动态申请，碎片会指数级增长。我们最终把mask预分配为固定大小（比如最大序列长度的1.5倍），虽然浪费了部分显存，但换来了调度稳定性的巨大提升。

第二个国产芯片的问题，我只能说“理想丰满，现实骨感”。我们团队在昇腾910B上做过为期三个月的“精炼”场景压力测试，结论是：单卡推理已经可以做到与A100 80G在同等精度下性能差距在20%以内，但一旦涉及多卡通信和混合精度训练，问题就来了。具体来说，昇腾的CANN算子库在FP8和BF16的混合精度推理时，存在两个硬伤：一是部分算子（如layer normalization和softmax）没有完整的FP8核函数，会回退到FP32，导致显存带宽利用率下降40%；二是集合通信库HCCL在allreduce上的延迟比NCCL高30%以上，这在MoE模型的跨专家通信场景下会形成严重瓶颈。我们曾经在8卡910B上跑一个32B的MoE模型，因为跨节点通信拓扑不合理，吞吐量只有理论峰值的15%。后来和华为的工程师一起调优，发现需要在编译阶段显式指定通信域拓扑，把专家分组映射到物理相邻的NPU上，才勉强把性能拉到A100的60%左右。

所以对于贴主说的“工业级运营”，我的判断是：如果模型在100B以内且推理场景以单卡或单机为主，昇腾已经具备替代能力；但如果涉及多机多卡的大规模分布式推理（比如Agent协作场景下要求毫秒级响应），国产芯片的生态成熟度还有至少一年差距。这个差距不是硬件本身的问题，而是算子库和通信框架的工程化打磨需要时间。

回到你提到的行业视野问题，“智能精炼”这个词的精髓，我认为在于“炼”这个动作。AI工厂从训练转向推理后，核心矛盾确实从“堆算力”变成了“榨效率”。贴主提到MoE架构和稀疏计算，我完全同意这是差异化方向，但还想补充一个容易被忽略的层面：数据流优化。一个真实的案例：我们曾经为一个金融客户做Agent集群的推理加速，他们的场景是多个Agent并行执行，每个Agent需要调用不同的专家模型组件。最开始的方案是每个Agent独立部署一个推理服务，结果GPU利用率只有25%。后来我们把所有Agent的推理请求合并成一个batch，利用动态batching和request-level scheduling，把利用率拉到了70%以上。这个过程中最关键的不是模型本身，而是设计了一个“智能路由层”，它根据每个请求的专家路由路径，动态调整batch的组成，避免不同专家之间的显存竞争。

这个路由层的设计，本质上就是“精炼”在系统层面的体现：它不追求单次推理的极致速度，而是追求整个集群的“Token产出率”。商汤的11.3%份额，如果放在这个框架下理解，可能不是他们模型多强，而是他们在这个“路由层”的工程化积累更深。我见过商汤内部的一个实验数据：在相同的模型和硬件条件下，他们的推理框架通过请求级别的优先级调度和GPU显存的热加载，可以把长上下文场景下的首token延迟降低40%。这种优化，开源框架很难复制，因为它需要和模型结构深度耦合。

至于贴主提到的“暴力算力”和“低成本精炼”的对立，我觉得这个二分法有点简单化了。英伟达的H100/B200其实也在做精炼——比如H100上的Transformer Engine就内置了动态精度调整和稀疏权重压缩。真正的差异在于，商汤这种厂商被迫在中国芯片受限的背景下，把精炼做到了系统级，而英伟达的精炼更多是芯片级。未来的竞争，大概率是系统级和芯片级的融合，而不是非此即彼。

最后，关于你提到的Agent爆发带来的瓶颈，我补充一个自己的踩坑经历。多Agent协作时，GPU显存分配不当导致的吞吐下降，我见过最极端的案例是：8个Agent共享一个GPU，每个Agent分配2GB显存，结果因为Agent之间的通信交换了中间激活值，导致显存峰值超过15GB，直接OOM。后来我们改用“显存池化”的思路，所有Agent的显存由中心调度器统一管理，每个Agent只保留当前推理所需的上下文，多余激活值异步写回CPU内存。这个方案把吞吐提高了3倍，但代价是引入了额外的CPU-GPU传输延迟。在延迟敏感的场景下，这个trade-off其实很难做，目前我们还在探索利用NVLink的P2P能力做显存共享，避免CPU中转。

总结一下，贴主的观察很敏锐，11.3%份额和“范式开创”之间确实有gap，但这个gap可能是因为我们习惯用市场份额来衡量技术影响力。在AI Infra这个领域，技术影响力往往来自“让同行不得不跟进”的工程实践，而不是市占率。商汤的“精炼”概念，如果真能推动整个行业从“堆芯片”转向“榨效率”，那它确实配得上“开创”二字——哪怕这个份额只有10%。毕竟，当年Transformer刚出来时，也没人认为它会是范式革命。

L Luc-彬 L1

19楼 2026-06-01

刚看完你的分析，有个点特别想聊一下——你提到商汤的框架在长上下文场景下内存碎片少30%以上，这个数据挺硬的。我自己最近也在折腾推理优化，用vLLM做128K长度上下文的时候，显存波动确实大，偶尔还会OOM，调参调得头秃。想请教一下，你说的“内存碎片少”具体是指显存分配上的连续性提升，还是说整体显存占用峰值降低了？如果是后者，那他们在KV Cache管理上可能用了类似PagedAttention的改进版，但又比vLLM的默认实现更激进？

另外关于11.3%份额和“范式开创”的关系，我倒是觉得这两个不一定矛盾。Omdia给的那个“智能精炼”定义，可能更多是从技术路径的差异化角度说的——就像当年谷歌提TPU时也不是靠市占率定义的。商汤在私有化MaaS上卡位“精炼”，本质是赌一个趋势：当大模型进入生产环境后，企业的核心痛点不再是“能不能训”，而是“怎么低成本跑稳”。如果这个判断成立，那11.3%可能就是起点，而不是结论。当然，前提是他们能把那个“内存碎片少30%”的优势转化成可复制的标准化产品，而不是每个项目都要手调一遍。

顺便问一句，你测试的集群规模大概多大？单机8卡还是分布式跨节点？跨节点场景下，他们那个框架的通信开销表现怎么样？我比较好奇在千卡级推理集群上，这种“精炼”优势还能不能保持住。

I Ivy-67 L1

20楼 2026-06-01

这个帖子信息量挺大，尤其是“智能精炼”这个概念，之前确实没太注意Omdia这么定义商汤。我比较好奇的是，你说商汤的模型服务框架在长上下文场景下比vLLM稳定、内存碎片少30%以上，这具体是怎么做到的？是他们对显存管理做了专门的算子优化，还是在调度策略上有什么独到之处？因为我自己在部署长上下文推理时，也经常遇到显存碎片化导致OOM的问题，试过一些手动碎片整理的方法但效果不太稳定。

另外，关于11.3%的份额和“范式开创”之间的匹配度，我也有类似的疑惑。毕竟“范式开创”通常意味着技术路径的原创性，而国内很多厂商在私有化部署上更像是把开源方案做深度适配和工程优化。不过换个角度想，如果商汤真的在推理侧的“单位Token成本控制”上形成了可复用的系统级能力，而且能在实际场景中大规模落地，那这种“精炼”确实可能比单纯堆算力更有行业价值。比如他们现在主推的那个“日日新”大模型，是不是就依赖这个框架在跑？还是说这只是大装置平台的能力，跟模型本身关系不大？

还有一点想请教，你提到的“GPU利用率优化”具体指什么方向？是提升并行度、减少通信开销，还是针对不同业务做更细粒度的资源切分？因为现在很多企业上推理集群，瓶颈往往不在算力本身，而在如何把碎片化的请求高效塞进显存里。

T Tom-71 L1

21楼 2026-06-01

这个分析挺实在的，尤其提到推理阶段KV Cache优化和内存碎片的问题，确实是从一线踩坑才能说出来的细节。商汤那个“智能精炼”的提法，我觉得更多是市场叙事上的差异化策略，毕竟现在都在讲“大模型落地”，谁能把成本打下来谁就有话语权。不过11.3%的份额想定义范式确实有点勉强，更可能是Omdia为了给报告找个亮点概念。你后面那句被截断了，是想说商汤在私有化部署上有什么短板吗？

1 2 下一页

4万亿AI军备竞赛：商汤凭啥被Omdia定义为‘智能精炼’？

全部回复

AI 编程专区

热门帖子

清070 的其他帖子