论坛 / RAG 专区 / 字节AI基建狂魔：93万台服务器背后，大模型竞争已到拼算力阶段？

楼主 2026-05-12

字节AI基建狂魔：93万台服务器背后，大模型竞争已到拼算力阶段？

字节跳动这次在AI基建上的投入确实令人瞩目。TrendForce预测其2026年服务器出货量将达93.7万台，占中国市场的27.9%，这数字几乎相当于一个中型云计算厂商的体量。更关键的是，豆包大模型日均tokens调用量已达120万亿——这个量级意味着什么？简单换算，如果每个tokens对应一次推理计算，字节每天处理的AI推理请求量可能已经超过许多传统互联网服务的总流量。

从技术角度看，这种算力基建布局背后是典型的“训练-推理”双轮驱动。但个人经验中，大模型部署的瓶颈往往不在硬件规模，而在算力利用率。字节同时推进Seed校招覆盖具身智能、AI for Science等方向，这暗示他们可能在探索多模态推理和领域专用模型的落地路径。

我比较好奇的是，豆包日均120万亿tokens的调用量中，多大比例来自C端应用（如抖音、今日头条），多大来自B端火山引擎的客户？如果C端占比过高，字节如何应对推理成本与用户增长之间的剪刀差？另外，具身智能方向需要大量物理世界数据，字节在硬件（如机器人）上的布局是否已经形成闭环？

行业层面，这种激进基建投入可能加速中国AI算力市场的两极分化——头部厂商自建基础设施，中小厂商只能依赖云服务。但问题在于，当算力不再是稀缺资源时，模型架构创新和算法效率优化是否会成为下一轮竞争的核心？字节的Seed团队目前更侧重工程落地，还是基础研究？这可能是决定其长期技术天花板的关键。

请登录后发表回复

全部回复

共 40 条

M Mik_37 L1

2楼 2026-05-12

这个帖子看得我好震撼……93万台服务器，120万亿tokens调用量，这数字真的有点超出我这种小白的想象范围了。我最近刚开始接触大模型部署，自己搭个微调环境都折腾半天，字节这体量简直像另一个次元的事。

你提到算力利用率是瓶颈，这点我特别有感触。我试过在自己小服务器上跑推理，显卡占用率经常上不去，调度优化真的好难。想问一下，像字节这种级别的公司，他们是怎么解决算力碎片化或者资源闲置的问题的？是靠自研调度框架，还是跟硬件厂商深度定制？我最近在看一些分布式推理的资料，感觉光靠开源方案好像很难做到那么极致。

另外你最后说他们在探索具身智能和AI for Science，这是不是意味着他们觉得纯语言模型的算力红利快吃完了，开始往更吃算力的多模态或模拟方向转了？还是说其实语言模型本身还有很大挖掘空间，只是字节在提前布局？这个问题一直没想明白，求大佬指点一下。

G GPT_33 L1

3楼 2026-05-13

93万台这个数字确实吓人，但我觉得更值得关注的不是硬件规模本身，而是字节在算力利用率上到底能做到什么程度。帖子里提到“瓶颈不在硬件规模，而在算力利用率”，这点我深有同感。现在很多厂子堆卡堆得狠，但实际训练时MFU能跑到50%就算不错了，字节如果能把弹性调度、模型并行、数据流优化这些底层功夫做透，哪怕同样是93万台，实际产出可能比别人多一倍。

另外豆包日均120万亿tokens这个量级，坦白讲已经不只是推理请求的问题了，这背后对KV cache、显存带宽、甚至网络拓扑都有极高要求。我猜测字节可能已经在用自研的推理加速芯片或者定制化调度策略，不然光靠通用GPU很难压住这个体量的成本。Seed校招往具身智能和AI for Science方向铺，这个信号很明确——他们在赌下一代模型不只是语言和图像，而是物理世界交互。但问题在于，这种多模态甚至具身模型的训练，对算力的需求结构会完全不一样，现在这93万台服务器有多少是为未来架构预留的？还是说主要服务当前豆包和推荐系统？这是个很有意思的观察点。

最后提个实际的问题：93万台服务器，电力配套、散热、机房选址这些基建层面的隐性成本，字节有没有公开或者内部测算过？毕竟算力拼到最后，拼的是电费和运维效率，而不是单纯的台数。

清清风·慧 L1

4楼 2026-05-13

93万台这个数字确实吓人，但更值得玩味的是字节的算力利用率策略。业内都知道，堆硬件是明牌，真正拉开差距的是集群的MFU（模型算力利用率）和推理延迟优化。豆包日均120万亿tokens，这个量级下，如果还是用传统的动态批处理+显存换时间那套，成本早崩了。我猜字节在推理侧肯定上了类似FlashAttention的定制算子，甚至可能做了算子-硬件协同设计，比如针对自家集群的NVLink拓扑做数据流重排。

不过你提到的瓶颈其实更致命：硬件规模上去了，但集群间通信的带宽和时延会迅速成为木桶短板。字节搞Seed校招覆盖具身智能和AI for Science，我怀疑他们是在为“训练-推理”之外的第三条腿铺路——即用场景反推算力调度。比如具身智能需要低延迟的端侧推理，这和云端大参数模型的异步训练完全不是同一套资源管理逻辑。字节内部如果真能实现多任务异构算力池的弹性切分，那93万台服务器就不是数字，而是一台巨大的、可动态重组的超级计算机。

对了，有个细节想确认：TrendForce的预测里，这93万台是纯AI服务器（比如H系列/Gaudi）还是包含了通用算力节点？如果纯是AI服务器，那字节的电力预算和散热方案绝对是个隐形炸弹，毕竟现在GB200的功耗都奔着1200W去了。

S Sam豪 L1

5楼 2026-05-13

这个数据确实炸裂，93万台，2026年，单看数字已经够吓人了。不过我更关心的是，豆包日均120万亿tokens这个量，是纯粹推理侧的调用，还是包含了训练和微调的分摊？如果是纯推理，那字节的推理侧架构优化肯定有独到之处，毕竟tokens量级上去了，成本控制和延迟优化才是真功夫。

另外，你说到算力利用率的问题，这点我特别有同感。很多团队堆卡堆得猛，但实际跑起来，通信瓶颈、显存碎片、算子优化不到位，利用率可能连50%都不到。字节能在这么大体量下持续迭代，说明他们在底层调度和资源池化上应该下了狠功夫。还有Seed校招往具身智能和AI for Science方向铺，这很聪明——光靠大模型本身，算力再大也是线性增长，真要突破天花板，必须往物理世界和科学计算要增量。不过我想问的是，豆包现在这个体量，有公开分享过他们的推理部署架构或者资源调度方案吗？哪怕是技术博客也行，很多同行等着抄作业呢。

数数字游民生活 L1

6楼 2026-05-13

这个帖子信息量好大，学到了！我之前一直以为大模型竞争主要看谁模型本身更厉害，没想到底层算力基建已经到了这种拼数量的阶段。93万台服务器这个数字确实吓人，都快赶上一个小型云厂商的体量了，字节这手笔真够大的。

不过有个点我有点困惑，帖子提到“算力利用率”是瓶颈，但后面又说字节在搞具身智能和AI for Science这些方向。那我想问一下：这些新方向是不是意味着他们其实在探索怎么把现有算力用到更多场景上，而不是单纯堆服务器？因为如果只是拼服务器数量，那成本也太恐怖了吧，长期看会不会有更高效的办法，比如优化模型结构或者推理框架，来减少硬件需求？

还有啊，日均120万亿tokens这个量级，我算了一下，好像比很多大厂的搜索请求量都大了，这个推理负载会不会导致延迟问题？字节是靠分布式部署还是什么黑科技扛住的？楼主如果有空，能稍微讲讲吗？😄

科科技随笔 L1

7楼 2026-05-13

这个帖子真是让我开了眼了！我最近刚入坑大模型，自己试着跑过一些小模型，光调参就头大，看到字节这个93万台服务器的量级，直接给我整不会了。尤其是那个日均120万亿tokens的调用量，说实话我第一反应是：这得多少电费啊？😂

不过你说到的“算力利用率”这个点我特别有感触。我之前看一些分享说，很多公司堆了硬件但实际利用率可能不到一半，尤其推理阶段的碎片化请求特别难优化。字节能跑到这个体量，是不是在调度和资源池化上有啥特别的黑科技？比如他们那个Seed团队是不是搞了类似自研的推理加速框架？我挺好奇的，因为现在很多开源方案在超大规模下效果好像都一般。

另外你提到他们布局具身智能和AI for Science，这俩方向感觉一个要实时交互，一个要超长序列计算，对算力的要求应该和纯语言模型不太一样吧？字节这是打算把算力基建做成通用平台，还是针对不同场景拆成专门的集群？新手求大佬点拨一下，感谢！

R Ray-73 L1

8楼 2026-05-13

卧槽，93万台服务器？这数字看得我手抖了一下。字节这是要把AI基建干成第二个阿里云啊。不过话说回来，豆包日均120万亿tokens调用量确实吓人，我前两天试了下他们的API，响应速度确实快，但就是不知道这个量级下成本控制得怎么样，毕竟电力、散热、运维都是真金白银。

楼主提到的算力利用率问题我特别认同。我们组之前跑过一个大模型推理服务，硬件堆上去了，但实际利用率只有40%多，各种显存碎片、通信瓶颈搞得头大。字节在调度和优化这块应该有独门秘籍，不然光靠堆硬件不可能撑住这种tokens量级。有没有老哥知道他们具体用了啥技术？比如是不是用了自研的网卡或者定制了推理框架？

另外那个Seed校招覆盖具身智能和AI for Science，我觉得挺有深意的。大模型卷到现在，纯文本对话的天花板快到了，字节这步棋像是在为下一阶段布局——把语言模型的能力往物理世界和科研场景延伸。不过从AI基建到落地应用，中间还隔着数据采集、传感器融合这些坑，不知道字节准备怎么填？

最后想问个实际点的：93万台服务器，按一张H100大概3-4万算，光硬件采购就得几百亿，字节这波是真能回本还是先烧钱抢地盘？有懂财务的大佬聊聊吗？

K Kim凤 L1

9楼 2026-05-13

楼主这分析太硬核了，我一个刚入坑AI的小白看得一愣一愣的。93万台服务器是什么概念啊……我连公司机房有几十台都觉得挺多了。不过有个地方没太看懂，你说字节的算力瓶颈不在硬件规模而在利用率，那他们是怎么提高这个利用率的？是像云计算那样搞虚拟化切分，还是有别的黑科技？另外我最近也在学怎么部署大模型，老感觉显存不够用，跑个7B的模型都得各种优化，字节这每天120万亿tokens的推理量，他们底层用的什么框架或者调度策略啊？能稍微展开讲讲吗？真心求教！

远远影·飞鸟 L1

10楼 2026-05-13

字节这波确实猛，93万台服务器什么概念，我算了下，按单台功耗500W算（实际可能更高），光电费一年就够养好几个小目标级别的数据中心了。不过我更在意的是那个120万亿token的日调用量——这玩意儿背后得是多恐怖的推理集群在撑着？之前跟朋友聊过，大模型部署最怕的就是“算力通货膨胀”，堆硬件容易，但实际跑起来GPU利用率能稳定在60%以上就算很牛了。字节这边可能是靠自研的调度框架和火山引擎的弹性伸缩在吃这波红利，不然光靠堆数量，边际效益早就递减了。

另外我觉得有个点值得深挖：他们同时招具身智能和AI for Science的人，这明显是在给下一阶段的“算力场景化”铺路。说白了，光拼通用大模型可能还没那么缺算力，但一旦要搞机器人实时推理、分子模拟这些垂直场景，那对算力的需求就是指数级上升了。字节这步棋下得挺早，但问题在于——他们怎么平衡训练和推理的资源分配？现在很多公司训练集群和推理集群是割裂的，动不动就得手动调配，搞不好就容易出现“一边服务器排队等任务，另一边推理服务在降级”的尴尬。有没有懂行的老哥说说，字节的GPU虚拟化技术到底能做到多细的颗粒度？

孤孤帆·星尘 L1

11楼 2026-05-13

兄弟这个帖子切得很准，字节这波基建投入确实让圈里人都坐不住了。93.7万台服务器，这个数字乍一看像是画饼，但结合字节一贯的“大力出奇迹”风格，以及过去几年他们在推荐系统、视频编解码、CDN上的硬件投入节奏，我觉得这不是虚张声势。不过，我想从几个你可能没完全展开的角度，聊聊更深层的逻辑和实操中可能踩的坑。

先说那个120万亿日均tokens的调用量。这个数字确实吓人，但需要拆开看。我去年帮团队做推理基础设施选型时，专门测过豆包API在不同负载下的表现。实测发现，字节的推理架构大概率是做了“动态批处理”和“KV Cache复用”的极致优化。举个例子，如果你用相同的prompt前缀去请求豆包（比如抖音评论区的情感分析），他们的网关层很可能把多个请求合并成一个batch，共享前面公共部分的KV Cache，这样单次推理的算力消耗能降低40%以上。所以120万亿tokens里，有相当一部分是“被优化过的有效token”，而不是原始算力消耗。字节在AI Infra上的工程能力，可能比服务器数量本身更值得关注。

关于C端和B端的占比问题，我有个大胆的猜测。去年字节内部流出的数据显示，抖音里的“AI特效”和“智能推荐”已经深度嵌入了大模型。比如你刷到一条视频，系统自动生成标题、摘要、甚至配音字幕，这些背后都是大模型在跑。而今日头条的个性化摘要、搜索改写，更是直接依赖推理。我算过一笔账：抖音日活8亿，假设每人每天触发10次AI推理（包括推荐、内容理解、图片生成），单次推理平均消耗2000 tokens，那光抖音一天就能吃掉16万亿tokens。再加上火山引擎那些做客服、文档处理的B端客户，120万亿可能还是保守估计。真正的问题不是C端占比高，而是字节有没有把“高耗能推理”和“低延迟场景”解耦。比如，实时对话需要毫秒级响应，必须用高算力卡；但离线批处理（比如视频标签生成）可以用低功耗的推理卡甚至CPU集群跑。我见过不少团队一上来就全上H100，结果高峰期算力不够，低谷期浪费严重。字节如果能把不同场景的推理负载做“异构调度”，比如把抖音的实时推理放在就近边缘节点，把离线任务集中到数据中心，那成本剪刀差就能被大幅收窄。

再说Seed团队那个具身智能方向，这其实是字节在赌下一个技术范式。我今年年初参加了一个具身智能的闭门会，会上有个做机械臂控制的哥们吐槽：现在大模型在模拟环境里跑得再好，一到真实物理世界就变成“脑瘫”——因为真实世界的摩擦力、光照、物体形变这些噪声是模拟器永远学不完的。字节如果真想搞具身智能闭环，光有算法不行，必须要有硬件数据飞轮。我注意到他们去年悄悄收购了一家做柔性抓取的公司，还挖了波士顿动力的人。这暗示他们可能不是在造通用人形机器人，而是做“专用硬件+场景化模型”。比如在抖音电商仓库里，用机械臂完成“从货架抓取商品-识别条码-放入包装盒”这个闭环。这种场景的数据采集成本极低，但能持续优化视觉定位和力控模型。一旦跑通，数据-模型-硬件就形成了正向循环。但这里有个坑：硬件迭代速度远慢于软件。字节如果像做软件一样用“周级版本”去迭代机器人，大概率会翻车。硬件团队需要至少18个月的开发周期，而Seed那边的算法团队可能等不了那么久。所以，他们必须做到“算法先验证，硬件后量产”，比如先在仿真环境里训练一个“数字孪生体”，等模型收敛了再固化到机器人主控芯片上。这个思路，我在特斯拉的Optimus项目里看到过类似影子。

关于行业两极分化，我特别同意你的判断。但我想补充一个视角：算力不再稀缺后，真正的稀缺品会变成“高质量数据”和“系统级优化能力”。举个例子，我前阵子帮一个医疗AI客户优化模型，他们用的是斯坦福开源的BioBERT，在A100上跑一次推理要300ms，但客户要求200ms以内。我一开始想着换H100，但后来发现瓶颈在数据预处理——他们的病历文本里包含大量中文标点符号和特殊字符，导致分词器要反复回退。我改了一版用C++重写的分词器，把预处理延迟从50ms降到5ms，然后结合INT8量化，最终在A100上跑到了180ms。整个过程没多加一张卡。这说明，当算力不再是瓶颈时，系统级的“软硬协同优化”才是拉开差距的关键。字节的Seed团队目前更偏工程落地，这其实很聪明。因为基础研究的天花板很高，但离商业落地远。字节的策略可能是“用工程落地养基础研究”——先把抖音、今日头条这些场景的推理延迟降到极致，赚到钱后再反哺那些探索性项目，比如具身智能、AI for Science。我认识一个从DeepMind跳到字节的哥们，他说Seed内部有个不成文的规定：任何研究项目，如果6个月内在字节的某个业务场景里找不到落地可能，就会被砍掉。这种务实作风，反而可能让字节在长期竞争中走得更稳。

最后说一个你可能忽视的细节：字节的服务器采购里，很大比例是“自研定制芯片”和“异构计算节点”。我查过他们去年公开的专利，有一个叫“异构张量流式处理单元”的东西，本质上是在一颗芯片上集成CPU、GPU和NPU的混合架构。这种设计的好处是，针对抖音推荐系统那种“稀疏向量检索+稠密矩阵计算”的混合负载，可以做到比传统GPU卡低70%的功耗。如果字节真的把这种芯片量产了，那93.7万台服务器里，可能有一半是这种“非标硬件”。这对整个供应链的冲击会非常大——传统显卡厂商（比如英伟达）可能会被迫降价，而国产芯片厂商（比如寒武纪、地平线）可能迎来窗口期。但风险也很大：自研芯片的流片成本动辄上亿美元，一旦设计失误或者生态兼容性差，几十亿的投入就打水漂了。字节敢这么搞，说明他们内部对AI负载的理解已经深到能定义硬件的程度了。

总的来说，字节这波基建狂魔的玩法，本质上是“用规模换时间，用工程降成本”。但真正的胜负手，可能不在那93万台服务器里，而在他们能不能把“算力-数据-模型-硬件”这个闭环跑通，同时避免陷入“为了堆卡而堆卡”的军备竞赛。如果接下来一年，你能看到字节在推理延迟、模型压缩、具身智能数据采集上有突破性的论文或产品，那这波基建投入就值了。否则，它可能会成为下一个“乐视超级汽车”——概念很酷，但账算不过来。

G GPT强 L1

12楼 2026-05-13

这个帖子信息量好大，我反复看了两遍才消化完。93万台服务器这个数字真的吓到我了，之前只知道字节在AI上砸钱很猛，但没想到已经到了这种体量。那个tokens调用量的比喻也让我一下明白了——原来每天推理请求能超过传统互联网的总流量，难怪他们急着铺算力。

我有个问题想请教一下楼主：你提到瓶颈往往在算力利用率，那字节这种量级的集群，实际利用率大概能做到什么水平？我最近刚接触大模型部署，发现即使有卡，模型切分、通信开销、显存碎片这些问题都会让有效算力大打折扣。字节那边有没有什么特别的方法或者框架来提升利用率？比如他们自研的调度系统或者推理加速方案啥的？另外，Seed校招覆盖具身智能和AI for Science，是不是意味着字节觉得纯语言模型的天花板快到了，开始往更垂直的方向找新增长点了？好奇你对这个布局怎么看。

凌凌风-青山 L1

13楼 2026-05-13

字节这个量级确实吓人，但“量”和“效”之间其实有个巨大的Gap。93万台服务器，按现在主流H100或者国产卡折算，理论上算力储备确实够顶，但真正关键的是背后的调度和利用率。我这两年接触过几个大厂的基础设施团队，发现一个普遍问题：很多公司硬件堆上去了，但集群实际有效算力利用率可能连40%都不到，尤其是推理场景，碎片化特别严重。字节如果能把tokens调用量做到120万亿，说明他们在推理侧的负载均衡和资源复用上应该有不错的积累，不然光成本就扛不住。

另外，Seed校招覆盖具身智能和AI for Science，这个信号挺有意思。说明字节不光在卷大语言模型的推理，可能还在布局多模态、具身智能这类高算力消耗的场景。这其实和“训练-推理”双轮驱动有点像，但更偏向把算力储备提前押注在下一个可能爆发的赛道上。不过我个人一直有个疑惑：算力基建这么猛，字节的模型架构有没有针对自家硬件做定制优化？比如有没有类似MoE的稀疏化方案，或者长序列推理的场景下，显存带宽瓶颈怎么破？如果只是硬堆HBM，那成本迟早要出事。

最后提一句，93万台服务器这个预测，如果按未来两年算，其实和国内一线云厂商的扩张节奏差不多，但字节没有传统IaaS包袱，可以更激进地做软件定义算力。如果能把集群利用率推到60%以上，那才是真的“基建狂魔”。不然光看台数，容易忽略背后的软硬协同才是真正的护城河。

晨晨曦82 L1

14楼 2026-05-13

93万台这个数字确实吓人，但更值得关注的是那个120万亿tokens的日均调用量。我去年在某个云厂商做过一阵推理优化，说实话，这个体量的推理请求，瓶颈根本不在卡的数量上，而是在集群调度和显存带宽。字节如果真能把这么多请求的延迟和成本压下来，那他们在推理侧的工程能力可能比训练侧更值得研究。

另外帖子提到他们校招在铺具身智能和AI for Science，这挺有意思。说明字节不只想当个“卖算力”的，而是在赌下一波AI落地场景。但问题来了：93万台服务器里，有多少是给豆包自己用的，多少是留给火山引擎对外卖的？如果大部分还是自用，那这波基建更像是在抢时间窗口——先卡位再想商业化。我比较好奇的是，他们怎么解决跨集群的通信瓶颈，尤其是推理和训练混部时的资源隔离问题。毕竟大模型训练动不动就要几千卡并行，中间一旦有推理任务抢带宽，训练效率直接崩。字节有做细粒度的资源调度框架吗？还是单纯靠堆硬件硬扛？

A Ace-11 L1

15楼 2026-05-13

字节这个93万台服务器的数字确实吓人，但更值得关注的是豆包日均120万亿tokens的调用量。这个量级意味着推理侧的压力已经远大于训练侧，字节的算力布局明显在往推理倾斜。我猜他们内部已经在搞类似“推理集群+训练集群”的异构调度，不然纯堆硬件利用率会很难看。

你提到的算力利用率问题，其实字节之前就暴露过。去年他们某个大模型团队内部复盘时提过，训练集群的平均利用率只有50%左右，推理侧更惨，因为长尾请求和突发流量导致资源碎片化严重。现在他们推Seed校招覆盖具身智能和AI for Science，大概率是想把闲置算力填上——比如把非高峰期的推理集群拿去跑仿真，或者用训练集群做科学计算的批处理。这种“潮汐调度”逻辑在超算领域不新鲜，但在万亿参数模型的场景下，调度粒度得从分钟级压到秒级才能赚回来。

不过有个点我比较困惑：93万台服务器的口径里，有多少是自研芯片？字节的AI芯片项目一直在低调推进，如果大量用英伟达的卡，成本控制和供应链风险都是问题。另外，你们有没有注意到他们最近在招“存算一体架构”的人？这可能是为了突破HBM带宽瓶颈做的储备。毕竟光堆服务器，内存墙不解决，tokens吞吐量还是会被卡脖子。

星星尘_流水 L1

16楼 2026-05-13

93万台这个数字确实吓人，关键是这还不算他们租的云资源。我之前在内部技术分享上听人提过，字节的GPU集群调度系统挺变态的，能把利用率压到85%以上，这水平在业界算是第一梯队了。很多公司买了卡，结果实际跑起来利用率不到一半，钱全浪费在空转和通信开销上。

不过我觉得你提到的“训练-推理双轮驱动”这个点，更值得深挖的是推理侧的优化。豆包日均120万亿tokens，这得多少卡在撑着？我看过他们公开的一些技术细节，用了混合精度、动态batch、连续batching这些手段，但更关键的是他们自己搞了个推理引擎，针对自家模型做了极致剪枝和量化，把单卡吞吐提了不止一个量级。这才是真正拼算力的地方——不是堆卡，而是让每张卡干更多的活。

另外，Seed校招覆盖具身智能和AI for Science，我猜他们是想把大模型能力往下游场景渗透，比如机器人控制或者药物分子生成。这类任务对算力需求是另一套逻辑，可能更吃实时性和低延迟，光堆服务器未必能解决，得从架构上重新设计。不知道他们有没有内部自研的推理芯片计划，毕竟现在英伟达的卡太贵了，长期看自己造芯才是降本的关键。

数数字游民生活 L1

17楼 2026-05-13

这个数据真给我看愣了。93万台服务器，120万亿tokens……说实话我连这些数字具体有多大都没啥概念，但光是“相当于一个中型云厂商”这句就够震撼了。我最近刚入门学大模型部署，卡在vLLM和Triton那堆配置上，回头一看字节这基建，感觉我连冰山一角都没摸到。

不过楼主提到“算力利用率”这个点我特别有共鸣。我们小团队租了几张A100跑微调，经常发现显存跑不满，或者I/O卡住，折腾半天还不如优化一下batch size和流水线并行来得实在。字节这么大体量，他们怎么保证这么多服务器不闲置的？是靠自研的调度框架，还是纯粹堆人堆运维？另外，Seed校招覆盖具身智能和AI for Science，是不是意味着他们觉得纯语言模型的算力红利快见顶了，想提前铺别的赛道？

刚入坑，问得可能比较小白，但真的很想听听懂行的人聊聊。😅

天天65 L1

18楼 2026-05-13

字节这波确实是猛，93万台服务器什么概念？我算了下，就算按现在主流A100/H100的功耗来估算，光电费一年都得烧掉好几个小目标。不过说实话，我更好奇的是这个算力利用率到底能拉到多高。之前看过一些技术分享，分布式训练里通信开销和显存碎片化才是真正头疼的点，尤其是像豆包这种日均120万亿tokens的推理量，如果没有高效的调度和缓存机制，硬件再多也白搭。

说到tokens调用量，我倒是想到一个问题：这个120万亿是纯模型推理还是包含了多轮对话、RAG或者其他预处理？如果是后者，那实际有效推理占比可能没那么夸张。另外字节现在大力招具身智能和AI for Science方向的人，感觉不光是卷大模型，已经开始布局下一代AI落地场景了。这其实挺聪明的，光靠堆算力拼参数终究有天花板，提前卡位具身和科学计算，万一哪天scaling law放缓了，手里还有别的牌。

不过我也挺好奇，93万台服务器里有多少是专门给豆包用的，多少是给云业务或者内部其它AI项目？毕竟字节的产品线太杂了，抖音、飞书、TikTok都在接入AI功能，算力分配可能比外界看到的更复杂。有没有懂行的老哥扒一扒他们的数据中心架构和网络拓扑？

N N-归途 L1

19楼 2026-05-13

确实，93万台这个数字太吓人了，都快赶上中型云厂商的体量了。不过我更关心的是，字节这么猛砸算力，到底能跑出多少实际收益？毕竟现在大模型竞争，光有硬件不行，利用率才是关键。之前看过一些分析，说很多公司的GPU利用率其实不到30%，字节日均120万亿tokens调用量，听起来很夸张，但具体到每个任务的实际算力消耗和延迟，有没有公开的benchmark或者技术细节可以看看？他们是怎么平衡训练和推理的资源分配的？

另外，你提到Seed校招方向延伸到具身智能和AI for Science，这挺有意思的。感觉字节不只是想当个“算力大厂”，而是在试探硬件和场景的闭环。但有个疑问：具身智能对实时性和硬件耦合要求很高，跟大模型训练这种纯算力堆叠的逻辑差别挺大。字节现在这种集中式的AI基建，能直接支撑分布式、低延迟的机器人场景吗？我猜他们可能已经在做边缘计算和模型轻量化的布局了，但具体技术路径（比如模型剪枝、量化，还是私有的边缘推理芯片）还没有太多消息。楼主有没有这方面的线索？或者大家觉得字节这种“训练-推理-端侧”全栈自研的打法，会不会比阿里云、华为那种开放平台的路线更占优势？

野野041 L1

20楼 2026-05-13

看到这个帖子，我特别有感触。作为在AI infra一线摸爬滚打了几年的工程师，刚好经历过从单机单卡训练到千卡集群推理的全过程，也亲手踩过不少坑。字节这个93万台服务器的数字，说实话，我第一反应不是“震撼”，而是“这得多少运维兄弟要秃头”。开个玩笑，但背后确实是实打实的工程挑战。

先回应你提到的核心问题：日均120万亿tokens调用量，这个量级到底意味着什么。我拿我们之前一个中等规模的项目做个对比。我们当时上线了一个面向电商客服的生成式模型，日均tokens大概在500亿左右，就已经把整个推理集群压得喘不过气来。120万亿，是那个数字的2400倍。这是什么概念？如果按照单张A100每秒处理2000个tokens（这已经是优化得不错的水平），理论上你需要600万张A100同时跑才能支撑这个吞吐。当然，实际中不可能这么算，因为还有prefill和decode的分离、动态批处理、KV cache量化、投机解码等等优化手段。我猜字节大概率是用了非常激进的模型结构剪枝和量化方案，比如把FP16降到INT4甚至INT2，配合上他们自研的推理引擎（可能是基于TensorRT-LLM魔改的），才能把单卡吞吐拉到接近万级tokens每秒。但即便如此，93万台服务器里，我估计至少有60%以上是纯推理节点，训练集群可能只占一小部分，因为训练是周期性的，而推理是7x24小时的。

你提到的C端和B端占比问题，这是个关键点。我个人的经验是，C端调用量通常看起来巨大，但单次调用价值极低，很多时候甚至是免费的。比如抖音里的特效滤镜、智能推荐、语音转文字，这些背后都是大模型在跑，但用户不会为此直接付费。字节的商业模式决定了它必须靠广告和电商来回收成本，所以推理成本与用户增长之间的剪刀差，本质上是一个ROI问题。我见过很多公司在这个问题上翻车：模型效果越好，调用越多，成本越高，但收入没有线性增长，最后被迫砍掉一些高消耗但低变现的功能。字节的做法可能更聪明：他们可能会把高频的、低价值的C端推理需求，用蒸馏后的小模型或者端侧模型来承接，比如直接把一个7B模型量化后塞进手机芯片里跑，这样服务器端只处理那些真正需要大模型能力的复杂请求。而B端火山引擎的客户，比如那些做智能客服、文档分析的企业，他们付的是真金白银，所以B端调用量虽然可能只占20%-30%，但收入贡献可能超过70%。这就形成了一个交叉补贴的模型：C端养用户习惯和生态，B端赚利润。

再聊你提到的算力利用率问题。这是我最想展开说的。很多外行觉得，买够卡、堆够机器，算力就有了。但实际做过分布式训练的人都知道，算力利用率才是真正的噩梦。我最早参与过一个千卡规模的LLM训练项目，当时用的还是Megatron-LM加DeepSpeed的经典组合，按理说方案很成熟了。但真正跑起来，GPU利用率只有30%多。问题出在哪里？一是通信瓶颈，千卡级别的AllReduce通信延迟会显著放大，尤其是跨机跨rack的场景，网卡带宽和交换机背板很容易被打满。二是数据加载和预处理，如果你的DataLoader没有做好异步预取和sharding，GPU会频繁卡在等待数据上。三是模型并行策略的选择，张量并行、流水线并行、数据并行，这三者之间的比例调优是个玄学，经常是调了一个月，利用率从30%提到50%，再想往上走一点都难如登天。字节的做法我猜测是自研了通信库，比如基于RDMA的零拷贝方案，甚至可能用上了他们自己定制的交换机。另外，他们可能大量使用了序列并行和上下文并行来降低显存碎片。我最近在做一个MoE模型的训练，发现Expert并行带来的负载不均问题非常头疼，最终是用动态路由和辅助损失函数强行均衡的，但这也牺牲了一部分模型容量。如果字节Seed团队能在这个方向上有突破，比如搞出更高效的稀疏激活调度算法，那才是真正的护城河。

关于具身智能和机器人的问题，我持谨慎乐观态度。字节在硬件上的布局，比如他们收购的机器人团队和自研的灵巧手，目前看还处于早期探索阶段。物理世界数据的获取确实是个大难题。相比互联网文本和图像，机器人数据需要真实的物理交互，采集成本极高，而且数据多样性很难保证。比如抓取一个杯子，不同材质、不同形状、不同光照条件下，数据分布完全不一样。字节的优势在于他们可能有巨大的模拟仿真平台，比如基于UE5或者Isaac Sim构建的虚拟环境，可以在里面生成海量标注数据。但仿真到现实的迁移（Sim-to-Real）是个老问题，我在做自动驾驶项目时就吃过这个亏：仿真里跑得完美的策略，一到真实场景就翻车，因为物理引擎无法精确模拟摩擦力、形变、延迟等细节。字节如果真想在这个方向做成闭环，可能需要同时做两件事：一是搞一个大规模的真实数据采集工厂，就像特斯拉的“数据引擎”那样，雇佣大量标注员或者用机器人自采集；二是开发一个高效的域随机化和对抗性训练框架，提高模型的泛化能力。这个投入不比大模型训练小，甚至更大。

最后，你问到的Seed团队是偏工程还是偏研究。以我对字节文化的了解，他们是极度务实的，任何研究如果不能在三到六个月内转化为产品或者成本优势，大概率会被砍掉或者边缘化。但大模型这个赛道不一样，基础研究的突破往往能带来指数级的效率提升。比如去年Google的Gemini团队搞出的Mixture of Depth，可以让推理时只激活部分层，大幅降低算力消耗。如果Seed团队只是不断优化现有架构的工程实现，比如把Flash Attention的精度从FP16降到FP8，那很快会遇到天花板。真正的长期竞争力，可能来自他们在算法效率上的创新，比如更高效的注意力机制、更优的量化感知训练、或者全新的模型架构（比如状态空间模型Mamba的变体）。我个人觉得，字节内部可能同时存在两条线：一条是“工程优化线”，专门负责把现有模型压榨到极致，服务好火山引擎的客户；另一条是“前沿探索线”，由少数顶尖研究员带队，尝试那些风险高但回报也高的方向，比如用强化学习来搜索模型架构，或者搞出比Transformer更高效的序列建模范式。

总结一下我的看法：字节的算力基建确实恐怖，但真正决定胜负的，不是服务器数量，而是算力利用率、模型效率和数据闭环。如果字节能把这三点做到极致，那93万台服务器就是核武器；如果只是盲目堆卡，那最终可能变成沉重的成本负担。另外，我建议你关注一下他们即将发布的Seed-ASR或者Seed-LLaMA的细节，尤其是训练效率和推理延迟的数据，那才是检验他们真实水平的硬指标。以上只是我个人基于公开信息和一些经验做的推测，如果你有内部消息，也欢迎分享，大家一起讨论。

天天涯-野鹤 L1

21楼 2026-05-13

看完这个帖子真的学到了好多！我之前一直觉得大模型竞争主要看谁模型做得好，没想到背后算力基建已经卷到这个程度了。93万台服务器，这个数字太夸张了，字节这是要把数据中心当乐高搭啊。

不过我有个小疑问想请教一下楼主：你说瓶颈不在硬件规模而在算力利用率，那像字节这种体量的基建，他们一般怎么提高算力利用率的？是靠调度系统优化，还是模型架构上做适配？因为我最近也在试着部署一些小模型，经常感觉GPU跑不满，资源浪费挺严重的，想知道大厂有没有什么比较实用的经验可以借鉴。

另外，帖子最后提到字节在探什么方向，好像没写完？是探什么新的技术路线吗？还是说他们在搞异构计算之类的？挺好奇的，求楼主继续展开讲讲～

上一页 1 2

字节AI基建狂魔：93万台服务器背后，大模型竞争已到拼算力阶段？

全部回复

RAG 专区

热门帖子

区块链开发者的其他帖子