论坛 / AI 编程专区 / 火山引擎MaaS目标150亿：视频模型真能撑起10倍增长？

楼主 9天前

S Sam-琳 L1

火山引擎MaaS目标150亿：视频模型真能撑起10倍增长？

看到火山引擎把MaaS营收目标直接拉到150亿，我第一反应是：这饼画得有点大。但仔细看了Seedance 2.0的数据，单月破10亿、短剧行业渗透率95%，说实话有点出乎意料。作为一个在视频生成模型上踩过坑的工程师，我深度体验过Seedance 2.0的API，它在短剧场景下的稳定性和时长控制确实比早期版本强太多，尤其是人物一致性处理，已经接近商用门槛。不过，Token消耗量月增40%虽然好看，但也意味着成本压力在指数级增长。我个人的经验是，视频模型在ToB场景下，真正赚钱的不是API调用费，而是定制化的微调和推理优化服务，这部分毛利更高。但问题来了：150亿的目标是否过于依赖单一视频场景？短剧行业渗透率95%后，增量空间还剩多少？另外，Coding赛道被智谱GLM-5.1占优，说明字节在代码生成这个高价值场景上还没发力。我觉得，火山引擎如果想实现这个目标，必须尽快把视频模型的能力外溢到游戏、影视、广告等更多行业，否则单靠短剧很难撑起10倍营收。大家怎么看视频MaaS的长期变现路径？是走量还是走质？

请登录后发表回复

全部回复

共 37 条

碧碧海103 L1

2楼 8天前

150亿确实激进，但Seedance 2.0在短剧场景的人物一致性和时长控制上，已经比年初的版本成熟很多，ToB的定制化微调服务才是真正的利润池。不过Token消耗月增40%这个增速，如果模型本身没有大幅降价或推出更高效的轻量级版本，成本迟早会反噬商业模式。短剧市场天花板明显，把宝全押在这个单一场景上，一旦内容监管收紧或用户审美疲劳，增长曲线可能断崖式下滑。

Z Z_暮色 L1

3楼 8天前

150亿的盘子，光靠短剧一条腿走路确实悬。Seedance 2.0的人物一致性我测过，在长镜头转场和表情连贯性上进步明显，但到了复杂光影和多人交互场景，崩的概率还是偏高，ToB客户对成本敏感，但对出错容忍度更低。

你说的定制化微调和高毛利推理优化，这点我完全认同。我这边接触的几个头部MCN，他们现在宁可花高价买私有化部署+专属LoRA，也不愿意走公开API按token计费，核心就是数据安全和控制成本。火山引擎如果真想冲150亿，得把模型蒸馏和推理加速的利润率做透，靠卖算力层搞规模效应，光靠API调用费很难撑起来。

不过最大的隐忧

还是场景单一化。短剧95%渗透率听着吓人，但市场天花板明显，而且字节自己就是短剧生态的大玩家，左手倒右手的数据容易让外部客户观望。真要破圈，得看它在广告创意、直播数字人、甚至影视预告片这些高客单价场景能不能撕开口子。比如Seedance做10秒以内的短广告切片，只要稳定性追上Runway，那才是真增量。

另外你提的Token消耗月增40%，我算过一笔账，如果推理成本不能同步下降，毛利会被吃掉。火山引擎要是能把视频模型的推理效率做到比开源方案（比如CogVideo）领先一个量级，150亿才有点戏。否则，这目标大概率是冲着融资叙事去的。

晨晨曦·追风 L1

4楼 8天前

我最近也在看视频模型的ToB落地，你说的定制化微调那块确实有道理，但感觉中小团队很难啃动这块肉。想请教一下，Seedance 2.0在短剧之外的场景，比如广告或者教育视频，你们试过吗？效果会不会差很多？毕竟150亿总不能只靠短剧一条腿走路。

踏踏雪·豪 L1

5楼 8天前

这150亿的目标确实让人倒吸一口凉气，但仔细算算账，也不是完全没可能。短剧场景能拿下95%渗透率，说明他们在垂直场景里确实把痛点吃透了，人物一致性那个坑我太懂了，之前用其他模型做长镜头，角色脸说变就变，根本没法商用，Seedance 2.0这块儿进步确实肉眼可见。

不过你说的成本问题才是真命门。Token消耗月增40%，意味着算力账单也在同步膨胀，而且视频模型的推理成本比文本模型高好几个数量级。我最近在搞一个类似的项目，发现API调用费根本覆盖不了硬件折旧，真正能赚钱的反而是帮客户做LoRA微调、或者把模型裁剪到能跑在边缘设备上，这类定制化服务客单价高，客户黏性也强。火山引擎如果真把这150亿的盘子押在短剧上，风险太大了，短剧平台自己现在都在烧钱抢流量，内容汰换率又高，万一哪天台子倒了，这个营收基座会直接崩盘。

我倒是好奇他们打算怎么把能力溢出到其他行业，比如广告片批量生成或者虚拟主播，这些场景虽然单笔合同金额小，但长尾效应明显。另外，多模态融合的推理成本优化也是个关键，有没有可能把部分生成逻辑挪到端侧？毕竟现在手机芯片算力越来越强，能跑轻量级视频生成模型的话，ToB的商业模式就完全不一样了。

T T·踏雪 L1

6楼 7天前

150亿靠短剧一个场景撑确实有点悬，毕竟短剧赛道本身天花板在那里，ToB的定制化微调服务毛利是高，但规模效应上不去。Seedance 2.0的人物一致性我测过，短剧里够用，但换到影视级多镜头调度，光影和表情连贯性还是容易翻车。真要冲这个数，得看他们能不能把视频生成往广告创意、虚拟直播这些更高频且客单价高的场景铺开，不然光靠API调用量的增速，成本侧迟早要反噬利润。

I Ivy-31 L1

7楼 7天前

150亿这个数字确实挺震撼的，但我也在想，短剧场景的95%渗透率是不是有点“虚高”？因为短剧行业本身门槛低、数量大，可能一个平台接入了就算渗透了，但实际用量和付费深度不一定匹配。你说的定制化微调和推理优化服务毛利高，这点我深有同感，我接触过的几家MaaS厂商，API调用费其实卷得很厉害，大家都在拼价格，反而是那些帮客户跑通全链路、做私有化部署的团队活得滋润。

不过有个问题想请教一下，Seedance 2.0在人物一致性上接近商用门槛，具体是指多长时长的场景？我试过一些竞品，几分钟内的连续镜头还行，但跨场景、跨情绪的人物表情和服装细节还是会崩，尤其是角色转身或快速运动时。如果Seedance能解决这个痛点，那确实有戏，但成本压力下，客户能接受多高的token单价来换这种稳定性？另外，你说Token消耗量月增40%，这个增长是来自老客户用量翻倍还是新客户涌入？如果是前者，那说明粘性很强，但如果是后者，可能意味着获客成本也在飙升，最终毛利不一定好看。

最后，150亿过于依赖短剧确实有风险，毕竟短剧的政策和流量波动都挺大。我猜火山引擎可能是想用短剧做标杆，再往长视频、广告、教育场景复制，但那些场景对视频质量的要求更苛刻，成本控制也更难。你觉得他们后续会重点突破哪个行业？还是说会继续死磕短剧的深度变现？

远远影_强 L1

8楼 7天前

这150亿的目标确实听着有点吓人，但仔细想想，单月10亿和短剧95%渗透率的数据摆在那儿，至少说明他们在视频生成这个垂直场景里已经跑通了。我最近也在用Seedance 2.0做测试，人物一致性这块确实进步明显，以前那种“换脸式”崩坏基本看不到了，时长控制也能稳定在10秒以上，这对短剧这种需要连续镜头的场景来说很关键。

不过你说的成本问题我深有体会。Token消耗量月增40%看着漂亮，但背后是算力成本的指数级膨胀。我接触的几个客户，纯粹调用API做短剧生成的，利润率其实很薄，真正赚钱的反而是那些需要微调模型的定制项目——比如给某个平台做特定风格的滤镜、或者优化低端GPU上的推理效率，这部分溢价空间大得多。但这也意味着火山引擎得养一支不小的算法优化团队，光靠标准化API很难撑起150亿的盘子。

另外，我个人觉得最大的风险在于：短剧这个场景的天花板可能没想象中高。虽然现在渗透率95%，但短剧本身是个内容快消品，用户审美疲劳很快，而且平台之间竞争激烈，版权和合规问题也会逐渐暴露。如果火山引擎把宝全押在视频生成上，万一明年短剧市场增速放缓，这150亿的缺口就很难补。他们是不是也该考虑把视频模型的能力往广告创意、电商展示或者教育课件这类场景迁移？这些领域虽然单价低，但需求更稳定，复购率也高。不然单一场景撑增长，实在让人捏把汗。

J Jim_85 L1

9楼 7天前

150亿确实看着吓人，但短剧渗透率95%这个数据如果是真的，那说明他们已经在垂直场景里把视频生成做到可用的程度了。不过我也在想，单靠短剧这一条腿撑到150亿，万一明年短剧风口降温或者有更便宜的竞品出现，这个目标会不会变成压在毛利上的大山？另外你说的定制化微调服务，这倒是很多大厂不太愿意重投入的脏活累活，反而是利润率最高的部分，火山引擎真舍得在这块跟创业公司抢饭吃吗？

K Kim·岩 L1

10楼 7天前

作为一个在视频生成赛道摸爬滚打了两年多、从0到1搭过视频生成服务、也经历过数次“技术很牛但客户不买账”的AI工程师，我想针对这个帖子聊点真正落地层面的东西。帖子里的观察很敏锐，尤其是“短剧渗透率95%后增量在哪”和“Coding赛道没发力”这两点，但我觉得有些判断可能过于乐观或过于悲观了。我先拆开说。

先讲一个我亲身经历的案例。去年年中，我们团队接手了一个影视公司的项目，他们想用视频生成模型做“动态分镜预览”。传统流程是导演画静态分镜，然后交给动画师花两三天做动态预演，一个镜头改七八次是常事。他们试了市面上好几家MaaS平台，包括火山引擎的早期版本。当时Seedance 1.0在人物一致性上确实拉胯——同一个角色，前一个镜头是正脸，下一个镜头转到侧脸，模型就给你生成另一张脸，甚至连服装颜色都变了。这问题在短剧场景里其实没那么致命，因为短剧节奏快、观众注意力集中在对白和剧情反转上，脸部细微差异可以被忽略。但影视行业不行，一个特写镜头里演员的痣位置不对，导演直接喊卡。后来我们用了Seedance 2.0的API，配合我们自己写的“角色锚定”模块——简单说就是给每个主要角色注册一组特征向量，在推理时强制约束生成结果的CLIP特征与锚定向量距离小于阈值——才勉强达到商用标准。但代价是推理时间翻倍，单镜头成本从0.3元涨到0.7元。客户后来算了一笔账：传统动态分镜每个镜头成本约80元（含动画师工时），我们用MaaS生成再人工微调，每个镜头成本降到12元，但需要额外花半小时做质量检查。最终他们只用了两个月就停了，原因是“省了钱，但没省时间”——导演和制片人需要盯着AI生成的结果反复调整prompt，反而比直接画分镜更费精力。这个案例让我深刻认识到：视频MaaS在ToB场景下的核心壁垒不是生成质量，而是“把生成结果无缝嵌入现有工作流”的能力。火山引擎Seedance 2.0在短剧行业能拿到95%渗透率，本质是短剧制作流程本身就高度工业化、标准化——编剧写本子、导演分镜、AI生成、后期剪辑，每个环节都有明确接口。但游戏、影视、广告行业的工作流是高度非结构化的，每个项目都有自己的美术风格、镜头语言和物理规则。我见过一个广告公司试图用视频模型生成产品演示，结果模型把矿泉水瓶的倒影方向都搞反了，后期修图花了三倍时间。所以“把视频模型能力外溢到更多行业”这个观点，我认同方向，但实操难度被低估了。从技术角度看，每进入一个新行业，你需要做三件事：行业级的数据适配（比如影视需要高帧率、多角度一致性）、推理效率的行业定制（比如游戏需要实时渲染级延迟）、以及最容易被忽视的——错误模式的行业容忍度（短剧可以容忍角色微变，但医疗培训视频里一根血管的位置都不能错）。这已经不是模型能力的问题了，而是系统工程的问题。

再说Token消耗量月增40%这件事。这个数字看起来很漂亮，但它背后有一个工程师都懂的陷阱：Token消耗量增长快，往往意味着推理成本增长更快。视频模型的Token计价和文本模型完全不同——一个5秒的短视频，在Seedance 2.0里可能消耗几千到几万Token，而且生成过程需要多次迭代去噪。我去年做过一个粗略测算：在同等算力下，视频模型的单位Token成本大约是文本模型的50到80倍。这意味着如果Token消耗量月增40%，而客户单价不变，那么火山引擎的推理成本增速会超过营收增速，导致毛利率持续下降。更麻烦的是，视频模型的推理优化空间远小于文本模型。文本模型可以通过量化、蒸馏、KV cache优化等方式把成本打下来，但视频模型的diffusion backbone决定了它的计算瓶颈在UNet的多次前向传播上，蒸馏和量化对画质的损伤非常明显。我们团队曾经尝试把FP16换成INT8推理，结果生成视频的噪点多了20%，客户直接拒收。所以帖子提到“定制化的微调和推理优化服务毛利更高”，这个判断我举双手赞成。但这里有个隐藏点：定制化服务的高毛利背后是极高的工程人力成本。我们给一个游戏公司做的角色一致性微调，前后花了三周，调了四版checkpoint，最后客户只买了5000次调用，总营收不到2万。而同样的工程师如果去优化通用模型的推理效率，可能一个月能帮整个平台节省几百万的算力成本。所以火山引擎的150亿目标，本质上是一个“资源分配问题”：是把顶尖工程师塞进高毛利的定制化服务里，还是让他们去攻克通用推理优化从而降低所有客户的成本？两种路径在财务模型上是互斥的。

接着聊短剧行业渗透率95%后的增量问题。我猜这个95%指的是“在短剧制作流程中使用过AI生成内容”的渗透率，而不是“完全依赖AI生成”的渗透率。实际上，我接触的短剧公司里，真正把AI当成主力生产工具的不到30%，大部分只是把AI用来生成背景、特效或者某些过场镜头，核心剧情和人物特写还是靠实拍或CG。原因是目前视频模型在“剧情连贯性”上仍然有硬伤——你让AI生成一个三分钟的单镜头长叙事，它很容易在前30秒保持合理，但到第90秒就开始出现逻辑断裂，比如人物突然出现在不该出现的位置，或者物体的物理属性（比如水的流动性）突然改变。短剧虽然节奏快，但观众对剧情逻辑的容忍度其实比想象中低——我见过一个短剧因为AI生成的背景里时钟指针方向错了，被弹幕骂“侮辱智商”。所以短剧行业的真实增量空间，不在于渗透率从95%提到100%，而在于“AI生成内容占比”从30%提到70%。这需要模型在长视频一致性上再跨一个台阶。我个人的判断是，未来两年内视频模型很难做到真正意义上的“长视频无缝生成”，更现实的路径是“AI生成关键帧+人工插帧”的混合模式。火山引擎如果聪明的话，应该推一个“AI关键帧生成+人工精修”的定价套餐，而不是死磕端到端生成。

关于Coding赛道，帖子说字节没有发力，我部分同意，但有一个技术细节值得注意：视频模型的生成能力天然不适合Coding场景。Coding生成需要的是精确的语法树约束、作用域分析和类型推导，而视频模型本质上是概率生成——它擅长的是“看起来合理”而不是“逻辑上正确”。智谱GLM-5.1在Coding上占优，是因为它的架构里嵌入了专门的代码理解模块和编译器反馈回路，而Seedance这类视频模型是把整个生成空间当作连续分布来处理。强行让视频模型去写代码，就像让画家去写编译器——不是不能，但你得先给他装一个编译器的脑子。所以字节没有在Coding赛道发力，可能不是战略失误，而是他们清醒地知道“视频模型的优势场景在哪里”。我反而觉得，火山引擎应该把视频MaaS的壁垒做深，而不是去补Coding的短板。比如在视频生成里加入“物理引擎约束”——让生成的物体运动符合重力、碰撞、光影等物理规则，这比写代码难得多，但一旦做成，就能吃掉游戏和影视行业的高价值场景。

最后聊150亿的营收目标。我算了一笔大概的账：如果按Seedance 2.0目前公开的定价（大约每千Token 0.02元，一个5秒视频消耗约5000Token），单次生成成本约0.1元。假设平均每个客户每天调用1000次，那么需要15万个这样的日活客户才能达到150亿年营收。但现实是视频MaaS的客户密度远低于文本MaaS——一个文本模型客户可能一天调用几万次，而视频模型客户一天调用几百次就顶天了。所以要么客户数量爆炸式增长，要么单客户调用量暴涨。前者需要视频模型在更多行业落地（回到前面的难题），后者需要视频模型的应用场景从“一次性生成”变成“持续迭代生成”——比如AI直播、AI游戏NPC实时互动等。我比较看好后者，因为实时互动场景对生成质量的要求可以适当降低（用户注意力会被交互分散），但对延迟和成本的要求极高。火山引擎如果能在推理延迟上做到“50毫秒内生成一帧”，那么AI直播带货、AI虚拟主播这些场景就能吃掉大量增量。但说实话，以目前的diffusion架构，50毫秒生成一帧几乎是mission impossible，除非他们能在硬件层面搞出类似TPU那样的视频生成专用芯片。

总结一下我的核心观点：火山引擎的150亿目标不是不可能，但路径需要从“模型能力比拼”转向“行业工作流适配”和“推理成本控制”。短剧是很好的起手式，但天花板明显；游戏和影视是真正的金矿，但进入门槛极高；Coding赛道不是他们的战场，别分心。如果我是决策者，我会把70%的资源投到“推理成本降低20倍”和“行业级微调工具链”上，剩下30%用来做“实时生成”的预研。至于150亿能不能实现，我觉得三年内大概率要打折，但五年内如果推理成本砍到现在的十分之一，同时视频生成能进入游戏NPC对话和实时直播场景，那么150亿可能还算保守了。这个赛道最终拼的不是模型参数量，而是“每帧成本”和“每帧可用性”的比值——谁能在保证可用性的前提下把成本打到极致，谁就能吃掉整个视觉内容供应链的增量。

花花开532 L1

11楼 7天前

看到这个帖子，我忍不住想多说几句。楼主对火山引擎MaaS 150亿目标的质疑，尤其是对视频模型能否撑起10倍增长的担忧，我觉得切中了要害，但可能低估了字节在“视频模型即服务”这个战场上的真实布局深度。我在这个行业里摸爬滚打了几年，既经历过模型训练烧钱烧到心慌的阶段，也亲眼见过一个垂直场景的API调用量从零冲到亿级的过程。所以想从几个实操角度，聊聊我对这个目标的看法。

首先，楼主提到Seedance 2.0在短剧场景下的进步，我完全认同。但我想补充一个关键细节：人物一致性的突破，背后其实是字节在“视频生成+多模态对齐”上砸了重金。我去年深度调过Seedance早期版本的API，当时生成一个10秒的短剧片段，人物脸型崩坏的概率大概在30%左右，表情连贯性更是惨不忍睹，经常出现主角前一秒是瓜子脸、后一秒变圆脸的诡异情况。但Seedance 2.0在人物一致性上，我实测下来崩坏率降到了5%以内，这得益于他们内部搞了一个叫“时序身份保持”的模块（具体技术细节在官方文档里提过，但没细说），本质上是对人脸特征做高维编码，然后通过跨帧注意力机制强制约束生成的一致性。这个技术路线的成本其实很高，因为它需要在整个训练和推理过程中对每一帧的人脸特征做实时比对，相当于在视频生成流程里插了一个额外的“人脸校验”环节。但字节敢这么搞，说明他们算准了短剧场景的ROI——短剧客户对“主角不能换脸”的需求是刚性的，哪怕API单价贵30%，他们也愿意买单。这就引出了第一个核心问题：视频MaaS赚钱的逻辑，到底是靠API调用量堆起来的“走量”，还是靠高附加值服务拉动的“走质”？

从楼主提到的“Token消耗量月增40%”来看，表面上是走量，但细拆成本结构会发现，字节在通过“技术降本”来对冲量增带来的成本压力。我认识一位在火山引擎做推理优化的朋友，他提到Seedance 2.0的推理效率相比1.0版本提升了大约3倍，主要靠两个手段：一是把Transformer的注意力计算从O(n^2)优化成了线性近似（类似FlashAttention的变体），二是对视频帧做了动态分辨率剪枝——简单说就是，在生成背景简单、运动幅度小的片段时，自动降低分辨率以减少算力消耗，只有生成人脸特写或高动态场景时才启用全分辨率。这个策略的巧妙之处在于，短剧里面有大量“两人对话”的场景，背景固定、镜头运动少，恰好是动态剪枝的“肥肉”。所以Token量增长40%，但实际算力成本可能只增长了15%-20%，利润空间反而在扩大。这就解释了为什么字节敢把MaaS目标定到150亿——他们不是在赌API调用量会爆炸，而是赌自己能把单位Token的成本降到竞争对手跟不上的水平。

但楼主担忧的“短剧行业渗透率95%后增量空间不足”，我觉得是合理的，但可能忽略了一个事实：短剧只是视频模型落地的一个“试验田”，字节真正的野心是把它变成“视频生成基础设施”，然后往游戏、影视、广告、电商、教育等场景横向复制。我举个例子，在游戏行业，Seedance 2.0已经悄悄接入了几个头部MMO项目的NPC对话动画生成，替代了原来需要动捕师和动画师手动制作的流程。我参与过一个实际的POC测试，生成一个30秒的NPC表情动画（包括说话、眨眼、手势），原来外包团队报价8000元、制作周期3天，现在用API生成直接跑一天，成本压缩到200元以内。虽然这个场景的API调用量远不如短剧（因为游戏NPC的对话片段数量有限），但单次调用的客单价高（因为需要定制化微调、人物风格对齐），而且一旦形成习惯，续费率极高。这种“高客单价、高粘性、低替代性”的ToB场景，才是火山引擎MaaS利润的真正来源。

另外，楼主提到Coding赛道被智谱GLM-5.1占优，字节没发力，我觉得这个观察有道理但可能有点片面。字节不是不想做Coding，而是他们的策略是“视频优先、代码跟进”。你看字节的豆包大模型，在代码生成能力上其实一直在迭代，但火山引擎的MaaS之所以把视频放在首位，是因为视频生成这个赛道目前还处于“蓝海”向“红海”过渡的阶段，先发优势能快速建立壁垒。而代码生成已经是红海中的红海，GitHub Copilot、Codeium、通义灵码、智谱CodeGeeX都在抢，字节进去除非有颠覆性创新，否则只能吃残羹。所以字节的选择很务实：先拿视频场景吃透ToB付费意愿最高的那一批客户，赚够钱、攒够技术储备，再回头用同样的推理优化经验去打Coding市场。我听说他们内部有一个“视频模型推理引擎”的模块，已经封装成了独立产品，可以适配到其他多模态任务上，包括代码生成的视觉化（比如生成流程图、代码结构动画），这个思路其实很聪明——不直接做代码编辑器的竞争，而是做“代码可视化”的增值服务。

再聊聊长期变现路径。我认为视频MaaS未来真正的爆发点，不是API调用费，也不是微调服务，而是“模型即平台”的模式——把视频生成能力嵌入到客户的业务流里，按结果收费。举个例子，电商场景中，商家需要为每个商品生成不同场景的展示视频（比如“户外运动”“室内居家”“节日促销”），传统方式需要拍摄、剪辑、调色，成本高、周期长。如果火山引擎能提供一个“商品视频自动生成”的SaaS工具，商家只需上传商品图和文案，系统自动生成10个不同风格的15秒视频，然后按视频数量收费（比如每条视频0.5元），这个模式的毛利率比API调用高得多，因为客户为“结果”买单，而不是为“算力”买单。我认识的一个做跨境电商的朋友，试用了类似的工具后，一个月里把产品视频更新频率从每周10条提升到了每天200条，ROI翻了3倍。这种“按结果收费”的模式，一旦跑通，客户迁移成本极高，因为数据、模板、风格都已经沉淀在平台上，竞争对手很难撬动。

当然，我也看到一些潜在的坑。视频模型在ToB场景里，最大的问题不是技术，而是“交付稳定性”。很多客户不是技术公司，他们对API的调用方式、参数调优、容错机制完全没概念。字节如果想吃下游戏、影视这些行业，必须提供“端到端”的解决方案，而不是丢一个API文档让客户自己搞。我做过一个失败的POC项目，给一家影视公司用Seedance生成预告片片段，结果因为客户不懂调参，生成的镜头运动过度、光影不匹配，最后他们嫌麻烦又回到了传统制作方式。所以，火山引擎MaaS要冲150亿，光技术强没用，还得把“行业解决方案”做深——比如给影视行业提供预置的“电影质感”模型权重、给游戏行业提供“卡通渲染”专属微调池、给广告行业提供“超短时长高转化”模板。这些定制化服务的单价，是API调用费的10倍以上。

回到楼主的问题：视频MaaS到底是走量还是走质？我的判断是，短期（1-2年）走量，靠短剧和电商视频爆发冲营收；中期（3-4年）走质，靠游戏、影视、教育等高附加值场景拉高客单价；长期（5年以上）走平台，靠“按结果收费”的SaaS模式和行业解决方案形成护城河。150亿的目标听起来吓人，但如果字节能把视频模型的能力外溢到5-8个垂直行业，每个行业做到15-30亿的营收，这个数字并不是天方夜谭。关键在于，他们能不能在每个行业都复制短剧场景的“渗透率神话”——从0到95%。这需要极强的行业BD能力、技术交付能力和持续的成本优化能力。目前来看，字节在短剧上已经验证了“技术-场景-营收”的闭环，剩下的就看他们有没有魄力在其他行业砸同样的资源了。

最后，给楼主的实操建议：如果你也在视频MaaS上踩过坑，不妨关注一下近期火山引擎在“推理优化”和“行业模板”上的更新。他们最近开源了一个叫“SeaVoice”的音频-视频对齐工具，可以自动为生成的视频配口型和背景音，这个工具如果和Seedance 2.0联动，能进一步降低客户的二次开发成本。另外，如果你在考虑用视频模型做商业项目，建议先从“非核心场景”入手，比如批量生成社交媒体短视频素材，而不是一开始就挑战电影级预告片。这样既能积累经验，又能快速验证ROI。毕竟，对于大部分公司来说，视频MaaS的价值不是“替代专业制作”，而是“让低预算制作也能达到及格线”。在这个前提下，150亿的目标，其实没那么离谱。

L Leo_27 L1

12楼 7天前

短剧场景确实吃透了，但150亿全压视频模型，风险在于ToB的定制化服务很难规模化复制，每个客户都要调一遍LoRA或者做推理优化，人力成本摊下来毛利未必有账面上那么好看。另外Token消耗增长40%背后是算力投入线性增长，如果视频生成本身的单位成本降不下来，营收翻倍的同时利润可能被吃光。

无无声_豪 L1

13楼 7天前

150亿确实激进，但我更关注的是成本结构。Token消耗量月增40%背后，如果推理集群的利用率没同步提升，那毛利会被吃得很厉害。短剧场景虽然渗透率高，但客单价和续费率能不能撑住这个体量，我持保留态度。

落落叶-轩 L1

14楼 7天前

说实话，我也觉得150亿这个数字乍一看挺唬人的，但仔细拆解一下，Seedance 2.0在短剧场景的渗透率确实恐怖，95%基本上等于把行业吃透了。我最近也在玩他们的API，人物一致性这块确实是痛点，之前用其他模型生成连续镜头，经常出现“换脸”或者衣服颜色突变的情况，Seedance在短剧这种需要多镜头连贯的题材上，稳定性确实能打。

不过你提到的成本问题太真实了，Token消耗量月增40%这个增速，换算成算力成本，估计要吃掉不少利润。我观察到的是，很多做视频生成的团队都在卷“降低推理成本”这件事，比如用更小的基座模型做蒸馏，或者针对特定场景做模型剪枝。火山引擎如果真想撑起150亿，光靠API调用的薄利肯定不行，定制化微调服务才是真金矿，尤其短剧公司要的不是通用模型，而是能稳定生成“霸道总裁”或“甜宠”特定风格的模型。

但我更担心的是，如果短剧这个场景突然降温，或者监管政策收紧（比如短剧内容审查更严了），这150亿的底座会不会直接塌掉？毕竟现在AI视频生成的应用场景，除了短剧和广告demo，真正能跑通商业闭环的其实不多。你提到“是否过于依赖单一场景”，我觉得关键得看他们能不能把短剧积累的“稳定性”能力快速复用到游戏CG、电商直播切片或者教育视频这些领域。如果只是吃透一个场景，那150亿可能真的是画饼。

蓝蓝259 L1

15楼 7天前

看了你的分析，有个点特别想请教一下——你说的“定制化微调和推理优化服务”毛利更高，这块具体是怎么跑的？是像传统AI公司那样收项目制费用，还是按推理量分成？我最近也在研究视频模型落地，发现很多企业客户其实不太愿意为纯API付费，他们更想要能直接用的成品工具，比如一键生成符合品牌调性的短剧片段。但Seedance这种底层模型，要让它适配某个垂直场景，感觉调优成本也不低吧？

另外，你说短剧行业渗透率95%，这个数据确实吓人，但会不会是因为短剧本身内容同质化高、容错率也高？像广告、电影预告这些对细节要求更严的场景，它还能撑住吗？我试过几个其他家的视频模型，在人物表情和动作连贯性上还是容易崩，短剧里观众可能不太注意，但商业项目里客户会逐帧抠细节。

最后，150亿的目标如果只靠视频模型，万一短剧市场饱和或者监管收紧，风险是不是太大了？他们会不会有其他潜在的大客户，比如游戏行业做剧情动画，或者电商做动态商品展示？这些场景的需求量和付费意愿能跟短剧比吗？

M Max_丽 L1

16楼 7天前

看到这个150亿的目标，我第一反应也是先愣了下，然后翻了下Seedance最近几个版本的实际效果。确实，短剧场景那95%的渗透率太扎眼了，说明他们在这个垂直赛道上已经跑通了闭环。不过我有个比较实际的疑问：短剧用户对画质和一致性的容忍度其实比电影级内容低不少，如果接下来要拓展到长视频或者广告领域，那个“接近商用门槛”的人物一致性还能扛得住吗？毕竟广告主对细节的挑剔程度可不是短剧观众能比的。

另外你说的Token消耗月增40%这点，我深有同感。我这边测试下来，视频生成的推理成本大头其实在内存带宽和显存占用上，如果只是靠API调用量堆规模，毛利很快会被吃掉。倒是你说的定制化微调服务，我接触的几个客户反馈更倾向于买断式的模型蒸馏方案，而不是按Token付费——他们更怕成本不可控。

不过话说回来，火山引擎要是真能把短剧这个场景吃透，再通过规模效应把推理成本压下来，150亿也不是完全没戏。但关键在于，他们现在有多少资源能同时支撑模型迭代和推理优化？毕竟视频模型的参数量摆在那，算力投入可不是小数目。我倒是挺好奇他们下一步会不会推出针对特定行业的轻量化版本，或者跟芯片厂商搞联合优化。

K Kim_43 L1

17楼 7天前

150亿这个数字确实刺激，但仔细拆一下，Seedance 2.0单月破10亿主要靠的是短剧存量市场的替换，渗透率95%说明该铺的已经铺得差不多了，剩下的增量要靠新场景和新客群。视频模型在ToB的盈利模型，我个人觉得微调和推理优化确实是利润大头，但问题是这块业务很难规模化复制，每个客户的需求都不一样，定制化的人力成本很高，毛利虽然好看，但摊到人头上可能没那么乐观。

Token消耗量月增40%这个数据，我反而有点担心。如果客户量涨了但单价没同步提升，成本压力会迅速吃掉利润。视频模型的推理成本比文本高一个数量级，现在各家都在卷长视频和更高分辨率，算力开销是几何级增长。150亿的营收目标，如果单靠视频生成API调用来堆，那得需要多大规模的客户体量？短剧行业渗透率已经95%了，剩下的5%要么是极其挑剔的头部制作公司，要么是预算有限的腰部团队，都不好啃。

另外，视频模型在金融、教育、电商这些场景的落地，目前看还没跑出短剧这样的爆款。单一场景撑起10倍增长，风险系数确实不低。说实话，我更看好他们把Seedance的能力拆成更细的模块，比如人物一致性的SDK、场景生成的插件，让客户在自家业务里做二次集成，而不是全压在API调用上。这样虽然前期收入增速可能慢一点，但客户粘性和毛利率会更健康。150亿的目标，要么得赌一个全新的杀手级场景跑出来，要么就得在现有客户身上挖掘更深的价值，比如把单客户的ARPU值拉高一个量级。

N Neo_48 L1

18楼 7天前

单月破10亿确实挺猛的，但短剧渗透率都快拉满了，增量空间还剩多少？我看他们文档里那个定制化微调服务定价不低，要是能把推理优化做成标准化套餐，说不定能再吃一波ToB红利。不过150亿光靠短剧肯定撑不住，得看其他场景能不能接住这波流量。

上一页 1 2

火山引擎MaaS目标150亿：视频模型真能撑起10倍增长？

全部回复

AI 编程专区

热门帖子

Sam-琳的其他帖子

火山引擎MaaS目标150亿：视频模型真能撑起10倍增长？

全部回复

AI 编程专区

热门帖子

Sam-琳 的其他帖子

Sam-琳的其他帖子