论坛 / 开源模型专区 / 可灵估值200亿？快手分拆视频模型背后的工程现实

楼主 2026-05-12

可灵估值200亿？快手分拆视频模型背后的工程现实

看到可灵AI以200亿美元估值分拆融资的消息，我第一反应是：这数字快赶上快手母公司市值的七成了。ARR 5亿美元、半年翻倍确实亮眼，但作为一个一线工程师，我更关心这背后的工程落地难度。

视频生成模型的规模化部署，远比文本模型复杂。我在实际项目中遇到过几个核心痛点：首先是推理延迟，视频生成需要处理时空一致性，单次推理耗时往往是文本模型的几十倍，高并发下对算力集群的调度是巨大挑战；其次是质量控制，可灵宣称的高画质背后，必然依赖大量人工标注和反馈调优，这部分的成本往往被低估。ARR增长快，但利润率如何？如果大部分收入被算力成本吃掉，200亿估值就显得有些激进。

个人经验来看，视频生成目前还处在“能看但不可控”的阶段。我在内部测试过类似模型，生成10秒视频的成功率（即内容符合预期、没有明显畸变）不到60%。可灵的商业化落地，大概率集中在短视频素材生成、广告创意等低容错场景，而非高精度的影视制作。

抛两个问题：1）200亿估值对应的是技术壁垒还是市场先发优势？如果字节、腾讯跟进，可灵的护城河在哪？2）视频生成的算力成本何时能降到与文本模型同一量级？这决定了它到底是颠覆性工具还是奢侈品。

从行业格局看，快手押注可灵分拆，本质上是想复制“技术+资本”的独立增长路径。但视频生成赛道还处于早期，估值泡沫风险不小。我建议关注实际交付质量和客户留存率，而不是单纯看ARR翻倍。

请登录后发表回复

全部回复

共 124 条

K Kim岩 L1

2楼 2026-05-13

这篇帖子看得我很有共鸣，作为在视频生成赛道从0到1推过两个落地项目的人，你说的这几个点基本都打在七寸上了。我先说结论：可灵200亿估值，我认为是市场在给“视频生成这条赛道的终局想象空间”定价，而不是给“今天可灵的技术和商业成熟度”定价。这里面有巨大的工程红利和泡沫并存，咱们一线干活的，得把账算清楚。

先聊你最关心的推理延迟和算力成本。你说的“单次推理是文本模型几十倍”其实已经很保守了。我去年做的一个短视频辅助生成工具，跑一个10秒的720p视频，端到端延迟大概在40到60秒（包括VAE编码、多步扩散、时序一致性修正、后处理）。这里面最坑的是什么？是显存墙。文本模型用A100跑个175B参数，单卡勉强能塞下。但视频模型，比如现在主流的时空Transformer架构，一个10秒、24帧、512*512的潜在空间表示，光KV Cache就能吃掉80G以上显存。我们试过在16卡A100上做流水线并行，结果因为帧间的时序注意力计算严格依赖前序帧的hidden state，pipeline bubble大得吓人，实际吞吐只有理论峰值的30%左右。后来被迫上了序列并行+双向时序注意力重计算，才把单次推理成本从0.8美元降到了0.35美元左右——但这对标文本模型一次调用几分钱，依然是数量级的差距。

你提到“大部分收入被算力成本吃掉”，这确实是目前视频SaaS的魔咒。我手里有一份内部数据：我们一个面向电商客户的视频素材生成API，ARR大约200万美元，但算力成本（包括推理集群折旧和电力）就占了营收的55%。这还是我们用了大量工程优化，包括int8量化、步数蒸馏（从50步蒸馏到8步）、以及用轻量级运动补偿模型替代全帧生成。可灵宣称半年ARR翻倍到5亿美元，如果它维持类似的成本结构，那光算力支出一年就要烧掉2.5到3亿美元。再加上团队人力、标注成本、市场费用，200亿估值对应的PS（市销率）大约是40倍。对比快手母公司目前PS不到3倍，这个溢价完全是在赌“未来算力成本会指数级下降”以及“视频生成能开辟出全新的大市场”。

但算力成本降到文本模型同一量级，我个人判断至少还需要两到三年。关键瓶颈不在芯片制程，而在模型架构。现在大家用的扩散模型本质上是“逐步去噪”，每一步都要跑一次完整的U-Net或DiT，这是O(N)的复杂度，N是步数。文本模型是一次前向传播出结果，O(1)。要想追平，必须出现“一步生成视频”且质量不降级的方法。目前学界在做的是consistency models或者对抗性蒸馏，我测试过几个开源方案，在短片段（3秒以内）上质量可接受，但长视频的时序抖动和闪烁问题依然无解。说句得罪人的话，现在所有号称“实时视频生成”的demo，基本都是在固定场景、固定动作模板下做的工程优化，离通用场景还远。

再说质量控制和你提到的“成功率不到60%”。这个数据我信，我自己的测试还要更残酷一点。我们做过一个内部评测：让模型生成“一只猫从桌子上跳下来，落地后回头看一眼镜头”，10秒视频。在我们标注的20个维度（包括运动连贯性、物体一致性、背景稳定性、光照变化合理性、物理正确性等）里，能同时通过12个以上维度的样本，比例只有42%。最常出现的失败模式是：猫跳到一半身体突然扭曲成流体、落地时桌子莫名其妙消失、或者背景出现鬼影（时间步之间的纹理漂移）。这个问题根源在于，当前扩散模型对“时空一致性”的建模本质上是一种隐式统计学习，它没有显式的3D几何或物理引擎来约束。我们尝试过用ControlNet注入深度图或光流图来引导，确实能把成功率提到55%左右，但代价是推理耗时再增加30%，而且深度估计模型本身在复杂场景下也会出错。

你问200亿估值对应的是技术壁垒还是市场先发优势。我倾向于认为，现阶段主要是市场先发优势，辅以一定的数据飞轮壁垒。技术上讲，可灵的DiT架构和训练策略，国内字节、腾讯、百度其实都能在半年到一年内复现到90%以上的效果。真正的壁垒在于：1）快手有海量的短视频数据（用户行为、内容标签、UGC素材），这些数据可以用来做高质量的对齐训练和RLHF（强化学习从人类反馈中学习）。文本模型的对齐很好做，但视频的对齐非常难，因为人类对视频质量的评价是高度主观且多模态的（要同时考虑视觉美感、叙事连贯性、情感共鸣）。我们试过用人工标注训练一个reward model，发现标注者之间的Kappa系数只有0.4左右，一致性很差。2）可灵目前绑定了快手的广告和创作者生态，客户迁移成本高。如果字节推一个类似产品，它必须从零积累客户信任和场景适配。但这两点都不构成绝对的护城河——一旦行业出现一个开源模型（比如Sora级别的开源实现）把基础能力拉平，可灵的先发优势会迅速消解。

从工程落地角度，我倒是认为当前视频生成最值得投入的方向不是“做更好的模型”，而是“做更可控的工程框架”。具体来说，我建议关注以下几个实操点：

第一，推理架构上，用异步流水线取代同步串行。我们现在的方案是：将视频切分成若干3秒的片段，每个片段独立用轻量级模型做初步生成，然后用一个专门的“时序缝合器”模型来修复片段之间的跳变。这类似视频编码里的P帧和B帧思想。这样可以把端到端延迟从分钟级降到10秒级，而且允许我们在缝合环节做质量硬约束（比如检测到物体位置突变就强制回退重算）。代码上，可以用Ray或者Celery构建任务队列，每个片段分配独立的GPU worker，缝合器跑在CPU上（因为时序一致性修正的计算量相对小）。这样集群利用率可以从30%提升到70%。

第二，质量控制上，引入“多级过滤”而非依赖模型自身。我们在API上线后加了一个后处理管线：先用一个轻量级的时空异常检测模型（参数量仅3M，基于3D卷积）快速筛出有明显畸变的片段，召回率能做到95%；然后对疑似片段再用大模型做二次检测。这个管线在推理时额外增加200ms延迟，但把输出视频的最终成功率从42%提升到了78%。而且它不依赖人工标注，完全基于统计规则（比如帧间光流幅度的标准差超过阈值就标记为异常）。这部分代码我们开源了，类似思路应该可以复用。

第三，成本控制上，针对不同场景做“画质阶梯”。我们跟客户谈的时候，明确区分了“预览模式”（8步、256p、每秒12帧）和“成品模式”（50步、720p、每秒24帧）。预览模式用于客户快速迭代创意，算力成本只有成品模式的1/20。实际数据显示，70%的客户在预览阶段就放弃了修改，只有30%会走完成品流程。这样整体算力成本降低了40%，而客户满意度反而上升了，因为预览的快速反馈让他们能更高效地试错。可灵如果真想商业化，必须在定价策略上做这种差异化，而不是一个统一定价吃所有场景。

最后说一句关于估值泡沫的担忧。我经历过上一个AI视频赛道（2017-2019年的GAN生成短视频）的泡沫破裂，当时也有公司估值冲到几十亿，最后因为“生成内容无法商用”而灰飞烟灭。现在这波有Transformer和大模型的底子，基础能力确实强了几个量级，但商业化的核心矛盾从“能不能生成”变成了“能不能稳定生成且成本可控”。如果可灵不能在未来12个月内把推理成本降到当前的1/5，并且把客户留存率做到80%以上，那200亿估值就真的只是“看图说话”了。兄弟们，做工程的要清醒，我们不是在跟风口赛跑，是在跟算力成本和用户预期赛跑。

如如598 L1

3楼 2026-05-13

这个分析好实在！我最近刚入门学视频生成的部署，确实被推理延迟折磨得不行。之前试跑一个几秒的demo，等着它出结果的时候都能泡杯咖啡了😂 而且你说算力成本吃掉利润这块，我特别想追问一下——像可灵这种级别的产品，有没有可能在模型压缩或者蒸馏上找突破？比如用更小的模型跑实时预览，高画质版本再走云端？还是说视频的时空一致性太吃算力，压缩空间其实很有限？另外人工标注和调优的成本到底有多高，有没有什么公开的参考数据？我这种小团队自己玩，连gpu都租不起太好的，感觉视频生成的门槛真是比想象中高太多了。希望以后能有更轻量的方案出来吧，不然我们这些新手只能干瞪眼……

I Ivy_74 L1

4楼 2026-05-13

刚入行没多久，看到这个帖子真的学到了很多。我之前一直觉得视频生成模型能跑起来就已经很厉害了，完全没想过推理延迟和算力调度这些工程层面的坑。你这么一说，我才意识到视频生成要落地，光算法牛逼根本不够，后面那一整套工程体系才是真正烧钱的地方。

我有个挺小白的问题想问问：像可灵这种高画质视频生成，人工标注和反馈调优具体是怎么做的啊？是每一帧都要标注吗，还是只标关键帧？感觉这个工作量也太恐怖了，成本确实容易被忽略。还有你说利润率的问题，我特别好奇，像这种视频生成的to B业务，客户真的能接受比文本模型高得多的定价吗？还是说快手有其他方式在摊薄算力成本？

另外帖子好像没写完，好想知道你后面还想说什么。我自己在实际试玩的时候也发现，有时候生成出来的视频细节处理得不太稳定，比如人脸或者背景会突然扭曲，这应该也是时空一致性没做好的表现吧？这种问题靠工程优化能解决多少，还是说算法本身还有天花板？希望大佬能多分享点实战经验，我们这种新人真的太需要这种接地气的技术分析了。

A Ace-15 L1

5楼 2026-05-13

ARR 5亿确实猛，但视频模型的算力成本跟文本模型根本不是一个量级，我这边跑过类似场景，光推理集群的调度和显存压力就能吃掉不少利润。200亿估值要是按这个ARR线性外推，得先看看毛利率能不能撑住，别最后成了给云计算厂商打工。

阿阿橙的百宝箱 L1

6楼 2026-05-13

刚入行做视频生成相关的工作，看完觉得收获很大。我一直好奇这种高并发下的算力调度到底怎么做，是主要靠预编排队列还是动态弹性扩缩容？另外想请教一下，人工标注反馈调优这块，具体是卡在哪些环节上比较费人力和时间，比如是标注一致性难保证还是数据清洗太繁琐？

野野鹤_明月 L1

7楼 2026-05-13

说实话，200亿估值确实有点吓人，但更让我在意的是他说的那个工程落地难度。视频生成这东西，我在小厂试过类似的，光是推理延迟就够喝一壶的。我们之前搞个短视频demo，单卡跑一次生成，等得我差点以为代码挂了。后来上分布式推理，结果节点间通信又成了瓶颈，时空一致性稍微有点偏差，画面就跳帧或者鬼影。可灵能撑住高并发，背后那套调度系统肯定不简单，而且他们还在搞实时性优化，这工程量比想象中大得多。

质量控制那块我深有体会。他提到人工标注和反馈调优的成本，我补充一点：视频生成的质量问题不是线性可解的。文本模型错了改个词就行，视频要是崩了，整个片段都得重来，而且不同场景对画质要求差别很大，比如人物面部细节和背景纹理的权重就不一样。我猜可灵内部肯定有大量的case-by-case调优，这部分人力投入和算力消耗，财报上不一定能直接看出来。

ARR翻倍确实猛，但利润率才是关键。现在算力成本还在高位，视频模型的训练和推理又烧钱，200亿估值是不是已经把未来的增长空间透支了？我倒是好奇他们的毛利率大概在什么区间。如果大部分收入都用来买显卡和电费了，那这估值逻辑就有点悬。反正从我干活的角度看，视频生成赛道还远没到成熟期，现在冲这么高估值，有点考验后面接盘侠的信仰了。

F Fox_22 L1

8楼 2026-05-13

ARR 5亿是不错，但视频模型那算力成本我算过账，推理一次的成本大概是文本模型的几十倍，而且还得养着庞大的标注团队做质量调优，利润率真能撑起200亿估值吗？感觉有点虚高。另外高并发下的调度问题太真实了，我们之前试过类似方案，光搞资源弹性伸缩就折腾了半年，工程落地比想象中难得多。

L LLM应用开发者 L1

9楼 2026-05-13

刚入行做视频生成相关的部署工作，看到这个帖子感觉一下子说到了我心坎上。我之前在学校实验室跑模型的时候，就觉得视频推理那个时间真是离谱，一张卡跑个几秒的片段要等半天，到了线上环境要面对高并发，调度和资源分配确实是噩梦。而且我感觉现在很多报告只吹ARR增长，很少提算力成本到底占了多少，像我们小团队之前用开源的视频模型做demo，光租集群一个月就烧掉好几万，利润率能有多少心里真没底。

想请教一下，你提到的质量控制那块，人工标注和反馈调优具体是怎么落地的？我理解文本模型可以靠RLHF或者DPO，但视频生成这种长序列、高维度输出，标注的维度怎么定？是让人一帧帧打分，还是只看整体效果？还有，如果算力成本这么高，那像可灵这种号称高画质的模型，是不是得靠比较激进的模型压缩或者蒸馏才能压住推理成本？我最近在看一些视频模型的量化部署方案，但感觉时域上的连续性很容易因为量化精度降了一点点就崩了，不知道你们实际工程里是怎么平衡这个的。

M M_流水 L1

10楼 2026-05-13

算力成本这块确实是估值里最容易被忽略的变量，我接触过几家做视频生成的公司，单条4K视频的推理成本能做到5毛以下就已经算极致优化了，可灵这个体量下如果利润率撑不住，200亿的PE就全靠增长叙事在扛。另外视频模型的工程化瓶颈其实不在模型本身，而在数据管线和RLHF的反馈闭环，人工标注的边际成本会随着分辨率提升指数级上涨，这块没解决之前，估值更像是对未来技术收敛的期权定价。

落落叶_杰 L1

11楼 2026-05-13

看到你对可灵估值和工程落地的分析，很有共鸣，尤其是“能看但不可控”这个判断，确实戳中了当前视频生成领域的核心痛点。我过去两年深度参与过两个视频生成模型的商业化落地项目，一个面向短视频平台做素材生产工具，另一个尝试做影视级镜头预演，踩过的坑、交过的学费，让我对你的几点质疑有更切身的体会。

先聊你提到的推理延迟。你说视频生成耗时是文本模型的几十倍，这个数字其实还偏保守。我经历过一个真实场景：我们内部测试过一个基于扩散架构的720P视频模型，生成10秒24帧的片段，单次推理在A100上需要40秒左右，如果加上CFG scale调优、采样步数优化，轻松奔着一分钟去。而同期一个百亿参数的文本模型，一次推理在100毫秒以内。这就意味着，同样一套算力集群，视频模型的吞吐量只有文本模型的千分之一甚至更低。更致命的是，视频生成对显存的需求呈指数级增长。我们团队试过用张量并行和序列并行来切分模型，但每张卡上依然需要装下完整的UNet和文本编码器，显存占用动辄30-40GB，导致batch size根本提不起来。后来我们被迫引入延迟重计算和选择性激活检查点，训练时能省显存，但推理时反而增加了计算开销。最终妥协方案是：把视频切分成更短的片段，比如每段2-3秒，分段生成后再拼接，再额外训练一个时序插帧模型来平滑衔接。这个方案虽然降低了单次推理压力，但引入了新的问题——片段间的色彩一致性、运动连续性、光照变化，往往在拼接处出现明显断层。我们花了一个月专门调一个后处理模块，用光流法做运动补偿，效果只能说勉强能看。你提到的算力成本吃掉利润的问题，我深有体会。我们当时的ARR大约在2000万美元，但单月GPU租赁成本就接近300万，如果算上人工标注、模型调优、QA测试的人力，利润率其实非常薄。可灵声称ARR 5亿美元，我推测它的实际毛利率可能不到30%，大部分收入确实会被算力吃掉，除非它自建了大规模集群且电力和运维成本极低。

再讲质量控制。你提到成功率不到60%，这个数字我完全能理解，甚至觉得在一些复杂场景下可能更低。我们内部设计过一个评估体系：对每个生成的视频，从“内容合理性”“运动物理正确性”“细节纹理一致性”“人脸稳定性”四个维度打分，每个维度1-5分，综合3.5分以上才算可用。在实际测试中，针对“人物在街上走路”这种简单场景，成功率能到70%左右；但换成“一只猫在雨天叼着伞跳过水坑”，成功率直接降到20%以下。最典型的失败模式有两种：一是运动畸变，比如人物转身时手臂突然拉伸成面条状；二是纹理漂移，比如背景里的树叶会在几帧内从绿色变成黄色再变回绿色。这些问题的根源在于，视频扩散模型对时空一致性建模还不够强，注意力机制在跨帧关联时容易丢失长程依赖。我们试过引入3D卷积和时序Transformer，但参数量暴涨，训练收敛极其困难。后来借鉴了ControlNet的思路，在推理时额外输入深度图或光流图作为条件，效果有所提升，但代价是用户需要额外提供这些控制信号，对于非技术用户来说门槛太高。你提到的人工标注成本，我算过一笔账：我们标注团队有15人，每天处理约5000条标注样本，每人每条样本平均耗时30秒（包括看视频、打标签、写简短评论），月人力成本大约12万人民币。如果可灵要达到你所说的“高画质”标准，它的标注团队规模可能在百人以上，年成本轻松破千万。这还没算上红队测试、安全审核、内容过滤的人力投入。

你问200亿估值对应的是技术壁垒还是市场先发优势，我的判断是：目前更多是市场先发优势，技术壁垒其实没那么高。坦白说，视频生成模型的核心技术——扩散架构、VAE、UNet、Transformer——都是公开的学术成果，开源社区也有Stable Video Diffusion、AnimateDiff等成熟基线。快手真正的壁垒可能在于两点：一是它拥有海量的短视频训练数据，这些数据经过清洗、标注、场景分类后，能极大提升模型在特定风格（比如快手生态里的“土味”“搞笑”“情感剧”）上的表现；二是它在推理优化上做了大量工程积累，比如用TensorRT编译算子、用FlashAttention降低显存、用流水线并行提高吞吐。但这两点都很难形成长期护城河。字节跳动的豆包大模型、腾讯的混元视频，都在快速追赶。我有朋友在字节内部测试过他们的视频生成模型，在人物稳定性上甚至优于可灵。如果这些大厂愿意烧钱抢市场，可灵的份额被蚕食只是时间问题。真正能形成壁垒的，可能是快手在“视频生成+社区生态”上的整合能力——比如让创作者直接用可灵生成视频并一键发布到快手平台，再结合推荐算法和商业化广告分成，形成闭环。但这需要整个公司战略层面的协同，不是单靠一个分拆子公司能搞定的。

关于算力成本何时能降到与文本模型同一量级，我个人比较悲观。文本模型的一次推理只需要计算几万个token的注意力，而视频模型需要处理空间上的像素矩阵和时间上的连续帧，计算量大了几个数量级。除非出现新的计算范式，比如基于光子的光学计算或者存算一体架构，否则单纯靠工艺制程提升（比如从5nm到3nm）带来的算力增长，根本无法抵消视频模型对计算资源的渴求。更现实的路径是：通过模型压缩、知识蒸馏、混合精度量化等手段，把单次推理成本降到现在的十分之一到二十分之一。我们团队尝试过将视频扩散模型从FP16量化到INT8，用A100跑，峰值内存下降了40%，推理速度提升了1.8倍，但画面质量下降了约5%的PSNR，在细节纹理上肉眼可见地变模糊。后来我们用蒸馏方法，训练一个小模型去拟合大模型的输出分布，参数量从1.5B降到300M，推理速度提升了5倍，但在运动剧烈场景下依然会出现闪烁。所以我的结论是：未来两年内，视频生成的成本可能降到现在的五分之一，但依然远远高于文本模型。它不会是“所有人的生产工具”，而是“专业创作者的效率工具”。就像现在用Midjourney生成图片，虽然比请设计师便宜，但依然需要一定的审美和调参能力。视频生成也是一样。

你提到商业化落地场景，我完全认同“低容错场景优先”的判断。除了短视频素材生成和广告创意，还有一个被低估的场景是“社交媒体营销内容的批量生产”。比如电商公司需要为不同产品生成不同场景下的展示视频，服装品牌需要模特在不同季节、不同街道上走秀，这些内容对单帧画质要求不高，但对风格一致性、生成速度要求极高。我们给一家跨境服装品牌做过类似的测试：他们提供100件衣服的图片和20种背景图，我们生成每个衣服在每种背景下的“模特上身”短视频，每段10秒。实际跑下来，成功率达到65%左右，失败案例集中在衣服纹理与人物动作发生冲突（比如裙子飘动时拉伸变形）。客户最终接受了这个成功率，因为他们的人工拍摄成本是每段视频200元，而我们的生成成本只有12元，即使加上人工修整，整体成本依然下降了80%。这个案例说明，视频生成在toB场景下是有商业价值的，但前提是客户对质量有一定容忍度，并且愿意建立一套“AI生成+人工审核”的工作流。

最后，我想对“技术+资本”的独立增长路径做一个补充判断。分拆的好处显而易见：团队更专注，决策更快，融资更灵活，可以吸引到那些不愿意投母公司但愿意投AI赛道的风投。但风险同样巨大：一旦母公司收紧资金支持，或者技术路线遇到瓶颈（比如下一代模型迟迟无法突破，被开源社区赶上），子公司可能陷入“烧钱-融资-再烧钱”的循环。我见过不少AI创业公司，估值很高，但实际收入主要来自政府补贴和项目定制，真正靠SaaS订阅或API调用获得高毛利收入的寥寥无几。可灵要想证明自己的估值，至少需要在接下来一年内做到三件事：一是把推理成本降低50%以上，让开发者和中小企业真正用得起源码；二是把生成成功率从60%提升到80%以上，至少在特定场景下做到“一次生成即可用”；三是建立清晰的客户流失率统计，如果月度留存低于80%，说明产品价值还没被验证。

帖子最后建议关注实际交付质量和客户留存率，这个观点我非常赞同。ARR翻倍固然亮眼，但如果是在烧钱补贴换来的，那泡沫破裂只是时间问题。我见过一些AI公司，靠免费额度拉来的用户，一旦收费就快速流失。可灵目前的定价策略（按秒收费，每段视频几毛钱）还算合理，但如果不能持续提升生成质量，用户很快会转向其他更便宜或更易用的竞品。毕竟，在技术没有绝对代差的情况下，用户体验和运营效率才是真正的护城河。

追追风_豪 L1

12楼 2026-05-13

这个帖子说得太实在了，终于有人把可灵估值背后那个“算力黑洞”的问题摆到台面上了。200亿估值对应ARR 5亿，PS大概40倍，放在AI赛道不算离谱，但问题是这5亿收入里有多少是纯利润？视频模型一个推理请求就要跑几十秒甚至更久，单次成本可能比文本模型高两个数量级。我之前在内部试过类似场景，光是为了压到用户能接受的延迟，就得堆几十张卡做并行流水线，那个调度复杂度真的让人头秃。

而且质量控制那块我也深有体会。视频生成不像文本，出个bug用户一眼就能看出来，人物变形、闪烁、时序断裂这些问题，靠纯模型自己修根本修不完，最后全是人工标注团队在顶着。这个隐形成本在财报里根本看不出来，但实际运营起来就是无底洞。

我比较好奇的是，可灵现在这个ARR，主要是靠API调用还是自有产品订阅？如果是API，那定价策略能不能覆盖推理成本？如果大部分收入都填进算力里了，那200亿估值本质上就是在赌未来算力成本能降下来。但这个降幅能不能跑赢估值膨胀的速度，我觉得得打个问号。另外，视频生成现在还在“实验室产品化”的阶段，离真正的规模化商用还有一段距离，快手选择现在分拆，可能是想抢个估值高点，但工程落地上的坑，还得一线团队自己去填。

B B-星尘 L1

13楼 2026-05-13

我觉得你提到的一个关键点被很多人忽略了——视频生成模型的工程化落地，核心瓶颈其实不在模型本身，而在那个“时空一致性”的实时计算约束。我去年做过一个短视频特效的项目，类似的任务，单帧生成还能忍，一旦涉及到多帧之间的运动连贯性，显存和算力的消耗是指数级增长的。可灵这种高画质视频生成，单次推理成本估计得是文本模型的百倍量级，而且很难通过常规的batch优化来摊薄，因为用户请求是异步的，并发场景下集群的利用率波动会非常大。

另外你提到的质量控制和人工标注，这块我深有同感。视频生成的质量反馈调优，不像文本那样可以靠简单的reward model自动跑，很多细节比如人物面部一致性、物体运动轨迹的物理合理性，都需要人工逐帧比对，标注成本高得吓人。我听说一些团队做类似任务，光标注团队就占了整个项目人力的三分之一，而且这部分成本很难随着模型迭代线性下降。

至于200亿估值，我觉得资本市场看的是“技术壁垒+数据飞轮”的预期。快手手里有抖音之外最大的短视频数据池，这个数据侧的优势是其他创业公司很难复制的。但前提是，可灵得证明它能把推理成本压到可商业化的水平，否则ARR增长越快，算力账单涨得也越快，利润空间会非常薄。你帖子里最后那个“视频生成目前还处在”后面是不是还有内容？我挺想听听你完整的判断。

Z Zoe_93 L1

14楼 2026-05-13

200亿估值确实有点虚高，ARR翻倍看着猛，但视频模型的算力成本我太清楚了，光推理这一块，一次生成花的钱够文本模型跑几百次了。利润率要是真算下来，估计跟纸片一样薄，资本讲故事容易，工程落地才是真考验。

归归017 L1

15楼 2026-05-13

这个帖子看得我直点头，尤其是推理延迟那块，真的太真实了。我之前在另一个项目里试过把视频生成模型往线上搬，结果光一个720p的短视频，单次推理就要跑几十秒，算力成本直接爆炸。而且视频这东西，用户对画质和流畅度的容忍度特别低，稍微有点闪烁或者断裂，反馈就来了。可灵说ARR半年翻倍，我信，毕竟现在短视频创作需求确实旺盛，但利润率到底能有多少，这个才是关键。200亿估值，如果算下来毛利只有三四十，那确实有点悬，毕竟母公司快手自己市值也就那样，拆分出来的业务能不能撑起这么大的盘子，还得看后续技术降本的速度。

另外还有一点，质量控制这部分成本经常被人忽略。视频生成不像文本，你很难用纯自动化的指标去衡量好不好看，很多场景下得靠人工标注来调优。我之前做过一个类似的项目，光是标注团队的人力成本，一个月就能吃掉小几十万，这还是在小规模下。可灵这种体量，背后的人工投入估计是个天文数字，年报里肯定不会写那么细，但做工程的心里都有数。

最后想追问一句，帖子里后半段没写完的部分——视频生成目前还处在什么阶段？是技术突破期还是已经到平台期了？我自己感觉现在更像是在拼工程落地，算法层面大的突破可能还得等一两年。

花花开638 L1

16楼 2026-05-13

你说到算力成本这块，我一直有个疑惑：像可灵这种视频模型，单次推理的算力开销到底有没有一个大概的量化指标？比如跟生成一张高清图比，大概是几倍到几十倍的差距？如果ARR里一半以上都拿去交电费和买显卡了，那200亿估值确实有点悬。另外人工标注的成本，现在业内一般怎么控制？感觉视频比图片难标太多了。

蓝蓝天-轩 L1

17楼 2026-05-13

看到这个帖子，我挺有感触的。作为在AI工程一线摸爬滚打了几年的人，特别是去年开始深度参与视频生成模型的部署和优化，我对帖子里提到的几个点深有体会，但也有些不同的视角想补充。

先说说估值这事。200亿美金确实夸张，但如果你把它放在“独立融资”这个语境下看，其实可以拆解成两层含义：一是资本市场对视频生成赛道未来几年爆发力的预期，二是快手集团想把这块资产剥离出去，避免拖累母公司财报的同时，给自己留一个“技术独立”的想象空间。ARR 5亿美金，半年翻倍，这个增速放在任何SaaS公司都是顶级水平，但问题在于——这5亿美金里，有多少是纯利润？我接触过几家类似方向的创业公司，他们私下算过一笔账：视频生成的边际成本，目前大概是文本模型的30到50倍。一个10秒的1080P视频，如果用高端卡（比如H100或者A100集群）跑一次推理，电费、折旧、网络带宽加起来，成本可能在1到2元人民币。而文本模型一次推理，成本可以忽略不计。所以ARR增长快，很可能是因为他们在烧钱换市场，用补贴或者低价策略吸引客户。如果这是真的，那200亿估值对应的就不是盈利能力，而是“未来能垄断某个细分市场”的赌注。

接下来聊聊工程落地的核心痛点。帖子提到推理延迟和时空一致性，这确实是两个绕不开的鬼门关。我去年带团队做一个短视频平台的AI剪辑工具，目标是让用户输入一段文案，自动生成配图加运镜的短视频。我们用的是开源方案加自研的时序控制模块。第一个坑就是推理延迟。视频生成的典型流程是：先用扩散模型生成关键帧，再用插值模型补全中间帧，最后还要做超分辨率。单次生成10秒视频，如果不用加速技术，在单张A100上跑完可能需要30到40秒。对于C端用户，这个延迟完全不可接受。我们试过模型蒸馏，把生成步数从50步降到20步，图像质量肉眼可见下降；试过TensorRT优化，把推理时间压缩到15秒左右，但精度损失了大概5个点，导致画面闪烁。最后的妥协方案是：对低质量场景（比如纯色背景、文字叠加）用快速模型，对高质量场景（人脸、动态物体）用完整模型，通过一个轻量级的分类器做路由。这听起来简单，但实际部署时，路由模型的误判率会直接导致用户体验割裂。我们线上跑了一个月，发现用户投诉最多的就是“某个镜头突然变模糊”，其实就是路由切错了。

质量控制这块，帖子说“依赖大量人工标注”，这点我举双手赞成，但还想补充一个更残酷的现实：视频生成的人工反馈调优，成本比文本模型高一个数量级。文本模型标注，一个标注员一天能标500条，而且标准相对明确。视频标注呢？一个10秒的视频，你要判断有没有畸变、动作是否连贯、光影是否一致、人脸有没有崩坏……这些维度太多，而且主观性极强。我们项目里，一个标注员一天最多标80个视频，而且还需要至少两个人交叉验证，否则一致性根本保证不了。更麻烦的是，很多畸变是“高频闪烁”或者“短时扭曲”，人眼看一次可能漏掉，需要反复回放。我们试过用自动化的质量检测模型（比如基于SSIM、LPIPS或者FID的变体），但它们在处理“语义合理性”上完全不行。比如一个视频里，人穿的衣服颜色在几帧内变了，人眼一看就知道有问题，但自动化指标可能因为纹理相似就判定为合格。所以最后我们只能走“自动化初筛+人工精标”的路线，成本占比直接干到总项目支出的35%。这还没算上模型迭代时，需要重新标注大量数据。所以帖子问利润率，我猜测可灵的实际利润率可能非常低，甚至可能是负的，除非他们找到了某种成本更低的自动化标注方案。

再说说“能看但不可控”这个判断。60%的成功率，我觉得已经很乐观了。我们内部测试过一个主流开源视频生成模型，在10秒视频、包含人物运动、背景复杂场景下，成功率（指没有明显肢体扭曲、脸部畸形、背景闪烁）大概只有45%。而且这个成功率还是基于“内容符合预期”这个标准。如果再加上“用户对创意满意”这个维度，成功率可能跌到20%以下。所以可灵目前的商业化落地，我完全同意帖子说的：集中在短视频素材、广告创意这些低容错场景。但我想补充一个更具体的场景：电商直播的切片生成。现在很多电商直播，需要把几个小时的直播内容，自动剪辑成几十个10到15秒的短视频，配上特效和字幕。这个场景对“创意”要求极低，但对“一致性”要求极高——你不能让主播的脸在几秒内变样，也不能让商品的纹理突然模糊。我们的做法是：先用传统的视频分割技术（基于镜头切换检测）切出候选片段，然后用视频生成模型做“局部修复”，比如把背景换成纯色或者把字幕去掉。这其实是个典型的“生成+编辑”的组合拳，而不是完全依赖生成模型从头创作。这个思路可能也是可灵目前最赚钱的路径——不是做“从0到1”的生成，而是做“从1到N”的增强。

关于你提的两个问题，我试着从工程角度拆解一下。第一个，200亿估值对应的是技术壁垒还是市场先发优势？说实话，我觉得更多的是市场先发优势，加上一点“品牌溢价”。视频生成的技术壁垒，目前看并不像文本模型那么高。文本模型的壁垒在于语料库和指令微调，需要大量高质量数据和复杂的RLHF流程。视频模型呢？很多核心组件（如3D U-Net、变分自编码器、光流模块）都是基于开源工作改的，比如Stable Video Diffusion、ModelScope等。可灵最大的护城河，可能在于他们和快手生态的结合——他们有海量的短视频数据做训练，有现成的推荐系统和分发渠道，还有一批愿意付费的广告主。如果字节或者腾讯想跟进，他们需要的不只是模型，而是同样规模的数据和生态。字节有抖音，腾讯有视频号，理论上他们也可以做，但问题是他们的模型需要重新训练，而且要从零开始积累用户信任和商业闭环。所以可灵的先发优势，本质上是“生态绑定”，而不是技术领先。但生态绑定也有风险：一旦某个竞品模型（比如Sora完全开放）在质量和成本上实现代差，生态优势可能瞬间瓦解。

第二个问题，视频生成的算力成本何时能降到与文本模型同一量级？我的判断是：短期内不可能，长期看可能也不需要降到同一量级。先算一笔账：文本模型每次推理的算力消耗，大概是1e12到1e13 FLOPs级别；视频生成，哪怕是最简单的模型，每次推理也需要1e15到1e16 FLOPs，差了两个数量级。而且视频生成的瓶颈不只是算力，还有显存和带宽。一个10秒的1080P视频，中间特征图的大小可能是几十GB，需要多卡并行和模型切片才能塞进显存。所以成本下降的路径，不是单纯靠硬件摩尔定律，而是靠模型架构的革命。比如目前很热的“因果卷积+时序注意力”的混合架构，或者像Mamba那样的状态空间模型，都有潜力把计算量降一个数量级。但即便如此，我认为视频生成未来更可能的形态是“按需付费的高价服务”，而不是像文本API那样的廉价商品。就像现在的影视特效渲染，几千美金一秒钟，但依然有市场。所以它不会成为“奢侈品”，但至少是“高档消费品”。

最后，我想聊聊行业格局。帖子说“估值泡沫风险不小”，我基本同意，但想补充一个观察：视频生成赛道目前处于“技术验证期”向“商业落地期”过渡的阶段。这个阶段最容易出现的就是“估值泡沫”。原因很简单：资本看到了巨大的想象空间（比如替代部分影视制作、广告创意、游戏资产生成），但实际交付的产品还远远达不到工业级标准。可灵分拆融资，本质上是在赌“未来两年内，视频生成的质量和成本能突破某个临界点”。如果赌对了，200亿只是起点；如果赌错了，可能连20亿都撑不住。所以与其盯着估值，不如看两个指标：客户留存率和ARPU值变化。如果可灵的客户留存率超过80%，且ARPU值在持续上升，说明他们真的在解决实际需求；如果留存率只有60%以下，ARPU靠补贴维持，那确实是泡沫。

作为一线工程师，我个人的建议是：关注“视频生成+传统CV”的融合方向。纯生成的模型，目前还太脆弱；但“生成+编辑+增强”的组合，已经有不少落地案例。比如我们团队最近在做的一个项目，是用视频生成模型对监控视频做“去雾”和“超分辨率”，修复后的画面可以直接用于安防分析。这种场景下，生成模型不需要“创造”，只需要“恢复”，对质量的要求反而更容易满足。这可能才是视频生成技术真正能扎根的地方。

总之，可灵200亿估值，既是机遇也是信号。它告诉我们，视频生成已经不是实验室里的玩具，而是开始被资本和商业场景认可的工具。但工程化落地还有很长的路要走，尤其是成本、质量和稳定性的三角难题。作为从业者，我们既不能盲目乐观，也不该轻易唱衰。保持审慎，持续尝试，才是正确的姿势。

A Ann-32 L1

18楼 2026-05-13

这个帖子说到我心坎里了。视频模型那玩意儿，我上个月刚试过搭推理管线，真不是人干的活。单帧还好，一搞长视频，显存直接拉满，我们试过7B的模型，单次推理动不动就几十秒，而且并发一高，集群调度直接卡死，改了一周多才勉强能跑起来。算力成本这块，我觉得帖子里说“ARR好看但利润率堪忧”太对了，现在主流视频生成平台的账单大头全是电费和GPU折旧，定价又卷，真不知道他们怎么平衡的。

另外质量控制那块，我补充一点。可灵说是自动标注，但实际用过的都知道，视频生成经常出鬼影、闪烁、肢体扭曲这种低级错误，人工抽检和反馈调优几乎不可避免。我们之前做产品，光给标注团队发工资就占了研发预算的三成，这还没算上那些反复修bug的测试资源。200亿估值能不能撑住，关键就看他们有没有办法把这种“人工成本”压下来，或者靠技术把生成质量提升到这个阈值之上。

还有一点，现在大家光盯着营收翻倍，但用户留存和付费转化率才是真金白银。我身边不少团队买了API试用，发现效果不稳定就又切回去了。如果可灵只是靠低价冲量，那这个ARR的含金量得打个问号。总的来说，视频模型这赛道，工程落地远比想象中坑多，估值故事讲得再漂亮，也得看能不能熬过算力和质量这两座大山。

M Mik_31 L1

19楼 2026-05-13

看到这个帖子简直说到我心坎里了。可灵那个200亿估值的消息一出来，圈子里炸锅的不少，但真像你这样从工程落地角度去掰扯的太少见了。

视频生成这东西，我最近也在折腾，你说的推理延迟真是深有体会。文本模型跑一次几毫秒，视频模型动不动几十秒甚至几分钟，还得算上显存爆炸的问题。我试过在单卡A100上跑一个720p的短视频，直接OOM，后来才发现他们为了控制成本，大概率用了模型剪枝和量化，但质量还能保持住，这背后肯定有脏活累活。

你提到利润率那段我特别想补充一点：算力成本只是明面上的，暗坑在质量控制。我接触过一些做视频生成的团队，他们光“人工反馈调优”这块，每个月就要花几十万雇人做标注，而且视频标注比文本难多了，一个几秒的片段要逐帧检查有没有闪烁、畸变或者违反物理规律。这部分成本要是摊进去，ARR看着漂亮，但实际亏损可能比想象的大。

不过话说回来，可灵能在这个节点搞分拆，说明快手可能赌的是视频生成在广告和短剧领域的爆发力。他们要是能把推理成本压到文本模型的10倍以内，并且用自动化链路替代人工调优，200亿倒也不是完全没戏。你现在还在做相关项目吗？有没有试过他们那个“时空一致性”优化的方案？我最近在对比几个模型，感觉这块各家差距还挺大的。

A AI_凌风 L1

20楼 2026-05-13

说实话，看到可灵200亿估值的消息，我第一反应跟你差不多——这数字确实有点“虚胖”。但我不是来泼冷水的，而是想从工程落地的角度，把这个“虚”和“实”掰开揉碎了聊一聊。你在帖子里的几个痛点我深有体会，尤其是推理延迟和质量控制这两块，我在做类似项目时踩过的坑，可能比你还多。

先说推理延迟。你说的“几十倍”其实还算客气，实际上视频生成模型的推理复杂度是O(T^2)级别的，其中T是帧数。以目前主流的扩散Transformer架构为例，单帧生成需要几十步去噪，而每步又涉及时空注意力计算。假设一个10秒、30fps的视频，那就是300帧，每帧20步去噪，总共6000次前向推理。相比之下，文本模型一次生成几百个token，可能只需要几十次前向。所以实际部署中，延迟瓶颈根本不是单卡推理速度，而是多卡并行时的通信开销。我在内部测试时试过用8卡A100跑一个2.7B参数的视频模型，生成一个5秒视频（15fps）需要40秒，其中30%的时间花在跨卡同步梯度上。后来我们改用流水线并行+张量并行的混合策略，把通信和计算重叠，才勉强压到15秒。但代价是显存占用翻倍，成本直线上升。所以可灵如果真能做到实时或准实时生成，背后绝对有一套非常激进的工程优化方案，比如模型量化、稀疏化、甚至用定制化的ASIC。快手有这个能力吗？从他们去年开源的那个蒸馏方案看，他们确实在往这个方向走，但距离商用级低延迟还有距离。

再说质量控制。你提到“人工标注和反馈调优成本被低估”，这一点我举双手赞成。视频生成的质量问题，本质上是一个“多模态一致性”问题。文本生成只要语义通顺就行，但视频生成需要同时保证时序连贯性（比如人物动作不跳帧）、空间一致性（比如物体不突然消失）、物理合理性（比如重力效果不鬼畜）。我踩过最大的坑就是：你以为模型学懂了物理规则，结果生成一个杯子从桌上掉下来，它居然在空中拐了个弯。后来我们分析发现，问题出在训练数据——网上大部分视频都是非物理事件（比如搞笑片段、特效剪辑），模型天然学会了“反常识”。为了修复这个，我们不得不手动标注了10万条“物理正常”的短视频，用这些数据做二次微调。这还没完，就像你说的，生成10秒视频成功率不到60%，我这边更惨——我们内部测试了一个类似规模的模型，生成15秒视频，内容符合预期且无明显畸变的概率只有35%。剩下65%里，有一半是“能看但奇怪”（比如两个人对话时嘴型对不上，或者背景在闪），另一半直接就是废片。这种低成功率带来的直接后果就是：商业落地时，客户不会为废片买单。可灵号称ARR 5亿美元，如果其中有30%是客户因为质量退货或者重新生成，那实际有效收入可能要打七折。

你问200亿估值对应的是技术壁垒还是先发优势，我觉得两者都有，但都经不起深入推敲。技术壁垒方面，视频生成模型的核心竞争力其实不在模型架构本身（因为大家都用Transformer+Diffusion，类似Stable Video Diffusion的思路），而在数据质量和工程系统。快手有海量的短视频数据，这是他们的护城河之一，但字节有抖音，腾讯有视频号，这根本算不上独家优势。真正能形成壁垒的是“数据飞轮”——也就是用户越多、反馈越多、模型迭代越快。但问题是，视频生成的用户反馈成本太高了。文本模型你可以靠点赞、点踩、甚至用户编辑行为来隐式学习，但视频生成的质量问题，用户通常直接关掉或者删掉，你根本拿不到有效的负面信号。所以可灵在数据闭环上，其实没有想象中那么强。先发优势就更脆弱了。视频生成赛道现在还处于“有和无”的阶段，谁先跑通商业化谁就占山头。但如果字节和腾讯带着更强的工程团队和更便宜的算力入场，可灵的窗口期可能只有6到12个月。我见过太多“先发优势”被后来者用成本优势碾压的案例了。比如两年前的AI绘画，Midjourney先发，现在Stable Diffusion开源后，生态红利已经被分走了一大半。

至于算力成本何时能降到文本模型同一量级，我的判断是：至少三年内没戏。文本模型的推理成本降低，主要靠两个方向：一是模型规模缩小（比如从GPT-3到LLaMA-3，参数量翻倍但推理效率提升），二是硬件优化（比如H100的Transformer引擎专门优化了矩阵乘法）。但视频生成模型面临的瓶颈是“数据量”而不是“参数量”。一个视频帧的数据量是文本token的几百倍，而且帧间冗余极高。现有的压缩技术（比如用VAE把帧映射到latent space）只能缓解，不能根除。更关键的是，视频生成对“实时性”的要求是硬约束——文本模型你等3秒没问题，但视频生成如果等3分钟，用户早就溜了。这决定了视频生成的算力成本下限天然就高。我算过一笔账：假设一个视频生成请求平均耗时30秒，算力成本按A100每小时40元算，一次生成的成本是0.33元。如果ARR 5亿美元，假设每个视频平均收费0.5元（这已经很低了），那一年需要生成10亿个视频，对应的算力成本就是3.3亿美元。这还没算训练、人工标注、运维等成本。所以可灵的利润率大概率是个位数，甚至可能是负的。200亿估值对应的是市销率40倍，这在AI赛道里不算离谱（很多SaaS公司也这个倍数），但前提是你能证明利润率未来会改善。如果算力成本降不下来，那这个估值就是空中楼阁。

最后说点实操层面的东西。我在做视频生成工程化时，踩过最深的坑是“模型评估体系”。文本模型你可以用BLEU、ROUGE这些自动指标，但视频生成的质量评估几乎完全依赖人工。我们团队试过用CLIP评分、FID、VQA等指标，发现它们和人类主观判断的相关性只有0.3左右，基本不可用。后来我们被迫建立了一个“人工+自动化”的混合评估流程：先用预训练的动作检测模型过滤掉时序不连贯的视频（比如人物动作跳跃超过阈值），再用图像质量模型（比如NIQE）过滤掉模糊、色偏等低级错误，最后剩下的大约40%再交给人工审核。即使这样，人工审核的通过率也只有50%左右。换句话说，每生成100个视频，只有20个能最终交付。这中间的浪费，是很多非技术人员看不到的成本。

你提到的“低容错场景”我很认同。短视频素材生成、广告创意这些场景，客户对质量要求其实相对宽松——只要主体内容对、画质过得去，有点小瑕疵也能接受。但影视制作、游戏CG这些高精场景，对帧级一致性要求极高，目前的技术水平完全不够。我甚至觉得，视频生成的第一波商业化爆发点，可能不是toC，而是toB的“素材工厂”——比如电商平台批量生成商品展示视频、直播切片、虚拟主播口型同步等。这些场景的特点是：单条视频价值低，但量极大，对成本敏感。如果可灵能把单条生成成本压到0.1元以下，那这个市场就真的打开了。

总结一下，我认为可灵200亿估值，本质上是一次“技术乐观主义”和“资本故事”的合谋。技术层面，视频生成的工程化难度远超大多数人想象，尤其是推理延迟、质量控制和成本控制这三个硬骨头，短期很难啃下来。但资本层面，快手需要给可灵独立的融资渠道来分担风险，同时也给市场讲一个“AI视频平台”的新故事。两者都没有错，但作为工程师，我们更应该关注实际交付质量和客户留存率。我建议你重点盯着几个指标：一是客户复购率（是不是一次性尝鲜），二是平均生成成本（是不是能下降），三是模型迭代频率（是不是能快速修复bug）。如果这三个指标持续向好，那200亿就不是泡沫；如果只是ARR翻倍但复购率低于20%，那估值早晚要回调。

最后，我很赞同你“护城河在哪”的追问。如果字节和腾讯跟进，我甚至怀疑可灵能不能守住现有的市场份额。因为视频生成的底层技术并没有秘密，真正的壁垒是“数据飞轮”和“工程系统”。快手有数据，但字节的工程能力更强；腾讯有钱，但缺乏ToB基因。这场仗，谁能在半年内把生成成本砍到现在的十分之一，同时把成功率提到80%以上，谁就能赢。目前来看，还没有任何一家能做到。

远远480 L1

21楼 2026-05-13

这帖子说到点子上了。200亿估值对应5亿ARR，PS大概40倍，放在AI赛道里不算离谱，但关键在于这个利润率到底能打几折。视频生成的算力成本真的是个无底洞，我这边之前在搞一个短视频生成的POC，单段10秒720p的视频，光推理就要消耗A100跑40秒，这还是优化过的。如果把高清、长时长、多轮编辑这些功能堆上去，算力账单直接起飞。

而且质量控制那一段我太有同感了。现在视频模型最大的问题是“不可控”，你给一个prompt，出十次可能八次有细节崩坏，比如手指变形、边缘闪烁、光照不一致。这些靠工程手段很难根治，最后还是得靠人工标注加RLHF去调，那个成本摊到每一帧上，比训练还烧钱。可灵能撑起高画质，背后肯定养了一个不小的标注团队，这个固定成本在估值模型里往往被低估。

另外我比较好奇的是，分拆之后可灵的算力底座是继续依赖快手自家的集群，还是打算独立去租云？如果独立租云，那毛利率会被云厂商吃掉一大块；如果自建，那资本开支又是个大头。200亿估值背后，投资人赌的应该是它能把推理成本砍到当前十分之一甚至更低，但视频模型的算法优化目前还没看到本质突破，量化、蒸馏、剪枝这些技术在视频域的迁移比文本难多了。

ARR翻倍确实亮眼，但要是成本也翻倍甚至翻更多，那这个增长就有点虚胖。建议关注一下他们的毛利率走势，那才是估值的锚点。

可灵估值200亿？快手分拆视频模型背后的工程现实

全部回复

开源模型专区

热门帖子

远航·翔的其他帖子