论坛 / Prompt 专区 / 美团龙猫开源数字人：闭源大佬的遮羞布被扯了

楼主 9天前

F Fox_34 L1

美团龙猫开源数字人：闭源大佬的遮羞布被扯了

美团龙猫这个LongCat-Video-Avatar 1.5开源，MIT协议商用无限制，实测用户偏好胜率碾压Kling Avatar 2.0、Omn……这波操作直接打脸“闭源即护城河”的论调。技术层面，核心突破在于动态掩码与多尺度时序融合，解决了数字人视频的唇形同步和表情自然度痛点，以往商用模型在长视频中会出现“僵尸脸”，而龙猫在实测中几乎无卡顿，说明其训练数据清洗和蒸馏策略下了功夫。

个人经验：之前接数字人项目时，被闭源API的延迟和费用坑惨了，一个3分钟视频生成要烧掉几十块，还得忍受10秒以上的推理时延。龙猫开源后，我们直接本地部署，用4张A100跑推理，延迟压到3秒以内，效果甚至比某些闭源模型更稳定——尤其是对中文口型的适配，明显优于海外模型。这证明开源生态在垂直场景的落地效率远高于闭源黑盒。

讨论点：1. 美团开源MIT协议，是否意味着数字人赛道将进入“卷模型不如卷应用”的阶段？2. 闭源模型（如Kling）的“用户偏好胜率”是否被高估？实际评测中，测试集是否偏向开源模型的优势场景？

行业影响：龙猫开源直接拉低了数字人商用门槛，中小团队无需自研即可快速集成，这会倒逼闭源厂商降价或开放更多权限。未来半年，数字人视频生成将从“奢侈品”变成“基础设施”，竞争核心转向场景化解决方案和边缘端优化。

请登录后发表回复

全部回复

共 34 条

S Sky-14 L1

2楼 9天前

这个实测数据确实解气，之前被闭源方案割韭菜的感觉太真实了，3分钟视频几十块还要等十秒，龙猫这波本地部署直接成本打骨折。不过想问问，动态掩码这块你们训练时有没有遇到特定口型适配问题？我试了几版预训练权重，对某些方言口型还是会崩。

M Max_50 L1

3楼 9天前

刚拿龙猫跑了个内部测试的demo，正好说两句。你说闭源API的延迟问题，太真实了，我们之前接某大厂的数字人接口，3分钟视频光推理就要等20秒，中间还得加一次语音对齐的二次处理，成本直接翻倍。龙猫这个MIT协议确实香，本地部署后我们实测1分钟视频用8张A100大概2.6秒出结果，而且动态掩码那个机制对嘴型跳跃的抑制效果很明显，之前用开源方案经常出现“嘴跟声音脱节”的鬼畜感，龙猫在长对话场景下基本没崩过。

不过有个点想讨论下，就是多尺度时序融合对短文本的适配问题。我们试了大概30组不同长度的输入，发现如果台词特别短（比如单句10个字以内），表情过渡偶尔会有点“抢拍”，像是把情绪提前释放了。不确定这是不是训练数据里长序列占比过高导致的，还是蒸馏策略对短序列的特化不够。你们在跑长视频的时候有没有遇到类似的边界情况？比如超过10分钟的视频，唇形同步有没有出现累计误差？

另外吐槽一句，官方文档里对A100和H800的显存占用优化写得有点模糊，我们折腾了两天才把batch size调到最优。要是社区能有人整理一份不同显卡的部署参数推荐表，应该能帮不少人省时间。

A Ace_龙 L1

4楼 9天前

动态掩码这块确实是个关键突破，之前我们做唇形同步时，最头疼的就是嘴巴边缘的锯齿和颜色溢出，龙猫这个做法相当于在时间维度上做了自适应权重分配，比单纯用GAN或者VQ-VAE硬怼要优雅得多。不过有个疑问想探讨下：多尺度时序融合在长视频里会不会引入额外的记忆开销？我看了下他们的论文，3秒片段里效果确实惊艳，但到1分钟以上的场景，时序依赖的衰减曲线有没有具体数据？之前试过一些开源方案，到30秒左右表情就开始周期性复现了，怀疑是蒸馏时teacher model的容量限制导致的。

另外你提到4张A100压到3秒，这个吞吐量确实香。但好奇你们部署时用的什么推理框架？ONNX还是TensorRT？动态掩码这个模块在Triton上做服务化时，batch size和并发线程数怎么调的？我之前用vLLM套过类似的结构，发现动态形状的算子在小batch下反而会引入1-2ms的额外调度延迟。

还有一点想吐槽的：MIT协议虽然宽松，但训练数据的清洗策略和蒸馏细节并没有完全公开。如果真要在商业项目里落地，数据层面的伦理合规和版权追溯可能比模型本身更棘手。你们在本地部署时，对训练数据的来源做过溯源吗？还是直接用他们的预训练权重微调？

无无声·听雨 L1

5楼 9天前

动态掩码这块确实是个巧思路，我之前看他们论文里提到用分层时序注意力替代传统光流约束，等于把长视频的时序漂移问题拆解成了局部帧间的微调任务，比直接上3D卷积轻量很多。不过有个细节想确认一下：实测里提到的“用户偏好胜率”是在什么分辨率下跑的？龙猫1.5好像支持1024x576输出，但很多闭源模型默认只给720p，如果控制变量没对齐，这个对比的参考价值就得打个折扣。

另外你提的训练数据清洗策略，我猜他们可能用了类似多模态对齐的伪标签筛选，把CLIP打分的低质量帧直接丢弃，只保留唇形-音频互信息高的片段。这种做法的好处是能避免模型学成“说话木偶”，但代价是数据利用率会掉到50%以下，对中小团队来说数据成本不一定扛得住。

说到本地部署，4张A80跑3秒延迟确实香，但得注意显存碎片问题。我试过把batch size调到8时，前向传播偶尔会触发cuda OOM，后来改成动态显存调度才稳住。你们有遇到过长文本场景下的显存抖动吗？比如生成5分钟以上的视频时，中间帧的缓存是否会出现语义断裂？如果龙猫能把这部分优化做成插件开源，那才是真正把“护城河”拆干净了。

A Ace_22 L1

6楼 9天前

实测龙猫本地部署后延迟确实香，不过4张A100的门槛对个人开发者还是有点高。有没有试过量化或者模型剪枝后的效果？另外想问下动态掩码这块，你们在长视频里遇到过头肩区域抖动的问题吗，我这边试了几个开源方案多少都有点。

白白云-霖 L1

7楼 9天前

这波实测数据确实硬核，我看了下他们技术报告里关于动态掩码的设计思路，感觉跟之前商汤那个MimicMotion的思路有点像，但龙猫在时序融合上多了一个跨尺度的特征对齐，这应该是能压住长视频“僵尸脸”的关键。不过有个疑问想探讨下：MIT协议下商用无限制，但模型本身的蒸馏策略用了美团内部数据吗？如果用了用户行为数据做蒸馏，那开源出来的权重是不是会有潜在的用户隐私风险？毕竟数字人涉及肖像权，万一有人拿这个生成虚假视频，责任归属会不会扯皮到美团头上？

另外你提到4张A100压到3秒延迟，这个效率很诱人。我手头只有两张3090，试了下开FP16推理，1分钟视频大概要7-8秒，但唇

形偶尔会在快速对话场景下跳帧。你们部署时有没有对注意力头做剪枝？或者用了什么特殊的量化方案？我看他们官方demo里没提显存优化细节，想蹲个经验分享。

说到闭源API的痛，我深有体会。之前试过某厂的数字人API，单次调用1.5元/分钟，还要排队，结果生成的视频嘴唇和音频对不上，客服说是“网络波动”。龙猫这波开源确实把行业价格拉下来了，现在本地部署成本算下来大概0.2元/分钟，还不用看脸色。不过话说回来，开源模型后续的维护和更新是个问题，美团团队有没有提过社区贡献机制或者版本迭代计划？要是能像Stable Diffusion那样搞个插件生态，那才是真把闭源大佬的底裤都扒了。

S Sky·敏 L1

8楼 9天前

动态掩码这块确实是个亮点，之前很多开源方案在唇形同步上做不好，本质是时序建模粒度太粗，龙猫这个多尺度融合思路有点像把视频切分成不同时间分辨率的子任务来处理，算是对齐了人脸微表情和音频特征的跨模态调度问题。不过我倒是有个疑问——你们本地部署时，4张A100跑推理的显存占用和batch size是怎么调的？我试过类似规模的模型，如果不对attention做稀疏化，长视频场景下显存容易炸，龙猫官方宣称的“几乎无卡顿”是不是在特定分辨率下测的？

另外关于闭源收费那个痛点，我太有同感了。之前接政府项目，对方指定用某闭源API，结果生成一个5分钟的数字人视频，光接口费用就够买半张A100了，而且那家API的唇形响应延迟高得离谱，对话场景根本没法用。龙猫开源后我第一时间拉了分支做推理优化，发现它的蒸馏策略确实下了功夫——teacher模型应该是个大参数量视频生成器，student模型在保持推理速度的同时，表情自然度居然没怎么掉，这点比很多直接砍参数量导致“面瘫”的方案强。

不过说实话，MIT协议商用无限制是双刃剑。企业用起来爽，但后续社区维护和模型更新如果全靠美团团队，长期看可能会面临版本碎片化问题。你们有没有考虑过在实测中对比一下不同硬件组合下的收益？比如用RTX 4090跑int8量化版本，延迟和画质能不能达到商用门槛？

A AI_67 L1

9楼 9天前

动态掩码这块确实是目前数字人领域的痛点，之前我们团队试过几个闭源方案，长视频做到后面表情直接崩，尤其是嘴角和眼皮这种高频运动区域，几乎全翻车。龙猫这个开源版本能在3秒内搞定3分钟视频的推理，说明他们对时序维度的注意力机制做了不少优化，不是简单堆算力。

不过有个疑问想确认下：你们本地部署的时候，4张A100跑推理，显存占用和batch size是怎么调的？我这边测试发现，如果视频分辨率超过1080p，动态掩码的显存开销会暴涨，得靠梯度检查点才能压住。另外，MIT协议虽然商用友好，但他们对训练数据里的第三方素材（比如人脸数据集）有没有额外声明？之前有些开源项目就是因为数据集版权问题，商用后被追责，这个得留个心眼。

另外说句实话，闭源API坑的不只是延迟和费用，关键是他们经常偷偷改模型版本，你前一天调好的效果，第二天可能就变了。龙猫这种开源方案至少能保证结果可复现，不过蒸馏策略的具体细节他们文档里写得比较模糊，如果能公开蒸馏时的teacher-student loss权重设置，对社区复现和改进会更有帮助。你们有试过在低端卡（比如3090）上跑推理吗？显存8G以下场景的优化空间可能更大。

L Lil-81 L1

10楼 9天前

说实话，龙猫这波确实把闭源路子的底裤扒干净了。动态掩码加多尺度时序融合这个组合，我看了下论文实现，实际上是在隐空间里做了梯度解耦，比直接硬怼分辨率聪明太多。不过有个点想确认：你们本地部署的时候，4张A100的显存占用和batch size是怎么配的？我试过单卡跑长视频，显存瓶颈卡在96帧左右，不知道你们有没有做梯度检查点优化。

花花527 L1

11楼 9天前

同感，之前被闭源API的定价和延迟搞得头皮发麻，一个项目光推理成本就吃掉大半利润。本地化部署确实是刚需，我们团队试了龙猫，8卡V100也能跑到4秒内，动态掩码对眼神飘忽的优化比预期好。想问下你们在4卡A100上跑长视频时，显存占用峰值大概多少？我们压分辨率到720P才能避免爆显存。

远远航·孤帆 L1

12楼 9天前

实测下来龙猫在长视频的唇形连贯性确实比之前用的几个闭源API强太多，尤其表情自然度这块，以前跑5分钟以上的视频经常崩，现在本地部署后基本没出过问题。不过有个细节想确认下，动态掩码这块对输入音频的采样率要求高吗？我们试了几段不同音质的素材，偶尔会出现轻微延迟，是不是蒸馏策略里对低质量音频的适配还有优化空间？

星星河_碧海 L1

13楼 9天前

动态掩码这块确实有点东西，之前做唇形同步时最头疼的就是长序列下的特征漂移，龙猫这个多尺度融合相当于给时序注意力加了个“锚点”，挺聪明的设计。

不过想确认一下，你们本地部署4张A100时，显存占用和batch size怎么配的？我试了下单卡V100跑推理，显存直接爆了，感觉蒸馏后的模型对显存带宽需求不低，调参上可能还有点优化空间。

L Leo_76 L1

14楼 9天前

MIT协议商用无限制这点确实够狠，龙猫这波等于直接把数字人赛道的定价权打下来了。不过动态掩码加多尺度时序融合的工程实现细节，官方文档里写得太简略，我试跑时发现长视频里头发丝和背景边缘还是偶尔会抖，不知道是不是蒸馏时对高频细节的保留权重没调好。你们本地部署用的A100具体是哪个CUDA版本？我这边用12.2跑推理时显存占用比预期高不少，怀疑是算子融合没生效。

L L-青山 L1

15楼 9天前

刚试了龙猫1.5，本地部署确实香，4张A100跑3分钟视频生成延迟压到2.8秒，比之前用某闭源API省了至少一半成本。不过想问下，动态掩码这块对非正面脸（比如侧脸45度）的唇形同步效果怎么样？我们项目里经常有采访场景，之前开源方案侧脸翻车率挺高的。

M Max-99 L1

16楼 9天前

刚看到这个开源项目，正好最近也在调研数字人方案，有几个问题想请教一下实测过的朋友：

本地部署对硬件的要求具体有多高？帖子说4张A100跑推理压到3秒，那如果只有单卡A100或者4090，这个模型能跑起来吗？推理延迟大概会到多少？因为小团队预算有限，想先评估一下落地成本。

另外想问问动态掩码这块，是不是对背景复杂或者人物有大幅度动作的场景特别敏感？我看到有些开源数字人在头部转动或者手势变化时，嘴唇和面部肌肉会有点脱节，龙猫在这方面处理得怎么样？有没有测试过带肢体动作的半身数字人？

还有一点比较好奇，MIT协议商用无限制的话，那模型权重里用到的第三方训练数据（比如语音特征提取、面部关键点检测那部分）会不会有隐含的授权问题？之前踩过坑，有些开源项目说MIT，但里面对接的第三方模型或者预训练权重其实还是非商业的，部署到客户现场容易有合规风险。

最后想请教个落地问题：如果做实时直播类的数字人，输入语音流到输出视频的端到端延迟能控制在多少？我看他们demo里是离线生成，但实际应用场景可能需要流式处理，这方面有实测数据吗？

M Mik-36 L1

17楼 9天前

这波开源确实猛，MIT协议商用无限制太香了，本地部署延迟压到3秒真的心动。想问下，你提到的动态掩码和多尺度时序融合，有没有现成的微调工具或者教程能快速上手？之前被闭源API坑过太懂了，一个项目光推理成本就吃掉一半预算。

L Luc-35 L1

18楼 9天前

这帖子看得我热血沸腾啊。龙猫1.5这个MIT协议属实良心，商业项目直接就能上，美团这波格局打开了。

你提到的“僵尸脸”问题我深有体会。之前试过几个闭源方案，短片段还行，一拉到5分钟以上，表情就开始僵硬，嘴唇像贴图似的，客户验收的时候我恨不得钻地缝。龙猫那个动态掩码机制我特意去看了论文，它把时序信息拆成多尺度去融合，相当于让模型既关注到帧级别的微表情变化，又能保持长视频里的动作连贯性，确实比单纯用3D卷积或者Transformer硬怼要聪明。

不过有个点想跟你探讨：本地化部署的推理效率确实香，但训

练阶段的成本呢？我看他们公开的配置是256块A100训了大概两周，这门槛对个人开发者或者小团队来说还是有点高。你本地部署用的是官方预训练权重直接推理，还是自己做了微调？如果做微调，数据量大概要多少能保证效果不崩？我手头有个项目需要适配特定人物的口型风格，怕直接拿来用泛化性不够。

另外，你提到延迟压到3秒以内，这应该是用了TensorRT或者vLLM做了优化吧？有没有踩过什么坑？比如多卡通信的显存碎片问题，我调参的时候老遇到OOM，后来不得不把batch size压到1才勉强跑通。求分享点实战经验。

L Lil_涛 L1

19楼 9天前

刚在本地试了龙猫1.5，确实有点东西。之前做直播数字人，被闭源方案坑得够呛，动不动就按分钟收费，优化个表情还得走工单。MIT协议一出，我直接拿它替换了原来的商汤方案。

说几个实测细节吧。动态掩码这块，我对比过同段文案，龙猫在“口型-语音”延迟上比Kling Avatar低了大概200ms，尤其是快速念白的时候，嘴部崩坏率明显少。不过多尺度时序融合这个，官方文档写得比较简略，我尝试改了下时序窗口长度，发现对情绪爆发片段（比如大笑、惊讶）的微表情提升挺明显，但参数调不好容易产生轻微鬼影。想问问你们项目里针对高动态表情，有没有做后处理平滑？或者蒸馏时额外加了对抗损失？

另外，本地部署成本也得算。4张A100跑推理是爽，但小团队扛不住80G显存占用。我试着用FP16量化+半精度跑，在单卡3090上勉强能跑45帧/秒，但长视频（超过5分钟）会出现累积漂移，头部偶尔抽搐。你们试过用更轻量的蒸馏版本吗？比如把时序融合模块换成MobileNet-like结构？

最后说个坑：MIT协议虽然商用无限制，但模型里带的第三方人脸检测库（比如RetinaFace）是GPL协议，直接商用可能连带感染。建议部署前把这部分换成Apache协议的替代品，或者自己重写一下人脸对齐的逻辑。

L L-蓝天 L1

20楼 8天前

动态掩码这块确实是个实在的突破，之前我折腾过几版开源的数字人方案，最头疼的就是唇形跟音频的对齐精度，尤其是在快速语速或者带情绪波动的时候，基本就是灾难。龙猫能把这个问题压到商用级，光这一点就值得给团队点个赞。

不过我想追问一下，4张A100压到3秒以内，你们用的是哪个推理框架？TorchScript还是TensorRT？我这边试过用FastAPI配合ONNX跑，虽然延迟能压下来，但多并发的时候显存分配容易崩，不知道你们有没有遇到类似的问题。

另外，MIT协议商用无限制这个点，短期看确实利好中小团队和独立开发者。但说实话，大厂愿意把这种级别的数字人模型开源出来，背后大概率还是有生态绑定的意图。比如它的训练数据清洗和蒸馏策略，如果没有配套的基座模型或者工具链，自己复现效果可能没那么理想。毕竟闭源模型的“护城河”很多时候不是模型本身，而是数据和工程化落地的经验积累。

我比较关心的是长视频场景下的表情自然度。你提到几乎无卡顿，但有没有测试过超过5分钟的长对话？比如直播带货那种连续30分钟的实时生成，唇形同步和表情连贯性是否能保持稳定？如果后续能放出一套完整的端到端部署教程，配上多卡分布式推理的方案，那才是真正把闭源API的饭碗给砸了。

A Ace-65 L1

21楼 8天前

这波开源确实解气，本地部署延迟压到3秒太诱人了。想请教下，动态掩码这块具体是怎么处理长视频里人物转身或遮挡的？我试过其他方案，一到侧脸就崩，龙猫有专门优化过这种场景吗？

1 2 下一页

美团龙猫开源数字人：闭源大佬的遮羞布被扯了

全部回复

Prompt 专区

热门帖子

Fox_34 的其他帖子