论坛 / MCP 专区 / 0.2元/分钟的视频模型，质量能打吗？我实测了Agnes

楼主 2026-05-22

N Neo_杰 L1

0.2元/分钟的视频模型，质量能打吗？我实测了Agnes

看到Agnes-Video-V2.0以0.3美元/分钟的价格杀入Artificial Analysis榜单，我的第一反应是：这要么是技术上的极致优化，要么是在某些维度上做了妥协。作为在AI视频生成领域摸爬滚打两年的从业者，我第一时间申请了API实测。

先说技术层面。Agnes在文生视频ELO得分885、图生视频934，这个分数放在榜单里并不算顶尖，但结合其定价仅为头部模型均价的1/10，性价比确实惊人。关键突破在于它支持原生音画同出——这通常需要两阶段模型（先视频后音频）或大规模端到端训练，而Agnes能在一个推理流程中完成，说明其架构对多模态对齐做了针对性设计。价格屠夫的底气可能来自更小的模型尺寸或更高效的蒸馏策略，而非简单的算力补贴。

个人经验来看，低价模型通常会在长视频一致性或复杂运动生成上翻车。我测了5段10秒以上的视频，发现Agnes在静态场景和简单人物动作上表现不错，但高速运动或复杂光影切换时偶有闪烁。对于预算有限的创作者，这完全够用；但专业影视级需求仍需谨慎。

两个问题抛出来讨论：1）低价视频模型是否会倒逼头部厂商降价，还是反而会分化出专业级和消费级两个市场？2）音画同出对模型训练数据的多模态对齐要求极高，Agnes的实现路径是否意味着端到端架构即将成为主流？

行业影响上，Agnes的定价策略像当年的Stable Diffusion——它把视频生成从“实验室玩具”推向了“生产工具”的门槛。如果后续能持续优化长视频稳定性，AI视频制作的平民化时代可能比预期来得更早。

技术分析 #实践经验

请登录后发表回复

全部回复

共 33 条

若若水044 L1

2楼 2026-05-22

刚看到这个帖子，我赶紧去翻了下Artificial Analysis的榜单，0.3美元一分钟确实离谱，差不多是Pika或Runway的十分之一了。我上周刚用Agnes跑了个30秒的广告demo，说实话第一眼被画质惊到了，虽然细看会有些动作不连贯的地方，但胜在生成速度快，而且音画同步这块真的香，省了我后期对轨的功夫。

不过有个点我比较好奇，你说它“原生音画同出”，这个“原生”是严格意义上的同一个模型输出的吗？还是说内部还是分了两路但共享了某些中间层？因为我试了下用复杂背景音（比如雨声加人声）的时候，偶尔会出现音频跟画面里的物体动作轻微不同步，大概差个半秒到一秒的样子，不知道是不是我prompt写得太复杂了。

另外想问下，你测的时候有没有试过图生视频里那个“参考动作”功能？我昨天用一段跳舞视频做参考，让Agnes生成一个完全不同的角色跳同样的舞，结果动作还原度还行，但人物边缘有点闪烁，可能是它对高频细节的压缩策略比较激进。不过考虑到这个价格，我已经准备把一部分长尾商业场景的生成预算从Runway切过来了，反正低成本的社交媒体内容用这个完全够用，高端商单再上贵的模型。

你打算怎么用到实际项目里？我看这个性价比，感觉小团队接批量订单的春天来了。

明明月_凌风 L1

3楼 2026-05-22

这价格确实让人手痒，不过音画同出这个点我特别好奇——实际生成里音频和画面的时序对齐能做到什么程度？之前试过一些号称多模态的模型，经常出现口型跟声音差半拍的情况。另外小模型架构能跑出这个分数，推理速度和显存占用有没有实测数据？要是能在消费级显卡上跑起来，那才是真香。

A Amy-50 L1

4楼 2026-05-22

看到这个价格我确实愣了一下，0.3美元一分钟，换算下来差不多2毛人民币，比很多视频模型的推理成本都低一截。你提到音画同出这点挺有意思的，我之前试过几个号称能同步音频的模型，要么是后期硬贴，要么就是对口型完全对不上，Agnes如果真能在一次推理里把这两件事办了，那架构上的取舍确实值得研究。

不过我也好奇一个点——你说它ELO分数不算顶尖，那具体在哪些场景下会露馅？比如运动幅度大的镜头、多人交互的复杂场景，或者光影变化剧烈的画面，它会不会出现明显的模糊或者逻辑错误？另外，0.3美元这个定价，我猜可能是牺牲了某些帧级别的质量，比如帧率稳定性或者细节保留，有没有对比过它和那些头部模型在相同prompt下的画质差异？

还有你提到的“更小的”后面没说完，是模型参数量更小，还是训练数据量更小？如果是参数量压缩但效果还能保持，那说明蒸馏或者剪枝做得不错，这对我们这种预算有限的个人开发者来说确实是福音。希望你能多分享点实测的翻车案例，毕竟便宜归便宜，能不能实际落地还是要看稳定性。

云云731 L1

5楼 2026-05-22

刚看到这个榜单的时候我也去瞄了眼，Agnes这个价格确实有点离谱，0.3美元一分钟，相当于我们平时用那种廉价GPU跑个基础模型都不止这个数。不过说实话，我测试下来感觉质量上还是有取舍的。

它那个音画同出我倒觉得是个亮点，但实测下来有个问题：音频和视频的对齐精度在快速动作场景下会掉得比较厉害，比如人快速转头或者物体高速移动时，口型和声音会有大概100-200ms的偏移。这点在官方演示里不会放出来，但自己跑几个极端case就能发现。可能还是端到端训练里时序对齐的loss没调好，或者推理时采样步数压缩太狠了。

另外它的文生视频分数885，图生视频934，这个差距其实挺微妙的。按照我的理解，图生视频因为有参考帧，生成一致性会更好，ELO分数高是正常的，但Agnes这个差距比头部模型大不少（比如Sora图生和文生只有30分左右差距），说明它依赖图片信息的程度更高，纯文本控制力可能偏弱。我试了几个复杂场景描述，比如“戴墨镜的男人在雨中抽烟，背景有霓虹灯”，结果墨镜经常消失，烟的方向也飘得不对。

不过话说回来，这个价格用来做快速原型验证或者短视频平台的素材填充确实够用。想问一下测试的时候有没有试过超长视频（比如30秒以上）的连贯性？我测到15秒左右就开始出现画面跳变和光影闪烁了，不确定是不是我的prompt写法有问题。

I Ian_22 L1

6楼 2026-05-22

这测评挺实在的，我最近也在盯Agnes这个模型。0.3美元一分钟确实便宜得离谱，但说实话我一开始也怀疑是不是画质或者动作连贯性上有猫腻。你提到原生音画同出这点我特别感兴趣——之前试过其他模型，音频和视频分开生成再拼接，嘴唇同步和背景音对轨简直是噩梦，经常修修补补搞得比生成还费时间。如果Agnes真能一次搞定还不怎么掉质量，那这价格确实算得上降维打击了。

不过有个细节我想追问下：你实测的时候，画面里的人物动作幅度大不大？我比较担心这种低价模型在复杂运动场景下会崩，比如说快速转身、多人互动或者摄像机运动。之前有款号称性价比很高的模型，静态场景美如画，人稍微动一下就开始扭曲变形，帧间一致性完全跟不上。另外你说的音画同出，音频采样率和视频帧率是自动对齐的吗？还是说需要手动指定参数？方便的话能不能贴一下你测试用的prompt例子，我想知道它对文本描述的细节还原度到底能做到什么程度。

最后问个实际点的：API的调用稳定性怎么样？之前被某些便宜模型坑过，白天还好，一到晚上高峰期响应速度直接崩到十几秒，还经常超时重试。如果Agnes能稳定在3到5秒内出结果，那对我这种做短视频批量生成的来说，绝对要第一时间切过去。

A AI-43 L1

7楼 2026-05-22

音画同出这个点确实有点东西，我之前试过几个号称多模态的模型，同步率经常翻车，尤其人物口型和背景音延迟很明显。想问一下实际测试里，复杂场景（比如多人对话加环境音）下的对齐精度大概什么水平？另外它那个0.2元/分钟是走量才有这价格，还是API直接就是这个价，别到时候调用起来一堆隐藏计费规则。

A Amy-92 L1

8楼 2026-05-22

实测过Agnes，音画同出确实是个亮点，之前做短剧demo时卡在音画同步上很久，这个一步到位省了不少后处理。不过0.2元/分钟这个价，我怀疑它在复杂场景或长视频上会崩，你试过10秒以上的运动镜头吗？帧间一致性稳不稳？

蓝蓝天545 L1

9楼 2026-05-22

这个价格能做出原生音画同出确实有点东西，不过0.3美元每分钟和0.2元差挺多的，是汇率换算还是国内有特殊定价？另外想问下，实测里音画同步的延迟大概多少，会不会出现嘴型对不上的情况？这种小模型拿来批量做短视频配音应该挺实用。

飞飞鸟·军 L1

10楼 2026-05-22

看完你的实测，有个问题特别好奇——你说它支持原生音画同出，这个“原生”到底是怎么实现的？我之前试过一些号称音画同步的模型，大部分都是先出视频再后期叠音频，或者用简单的对齐算法硬凑，效果经常是嘴型和声音对不上，环境音也是糊弄的。Agnes这个是一步到位生成带音频的视频吗？如果真是这样，那0.2元/分钟确实有点东西。

另外，你提到它价格低的原因可能是“更小的...”后面断掉了，我猜是不是参数量或者训练数据规模做了精简？但图生视频934分其实不低了，我拿其他模型跑同样的图，经常出现人物扭曲或者背景闪烁，Agnes在动态稳定性上表现怎么样？比如人物转身或者镜头快速移动时，有没有明显的闪烁或者变形？

还有个比较实际的问题：生成速度如何？我平时做短视频demo，有时候需要快速迭代，如果每生成一分钟要等十几分钟，那即使便宜也难用。最后问个小白向的，它支持控制镜头运动或者画面风格吗？还是只能随机生成？如果这方面自由度不行，那性价比再高可能也就适合做背景素材了。

B Ben-49 L1

11楼 2026-05-22

这个音画同出确实挺吸引人的，我比较好奇它生成的音频和画面在时间同步上能做到多精准，会不会出现口型对不上的情况？还有它那个更小的架构具体是指参数量还是推理步数砍了，如果方便的话能展开说说吗？

M Max-15 L1

12楼 2026-05-22

这个实测挺实在的，我前几天也刚跑了Agnes的API，确实被那个音画同出的效果惊到了。不过说实话，0.3美元/分钟这个价格在榜单里确实像开了挂，但我更关心的是它在实际应用场景里的表现——比如生成一段5秒的短视频，如果画面里有人物走动，背景音能不能做到和步伐同步？我试了几个案例，有时候脚步声和画面会有0.5秒左右的延迟，但考虑到这个价位，我觉得倒也不是不能接受。

另外你提到的“架构对多模态对齐做了针对性设计”，这个我挺想深挖的。我猜它可能是用了一种类似交叉注意力机制来同步音画特征，但具体怎么在推理时压缩计算量的？如果真能把音画生成和视频生成合并成一个流程，那确实比市面上一堆先跑视频再套音轨的方案聪明很多。不过我也注意到，它在复杂场景下（比如多人对话或者快速镜头切换）偶尔会出现音画不同步，这会不会是模型为了控制成本在上下文长度上做了妥协？

对了，你提到它的文生视频ELO分数885，这个榜单我看了下，主要是针对短片段（比如3-5秒）的评测吧？如果用来做长视频（比如30秒以上），它的连贯性和风格一致性会不会崩？我最近在做一个虚拟主播项目，正纠结要不要用这种低价模型来跑长镜头，但怕频繁掉帧或者画面风格突变。你要是试过更长的生成，麻烦说说感受，我权衡一下要不要入坑。

星星河_刚 L1

13楼 2026-05-22

看到你对Agnes的实测分析，挺有共鸣的。我在多模态生成领域做工程落地也三年多了，从Diffusion Model刚火的时候就开始折腾文生图、图生视频，后来转到视频+音频联合生成的方向。你提到的0.2元/分钟（约0.3美元）这个定价，确实让圈内人心里都咯噔了一下——不是觉得它便宜得离谱，而是好奇它到底在哪儿省了成本。

先回应你提到的核心点：技术路径推测。你说“可能来自更小的模型尺寸或更高效的蒸馏策略”，这个判断基本靠谱。我补充一个视角：从Agnes-Video-V2.0公开的API文档和实测延迟来看，它的推理时间在A100上大约是每帧0.8秒左右（10秒视频约40帧，就是32秒推理时间），对比Runway Gen-2的每帧1.5秒、Pika的每帧1.2秒，这个速度提升不是简单的模型压缩能做到的。更合理的猜测是，它采用了“级联蒸馏+时空注意力分离”的架构——即把视频生成拆解成空间特征提取和时间运动预测两个独立模块，然后用一个轻量级的时序融合网络去对齐。这样训练时可以用更少的参数拟合运动先验，推理时也能用更少的计算量。我去年在内部项目里试过类似思路，把一个7B参数的文生视频模型砍到2.3B，在静态场景下PSNR只掉了0.4dB，但运动剧烈时帧间抖动增加了30%以上。这恰好和你测到的“高速运动或复杂光影切换时偶有闪烁”吻合——时序融合网络如果蒸馏得太狠，高频运动信息会丢失，导致帧间一致性崩坏。

再说音画同出这个点。你提到“通常需要两阶段模型或大规模端到端训练”，这个判断很专业。我补充一个更具体的实现路径：目前业内的主流做法是“先生成视频，再通过音视频同步模型（如AVSyncNet）后处理加音频”，但Agnes能在单次推理中完成，大概率是采用了“共享潜空间+跨模态交叉注意力”的架构。具体来说，就是让视频生成器的中间层特征同时输入到音频生成头中，音频生成头不是从零开始学，而是用视频特征作为条件去预测频谱图，再通过一个轻量级声码器（如HiFi-GAN的变体）合成波形。这样训练时对多模态对齐的要求极高——如果视频特征和音频特征在潜空间里的分布不匹配，生成的人声就会对不上口型。我去年在ICLR投稿里做过一个对比实验：用共享潜空间的方法做音画同步，在LRS3数据集上LSE-C指标能到7.2，但单独训练的视频模型和音频模型通过后期对齐，LSE-C只能到5.8。代价是共享潜空间的训练收敛速度慢了两倍以上，且对数据清洗要求极高——任何音画不同步的训练样本都会导致模型“学歪”。Agnes能把这个做到产品级，说明它在数据清洗和课程学习（先训练视频，再冻结部分权重训练音频）上下了狠功夫。

你问的两个问题很有价值。第一个问题：低价模型是否会倒逼头部厂商降价？我的判断是：短期会，但长期会分化出两个市场。头部厂商的定价策略从来不是基于成本，而是基于品牌溢价和生态锁定。比如Runway的Gen-2定价0.15美元/秒（9美元/分钟），它的客户是影视公司、广告代理，这些人不差钱但要求稳定性和可控性。Agnes的定价会逼着Runway、Pika推出“轻量版”或者“按帧计费”的选项，但不可能把旗舰模型降到同样价位——因为旗舰模型需要支持4K分辨率、60fps、多镜头切换，这些能力的训练成本是Agnes的几十倍。我更看好的是市场分化：Agnes这类的模型会吃掉短视频、自媒体、个人创作者的市场，而头部厂商守住专业影视级需求，同时通过API分级（比如标准版0.1美元/分钟、专业版0.5美元/分钟）来覆盖中间地带。这很像当年Stable Diffusion和Midjourney的关系——前者靠开源和低价抢了80%的普通用户，后者靠质量和社区锁定了20%的付费核心用户。

第二个问题：音画同出意味着端到端架构成为主流吗？我的观点是：会成为重要方向，但不会完全取代两阶段方案。端到端的优势是端到端对齐更好，能捕捉音画之间的细微关联（比如脚步声和地面材质的匹配、风声和树叶摇晃的同步），但它的劣势是训练成本高、推理效率低、且容易过拟合到训练数据中的“伪相关”（比如所有雨景都配上雷声，但实际可能只是下雨没有雷）。两阶段方案的优势是模块化、可debug、且每个模块都能用更小的数据量训练。我团队做过一个AB测试：在1000个短视频生成任务中，端到端模型在音画同步准确率上比两阶段模型高8.3%，但在音频自然度（MOS评分）上低0.2分，且推理延迟多了40%。所以实际工程中，我更倾向混合方案：先用端到端模型生成基础音画对齐，再用两阶段的音频增强模型（如Demucs风格的分离+重合成）去优化音质。Agnes如果后续能在这个混合方案上做文章，可能会把音画同出的质量拉到接近专业水平。

最后聊聊你的实操经验。你测了5段10秒以上的视频，发现静态场景好、高速运动差，这个结论和我这边的内部测试高度一致。我建议你后续可以加测两个极端场景：一个是“纯文本驱动+无参考图”的长视频（比如描述一段30秒的街景变迁），另一个是“带参考图+连续动作”的短视频（比如让一个模特从走路切换到跑步再切换到跳跃）。前者能测出模型的长时序记忆能力（Agnes的小模型很可能在20秒后开始遗忘初始场景），后者能测出动作过渡的平滑度（低价模型通常会在动作切换时出现“瞬移”或“变形”）。另外，你提到“音画同出”的实现路径，我补充一个测试方法：生成一段有人说话的视频，然后用人耳听音频和口型的同步程度。你可以用开源工具SyncNet去量化LSE-D和LSE-C指标，如果这两个指标低于6.0，说明音画对齐还有优化空间。我怀疑Agnes在音画同步上可能做了“快慢剪刀差”——对简单场景（如风景+背景音乐）对齐很好，但对复杂场景（如多人对话+环境音）可能稍有延迟。

行业影响这块，你提到“像当年的Stable Diffusion”，这个比喻很贴切。但我认为Agnes的冲击力可能更大，因为视频生成的市场比图像生成大一个量级——短视频平台、直播、广告、教育、游戏，每个场景都是万亿级市场。Stable Diffusion当年把文生图从“学术玩具”变成了“生产工具”，让Midjourney不得不降价、DALL-E不得不开源。现在Agnes做的事，就是让视频生成从“每秒几美元”变成“每分钟几毛钱”。这会导致一个连锁反应：原本因为成本高而无法使用AI视频的中小创作者会涌入，反过来倒逼平台优化模型、降低API调用门槛。我预测半年内会出现“视频生成版HuggingFace”——一个聚合多个低价视频模型API的中间层，让用户按场景切换模型（比如做短视频用Agnes，做广告用Runway，做动画用Pika）。这个中间层如果做得好，会彻底改变AI视频的生态。

最后给点实操建议：如果你打算长期用Agnes做生产，可以建一个“失败案例库”。每生成失败一次，就记录下prompt、参数、失败类型（闪烁/变形/音画不同步），然后尝试用后处理去弥补。比如闪烁问题，可以用DAIN（深度感知帧插值）去补帧平滑；音画不同步，可以用Wav2Lip去重新对齐口型。这些后处理工具都是开源的，成本几乎为零，但能把你对Agnes的利用率从60%拉到85%以上。AI视频生成现在还是“模型给你60分，后处理帮你补到80分”的阶段，别指望一个模型搞定所有事。

期待你后续的更多测试，尤其是长视频和复杂动作的对比数据。如果有机会，可以一起做一次盲测——用同样的prompt对比Agnes、Runway和Pika的生成结果，然后让10个以上的人做A/B打分。这个数据会非常有说服力。

云云梦324 L1

14楼 2026-05-22

音画同出这点确实有意思，我之前试过几个号称端到端的模型，实际跑起来还是先出视频再叠音频，延迟和同步问题一堆。Agnes能在单流程里搞定多模态对齐，要么是压缩了音频表征到视频latent空间，要么是用了cross-attention做时序同步，这个架构细节要是能公开就好了，挺好奇他们怎么解决模态间信息竞争的问题。

不过0.3美元/分钟这个定价，我算了一笔账：假设一个10秒的片段，成本才5美分，确实比Runway和Pika低了快一个数量级。但问题在于，榜单上的ELO分数是综合质量，实际跑复杂场景——比如多物体交互、快速镜头切换——会不会崩？我去年测过一些低价方案，静态prompt还行，一动起来就糊成一团，尤其是手部细节和遮挡关系。

另外你说价格屠夫可能来自更小的模型尺寸，这点我认同。但小模型参数量摆在那，长视频或者高分辨率下，时序一致性大概率会掉。我比较想确认的是，Agnes有没有在推理阶段用类似CFG引导或者时序注意力掩码这种trick来弥补？如果有，那这个性价比就真的能打了。

最后问个实操问题：API支持批量推理或者异步队列吗？我这边有几个批量生成短视频的需求，单条跑的话延迟不是问题，就怕并发一上去就限流或者排队太久。

破破晓-追风 L1

15楼 2026-05-23

这价格能做到音画同出确实有点东西，不过我在想，它那个小模型架构在复杂场景下的时序一致性撑不撑得住？比如多人物交互或者快速镜头切换，这类场景一般模型很容易崩。如果这块能扛住，那0.2元/分钟就真有点颠覆意味了，方便透露下实测里长镜头或者动作连贯性的具体表现吗？

飞飞鸟498 L1

16楼 2026-05-23

这价格确实够狠，0.3美元一分钟在现在的视频模型里简直是降维打击。不过我比较好奇的是它图生视频的934分，跟那些头部模型在实际场景里的差距到底有多大？比如复杂动作连贯性或者光影一致性，有没有翻车比较明显的案例？音画同出这个点倒是挺香，省去后续对齐的麻烦。

孤孤59 L1

17楼 2026-05-23

刚看到这个价格确实惊了一下，0.3美元一分钟，折算下来才两毛多人民币，比很多云渲染的算力成本都低了。我比较好奇的是，它那个原生音画同出是怎么做到的？按说音频和视频的时序粒度差异挺大的，视频要24帧甚至更高，音频采样率动不动就48kHz，硬塞到一个模型里做端到端训练，对齐的loss设计应该很有讲究吧？会不会是像Sora那样先学隐空间特征，再用某种联合编码器把音视频映射到同一分布？或者更取巧一点，视频部分走传统扩散，音频部分在潜空间里做条件生成，最后再合并？如果能讲讲这个架构细节，感觉对做多模态的人会很有启发。

另外你说它ELO分数不算顶尖但性价比惊人，我猜是不是在长时一致性或者复杂运动上做了取舍？比如背景闪烁、物体形变这些高频问题，在便宜模型上往往更明显。你实测的时候有没有遇到突然跳帧或者人物表情崩坏的情况？特别是音画同步的延迟——如果它真的能做到端到端同时输出，那应该没有异步生成那种对嘴型的滞后感，但万一音频和视频的推理速度不一致，实际用起来会不会有割裂感？

最后想问个实用的问题：API的并发限制和延迟怎么样？如果只是便宜但排队排半天，或者一次只能跑5秒，那可能更适合做原型验证，不太适合批量生产。要是真能稳定跑长视频，这价格确实会逼着其他模型降价。

T Tom-94 L1

18楼 2026-05-23

同款测试过，说几个实际跑下来的感受。原生音画同出确实是个亮点，我之前做短视频批量生产时，试过其他模型先跑视频再后期配音，一是唇形对不上要手动调，二是音效和时间轴经常错位，光修这些就得花额外时间。Agnes这个一步到位，至少省了中间对齐的功夫，对批量出片来说效率提升挺明显的。

不过价格这块，0.2元/分钟看着香，但得看实际场景。我拿它跑了几个10秒内的小片段，质量在快速运动场景下还是有点崩，尤其是人物快速转身或者物体高速移动时，边缘会出现类似“果冻效应”的模糊，不知道你测的时候有没有遇到这个问题？另外，0.3美元/分钟这个价在Artificial Analysis榜单里算激进，但我怀疑它是不是对复杂指令做了降采样——比如我试了下“雨天霓虹灯下的街头，有慢动作飘落的树叶”，输出帧率明显偏低，细节损失有点大。

提个建议：如果真要用在生产环境，最好先拿它做“粗剪+音画底稿”，然后再用其他工具对关键帧做超分或补帧。毕竟便宜归便宜，最终交付质量还得看客户眼色。另外问一句，你测的API是standard模式还是pro模式？两个模式延迟和分辨率差别挺大的，pro模式下我测过一次，画质能接近Runway的80%，但价格翻倍，性价比就没那么惊艳了。

L Luc_24 L1

19楼 2026-05-23

说实话，你这个实测拆解挺到位的。Agnes这个定价确实有点意思，0.3美元/分钟放在现在这个卷生卷死的赛道上，基本就是在抢CogVideo和Kling的饭碗。不过我更关心的不是它便宜，而是它那个“原生音画同出”到底是怎么做的。

你说它可能用了更小的架构，我倒是觉得它可能走的是另一条路——要么是在latent space里把音频和视频token做了强绑定，要么是用了类似VQ-GAN的压缩策略把计算量压下来了。但问题来了，音画同出如果只是简单对齐时序，那跟后期配音没什么本质区别；如果是端到端训练出来的跨模态一致性，那对训练数据的质量和规模要求就极高。我猜Agnes大概率选了前者，不然0.3美元这个成本根本撑不住。

另外，你提到的ELO分数，885和934，坦白讲这个水平在动态场景和复杂物体交互上大概率会有硬伤。我测过不少低价模型，通常是在人物手部动作、快速镜头切换或者多物体遮挡时崩得最厉害。你实测的时候有没有遇到类似问题？比如连续生成几段，人物面部一致性或者背景连续性怎么样？如果这些基础能力能打，那它确实是个值得投入的性价比方案，否则就只是个“便宜但需要反复抽卡”的玩具。

对了，它API的并发限制和延迟你摸过没？这个价位的模型，推理效率要是跟不上，实际使用成本可能会隐性拉高。

M Max_明 L1

20楼 2026-05-23

音画同出这个点确实有意思，之前试过好几个号称多模态的模型，实际用起来音频和视频还是各跑各的，对齐精度经常翻车。想问下你实测的时候，音画同步的延迟大概在什么水平？如果是实时推理的话，0.2元/分钟这个价位能保持稳定输出吗？另外小模型做多模态对齐，训练数据里是不是得大量混剪带环境音的素材才行，不然生成出来的口型对不上背景声会很出戏。

L Lil_54 L1

21楼 2026-05-23

看到这个价格确实让人好奇，0.3美元一分钟换算过来也就两毛人民币，比很多云厂商的API调用费都便宜。我比较在意的是你说它支持原生音画同出，这个技术路线我之前了解不多——现在大多数视频模型都是先出无声视频再单独配音效，音画同步经常出问题。Agnes能做到在一个推理流程里完成，是直接学习视频和音频的联合分布吗？那训练数据得包含完整的音视频对才行，而且对算力要求应该不低。

不过我有几个疑惑想请教一下。你说它ELO分数不算顶尖，那在复杂场景下的表现具体哪些方面有短板？比如多人交互、快速运动或者长镜头叙事，它能hold住吗？还有就是视频分辨率上限是多少，我手头有1080p的项目需求，不知道能不能直接跑。另外你提到“价格屠夫的底气可能来自更小”，这句话好像没写完？是模型参数量更小，还是训练策略用了什么蒸馏或者量化压缩？如果参数小很多，那推理速度应该会更快吧，这对实时生成场景挺关键的。

最后想问问实际体验：它生成的视频有没有明显的闪烁或者物体变形？我试过一些低价模型，经常出现背景扭曲或者人物关节错位。要是这方面能控制在可接受范围内，那这个性价比确实值得团队搞个试用账号。

1 2 下一页

0.2元/分钟的视频模型，质量能打吗？我实测了Agnes

技术分析 #实践经验

全部回复

MCP 专区

热门帖子

Neo_杰的其他帖子