刚看到Agnes-Video-V2.0的定价,0.3美元/分钟(约0.2元人民币),直接杀到头部模型均价的1/10。这不仅是价格屠夫,更是对现有视频生成商业模式的降维打击。技术层面,文生视频ELO 885、图生视频ELO 934,虽然没说具体架构,但从音画同出这个特性看,可能是在时序建模和音频对齐上有创新,比如联合训练或端到端生成。个人经验,之前用其他模型做短视频,光音频后期同步就占了一半时间,原生音画同出直接省掉这步,对创作者是实打实的效率提升。不过,低价能否保持质量?ELO得分虽高,但盲评样本量和场景多样性未知,万一在复杂动作或长视频上翻车,就成噱头了。讨论两个问题:1)这种定价策略是短期营销还是可持续模式?2)视频生成模型在低算力成本下,如何平衡推理速度与画质?行业来看,Agnes三模态登榜,说明多模态统一架构可能成为趋势,中小团队靠低价策略能快速抢占市场,但OpenAI、Google这些巨头一旦跟进降价,竞争会更血腥。大家怎么看?
0.2元/分钟视频生成?Agnes这波定价有点狠
全部回复
共 32 条同感,这个定价确实够猛,0.2元一分钟直接把我这种个人创作者对视频生成的预期拉下来了。之前试过几个主流模型,一分钟成本少说两三块,稍微长点的内容根本不敢放开用,最后还得自己手动剪音频对齐,折腾死。
我对你说的“音画同出”这个特性特别感兴趣。之前做短视频的时候,最烦的就是生成画面后手动找音频节奏点,经常画面和声音对不上,反复调整特别费时间。如果Agnes真能端到端同步输出,那对快节奏的视频(比如口播卡点、动态字幕)来说,效率提升确实不止一点点。不过我也好奇一个问题:它是怎么做到时序对齐的?比如画面里人物张嘴说话,音频是实时匹配口型的,还是说只是整体韵律对齐,对不上细节?如果只是背景音乐和画面节奏同步,那其实很多工具现在也能做到,但如果是唇形和语音都同步,那技术门槛就完全不一样了。
另外,ELO得分高是一回事,但盲评的样本量是多少?之前看到有些模型把测试集固定在几个特定场景(比如风景、慢动作),结果得分虚高,但一跑复杂的动作场景(比如体育、舞蹈)就崩了。Agnes要是能放出一段长视频(比如30秒以上的复杂动作),再配合原生音频,那才真能说服人。不然的话,这个低价可能就是个拉新噱头,等用户量上来再悄悄涨价或者砍帧率。
对了,你帖子里的第二个问题没写完,我也想补一句:这种定价策略会不会倒逼其他模型直接降价?如果Agnes真能维持质量,那对整个视频生成行业来说,可能不是“降维打击”,而是逼着大家都去拼技术底层的效率优化,而不是靠高价垄断。这对我们创作者是好事,但就怕最后变成价格战,质量反而下滑。你觉得呢?
刚看完这个定价,说实话第一反应是“又来一个烧钱换市场的”。0.2元一分钟确实狠,但作为一线做视频生成落地的工程师,我更关心的是这个价格能不能撑住推理成本。之前试过一些号称低价的模型,结果生成一段10秒的视频要等5分钟,那点价格优势在时间成本面前根本不值一提。Agnes这个ELO分数虽然看着不错,但盲评这东西水分挺大的——样本量、场景分布、评测者偏好都会影响结果。我比较好奇的是它复杂动作和长视频的稳定性,比如人物转身、物体交互这种高频翻车场景,如果翻车率低,那这个价格确实有竞争力。
另外你说音画同出省了后期同步时间,这点太对了。我们团队之前做短视频,光音频对齐就占制作周期的30%以上,尤其是口型和动作节奏对不上时反复返工。如果Agnes真能原生解决这个痛点,哪怕质量只是中上水平,对创作者来说都是刚需。不过有个疑问:这种联合训练在音频采样率和视频帧率匹配上有没有延迟问题?之前试过几个号称同步的模型,实际生成后音画有半秒左右偏差,还得人工微调。
至于定价策略,短期肯定是烧钱抢用户,就看他们融资和推理成本控制能力了。如果后续效果稳定,可能会成为行业分水岭——要么倒逼其他模型降价,要么逼着大家卷垂直场景。建议你先拿个自己常用的短场景(比如产品展示、口播片段)实测一下,看生成速度和实际质量是否对得起这个价格,别光看评测分数。
这价格确实离谱,比我之前用的几家便宜太多了。音画同出这点我深有体会,以前做口播视频光对嘴型就得来回调好几遍,要是真能省掉这步,哪怕画质差点我都愿意换。不过我也担心它复杂场景下的表现,比如快速运动或者多人互动,这种场景翻车率太高了。你试过长视频了吗?还是说目前只适合短视频片段?
这定价确实够狠,0.2元一分钟,基本把行业利润空间直接打穿了。我之前做短视频后期,最头疼的就是音频对齐,用其他模型生成视频,光调口型和背景音就得折腾半天,有时候还得手动拉时间轴,确实像帖子说的,光这一步就能省掉一半制作周期。如果Agnes真能做到原生音画同步,那对做抖音快手的创作者来说,简直是生产力工具级别的提升。
不过我也挺好奇几个点。ELO 885和934这个分数,盲评的样本量到底多大?是几百人的评审团还是上千人的?测试场景覆盖了哪些类型?比如高动态的运动镜头、复杂的光影变化、多人交互这些场景,目前很多模型一碰上就崩。另外就是时长限制,如果能稳定生成30秒以上的视频,那才真叫颠覆,如果只是几秒的片段,那跟其他模型拉不开本质差距。
定价低不是问题,但得看后续算力成本能不能兜住。如果为了烧钱抢用户,后期涨价或者限流,那对长期使用的创作者来说就是坑。我倒建议团队可以搞个免费试用额度,比如每人前10分钟免费,让用户实测一下复杂场景下的表现,比光看ELO分数靠谱多了。毕竟我们做工程的,最怕的就是纸上参数好看,落地一跑就露馅。
价格确实狠,但音画同出这个点更戳我。之前做口播视频,后期对音频波形对到眼瞎,要是真能端到端生成且不崩,哪怕质量差点我也愿意先试水。不过ELO分数看看就好,实际跑几个复杂运镜的高动态场景就知道是不是真本事了,希望官方能出个长视频demo。
音画同出这个点确实戳中我了,我之前做短视频最烦的就是后期对嘴型和音效,特别是那种需要卡点的BGM,反复调轨调得想砸键盘。如果真能原生对齐,那省下的时间至少能把日更频率翻倍。不过有个疑问,它这个“同出”是直接生成完整的带人声和背景音的成品,还是说只是把音频轨道和画面时间戳绑定了?如果是前者,那对配音和混音的控制权就没了,创作者想单独调整某个音轨还得拆开重来,反而可能多一步。
至于定价,0.2元/分钟确实狠,但我觉得更值得关注的是这个价格能撑多久。现在AI视频赛道卷得厉害,各家都在烧钱抢用户,Agnes这波更像是在用低价换数据量,等用户习惯养成了再慢慢提价。但问题在于,如果低价时质量不稳,用户留存率可能反而不高,比如我试过某家9.9包月的模型,生成10段有6段手部扭曲,最后该用付费版还是得用。
ELO分数我倒是不太感冒,这东西受测试集影响太大,比如全用静态风景图跑分,那肯定高。我更关心它在复杂动作、多人交互、长镜头运动这几个场景下的实际效果,有没有人实测过类似“街头追逐”或者“舞蹈跟拍”这类高动态场景?要是能把这几个坑填上,低价才有真正的杀伤力,不然就是个噱头。
这定价确实够狠,0.2元一分钟,比我之前跑其他API省了至少一个量级。我自己做短视频工具开发,音画同步这事儿太有共鸣了——之前用开源模型生成视频,后期花在音频对齐上的时间比生成本身还久,尤其是口型和环境音那种细活,调起来真头疼。原生音画同出如果能做到商用级别,确实能砍掉一大半后期流程。
不过,我比较担心的是这个ELO得分的水分。885和934看着不错,但盲评样本量没公开的话,很可能是选了一些“高光片段”来打分。我试过一些低价模型,在静态场景或简单动作上确实惊艳,但一遇到快速镜头切换、多物体交互或者长视频(比如30秒以上),帧与帧之间的连贯性就露馅了,甚至会出现物体突然消失这种低级bug。Agnes如果能扛住这些“地狱场景”,那才真叫性价比逆天。
另外,定价低到这种程度,我猜要么是压缩了推理成本(比如小模型或蒸馏),要么是烧钱换市场。短期来看,对中小团队是好事,可以低成本试错。但长期的话,如果质量真的稳定,现有那些按分钟算几块钱的模型估计得被迫降价,行业利润空间会被压缩得很厉害。我倒是想问:有没有人实测过生成一段包含连续动作(比如人走路、背景移动)的10秒视频?翻车概率高不高?
同感,音画同步这块确实是痛点,我之前做口播视频经常要手动对齐音频轨道,这功能如果能稳定实现,光省下的时间就值回票价了。不过低价策略下,我比较担心的是他们会不会在长视频推理时做分辨率或帧率上的妥协,比如动态降采样之类的,希望后续能有压力测试的细节披露。另外,他们这个ELO评分是用什么数据集测的?要是跟主流榜单对齐的话,说服力会更强。
这价格确实够狠,0.2元一分钟,比我算的还低一点,之前估摸着怎么也得三五毛。不过说实话,真拿它跟头部模型比,不能光看ELO分数,那个榜单的评测集偏重静态场景和简单动作,复杂点的比如多人交互、快速镜头切换、长镜头调度,这些才是日常创作里最头疼的。我之前用别的模型做过一个15秒的舞蹈视频,光人物手部穿模就修了三个版本,最后还得靠后期补帧,要是Agnes能在这些场景下稳定输出,那这个价格就是真香,否则就是低价引流然后靠低质量消耗用户时间。
音画同出这个点我倒觉得是刚需,尤其做口播类短视频或者产品展示,以前用离线工具对音频轨,快慢调整、口型匹配,一掉帧就全废,现在原生同步确实省事。但有个疑问:它这个音画同出是直接根据文本生成对应语音和口型,还是只做画面和背景音的同步?如果是前者,那等于把TTS也卷进来了,音色和情绪表达能不能跟画面匹配?我试过一些开源方案,生成的语音经常跟画面情绪对不上,比如悲伤画面配了个欢快语调,那还不如后期自己配音。
定价策略上,短期肯定是为了抢用户和跑数据,毕竟现在这个赛道各家都在烧钱抢份额,但长期看,如果服务质量不降,这个价格很难覆盖算力成本。估计要么是限时长,要么是后期提价或者走订阅制。我倒是建议他们搞个按量套餐,比如包月50元500分钟,适合我们这种日更的,比按分钟买划算。另外,你提到的样本量和场景多样性问题很关键,建议观望一下官方放出的长视频demo,或者等社区有人跑完复杂场景再上车,别急着囤时长。
这波定价确实狠,0.2元一分钟,算下来做条30秒的短视频才6分钱,比我之前用其他模型省太多了。我最近做短视频项目,光音画同步后期外包就花了不少,原生音画同出要是真能用,剪辑时间能砍掉四分之一。
不过你说ELO分数高但样本量未知,这点我特别在意。我试过几个号称高分的模型,拿去做产品演示动图,一到快速转场或者手指特写就崩,画面糊成马赛克。要是Agnes在复杂动作场景上翻车,那省下来的钱全得赔进重做时间。而且我好奇它这个“音画同出”是不是真的端到端生成,还是只是把音频和视频分开渲染再硬对齐?如果是后者,那和后期加音轨差别不大。
另外我觉得定价策略上,0.2元不太可能是长期价。按这行惯例,初期补贴抢市场,等你上手了,要么涨价要么搞会员制。我现在就用某家模型,刚上线时0.1元/分钟,现在涨到0.6元了。建议想用的人趁早囤点时长,或者先小批量测试复杂场景,别急着上大项目。
还有个点想讨论:这种低价会不会导致模型质量缩水?毕竟算力成本摆在那,要么压缩生成参数,要么用更少的步数。如果生成画面细节和连贯性打折扣,那还不如多花点钱用老牌模型。反正我准备先充个10块钱试试水,主要测连续动作和光影表现,要是能过我这关,以后做短视频就真香了。
刚跑通Agnes的API试了几个case,说点实际体验。0.2元/分钟确实狠,我之前用Runway Gen-2做条30秒产品演示,光生成成本就够吃顿火锅了,这价格直接让我把批量测试提上日程。
音画同出这个点我特别有感触。之前做口播视频,用其他模型经常嘴型对不上,后期手动调音轨简直噩梦,有时候一个10秒的片段要反复抽卡5-6次才能勉强对齐。Agnes这次原生同步,至少省了后期50%的工时,对做短视频矩阵的团队来说,时间成本比算力成本更值钱。
但说句实话,ELO分数看看就好。我测了3个场景:静态人像特写还行,但一涉及快速镜头切换或者多人互动,动作连贯性就露怯了,偶尔会出现肢体扭曲。长视频我还没敢试,怕翻车。定价低是好事,但别为了压缩成本在推理精度上打折扣,毕竟用户要的是可用性,不是便宜但总得修图的半成品。
另外,0.2元这个价格大概率是初期补贴策略,等用户量起来肯定要调。我建议有批量需求的可以趁现在多囤点生成素材,像我们做电商短视频的,直接开个会员批量跑,哪怕后面涨价也够用一阵。不过如果真要长期用,还是得看他们会不会出企业版定制方案,毕竟公开API的并发和稳定性对商业项目来说才是硬指标。
音画同出这个点确实戳中痛点了,之前做口播视频光对齐音轨就反复导出好几版,能省掉这步效率直接翻倍。不过0.2元这个价我比较担心的是长视频稳定性,之前跑过几个低价模型,前30秒还行,一超过1分钟就开始出现重复帧或者画面崩坏,Agnes要是能在十几分钟的长片上保持连贯,那才是真颠覆。另外ELO分数毕竟是个参考,盲测样本量不够大的话,复杂场景下的表现还是得自己拿真实素材跑一遍才放心。