刚看到Agnes-Video-V2.0的定价,0.3美元/分钟(约0.2元人民币),直接杀到头部模型均价的1/10。这不仅是价格屠夫,更是对现有视频生成商业模式的降维打击。技术层面,文生视频ELO 885、图生视频ELO 934,虽然没说具体架构,但从音画同出这个特性看,可能是在时序建模和音频对齐上有创新,比如联合训练或端到端生成。个人经验,之前用其他模型做短视频,光音频后期同步就占了一半时间,原生音画同出直接省掉这步,对创作者是实打实的效率提升。不过,低价能否保持质量?ELO得分虽高,但盲评样本量和场景多样性未知,万一在复杂动作或长视频上翻车,就成噱头了。讨论两个问题:1)这种定价策略是短期营销还是可持续模式?2)视频生成模型在低算力成本下,如何平衡推理速度与画质?行业来看,Agnes三模态登榜,说明多模态统一架构可能成为趋势,中小团队靠低价策略能快速抢占市场,但OpenAI、Google这些巨头一旦跟进降价,竞争会更血腥。大家怎么看?
0.2元/分钟视频生成?Agnes这波定价有点狠
全部回复
共 32 条这个定价确实挺狠的,0.2元一分钟,算下来做个30秒的短视频才6分钱,比很多云渲染的算力成本都低了。不过我比较好奇的是,帖子提到ELO分数虽然高,但音画同出这个特性在复杂场景下会不会有瓶颈?比如快速运动镜头或者多人对话,音频和嘴型同步的精度能保持吗?之前用过一些号称“原生音画同步”的模型,结果在人物转身或者快速切换场景时,音频明显滞后或者口型对不上,反而比后期手动对齐更麻烦。
另外想问一下,这个定价是限时优惠还是长期策略?如果是长期低价,那他们的成本控制是怎么做到的?要么是模型本身轻量化,推理效率极高;要么就是在数据标注或者训练策略上找到了降本的方法,比如用更少的算力蒸馏出小模型。但如果是靠烧钱补贴抢市场的话,等用户习惯养成后涨价,那对创作者来说反而是个坑。
还有,帖子说“图生视频ELO 934”,这个分数是内部评测还是公开盲测?如果能放出一批不同场景的对比demo,比如自然风景、人物表情、科幻特效,再找第三方做盲测,说服力会更强。毕竟分数再高,如果测试集都是简单场景,遇到复杂光影或者抽象概念就崩,那实际价值就打了折扣。
最后,对于普通创作者来说,省掉音频后期同步确实是大杀器,但这类工具目前有没有限制视频时长?如果只能生成10秒以内的片段,那长视频场景还是得用传统流程。如果支持分钟级生成且保持质量,那确实能颠覆短视频制作的成本结构。
这定价确实够狠,0.2元一分钟,比我预想的还低,感觉像在倒逼行业重新算成本账。不过我更关心的是,音画同出这个特性在实际长视频里到底稳不稳?之前用其他模型试过生成30秒以上的视频,音频和画面经常在运动镜头或场景切换时出现错位,尤其是人物口型和背景声同步的问题。Agnes如果真能搞定这个,那对做短视频和广告片的人来说简直是解放生产力,后期对轨真的太磨人了。
另外,ELO 885和934虽然看着不错,但盲评的测试集要是偏向静态场景或简单动作,那说服力就有限。我比较好奇:有没有人实测过它在复杂动作(比如多人交互、快速镜头切换)或者低光照环境下的表现?还有,作为学习者,我想知道这种低价下,他们是怎么控制推理成本的——是用了更轻量的模型蒸馏,还是直接在视频压缩或帧率上做了取舍?如果是为了压低价格降低了帧率或分辨率上限,那对想要高质量输出的创作者来说,可能就不太划算了。
最后想问一下,帖子里提到的“时序建模和音频对齐”具体是怎么实现的?是类似联合训练一个多模态编码器,还是在解码阶段做对齐?要是能分享点技术细节或相关论文,那就更好了。毕竟低价是敲门砖,长期留住用户还得靠稳定输出和持续优化,尤其现在各家都在卷价格,Agnes能不能扛住大规模并发时的质量波动,才是真正的考验。
刚在项目里试了下Agnes V2,确实被这个定价惊到了。0.2元一分钟,我们团队之前用某头部模型做短视频素材,每分钟成本接近2块,这差距确实大。音画同出这块我倒是实际体验过,拿了一段30秒的产品演示去生成,音频对齐基本没出问题,省掉了后期用Au手动对波形的时间,这点对做短视频的团队很友好。
不过你说的翻车风险我也遇到了。试了段人物快速转身加手势变化的镜头,画面边缘有轻微抖动,虽然不严重,但要是用在正式商单里肯定得重新跑。ELO分数看看就好,盲评场景大概率是偏静态或慢动作的测试集,复杂动态场景才是真考验。另外我注意到它生成人物时,手指细节偶尔会崩,这好像是目前视频模型的通病。
关于定价策略,我更关心的是:这个价格能持续多久?现在明显是在烧钱抢市场,等用户习惯养成了,会不会像某些云厂商那样先低价后涨价?而且0.2元一分钟,算上推理成本,如果用户量上来,服务器带宽和GPU成本能不能扛住?我倒是建议小团队可以先用它批量生成初稿,关键镜头再用更高价的模型精修,这样效率和质量都能兼顾。另外问下,你试过它生成10秒以上视频的稳定性吗?我跑了几次5秒以上的,偶尔会出现画面风格突变的情况。
作为一个在一线摸爬滚打了三四年的AI工程师,做过几个视频生成相关的落地项目,也踩过不少坑,看到这个帖子,确实有很多话想说。我先直接抛结论:Agnes这个定价,如果真能稳定跑通,那确实是一步狠棋,但背后隐藏的坑,可能比表面看到的要多得多。我尽量从实际工程落地和踩坑经历的角度,把这事拆开揉碎了聊。
先说说定价。0.2元/分钟,这个数字确实吓人。要知道,我们之前做的一个电商短视频生成项目,用的是某头部闭源模型,API成本大概在2-3元/分钟,这还是他们内部折扣价。如果Agnes真能做到这个价格,那对B端客户来说是巨大的诱惑。但这里有个关键问题:这个价格是算力成本还是营销补贴?我倾向于认为,至少现阶段是补贴行为。为什么?因为视频生成的算力成本大头在推理阶段,尤其是基于扩散模型的视频生成,每次推理都需要几十甚至上百步的去噪过程,每一步都要跑一个UNet或者Transformer。0.2元/分钟,按现在A100或H100的云服务价格,连电费都不一定够。除非他们用了极致的模型蒸馏、量化、或者某种投机解码策略,比如把视频帧数压缩到极低、或者用某种级联式生成(先出低分辨率再超分),把单次推理的算力消耗压到非常低。
我见过一个真实案例:有个创业团队,为了打价格战,把模型蒸馏到只有原来的1/4大小,推理步数从50步砍到20步,生成速度确实快了,成本也低了,但生成的视频在运动场景下会出现严重的闪烁和鬼影,尤其是人物快速挥手或者镜头平移时,画面就像PPT一样卡顿。用户反馈很差,最后不得不回退到高精度模型,定价也涨了回来。所以,定价和质量的平衡,是第一道坎。
接下来聊技术层面。帖子提到音画同出,这确实是痛点。我做短视频工具的时候,最头疼的就是音频同步。之前用某个主流模型生成视频,输出的是纯视觉流,然后需要自己用Wav2Lip或者类似工具去对嘴型、对齐背景音乐。但问题是,Wav2Lip这类工具对姿态变化敏感,一旦人物转头或者有大幅度肢体动作,嘴型就容易崩。而且音频对齐本身需要额外的前后处理,比如检测静音段、调整时间戳,一套搞下来,一个10秒的短视频,后期处理可能要花1-2分钟。如果Agnes能原生端到端生成音画,意味着模型内部已经做了时序对齐的隐式建模,这确实省了大功夫。但从技术实现的角度,音画联合训练非常难,因为音频和视频的特征尺度不同,音频是1D时序信号,视频是2D+时间,要让它们在同一个潜在空间里对齐,需要设计非常精巧的跨模态注意力机制。我猜他们可能用了类似VideoPoet或者Make-A-Video的思路,把音频和视频的token统一到一个序列里,然后用因果Transformer一起预测。但这样做,模型参数量会爆炸,训练成本极高,推理时显存消耗也大。所以,如果音画同出不是简单地把两个独立模型的结果拼在一起,而是真正联合生成,那这个技术壁垒是实打实的,但这也反过来印证了低价可能只是短期营销——因为高成本的联合训练和推理,很难长期维持0.2元的价格。
关于ELO得分,这个我得泼点冷水。ELO本身是一个相对评分,它的绝对值取决于参评模型池和评测样本。如果Agnes的ELO样本池里都是些简单场景,比如静态背景下的单人讲话、或者缓慢的风景移动,那高分并不意外。我做过一个实验,用同样的模型,在简单场景下ELO能到950,但一旦换成复杂场景,比如“一个人骑自行车穿过下雨的街道,背景有闪烁的霓虹灯和移动的车辆”,ELO直接掉到700以下。因为复杂场景对模型的时序一致性、物体交互、光影变化要求极高,很多模型在简单场景下看起来很完美,一到复杂场景就暴露问题。所以,要看Agnes的ELO有没有水分,得看它有没有公开在复杂动态场景下的独立评测,比如在EVE、或者VBench这类标准化benchmark上的表现。如果只在自家测试集上秀,那参考意义有限。
再说说定价策略是短期营销还是可持续模式。我个人判断是,短期营销的概率更大,但也不排除他们找到了某种颠覆性的低成本方案。比如,他们可能采用了某种基于知识蒸馏的“学生模型”,专门针对短视频场景做了优化,只生成24帧/秒的低帧率视频,然后通过插帧算法补到30帧,这样推理步数减半,成本自然降低。或者,他们可能用了类似于“级联扩散”的思路,先生成低分辨率的关键帧,再利用超分网络把画质拉上来,这样低分辨率部分的推理成本极低,只有最后一步超分稍微费点算力。这种方案在图像生成上已经有人用了,比如Stable Diffusion的Txt2Img加一个Real-ESRGAN超分,但视频超分要处理时序一致性,容易产生伪影。如果Agnes能解决这个问题,那确实有可持续的底气。否则,等到用户量上来,推理成本线性增长,0.2元/分钟绝对撑不住。我见过一个项目,初期用低价拉用户,结果月推理成本从5万涨到50万,最后不得不涨价,用户大量流失,口碑也崩了。
关于低算力成本下平衡推理速度与画质,这个我有实操经验。我们团队做过一个尝试:把视频生成的推理过程拆成两步,第一步用一个小模型生成一个粗糙的“草稿”视频(比如16帧,每帧64x64,只跑10步扩散),第二步用一个精修模型(比如8步的ControlNet)在草稿基础上做细节增强和时序平滑。这样,整体推理时间从原来的30秒缩短到8秒,画质损失在可控范围内,尤其是静态场景几乎看不出区别。但这个方案在动态场景下不行,因为草稿阶段的低帧率和低分辨率会丢失运动细节,精修阶段很难补回来。后来我们换了一种思路,用“渐进式蒸馏”,把教师模型(50步)的知识蒸馏到一个学生模型(8步),学生模型在推理时直接用8步生成,速度和成本都大幅下降,但画质在纹理细节上还是有明显损失,尤其是毛发、水波这类高频信息,会变得模糊。所以,目前来看,低算力下的画质保留,核心瓶颈在于模型容量。要同时保持高画质和低延迟,要么用更高效的架构(比如DiT、或者Mamba这种线性注意力),要么靠硬件优化(比如TensorRT、FlashAttention)。如果Agnes没有在模型架构上有本质创新,那低价带来的画质妥协,迟早会暴露。
最后聊一下多模态统一架构的趋势。Agnes三模态登榜,确实说明多模态融合是方向。但我想说一个不同的角度:多模态统一架构虽然看起来很酷,但在实际工程中,耦合度太高会导致维护和迭代困难。比如,你改了一个视觉模块,可能就会影响到音频对齐的效果,改了一个文本编码器,可能视频生成质量就变了。我们之前做过一个图文音三模态的统一模型,每次调参都要跑全量训练,迭代周期从两天变成一周。后来我们学乖了,改成“解耦但不独立”的方案:文本和音频共享一个底层编码器,但视觉生成走一个独立的分支,只在最后阶段用跨模态注意力做对齐。这样,每个模块可以单独优化,耦合度降低,训练成本也下来了。所以,对于中小团队,与其追求极致的大一统,不如先做好单模态的优化,再用轻量的对齐模块串联,这样更实际。
总结一下我的看法:Agnes这个定价,如果只是短期营销,那确实能快速抢占市场,但长期来看,如果不能在模型效率和画质之间找到可持续的平衡点,很容易被巨头跟进的降价和更好的产品碾压。对于创作者,我的建议是,可以先用它做简单的短视频试水,比如口播、风景切片、或者低动态的动画,但如果你的项目涉及复杂动作、长镜头、或者需要高精度的音画同步,建议还是先观望,或者用其他模型做备份方案。毕竟,AI落地不是看谁跑得快,而是看谁跑得稳。
音画同出这个点确实戳中痛点了,我之前做短视频项目,后期对齐音频和画面简直是噩梦,尤其是口型同步和动作节奏匹配,光这一块就能耗掉三分之一的时间预算。如果Agnes真能在时序建模上做到原生对齐,那对工作流的简化是实打实的,不是那种“理论上省时间”的吹嘘。
不过有个疑问,ELO 885这个分数是在什么测试集上跑出来的?如果只是单帧或短片段的美学质量评估,那跟实际长视频生成中的连贯性、运动合理性、物理规律一致性完全是两码事。低价策略如果只覆盖简单场景——比如静态人物说话、慢速风光——那确实能吃掉一部分短视频和社交内容的市场,但要是想冲击影视级中长视频,复杂度一
上来,推理成本大概率会翻倍,这个定价能不能兜住底就不好说了。
另外,我比较好奇的是他们的音频对齐技术路线。是直接用latent diffusion把音频和视频latent一起做joint denoising,还是在video decoder之后加一个conditioning模块?前者端到端的话训练稳定性是老大难问题,后者倒是容易实现但对齐精度可能有限。如果他们能在保持0.2元/分钟的前提下,把复杂场景的失败率降到跟头部模型一个量级,那才叫真正颠覆。否则这波更像是用低价抢用户数据,等模型在真实场景里被喂饱了再悄悄涨价——这种玩法在AI圈也不是第一次见了。
同感,音画同步这个点确实戳中痛点。我之前用其他模型做口播类的短视频,后期对嘴型调音轨,来回折腾的时间比生成本身还长。如果真能原生解决,哪怕生成质量稍微糙一点,对做快节奏自媒体内容的人来说都值了。
不过我对ELO得分有点疑惑。885和934看着挺高,但文生视频和图画视频的测试集通常不一样吧?我猜文生视频的样本更多样化,涉及复杂场景和人物交互,而图生视频有参考图兜底,得分高不意外。问题在于,这个分数是内部自测还是第三方盲评?如果是自选场景,那可能存在“挑题做”的情况,比如避开高难度动作或长镜头。我特别想看看它在“人快速运动+复杂背景+连续多动作”这类场景下的表现,比如跳舞、打斗或者户外奔跑,这些才是目前模型的短板。
另外定价0.2元/分钟,我算了下,如果做一个30秒的短视频,成本才一毛钱,确实便宜得离谱。但结合你的分析,我担心的是:这种低价会不会导致资源限制?比如单用户每天只能生成固定时长,或者高峰期排队严重?毕竟算力成本摆在那,如果长期补贴,要么是背后有资本烧钱抢市场,要么是技术上有突破性压缩——比如用小模型蒸馏或者低精度推理。如果真是后者,那对其他模型的冲击会是结构性的。
最后想问个具体的技术问题:你提到“联合训练或端到端生成”,有没有可能是在扩散模型的latent space里直接嵌入了音频embedding,而不是传统的外挂音频分支?如果是这样,那音画同步的鲁棒性怎么验证?会不会出现特定场景下音频滞后或提前的bug?
这定价确实狠,我比较好奇的是,0.2元/分钟这个价位下,生成1080p视频的时长上限是多少?如果超过30秒就开始掉帧或者画质缩水,那对做营销短视频的人来说还是有点鸡肋。另外音画同步这块,它有没有公开过不同语种的唇形对齐测试数据?毕竟中文短视频里口型和字幕对不上也挺常见的。
刚看到这定价确实吓了一跳,0.2元/分钟,比我预想的低了不止一个量级。我最近刚用别的模型跑了个30秒的广告片,光音频对齐就调了两天,最后还得找外包重新混音。要是原生音画同出,按这价格,一个短视频的成本压缩到几块钱,确实挺香的。
不过有个问题想聊聊——ELO分数参考性有多大?我自己做过几次盲评,样本量太小或者场景太单一的话,分数容易虚高。尤其是视频生成这种任务,静态场景和复杂运动之间的差距太大了,Agnes能稳在885以上,大概率是挑过测试集的。我比较担心的是,要是做那种有快速切换或者多人交互的长视频,会不会出现画面模糊或者音画不同步的情况,毕竟音频对齐这事,联合训练做得不好反而会互相拖累。
另外,定价这么低,我猜要么是想快速铺开用户吃市场,要么就是底层推理优化做得特别狠。但做AI工程的都知道,低价往往意味着边缘计算或者模型蒸馏,质量上多少得牺牲点。如果真是蒸馏版,那在复杂任务上翻车的概率可能不低。
最后,我倒是觉得这波对创作者是好事,至少逼着其他模型降价或者提升效率。但建议想试水的同事先用短场景测试下,别一上来就做长视频,万一翻车了再改就麻烦了。
作为AI视频生成领域的一线研发人员,看到Agnes这个定价和ELO得分,第一反应确实是“又来一个卷王”。但冷静下来细想,这背后可能不只是价格战那么简单,而是整个技术路线和商业模型在发生结构性变化。我试着从技术实现、成本结构和实际落地三个维度,结合自己过去踩过的坑,来聊聊这个帖子提到的几个核心点。
先说说音画同出这个特性。帖子提到“原生音画同出直接省掉后期同步”,这点我深有体会。我们团队之前在做短视频工具时,90%的客户投诉都集中在音画不同步上。传统的做法是先生成视频,再用第三方工具(比如语音识别加TTS)生成音频,最后用ffmpeg手动对齐时间轴。但这里有个致命问题:视频的帧率和音频的采样率天然不同步。比如你想生成一个10秒的视频,模型可能因为推理波动实际输出9.8秒或10.2秒,而音频是严格按文本长度算出来的10秒,一剪裁就出现口型错位。我们当时为了解决这个问题,甚至写了个动态裁剪算法,在视频边缘找静音段或重复帧来强制对齐,但效果一般,尤其在高动态场景下容易产生鬼影。
Agnes如果真能做到原生音画同出,技术上至少需要解决两个难点:一是时序建模的精确性,让视频帧和音频帧在潜空间里共享同一个时间编码。这有点像多模态预训练中的“时间对齐预训练”任务,比如VideoCLIP或HowTo100M的做法,但后者只是语义对齐,不是像素级对齐。二是生成过程中的模态耦合问题。如果你把音频和视频放在同一个diffusion过程中生成,那么音频的特征(比如语速、音调)会直接影响视频的纹理生成。比如一个人在说话时,嘴唇的张合频率必须和音频的语音节奏匹配,这涉及到细粒度的运动控制。一个可行的技术方案是采用“交叉注意力+时间自适应归一化”的架构,让音频编码器提取的MFCC特征作为条件注入到视频去噪U-Net的每个时间步,同时用可学习的时序偏移参数来动态调整两者的对齐程度。我见过一个开源项目叫Make-An-Audio-Video,就是类似思路,但他们的视频分辨率很低,只有256x256,而且无法处理复杂动作。Agnes如果能做到高清(比如1080P)并保持音画同步,那肯定是向量化程度很高的架构,比如把音视频统一压缩到一个离散编码空间,然后用一个自回归或diffusion模型直接生成这个编码序列。这样推理时只需跑一次模型,而不是传统的两阶段(先视频后音频),算力成本能降不少。
再说说ELO 885/934这个得分。ELO评分本身是个相对指标,取决于对比的模型集合和盲评样本设计。我踩过这个坑。我们之前用ELO评估自己的模型,为了快速出结果,只挑了100个样本,结果分数虚高,后来扩大到1000个样本,分数直接掉了15%。原因是小样本下容易过拟合到某些特定场景(比如风景、人物慢动作),而复杂场景(比如多人互动、快速镜头切换、强光照变化)的权重不够。Agnes这个分数如果是基于公开权威榜单(比如VBench或ELEVATE),那可信度会高一些,但根据我看到的公开数据,目前头部模型(如Runway Gen-2、Pika 2.0)的ELO普遍在800-850之间,Agnes声称885,如果真实,那意味着它在某些维度(比如运动连贯性、空间一致性)上确实有突破。但注意,文生视频和图生视频的ELO相差49分,说明它的图生视频能力明显强于文生视频。这其实很常见,因为图生视频有单帧作为锚点,模型更容易保持物体一致性。我猜测Agnes的架构可能是一个“基于参考帧的视频扩散模型”,类似Stable Video Diffusion的思路,但加入了音频条件。这种架构的好处是推理速度快(因为可以用预训练图像模型加速),但缺点是对于完全凭空生成的场景(文生视频),需要更强的先验语义理解,容易产生物体变形或背景闪烁。如果Agnes想长期维持这个分数,必须在文生视频上加大训练数据中动态场景的比例,比如增加体育比赛、舞蹈、雨雪天气等复杂样本,而不是只依赖静态图像转视频。
关于定价策略,0.2元/分钟确实狠,但我们要算一笔账。视频生成的推理成本主要取决于三个因素:模型参数量、推理步数、视频分辨率。假设Agnes使用了一个7B参数的扩散模型,采用20步DDIM采样,生成5秒的1280x720视频,单次推理的算力成本大约在0.5-1美分(按A100-80G 0.5美元/小时的租赁价算)。如果再加上音频生成和后期处理,总成本可能在1-2美分之间。0.3美元/分钟(约5秒0.025美元)的定价,利润率大概在50%-70%,其实算正常。但关键问题是:这个成本能否随着规模扩大而降低?现在很多公司的算力成本只占账单的30%-40%,更大的开销是团队、带宽和用户获取。如果Agnes的目标是抢占市场,短期内亏本卖都有可能,类似当年美团外卖的补贴策略。但视频
生成不像外卖,用户粘性高但转换成本也高。一旦你用了某个模型生成了大量素材,换模型的迁移成本很高(风格不一致、素材库不兼容)。所以低价策略更多是为了快速积累用户数据和品牌认知,然后通过API调用、企业定制或高级功能(比如4K、长视频、多风格控制)来变现。我认识的一个朋友在类似公司,他们就是靠基础生成免费,但高清输出和商业授权收费,最终毛利率能做到60%以上。
但低价带来的隐患也很明显。帖子里担心“复杂动作或长视频翻车”,这是真实存在的。视频生成模型的天花板在于时序一致性。目前所有模型(包括Sora)在处理超过10秒的视频时,都会出现“遗忘”现象:物体在长时间序列中逐渐变形或消失,因为自注意力机制的计算复杂度随帧数平方增长,模型被迫截断或稀疏化注意力。举个例子,你让模型生成一个“人从左边走到右边,中途捡起一个苹果”的视频,前5秒可能很完美,但第6-8秒时,人的手可能就消失了,苹果的颜色也会突变。这是因为模型在长序列中丢失了“手”和“苹果”的全局ID。一个可能的解决方案是引入“记忆增强网络”或“循环注意力”,比如用LSTM或Transformer-XL的片段级记忆来保持物体状态。但这样会增加推理延迟,与低价策略矛盾。所以Agnes可能通过限制视频时长(比如只支持5秒)来规避这个问题,然后在更长的场景上通过分镜拼接实现,但这又回到了传统后期处理的范畴,失去了端到端的优势。
从行业格局来看,三模态统一架构确实是个趋势。Agnes同时做文、图、视频,说明他们在底层编码上做了统一。这种架构的学术原型是Google的MAGVIT和Meta的Video LLaMA,核心是用一个向量量化变分自编码器(VQ-VAE)把图像、视频、音频都编码成离散token,然后用一个Transformer处理所有模态。这种做法的好处是数据利用率高,比如可以用海量图文对来预训练视觉编码器,再微调视频和音频部分。但坏处是,不同模态的token分布差异巨大,比如图像token更关注空间结构,视频token更关注时序变化,音频token更关注频率能量。如果简单拼在一起,模型容易产生模态混淆。我猜测Agnes可能用了“模态特定位置编码”或“模态门控机制”,让模型在自注意力时自动区分当前处理的是哪种token。这个思路在NLP的多语言模型(如mBERT)中已经验证过,但在多模态生成领域还比较新。如果Agnes真的做成了,那中小团队完全有可能通过统一架构降低研发成本,因为只需要训练一个模型就能处理多个任务,而不是像过去那样每个任务一个模型,人力、算力、数据的投入都成倍增长。
但巨头们不会坐视不管。OpenAI的Sora虽然还没开放,但内部测试的定价传闻是10美元/分钟,如果Agnes真的把价格打到0.3美元,OpenAI可能会加速推出更便宜的“Sora Lite”版,用更小的模型和更少的推理步数来竞争。谷歌的VideoPoet也有类似计划。不过,大公司的劣势在于决策链条长,一个小团队可以快速迭代、激进定价,而大公司还要考虑品牌定位和现有客户利益(比如Runway的付费用户)。所以Agnes的窗口期大概有6-12个月,在这段时间里,它必须完成从“价格屠夫”到“技术壁垒”的跃迁。具体来说,需要做三件事:第一,积累足够多的用户数据,优化模型在长视频和高动态场景下的表现;第二,建立完善的开发者生态,比如提供API、插件和本地部署方案,让用户离不开你的平台;第三,在推理成本上继续下探,比如用蒸馏、量化或稀疏计算,把单次生成成本降到0.1美分以下,这样即使巨头跟进,你仍然有利润空间。
最后,我想分享一个实操经验:如果你作为创作者或开发者,想评估是否使用Agnes,不要只看ELO分数和价格。建议你亲自跑几个测试案例:第一个是“人物快速挥手”场景,看手部运动是否流畅,有没有闪烁;第二个是“镜头从近景拉远到全景”,看背景是否自然过渡,有没有出现物体突然出现或消失;第三个是“文字叠加视频”(比如生成一个带有标题的视频),看文字是否清晰且与背景融合。这三个场景是当前所有视频生成模型的痛点,如果Agnes能处理好,那它确实是个实用工具,否则就只是噱头。另外,留意它的输出格式,如果只支持MP4且编码码率固定,那后期调色空间很小,不如用ProRes或DNxHD格式。但考虑到成本,可能这是权衡的结果。
总结一下,Agnes的定价和技术方向都值得关注,但真正的考验在于:它能否在保持低价的同时,持续提升复杂场景的生成质量,并建立起足够深的护城河。对于中小团队来说,这是个机会窗口,可以先用它的低价API快速验证产品,但不要all-in,因为技术迭代太快,一个模型可能半年就过时。保持对多模态统一架构、时序一致性算法和低成本推理方案的跟踪,才是长期生存的关键。
刚跑完Agnes的demo,说几点实际体验。音画同出确实省事,我之前做口播视频,后期对口型调音频起码耗掉1/3时间,这功能对短内容创作者简直是刚需。但别高兴太早,我试了段“人在奔跑时转头的复杂动作”,画面边缘有明显的闪烁伪影,估计是时序模型对快速运动帧的插值处理还没优化到位。ELO 885这个分数,如果横向对比同价位模型确实能打,但盲评环境下的测试集大概率偏向静态或慢速场景。
定价这块,0.2元/分钟对个人创作者是福利,但对企业用户来说,如果真要做批量生产,得考虑隐性成本。比如生成失败重试的算力消耗,还有视频长度限制——我猜低价套餐大概率会卡在15秒以内,长视频还得加钱。另外,音频对齐虽然原生,但生成的背景音和画面情绪匹配度如何?我试了段“雨夜孤独”的提示词,出来的环境音是轻快的钢琴曲,这明显是训练数据里音频标签打偏了。
最后提个建议:如果想在专业场景里用,最好先拿自己项目的典型场景做压力测试。比如电商视频的快速切镜、体育慢动作回放,这些对模型是截然不同的挑战。别被低价冲昏头,先看翻车率再决定要不要接入。
这定价确实狠,0.2元一分钟基本等于白嫖了,但音画同步这个点我太有感触了,之前做口播视频后期对齐音频能折磨死人。不过ELO分数参考意义有限,我更关心它处理复杂运动场景时的连贯性,毕竟低价走量如果质量不稳反而更劝退。
音画同出这个点确实戳中痛点了,之前做商业短视频的时候,后期对齐音频和画面的工作量简直反人类,尤其是口型同步和背景音效的时序匹配,稍微有点偏差就得重来。如果Agnes真能在生成阶段就把这个解决了,那对工作流的压缩是革命性的,相当于把半个后期岗位省了。
不过0.2元这个定价,说实话我第一反应是算算他们的推理成本。现在哪怕是用了蒸馏或者MoE,长视频生成的算力开销也摆在那,除非他们在时序建模上用了类似diffusion transformer的极致压缩,或者干脆走的是低帧率+插帧的路线,否则这个价格大概率是在烧钱换市场。而且ELO 885、934这个分数,如果只是小样本盲测,或者测试集里全是静态场景过渡、简单卡通风格,那水分就太大了。我比较关心的是他们有没有公开过复杂运动场景下的连续性测试,比如人物转身、快速镜头切换,这种场景下很多模型直接崩成PPT。
另外,帖子提到“低价能否保持质量”这个问题,我觉得更关键的是“低价能否撑住长视频”。一分钟以内的短视频可能还行,一旦拉到三分钟以上,时序遗忘和语义漂移是必然要面对的,到时候还得靠后处理来修,那省下来的效率又得吐回去。建议可以拿他们生成的素材跑一下自己熟悉的benchmark,比如用VBench或者EvalCrafter做几组对比测试,看看在不同维度的真实表现。毕竟,对于真正用这个来吃饭的团队,光看分数远不如实际跑一轮有说服力。
这帖子看得我血压都上来了,不是因为反驳,而是因为Agnes这步棋确实踩到了行业最敏感的神经。0.2元/分钟,这个价格如果真能稳定输出,那就不只是“价格屠夫”了,简直是给整个视频生成赛道按下了快进键。我先从技术底层拆解一下,再聊聊这个定价背后的商业博弈。
先说你提到的ELO分数。ELO 885和934在文生图和图生视频里算第一梯队,但关键不在于分数本身,而在于“音画同出”这个特性。我之前在做一个短视频自动化流水线的时候,被音频同步坑得死去活来。那时候用某头部模型生成视频,画面流畅度没问题,但人嘴型和音轨永远差个200到400毫秒。手动对齐?一帧一帧调?那效率基本回到石器时代。后来我试过用Wav2Lip单独做唇形同步,但那个模型对光线和角度敏感,而且会引入伪影。Agnes如果真能原生解决这个问题,意味着它的时序建模里可能融合了音频特征和视觉特征的交叉注意力机制,而不是传统那种“先生成画面,再后期贴音轨”的两阶段方案。
我猜测它的架构可能借鉴了类似VideoLDM或者AnimateDiff的思路,但在音频流上做了端到端的嵌入。具体来说,如果它用了一个统一的Transformer或者扩散Transformer架构,把音频编码成连续的隐向量,然后和视觉token在时间维度上做联合自注意力,这样生成的每一帧画面都能自动匹配对应的音频相位。这要求模型在训练时就对齐大量音视频对,并且对音频的采样率和画面的帧率做严格的时间戳绑定。实操层面,如果我们要复现类似效果,技术上可以考虑用CLAP(对比语言-音频预训练)模型提取音频embedding,然后通过AdaIN或者Cross-Attention注入到UNet的每一层。但问题是,这样做会显著增加参数量和推理延迟,Agnes能在低价下做到,说明他们在蒸馏或者量化上下了狠手。
你问第一个问题:这定价是短期营销还是可持续模式?我直接说结论:短期营销的概率大,但可持续的窗口正在打开。算一笔账。视频生成的成本大头在推理算力,尤其是GPU的租用或自建成本。目前一张A100或H100每秒能生成的帧数有限,如果是1280x720分辨率、30fps,一分钟就是1800帧。如果模型参数量在7B到13B之间,单帧推理时间可能在0.5到1秒左右,一卡一天大概能产出几百分钟视频。按0.2元/分钟,一分钟收入只有0.2元,而单卡每小时成本至少30到50元(云上租赁价),单卡一天产出假设500分钟,收入100元,成本却要720到1200元,这明显是亏本的。所以Agnes要么是拿了融资在烧钱买用户,要么是用了极其高效的推理优化,比如动态批处理、FP8量化、甚至自定义的推理芯片。如果是后者,那可持续性就成立,因为随着用户规模扩大,推理成本可以被摊薄。但如果是前者,那就要警惕,历史上不少AI公司靠低价冲量,最后因为成本失控而涨价或关停。
第二个问题:低算力成本下如何平衡推理速度与画质?这里有个核心矛盾:画质越高,模型越大,推理越慢。解决方案目前有几个方向。一个是知识蒸馏,用大模型生成海量伪标签数据训练一个小模型,比如用Stable Video Diffusion蒸馏出一个只有几亿参数的轻量版。另一个是级联生成,先用低分辨率快速生成运动骨架,再用超分模块提升细节,这样主模型的推理帧数可以降低。我自己在做一个实验,把视频生成拆成两步:第一步用MotionCtrl生成关键帧的运动路径,第二步用ControlNet+Real-ESRGAN做帧插值和超分。这样主模型只需要生成每10帧的关键帧,推理速度提升5倍,画质损失肉眼几乎不可见。但代价是运动连续性可能变差,尤其是快速镜头切换时。Agnes如果采用了类似的多阶段级联架构,那他们的优化点可能在于用了一个极小的时序编码器来保证帧间连贯性。
再聊聊你对行业趋势的判断。你说三模态登榜说明多模态统一架构可能成为趋势,这个我完全同意。但我想补充一点:统一架构不等于一个模型干所有事。目前主流做法是搞一个大的backbone(比如ViT或DiT),然后挂不同的解码头。比如文本到图像、图像到视频、音频到视频共享同一个视觉编码器,但输出层单独训练。这种做法的好处是参数复用,减少训练成本,但坏处是不同模态的分布差异会导致训练不稳定。Meta的ImageBind和Google的VideoPoet都在尝试这条路,但真正落地的产品不多。Agnes如果在三模态上做到了商用级,那他们可能在数据配比和训练策略上有独到之处,比如用对比学习预训练对齐多模态表征,再用监督微调细化生成质量。
最后说点实际的踩坑经验。我之前为了节省成本,试过用Stable Diffusion XL生成图像序列,再用DAIN插帧成视频。结果呢?画面闪烁、物体漂移、光影不一致,根本没法商用。后来换成AnimateDiff,虽然连贯性好很多,但生成一个10秒的视频需要3到5分钟,算下来成本极高。所以我对Agnes的低价策略既兴奋又警惕。兴奋的是如果真能稳定输出,我可以把短视频矩阵的产量翻10倍;警惕的是,ELO分数在盲评中容易被“审美偏差”影响,比如模型擅长生成风景大片但不会做人物微表情,而盲评样本里恰好风景多。建议你或者贴主,可以自己跑一批测试集,专门测复杂场景:快速运动、人物转身、液体流动、头发飘动,这些才是视频生成的硬骨头。如果Agnes在这些场景下也能保持音画同步和画质,那0.2元/分钟就是真正的价值洼地,我会立刻把现有的工作流切过去。
总之,这定价是在赌市场规模能反哺技术迭代。如果赌对了,中小团队靠低价策略确实能撕开一道口子,甚至倒逼巨头降价。但别忘了,OpenAI和Google有自研芯片和分布式推理平台,一旦他们觉得这块肉值得抢,用规模优势把推理成本压到更低,那Agnes现在的优势可能瞬间变成包袱——毕竟烧钱大战里,谁现金流更厚谁才是赢家。现阶段,我更愿意把Agnes看作一个“鲶鱼”,刺激整个行业在成本和质量上做博弈。对于普通创作者,短期红利肯定要抓住,但别把所有鸡蛋放一个篮子里,多备几个模型,尤其是那些针对特定场景(比如动漫、写实、3D)的垂直模型,关键时刻能救命。
音画同出确实省大事了,我之前剪视频最烦就是手动对口型和音效,这步省掉起码能提速30%。但0.2元这个价我有点担心算力成本撑不住,会不会高峰期偷偷降画质或者限制生成时长?另外ELO分是内部评测还是第三方盲测,样本量够大吗?要是能开放个公开测试集让大家跑跑复杂场景就更放心了。
这定价确实够狠,0.2元/分钟基本是把视频生成的门槛拉到“随手用”的级别了。我之前用其他模型做批量短视频,光算token成本就得掂量半天,现在这个价格直接让“先跑一遍再说”成为可能。不过你说ELO 885和934,我倒觉得这分数在公开benchmark里算第一梯队,但盲评的问题在于——它测的是“平均质量”,可实际场景里用户最怕的是“突然崩坏”。比如长视频里某个瞬间人物动作失真、背景撕裂,这种低频但致命的问题,ELO这种全局指标是看不出来的。
关于音画同出这个特性,我比较好奇它的底层实现。如果是简单的联合训练,那音频和视频的时序对齐可能还是靠后处理硬凑;但如果是端到端生成,那对声音的韵律、唇形同步、环境音的一致性要求就非常高了。我试过一些号称“原生音画同步”的模型,实际在复杂场景(比如多人对话、快速切换镜头)下,音频经常出现延迟或杂音,反而比后期手动对齐更费劲。不知道Agnes这块有没有公开的case study?
另外,你提到的定价策略短期还是长期的问题,我觉得大概率是短期抢市场。这行当现在卷的是“规模效应”——用户量上来后,训练和推理成本能被摊薄,但前提是模型得扛住高并发和长视频的稳定性。万一用户量暴增后,速度和质量双双下降,那这低价反而会变成口碑反噬。建议他们先出个类似“专业版”的阶梯定价,给高频创作者留个保质量的通道,否则容易陷入“便宜但不好用”的尴尬。
这价格确实狠,0.2元一分钟做批量demo或测试素材基本不心疼。音画同出对短视频up主是刚需,以前光对轨就能干到崩溃。不过就怕低价绑定的是固定低分辨率或短时长模板,真要跑高帧率长镜头或复杂运动场景,可能还是得加钱选其他方案。有没有实际跑过复杂场景的案例?比如快速缩放或人物大幅转身,这种翻车率高的场景翻不翻车?
音画同出这个点确实戳中痛点了,我之前做短视频后期最头疼的就是对嘴型和音效对齐,尤其是那种卡点节奏强的片段,光调整时间轴就能磨掉半条命。Agnes如果能把这个端到端做到实用级别,那对独立创作者和MCN来说确实是降本利器。
不过定价这块我倒觉得没那么简单。0.2元/分钟看着是低,但得看生成分辨率、帧率和时长上限。如果只是480p、15fps、最长15秒的片段,那成本结构其实跟头部模型的720p/30fps/60秒不是一个量级,不能直接对标。而且视频生成最大的成本在推理端,尤其是长序列的注意力计算,这个价格能不能覆盖算力成本,大概率是前期烧钱换市场,后期再调价或者出pro版。
另外ELO 885和934的分数,我猜测试集大概率是那种静态场景切换、简单动作的基准数据集,比如MSR-VTT或者UCF101的简化版。真要测极限能力,得上那种多主体交互、镜头运动复杂、或者连续动作超过30秒的长视频,这种场景下音画同步很容易崩。我之前试过几个开源模型,短片段都能打,一上复杂动作就出现口型滞后或者画面跳帧。
比较好奇的是他们音频对齐是用的cross-attention还是latent alignment,有没有公开的消融实验。如果只是简单用wav2vec做后处理对齐,那跟端到端生成还是有本质区别的。建议测一下在高速运动或者多人对话场景下的同步帧率,这个才是硬指标。
作为一个在AI视频生成方向摸爬滚打了四五年的从业者,看到Agnes这个定价,第一反应不是“卧槽真便宜”,而是“这背后算的账到底是什么”。我所在的团队去年也尝试过类似的路子,结果被成本结构打了一记闷棍,所以对这个话题感触挺深。下面分几个层面展开聊聊,希望能给论坛里的朋友一些踩坑后的真实视角。
先说定价策略的可持续性问题。0.2元/分钟这个价,如果放在一年前,我绝对认为是烧钱换用户——你看Runway Gen-2刚出的时候,每分钟生成成本大概在0.5-1美元,算上GPU折旧和电费,几乎不赚钱。但到了2024年底,情况变了。一方面,视频生成模型的推理效率在过去半年里有了质的飞跃。我们团队实测过,原本需要A100跑45秒的720p视频生成,通过模型蒸馏、INT4量化、以及FlashAttention-2的算子优化,现在用L40S只需要12秒,推理成本直接砍到1/3以下。Agnes如果走的是类似路线,并且自建了推理集群(比如用H100或者L40S做大规模批处理),0.3美元/分钟完全有可能做到微利甚至小赚。关键在于它的模型架构效率——如果用的是DiT(扩散Transformer)的变体,并且做了时序和空间维度的低秩分解,参数量可以控制在5B以内,而推理时的KV-cache优化又能进一步降低显存占用。我算过一笔账:假设一个H100每小时成本约3美元(含电费、运维),如果一次批处理能同时生成4条1分钟视频,每分钟的GPU成本就降到0.125美元,加上带宽和存储,0.3美元定价仍然有40%毛利。当然,前提是用户规模足够大,能把批处理利用率和卡利用率拉满。
不过,这里有一个容易被忽视的陷阱:音画同步。帖子提到“音画同出”是亮点,这点我举双手赞成。我之前做短视频工具时,最痛苦的环节就是音频对齐。用Wav2Lip那类后对齐模型,不仅要额外跑一遍推理,还经常出现嘴型偏移、音频节奏和画面帧率不匹配的问题。有一次做产品演示,生成了一段3分钟的人物演讲,后期花了整整一个下午去手动调整音频时间轴,因为语音的韵律和画面的动作速度完全对不上。Agnes如果能做到真正的端到端音画联合生成,技术价值非常大。但这里有个关键细节:它的音画同步是“语义级”还是“物理级”?语义级同步是指音频内容(比如旁白、背景音乐)和画面场景在语义上匹配(比如提到“下雨”时画面出现雨滴),这相对容易,只需要在训练数据中做多模态对比学习;物理级同步则要求音频的波形和画面的每一帧动作精准对齐,比如说话时嘴唇开合和音频波形的时间差小于50毫秒,这需要在时序建模上做更精细的交叉注意力,甚至用到CTC损失函数或对抗训练。从公开的ELO得分来看(885/934),我倾向于Agnes走的是语义级同步路线,因为物理级同步的盲评得分通常很难在1000分满分标准下达到这么高(人类标注者更容易发现微小的时序错位)。但这在大多数短视频场景下已经够用了——毕竟不是每个人都需要口播视频。
关于复杂动作和长视频的翻车风险,我深有同感。我们去年测试过一款宣称“超长视频生成”的模型,在生成5秒以内的简单场景(比如“一只猫在桌子上走路”)时效果惊艳,但一旦把时间拉到15秒以上,或者动作包含“转身、跳跃、喝水”这种多步骤组合,画面就开始出现明显的“撕裂感”——比如人物的左臂和右臂在下一帧里突然交换位置,或者物体边缘出现闪烁的伪影。这本质上是因为扩散模型在时序维度上的自回归特性,每一步生成都会累积误差。解决这个问题,行业里主要有两条路:一条是采用Causal 3D U-Net架构,通过因果卷积保证未来帧不会影响过去帧,但代价是生成速度慢;另一条是用条件流匹配(Conditional Flow Matching)做隐空间中的轨迹预测,把连续帧的生成看作一条轨迹上的插值,这样在长视频上反而更稳定。Agnes没有公开架构细节,但如果它真能做到1分钟级别的稳定输出,大概率是走了第二条路,并且可能在推理时用了“引导采样”技术——在每一步生成时,用前一帧的隐向量作为条件,同时加入一个全局的“动量项”来抑制帧与帧之间的突变。这种做法的缺点是显存占用会随着视频长度线性增长,需要配合高效的窗格滑动策略(比如每生成8帧就丢弃最早的4帧隐向量)。
再说说低算力成本下的推理速度与画质平衡。这是一个系统工程问题,不能只看模型本身。我们团队踩过的坑是:为了追求推理速度,强行把模型从FP16压缩到INT8,结果画面出现明显的“颗粒感”和色阶断层,尤其是暗部场景(比如夜景或阴影区域),原本平滑的渐变变成了可见的带状条纹。后来我们改用了混合精度推理:在浅层卷积层保持FP16,只在深层自注意力层做INT4量化,同时给每个量化层加一个轻量级的“误差补偿网络”(一个3层MLP,参数量不到1M),在推理时实时修正量化损失。这样在A100上跑,推理速度提升了1.8倍,画质损失几乎不可感知。Agnes如果真想做到0.2元/分钟还能保持ELO 880以上的质量,大概率在模型压缩上下了狠手——可能用了神经架构搜索(NAS)来找到每一层的最佳位宽,甚至针对不同的视频场景(人物、风景、动画)做了动态量化配置。另一个容易被忽略的点是视频编码器:很多团队只关注生成模型的优化,却忽略了最后的H.264/H.265编码环节。如果生成的视频帧率是24fps,直接用CPU软编码,每帧的编码时间可能接近100毫秒,导致整体延迟翻倍。我在项目里换成了NVIDIA的NVENC硬编码,把编码延迟降到了5毫秒以下,同时用预分析(pre-analysis)模式来动态调整码率,确保画质优先。这个细节虽然不起眼,但能节省20%以上的端到端成本。
从行业格局来看,Agnes这种三模态登榜(文生视频、图生视频、音画同步)确实验证了多模态统一架构的可行性。我去年在NeurIPS上看到一篇论文,用的是“跨模态共享编码器+模态特定解码器”的架构,在训练时通过对比学习让文本、图像、音频的嵌入空间对齐,然后共享一个时序Transformer来建模。这种架构的好处是参数复用率高,训练成本低,但推理时有一个隐性问题:不同模态的输入会竞争共享注意力头的权重,导致在纯文生视频任务中,模型可能会“走神”去关注音频特征(即使当前不需要音频输出),从而降低生成质量。解决办法是在训练时加入随机的模态掩码(比如40%的时间只给文本,30%的时间给文本+图像,30%给文本+音频),让共享层学会条件性忽略不存在的模态。Agnes如果也用了类似思路,那它的技术壁垒其实不在于单个任务的SOTA,而在于如何让一个统一模型在所有模态下都达到90%以上的用户可接受度——这比想象中难得多。我们团队曾经把图像生成和视频生成放在一个模型里,结果图像质量确实能到FID 10以内,但视频生成丢帧率高达15%,最后只能拆成两个专用模型。
最后聊一下定价策略对中小企业的影响。我身边有不少做AI视频工具的创业团队,他们看到Agnes这个价格后,第一反应是“完了,没法玩了”。但我觉得这恰恰是个洗牌的机会。0.2元/分钟的价格,意味着视频生成正在从“高端设计工具”变成“基础设施”——
就像当年的SaaS从按席位收费变成按API调用量收费一样。对于中小团队,与其和Agnes拼价格,不如走“垂直场景+定制化体验”的路线。举个例子,我认识一个团队专做“电商产品展示视频”,他们的模型只针对“手机、口红、饰品”这三类商品,训练数据里全是白底棚拍和360度旋转镜头,每段视频只有5秒,但生成效果比通用模型好一大截,而且推理成本只有0.05元/分钟,因为模型小到可以在消费级显卡上跑。他们甚至把生成和剪辑流程绑在一起:用户上传一张商品图,系统自动生成10秒的展示视频,然后加上预设的背景音乐和字幕模板,一条成品视频从生成到导出只需要8秒。这种“小而美”的路线,通用模型打不过,因为它的训练数据太垂直,蒸馏出来的模型在特定场景下的ELO可以做到950以上。所以,Agnes的低价策略实际上是在倒逼整个行业做差异化——要么做到极致通用(像OpenAI那样),要么做到极致垂直。
至于巨头会不会跟进降价,我的判断是:短期内不会,但长期看必然。OpenAI的Sora至今没公开定价,因为它的推理成本太高了——我推测Sora生成1分钟视频的算力成本至少在5美元以上(基于它使用的DiT参数量和采样步数)。如果Agnes能证明0.3美元/分钟的价格可以长期跑通,那么Google的VideoPoet和Meta的Emu Video可能会在下一个版本中推出“轻量版”模型,用更少的采样步数(比如从50步降到20步)和更小的模型尺寸来打价格战。但巨头的优势在于生态:Google有YouTube的渠道分发,Meta有Instagram的创作者激励,它们可以通过“生成视频+一键发布”的闭环来锁定用户,而不只是靠API调用来赚钱。Agnes如果要持续保持竞争力,必须在开发者生态和工具链上投入——比如提供Python SDK和ComfyUI节点,让创作者能轻松集成到自己的工作流中。
总结一下我的看法:Agnes这个定价不是噱头,而是基于模型压缩和推理优化的精算结果。它暴露了视频生成行业的一个核心矛盾——当技术成熟到一定程度,成本会断崖式下降,但质量门槛也在同步提高。未来半年,我们会看到更多玩家加入价格战,但真正能活下来的,不是最便宜的那个,而是能在0.2元/分钟的成本下,稳定输出90%以上用户能接受的视频质量,并且能持续迭代到95%的那个。至于技术层面,音画同步和长视频稳定性仍是两大难点,谁能先解决“10分钟以上的连贯视频生成”,谁就能定义下一个时代的创作工具。对于普通创作者,建议先别急着买会员,观望一下实际生成效果,尤其是复杂场景下的对比——毕竟,ELO盲评分数在实验室环境和真实用户场景之间,可能隔着一条鸿沟。
音画同步这个点确实戳中痛点了,我之前做短视频项目,后期对齐音频和画面真的是噩梦,尤其是有复杂转场或者多镜头切换的时候,精度差一点点就要反复调,单条视频光这块就能耗掉两三个小时。如果Agnes这个模型真能把时序建模和音频生成做到端到端联合训练,那省下来的时间成本确实对中小团队很友好。
不过我对那个ELO分数有点保留。文生视频885,图生视频934,看着挺高,但ELO这种竞技类评分机制在视频生成上的适用性我一直觉得存疑——它太依赖对比盲评里的“主观偏好”,对连续帧的运动一致性、物理规则遵循这些偏硬指标的考察其实不强。说白了,静态美感容易拉分,但动态逻辑容易翻车。而且0.2元/分钟这个价格,算上算力成本,我怀疑是不是做了大量模型蒸馏或者量化压缩,那在高分辨率、长时长场景下,细节保持和动作连贯性大概率要打折扣。
另外还有个好奇的点,他们这个“音画同出”有没有做语义级别的对齐?比如画面里出现关门声,音频是不是精确到帧级别的动作对应?还是说只是简单的环境音+背景音乐混排?前者对架构要求极高,后者很多开源方案也能凑合。如果真的做到前者,那这个定价确实有颠覆性,但我倾向于先看几轮第三方长视频评测再下结论。
至于定价策略是短期还是长期——我觉得更像是快速抢占创作者生态的路径,毕竟视频生成市场现在还是蓝海,先用低价把用户习惯养起来,等规模上来再靠增值服务或者企业版收费回血。OpenAI之前不也这么玩过嘛。
0.2元一分钟确实香,但你说复杂动作和长视频可能翻车,这点我也挺担心的。有没有可能拿它跑个3分钟以上的带复杂转场的样片看看?另外音画同步这块,是支持任意音频输入还是只能生成固定风格?要是能自定义配乐,那对做短剧的来说就真香了。