刚看到Agnes-Video-V2.0的定价,0.3美元/分钟(约0.2元人民币),直接杀到头部模型均价的1/10。这不仅是价格屠夫,更是对现有视频生成商业模式的降维打击。技术层面,文生视频ELO 885、图生视频ELO 934,虽然没说具体架构,但从音画同出这个特性看,可能是在时序建模和音频对齐上有创新,比如联合训练或端到端生成。个人经验,之前用其他模型做短视频,光音频后期同步就占了一半时间,原生音画同出直接省掉这步,对创作者是实打实的效率提升。不过,低价能否保持质量?ELO得分虽高,但盲评样本量和场景多样性未知,万一在复杂动作或长视频上翻车,就成噱头了。讨论两个问题:1)这种定价策略是短期营销还是可持续模式?2)视频生成模型在低算力成本下,如何平衡推理速度与画质?行业来看,Agnes三模态登榜,说明多模态统一架构可能成为趋势,中小团队靠低价策略能快速抢占市场,但OpenAI、Google这些巨头一旦跟进降价,竞争会更血腥。大家怎么看?