快手将可灵AI以200亿美元估值分拆融资,而母公司市值不足290亿,这显然是在押注视频生成大模型的独立价值。从技术角度看,可灵年化收入5亿美元且翻倍增长,说明其模型在实际场景中已具备商业闭环,而非单纯的概念炒作。关键突破在于视频生成的实时性和可控性——我个人的测试经验显示,可灵在长视频一致性上优于开源模型,这得益于其自研的时空注意力机制和动态掩码训练策略。
但估值200亿是否合理?对比Stable Video Diffusion的社区生态和Runway的订阅模式,可灵的优势在于快手短视频生态的反馈数据,这能加速模型迭代。不过,分拆后如何平衡独立研发与母公司技术共享是个问题。我的疑问是:可灵能否在视频生成领域开辟类似GPT的API经济?还是说,它更可能沦为短视频工具链的附属品?
从行业趋势看,视频生成大模型正从“生成片段”转向“理解叙事”,这对架构提出了更高要求。可灵若想支撑200亿估值,必须在长视频叙事逻辑和多模态交互上做出突破,否则很容易被Sora或Google的VideoPoet后来居上。各位怎么看视频生成模型的技术壁垒?是数据规模还是模型架构更关键?