56.6亿元。
这是昆仑万维(300418.SZ)在2024年年报中公布的营收。
而在紧随其后披露的2025年一季报中,总营收增长46%、海外收入大增56%更是振奋人心。
其中AI音乐年化流水收入ARR达到约1,200万美金(月流水收入约100万美金);
短剧平台DramaWave年化流水收入ARR达到约1.2亿美金(月流水收入约1000万美金);
AI社交报告期内单月最高收入突破100万美元,成为海外收入增长速度最快的中国AI应用之一。
昆仑万维,这家曾经依靠游戏、社交网络和投资获得稳定现金流的公司,正以前所未有的决心和速度,将自己重塑为一家AIGC公司。
从自研“天工”大模型,到AI音乐商用创作平台Mureka、AI搜索、AI社交,
再到短剧视频生成产品SkyReels,昆仑万维几乎在泛娱乐领域中有前景的AIGC应用都布下重兵。
此外,昆仑万维还在Q1季报中披露,将于2025年5月中旬在海外发布全球首款生产力场景通用Agent平台Skywork.ai,
提供全球首个开源的Deep Research Agent框架,并开放重磅MCP供开发者调用;而昆仑万维的AI芯片也将在年内流片。
在2025年一季度财报发布后,我们与昆仑万维董事长兼CEO方汉进行了一场深入对话。
他坦白讲述了昆仑万维如何通过AI音乐、视频等多个赛道的布局占领海外文娱市场高地。
在他看来,昆仑自研的AI模型(SOTA)就像是“最好的锄头”,正在助力公司开采AIGC领域那片“最肥沃的金矿”。
但是,掘金并不容易——技术扩张与商业利益的拉锯之中,昆仑万维眼下仍在寻找那个“最终胜负手”。
在全球AI娱乐内容战局的初期布局之争中,方汉带领的昆仑万维,正站在一个微妙的节点上,
以一份极致的信仰,试图证明自己能够率先迈过技术、市场和人心之山。
1.谈产品:音频和图像技术已经达到了AIGC商业化的拐点,但视频还没有
甲子光年:Mureka可以算作是昆仑万维的王牌产品了,这次年报显示Mureka流水收入ARR达到约1200万美金、月流水收入约100万美金,
Mureka从研发到商业化的关键路径是怎样的?它在AI生成音乐方面的技术优势如何转化为用户付费和收入增长?
方汉:从2020年开始,昆仑万维就开始进行Mureka的模型和产品研发。
从技术层面,我们的模型经历了从符号化生成,到Diffusion生成,到Diffusion Transformer生成,再到最近的Music CoT思维链生成,进行了四次重大的技术转型,
这些技术积累构成了我们的产品基础。最终随着Music CoT技术的发展,我们的产品效果也做到了全球领先水平。
对比此前风靡全球的其他产品来说,我们从落后到超越的过程对我触动很大。
坦白说过去我们的效果确实并不理想,所以在一些英语国家,我们的用户口碑在逐渐逆转,这需要一个积累过程。
但在一些对手尚未覆盖的地区,我们产品的增长非常迅速。
音乐生成工具的潜力远不止于此。关键在于转变从业者的心态。
在中国,存在一种演员的鄙视链:拍电影的看不起拍电视剧的,拍电视剧的看不起拍网剧的,拍网剧的看不起拍短剧的,拍短剧的看不起拍广告的。
这种鄙视链在音乐领域同样存在。
许多音乐人认为手写乐曲才具有灵魂,而AI创作的则被认为缺乏灵魂。但事实上今天的音乐创作已经跟过去完全不同了。
在今天没有音乐人不使用DMW(Digital Music Workstation)对每段音频进行精细调音。
很多时候我们看一些歌手的“翻车”视频,去掉调音之后,你会发现他们唱歌并不好听。
这也说明,当前的创作者已经广泛采用计算机工具辅助创作。我认为,让他们接受AI创作只是时间问题。
另外,音乐的下游产业更可能接纳新技术。因为AI音乐领域看似很窄,却是许多行业不可或缺的部分。
例如影视作品、游戏、广告等都需要音乐。以前他们只能硬着头皮支付高昂的音乐费用。但现在这些下游产业将会从我们的音乐生产模型中受益。
从下游产业逐渐延伸到上游产业,最终影响行业最顶级的流行音乐。
最后的标志性事件是看AI音乐何时能够进入全球流行音乐排行榜的前100名、前十名,甚至第一名。这必然会成为AI音乐被整个音乐界接受,成为音乐界的一部分。
人心中的偏见是一座山。AI音乐不是技术力和产品力不够,而是要扭转人心中像山一样的偏见。
甲子光年:昆仑万维的AI短剧平台SkyReels所推出的开源模型获得开发者好评,但行业也有一种声音是AI生成的视频“缺乏真实感”,导致商业化进展缓慢。
这是不是意味着技术指标领先≠用户体验达标?
方汉:从量变到质变是有拐点的。达到这个拐点后,用户才会认为产品完全可用。在我看来,音频和图像技术的拐点已经达到了,但视频技术尚未达到这一拐点。
文本在某些领域也仍未达到这一拐点。
坦白说,我们很难给出一个“拐点何时到来”的准确预测。我们能做的就是在算法上持续迭代,不断尝试。
技术进步是持续的。比如最早电影使用胶片拍摄,随后逐渐演变为数码技术,单是摄像机就发展到上亿像素级别。还有从最初的绿幕抠图到现在的3D背景等等。
你会发现,传统技术的发展变革是以十年为单位的。而现在视频生成模型,它们的发展是以月或季度为单位的。
这表明视频模型的迭代速度远超过传统拍摄技术的更新速度。
我们能够判断的是,未来1-2年或者更长时间,技术的发展一定会更进一步。但对于AGI的未来何时到来,现阶段我们确实没办法预测,因为存在太多未知因素。
甲子光年:昆仑万维2月份发了面向短剧创作的开源视频生成模型SkyReels-V1,前两天又发布了SkyReels-V2,V2相较于V1有哪些迭代?
方汉:V2最大的突破是解决了视频生成长度的问题——现在能一口气生成四五十秒、甚至更长时间的带完整故事线的视频。对用户来说,这意义重大。
过去他们得自己剪一堆5秒、10秒的片段,还得把上一段结尾的画面拼到下一段开头,操作特别麻烦。
现在直接出一个40、50秒甚至时间更长的成品,广告和短剧这两大场景的需求基本都能覆盖。所以我们觉得必须尽快上线,让用户早点用上这种“丝滑”体验。
我觉得做AI产品的关键还是从用户痛点倒推技术迭代。
比如SkyReels-V1,核心优势在表演数据——我们喂进去了33种人类表情数据、300多种动作数据,相当于给AI上了“表演特训班”。
打个比方,别的通用视频模型像综合大学,什么专业都有,但表演课水平一般;
我们这模型就像北电、中戏的科班生,专攻“演戏”,生成的人物动作表情自然更细腻、更有感染力。
甲子光年:强如Character.ai,其最好的宿命也是卖给Google。你如何思考AI社交产品的生命周期?这是只有大厂或上市公司才有实力玩的游戏吗?
方汉:首先,我认为目前的产品还远没有达到它的最终形态。
举个最简单的例子。在游戏领域,国外最赚钱的IP是《魔兽世界》,中国最赚钱的IP是《梦幻西游》。
但这两款游戏的原型其实都是源自一种开源的文字冒险游戏——MUD。这种产品的演进过程非常重要。
经典文字MUD游戏《我的江湖》,图源:网络
从最早的很简陋的文字聊天的这种战斗形式,演化到今天的《魔兽世界》和《梦幻西游》,今天的产品商业化已非常成熟。
所以对比之下,目前AI聊天的产品演化过程还远未达到顶峰。当前的商业