创作者平台Wirestock近日宣布完成2300万美元A轮融资,由Nava Ventures领投,SBVP(由Sheryl Sandberg参与创立)、Formula VC与I2BF Ventures跟投,公司累计融资规模已达约2600万美元。这笔融资看似是又一个创作者经济的注脚,但其背后暗藏着AI行业更深层的焦虑——高质量训练数据正在成为稀缺资源,而多模态时代的数据争夺战已然打响。
传统AI训练数据集大多来自公开爬取、学术共享或合成数据,但多模态大模型的爆发彻底改变了游戏规则。模型需要理解图像、视频、音频、文本的复杂关联,这就要求训练数据必须真实、多样、有版权且标注精确。Wirestock这类平台恰好能提供大量由专业摄影师、设计师和艺术家上传的原创作品,这些数据天然具备高分辨率、多场景、多风格的特点,是训练多模态模型的金矿。
事实上,这并非孤例。过去一年,多家AI公司开始与Shutterstock、Getty Images等图库平台达成数据授权协议,单笔交易金额动辄数千万美元。OpenAI、Stability AI、Midjourney等公司都在疯狂寻找合法、高质量的训练数据源。Wirestock的融资恰恰说明,创作者平台正在从单纯的变现工具,转变为AI产业链上游的关键基础设施。谁掌握了高质量数据,谁就掌握了多模态模型的命脉。
对于AI从业者而言,这一趋势意味着两件事:一是模型训练的成本门槛将进一步抬高,数据获取将从“免费午餐”转向“付费订阅”;二是数据合规性将成为模型能否商业化的核心壁垒,未经授权的训练数据可能引发法律风险。未来,AI公司或许需要像储备芯片一样储备数据资产,而创作者平台则有望成为这场数据战争中的最大赢家。