Jina AI 今日正式发布了 jina-embeddings-v5-omni,这是一款将文本向量模型能力拓展至图像、音频和视频的全模态小模型。与以往需要分别训练不同模态编码器的方案不同,v5-omni 在保持文本侧输出与 v5-text 逐字节一致的前提下,首次实现了跨模态的向量统一。这意味着,如果你已经在使用 v5-text 构建文本索引,无需任何重建即可无缝接入图像、音频和视频的向量表示,极大降低了迁移成本。在技术实现上,v5-omni 采用了一种轻量化的多模态对齐架构。文本侧完全继承 v5-text 的编码器参数,而图像、音频、视频的编码器则通过共享的投影层与文本向量空间对齐。官方数据显示,该模型在多个多模态检索基准测试中,性能接近甚至超越了参数量大数倍的模型。例如,在 MS-COCO 图像检索任务中,v5-omni 的 Recall@1 达到 78.5%,在 AudioSet 音频分类任务中准确率为 72.3%。模型大小仅为 300MB,适合边缘设备部署。这一发布对 AI 从业者而言意义重大。在检索增强生成(RAG)场景中,以往处理多模态数据需要维护多个独立的向量索引和检索系统。v5-omni 统一了不同模态的向量空间,使得一次检索即可返回文本、图像、音频和视频的混合结果。同时,由于文本向量完全兼容 v5-text,现有基于文本的 RAG 系统可以零成本升级为多模态系统。对于电商、教育、内容平台等需要处理大量多媒体数据的行业,v5-omni 提供了一个高效且经济的解决方案。展望未来,多模态小模型的趋势将更加明显。v5-omni 的发布表明,将能力从单一模态扩展到全模态,并不一定需要牺牲性能或大幅增加模型体积。对于开发者而言,建议尽快测试 v5-omni 在自身业务场景中的表现,尤其是需要处理图像、音频或视频的搜索与推荐系统。Jina AI 已开源模型权重并提供 API 接口,降低了试用门槛。随着多模态数据的爆发式增长,像 v5-omni 这样轻量且兼容的模型,将成为连接不同信息形态的关键桥梁。