fashion-clip

patrickjohncyh zero-shot-image-classification transformers en

patrickjohncyh/fashion-clip

2,874,693

下载量

280

收藏数

31

浏览量

mit

许可

简介

Disclaimer: The model card adapts the model card from here.

模型卡片

许可协议 mit

语言

en

框架 transformers

vision language fashion ecommerce

模型配置

模型类型 clip

架构 CLIPModel

模型详情

已翻译

模型卡片：Fashion CLIP

免责声明：本模型卡片改编自此处的模型卡片。

模型详情

更新（2023年3月10日）：我们已更新模型！我们发现 laion/CLIP-ViT-B-32-laion2B-s34B-b79K 检查点（感谢 Bin！）在时尚领域比原始 OpenAI CLIP 表现更好。因此，我们在保持架构不变的情况下，微调了一个更新（且更优！）版本的 FashionCLIP（以下简称 FashionCLIP 2.0）。我们推测，laion/CLIP-ViT-B-32-laion2B-s34B-b79K 带来的性能提升源于其训练数据量的增加（是 OpenAI CLIP 数据的 5 倍）。然而，我们的论文结论保持不变——在我们的时尚数据集上微调 laion/CLIP 提升了跨基准测试的零样本性能。下表比较了各模型的加权宏 F1 分数。

模型	FMNIST	KAGL	DEEP
OpenAI CLIP	0.66	0.63	0.45
FashionCLIP	0.74	0.67	0.48
Laion CLIP	0.78	0.71	0.58
FashionCLIP 2.0	0.83	0.73	0.62

FashionCLIP 是一个基于 CLIP 的模型，旨在为时尚概念生成通用的产品表示。利用 OpenAI 发布的预训练检查点（ViT-B/32），我们在一个大规模、高质量的新型时尚数据集上训练 FashionCLIP，以研究对类似 CLIP 的模型进行领域特定微调是否足以生成可零样本迁移到全新数据集和任务的产品表示。FashionCLIP 并非为模型部署而开发——若要部署，研究人员首先需要仔细研究其能力与具体部署场景之间的关系。

模型日期

2023 年 3 月

模型类型

该模型使用 ViT-B/32 Transformer 架构作为图像编码器，并使用掩码自注意力 Transformer 作为文本编码器。这些编码器从预训练检查点开始训练，通过对比损失在包含 80 万产品的时尚数据集上最大化（图像，文本）对的相似度。

文档

数据

该模型在从 Farfetch 数据集[^1 等待官方发布]获取的（图像，文本）对上进行训练。该数据集是一个英文数据集，包含超过 80 万件时尚产品，涵盖数十种对象类型中的 3000 多个品牌。用于编码的图像为标准产品图像，即产品在白色背景上的图片，不包含人物。使用的文本是 Farfetch 数据集中可用的亮点（例如，“条纹”、“长袖”、“Armani”）和 简短描述（“80 年代风格 T 恤”）的拼接。

局限性、偏见与公平性

我们承认 FashionCLIP 存在某些局限性，并预计它继承了原始 CLIP 模型中的某些局限性和偏见。我们不认为我们的微调会显著加剧这些局限性：我们承认，我们使用的时尚数据对性别概念做出了明确假设，例如“女士蓝色鞋子”，这不可避免地会将服装的某些方面与特定人群关联起来。

我们的研究还表明，所使用的数据给 FashionCLIP 带来了某些局限性。从文本模态来看，由于 Farfetch 数据集中的大多数描述文本较长，我们观察到 FashionCLIP 在处理较长查询时可能比处理较短查询表现更好。从图像模态来看，FashionCLIP 也偏向于标准产品图像（居中、白色背景）。

模型选择，即在微调过程中选择合适的停止标准，仍然是一个开放挑战。我们观察到，在领域内（即与测试集分布相同）验证集上使用损失作为选择标准，在领域外场景中效果不佳。

fashion-clip

简介

模型卡片

模型配置

模型详情

模型卡片：Fashion CLIP

模型详情

模型日期

模型类型

文档

数据

局限性、偏见与公平性

标签

操作

详细信息