clip-vit-base-patch32

openai zero-shot-image-classification transformers

openai/clip-vit-base-patch32

21,453,525

下载量

1404

收藏数

69

浏览量

-

许可

简介

Disclaimer: The model card is taken and modified from the official CLIP repository, it can be found here.

模型卡片

vision

模型配置

模型类型 clip

架构 CLIPModel

模型详情

已翻译

Model Card: CLIP

免责声明：本模型卡片取自并修改自官方 CLIP 仓库，可在此处找到原文。

模型详情

CLIP 模型由 OpenAI 的研究人员开发，旨在探究计算机视觉任务中鲁棒性的影响因素。该模型还用于测试模型以零样本方式泛化到任意图像分类任务的能力。该模型并非为通用模型部署而设计——若要部署像 CLIP 这样的模型，研究人员首先需要仔细研究其能力与具体部署场景的适配性。

模型日期

2021 年 1 月

模型类型

该模型采用 ViT-B/32 Transformer 架构作为图像编码器，并使用掩码自注意力 Transformer 作为文本编码器。这些编码器通过对比损失进行训练，以最大化（图像，文本）对的相似度。

原始实现有两个变体：一个使用 ResNet 图像编码器，另一个使用 Vision Transformer。本仓库提供的是 Vision Transformer 变体。

文档

与 Transformers 配合使用

from PIL import Image
import requests

from transformers import CLIPProcessor, CLIPModel

model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)

outputs = model(**inputs)
logits_per_image = outputs.logits_per_image # this is the image-text similarity score
probs = logits_per_image.softmax(dim=1) # we can take the softmax to get the label probabilities

模型用途

预期用途

该模型旨在作为面向研究社区的研究成果。我们希望该模型能够帮助研究人员更好地理解和探索零样本、任意图像分类任务。同时，我们也希望它能用于此类模型潜在影响的跨学科研究——CLIP 论文中包含了对潜在下游影响的讨论，为此类分析提供了示例。

主要预期用途

这些模型的主要预期用户是 AI 研究人员。

我们主要设想研究人员将使用该模型来更好地理解计算机视觉模型的鲁棒性、泛化能力以及其他能力、偏见和约束。

超出范围的使用场景

该模型的任何部署场景（无论是商业用途还是非商业用途）目前均超出范围。非部署场景（如受限环境中的图像搜索）也不推荐使用，除非针对特定、固定的类别分类法对该模型进行了彻底的领域内测试。这是因为我们的安全评估表明，任务特定测试的需求很高，尤其是考虑到 CLIP 在不同类别分类法下的性能差异。这使得目前在任何使用场景中未经测试和不受约束地部署该模型都可能带来潜在危害。

属于监控和人脸识别领域的某些使用场景，无论模型性能如何，始终超出范围。这是因为在当前缺乏确保公平使用的测试规范和检查机制的情况下，将人工智能用于此类任务可能为时过早。

由于该模型未针对英语以外的任何语言进行有目的的训练或评估，其使用应限于英语使用场景。

数据

该模型在公开可用的图像-标题数据上进行了训练。这是通过爬取少量网站并结合使用常用的现有图像数据集（如 YFCC100M）来实现的。大部分数据来自我们对互联网的爬取。这意味着数据更能代表与互联网联系最紧密的人群和社会，而这些人群往往偏向于更发达的国家以及更年轻、男性用户。

数据使命声明

我们构建此数据集的目标是测试计算机视觉任务中的鲁棒性和泛化能力。因此，重点是从不同的公开互联网数据源收集大量数据。数据的收集方式基本是非干预性的。然而，我们只爬取了那些有政策禁止过度暴力和成人内容，并允许我们过滤此类内容的网站。我们不打算将此数据集用作任何商业或部署模型的基础，也不会发布该数据集。

性能与局限性

性能

我们已在多种计算机视觉数据集（从 OCR 到纹理识别再到细粒度分类）的广泛基准上评估了 CLIP 的性能。论文描述了模型在以下数据集上的性能：

Food101
CIFAR10
CIFAR100
Birdsnap
SUN397
Stanford Cars
FGVC Aircraft
VOC2007
DTD
Oxford-IIIT Pet dataset
Caltech101
Flowers102
MNIST
SVHN
IIIT5K
Hateful Memes
SST-2
UCF101
Kinetics700
Country211
CLEVR Counting
KITTI Distance
STL-10
RareAct
Flickr30
MSCOCO
ImageNet
ImageNet-A
ImageNet-R
ImageNet Sketch
ObjectNet (ImageNet Overlap)
Youtube-BB
ImageNet-Vid

局限性

CLIP 及我们对其的分析

clip-vit-base-patch32

简介

模型卡片

模型配置

模型详情

Model Card: CLIP

模型详情

模型日期

模型类型

文档

与 Transformers 配合使用

模型用途

预期用途

主要预期用途

超出范围的使用场景

数据

数据使命声明

性能与局限性

性能

局限性

标签

操作

详细信息