CLIP-ViT-B-32-laion2B-s34B-b79K
简介
1. Model Details 2. Uses 3. Training Details 4. Evaluation 5. Acknowledgements 6. Citation 7. How To Get Started With the Model
模型卡片
模型配置
模型详情
已翻译CLIP ViT-B/32 - LAION-2B 模型卡片
目录
模型详情
模型描述
一个使用 OpenCLIP (https://github.com/mlfoundations/open_clip) 在 LAION-5B (https://laion.ai/blog/laion-5b/) 的 LAION-2B 英语子集上训练的 CLIP ViT-B/32 模型。
模型训练由 Romain Beaumont 在 stability.ai 集群上完成。
用途
根据原始 OpenAI CLIP 模型卡片,本模型旨在作为面向研究社区的研究成果。我们希望该模型能够帮助研究人员更好地理解和探索零样本、任意图像分类任务。同时,我们也希望它能用于跨学科研究,探讨此类模型的潜在影响。
OpenAI CLIP 论文中包含了对潜在下游影响的讨论,为此类分析提供了示例。此外,LAION-5B 博客 (https://laion.ai/blog/laion-5b/) 及即将发表的论文中,也针对训练数据集进行了更具体的讨论。
直接用途
零样本图像分类、图像与文本检索等。
下游用途
图像分类及其他图像任务的微调、线性探针图像分类、图像生成引导与条件控制等。
超出范围的使用
根据 OpenAI 模型的规定:
该模型的任何部署用例——无论是否商用——目前均超出范围。非部署用例,例如在受限环境中的图像搜索,也不推荐使用,除非针对特定、固定的类别分类体系对该模型进行了彻底的领域内测试。这是因为我们的安全评估表明,鉴于 CLIP 在不同类别分类体系下的性能存在差异,任务特定测试的需求很高。这使得该模型在任何用例中未经测试和不受限制的部署目前都可能带来潜在危害。
某些属于监控和人脸识别领域的用例,无论模型性能如何,始终超出范围。这是因为在当前缺乏确保公平使用的测试规范和检查机制的情况下,将人工智能用于此类任务可能为时过早。
由于该模型未针对英语以外的任何语言进行有目的的训练或评估,其使用应限于英语语言用例。
除上述声明外,用于训练这些模型的 LAION-5B 数据集还有额外的注意事项,详见下文。
训练详情
训练数据
该模型使用 LAION-5B (https://laion.ai/blog/laion-5b/) 中 20 亿样本的英语子集进行训练。
重要提示: 创建该数据集的初衷是推动大规模多模态模型训练以及处理从公开互联网抓取的未经整理的大规模数据集的研究和实验民主化。因此,我们建议将该数据集用于研究目的。请注意,这个大规模数据集是未经整理的。需谨记,数据集的未整理性质意味着收集到的链接可能会给观看者带来强烈不适和令人不安的内容。因此,请谨慎使用演示链接,风险自负。可以通过基于安全标签(使用我们构建的自定义训练 NSFW 分类器)过滤样本来提取“安全”子集。虽然这大大降低了观看时遇到潜在有害内容的可能性,但我们无法完全排除安全模式下仍存在有害内容的可能性,因此该警告同样适用。我们认为,向广泛的研究和其他感兴趣的社区公开提供该数据集,将有助于透明地调查训练大规模模型所带来的益处,以及那些在仅限小范围社区使用的封闭大型数据集中可能未被报告或注意到的陷阱和危险。然而,尽管我们公开提供了数据集,但我们不建议将其用于构建可直接投入使用的工业产品,因为关于此类大规模模型的一般特性和安全性的基础研究仍在进行中,我们希望通过此次发布来鼓励这方面的研究。
训练过程
评估
评估使用 LAION CLIP Benchmark 套件 中的代码完成。
测试数据、因素与指标
正在翻译中,请稍候...