总结论文时安全检查不通过，跳过。
 "从自然语言监督中学习可迁移的视觉模型
Alec Radford* 1Jong Wook Kim* 1Chris Hallacy1Aditya Ramesh1Gabriel Goh1Sandhini Agarwal1
Girish Sastry1Amanda Askell1Pamela Mishkin1Jack Clark1Gretchen Krueger1Ilya Sutskever1
摘要
最先进的计算机视觉系统被训练来预测一组固定的预定义对象类别。这种受限的监督形式限制了它们的通用性和可用性，因为需要额外的标记数据来指定任何其他视觉概念。直接从原始文本中学习图像是一种有前途的替代方法，它利用了更广泛的监督来源。
我们展示了一个简单的预训练任务——预测哪个标题与哪个图像相匹配——是一种有效且可扩展的方式来从头学习最先进的图像表示，这是在一个从互联网收集的4亿对数据集上实现的。预训练后，自然语言被用来引用学到的视觉概念，使得模型能够零样本转移到下游任务。我们通过在30多个不同的现有计算机视觉数据集上进行基准测试来研究这种方法的性能，涵盖了OCR、视频中的动作识别、地理定位以及许多类型的细粒度对象分类等任务。
模型在大多数任务上都有非平凡的迁移能力，并且通常与完全监督的基线相当，而无需任何特定数据集的训练。例如，我们在零样本的情况下匹配了原始ResNet-50在ImageNet上的准确率，而无需使用它训练的128万个训练样本。我们在https://github.com/OpenAI/CLIP 上发布了我们的代码和预训练模型权重。
1. 引言和动机工作
直接从原始文本学习的预训练方法在过去几年中彻底改变了自然语言处理（NLP）。
*同等贡献1OpenAI, San Francisco, CA 94110, USA.
联系邮箱：<falec, jongwookg@openai.com >。任务无关的目标，如自回归和掩蔽语言建模，已经在计算、模型容量和数据方面跨越了多个数量级，稳步提高了能力。“文本到文本”作为标准化的输入输出界面的发展使得任务无关的架构能够零样本转移到下游数据集，消除了对专用输出头或数据集特定定制的需求。像GPT-3这样的旗舰系统现在在许多任务上与定制模型竞争，同时几乎不需要任何特定数据集的训练数据。
这些结果表明，现代预训练方法在网络规模的文本集合中可访问的聚合监督超过了高质量的众包标记NLP数据集。然而，在计算机视觉等其他领域，仍然普遍的做法是在如ImageNet这样的众包标记数据集上预训练模型。能否从网络文本直接学习的可扩展预训练方法会在计算机视觉领域带来类似的突破？先前的工作是令人鼓舞的。
20多年前，Mori等人探索了通过训练模型来预测与图像配对的文本文档中的名词和形容词来改进基于内容的图像检索。Quattoni等人展示了通过在与图像相关的标题、描述和标签的分类器的权重空间中进行流形学习，可以学习到更高效的图像表示。Srivastava & Salakhutdinov探索了在低级图像和文本标签特征之上训练多模态深度玻尔兹曼机来进行深度表示学习。Joulin等人现代化了这一工作线，并展示了在图像标题中预测单词的CNNs可以学习到有用的图像表示。他们将YFCC100M数据集中的图像的标题、描述和标签元数据转换为一个词袋多标签分类任务，并展示了预训练AlexNet来预测这些标签学习到的表示在迁移任务上的表现与基于ImageNet的预训练相似。Li等人随后将这种方法扩展到预测短语n-gram以及单个单词，并展示了他们的系统零样本转移到其他图像的能力。arXiv:2103.00020v1 [cs.CV] 2021年2月26日"
 "从自然语言监督中学习可迁移的视觉模型 2
I1 ·T2 I1 ·T3…
I2 ·T1 I2 ·T3…
I3 ·T1 I3 ·T2 …
⋮ ⋮I1 ·T1
I2 ·T2
I3 ·T3 对比式预训练
图像
编码器 文本
编码器
pepper the aussie pupPepper the
aussie pupPepper the
aussie pupPepper the
aussie pup
T1 T2 T3…
I1
I2
I3 创建数据集分类器，从标签文本中
飞机
汽车
狗
⋮
鸟A照片
{对象}。
⋮T ext
编码器
T1 T2 T3 TN…
用于零样本预测
图像
编码器I1 I1 ·T2 I1 ·TN I1 ·T1…
…
A照片
一只狗。TN
IN ·T1 IN ·T2 IN ·T3I1 ·TN
I2 ·TN
I3 ·T N
⋮
… IN…
⋮ ⋱
IN ·TNI1 ·T3
图1. 我们方法的总结。标准图像模型联合训练图像特征提取器和线性分类器来预测一些标签，而CLIP（Contrastive Language-Image Pre-training）联合训练图像编码器和文本编码器来预测一批训练样本的正确配对。在测试时，学习到的文本编码器通过嵌入目标数据集类别的名称或描述来合成零样本线性分类器。
通过基于学习到的视觉n-gram字典对目标类别进行评分，并预测得分最高的类别。采用更近期的架构和预训练方法，VirTex、ICMLM和ConVIRT最近展示了基于变换器的语言建模、掩蔽语言建模和对比目标从文本中学习图像表示的潜力。
尽管作为概念验证令人兴奋，但使用自然语言监督来学习图像表示仍然很少见。
这可能是因为在常见基准测试上的表现远低于替代方法。
例如，Li等人在零样本设置下在ImageNet上仅达到11.5%的准确率。
这远低于当前最先进的88.4%准确率。它甚至低于经典计算机视觉方法的50%准确率。相反，更窄范围但针对性更强的弱监督使用已经提高了性能。Mahajan等人展示了在Instagram图像上预测与ImageNet相关的标签是一个有效的预训练任务。当这些预训练模型微调到ImageNet时，它们的准确率提高了超过5%，并在当时提高了整体的最先进水平。
Kolesnikov等人和Dosovitskiy等人也通过预训练模型来预测噪声标记的JFT-300M数据集的类别，在更广泛的转移基准测试上展示了巨大的提升。
这一系列的工作代表了从有限的监督“金标准”标签学习和从几乎无限量的原始文本学习之间的当前实用折衷。然而，这并非没有妥协。这两篇工作都精心设计了他们的监督，限制在1000和18291个类别。自然语言能够通过其通用性表达和监督更广泛的视觉概念。这两种方法也都使用静态softmax分类器进行预测，缺乏动态输出的机制。这严重限制了它们的灵活性和“零样本”能力。
这些弱监督模型与最近直接从自然语言学习图像表示的探索之间的一个关键区别是规模。虽然Mahajan等人和Kolesnikov等人在数百万到数十亿张图像上训练了他们的模型数年，VirTex、ICMLM和ConVIRT在一到二十万张图像上训练了几天。在这项工作中，我们缩小了这个差距，并研究了在大规模下使用自然语言监督训练的图像分类器的行为。得益于互联网上大量公开可用的这种形式的数据，我们创建了一个包含4亿对的新数据集，并展示了从头开始训练的简化版ConVIRT，我们称之为CLIP，是一种从自然语言监督中高效学习的
 "从自然语言监督中学习可迁移的视觉模型 3
2M33M 67M 134M 400M
处理的图片数量 0510152025303540零样本ImageNet准确率
3倍效率 4倍效率
词袋对比
词袋预测
Transformer语言模型
图2. CLIP在零样本迁移方面比我们基于图像描述的基线模型效率高得多。尽管基于Transformer的语言模型表达能力强大，但我们发现它在零样本ImageNet分类上学习速度比基线慢3倍。将预测目标替换为CLIP的对比目标进一步提高了4倍效率。
它可以与之前特定任务的监督模型竞争。我们还通过线性探测表示学习分析确认了这些发现，并展示CLIP在保持更高的计算效率的同时，性能超过了最好的公开可用ImageNet模型。我们还发现，零样本CLIP模型比同等准确度的监督ImageNet模型更加健壮，这表明零样本评估任务无关模型的能力更具代表性。这些结果具有重要的政策和伦理含义，我们在第7节中进行了讨论。
2. 方法
2.1. 自然语言监督
我们方法的核心思想是从自然语言中包含的监督中学习感知。正如引言中所讨论的，这并不是一个新想法，但描述这一领域的术语各不相同，甚至看似矛盾，而且陈述的动机也各不相同。Zhang等人，Gomez等人，Joulin等人，以及Desai和Johnson都介绍了从与图像配对的文本中学习视觉表示的方法，但分别将他们的方法描述为无监督、自监督、弱监督和监督。
我们强调，这些工作中共同的不是特定方法的细节，而是对自然语言作为训练信号的重视。所有这些方法都是从自然语言监督中学习的。尽管早期工作在使用主题模型和n-gram表示时处理自然语言的复杂性上有所挣扎，但深度上下文表示学习的进步表明我们现在有了有效利用这一丰富监督资源的工具。
从自然语言学习有几个潜在的优势。与标准的众包图像分类标签相比，自然语言监督更容易扩展，因为它不需要注释以经典的“机器学习兼容格式”存在，如标准的1-of-N多数投票“金标签”。相反，处理自然语言的方法可以从互联网上大量的文本中被动学习。与大多数无监督或自监督学习方法相比，从自然语言学习还有一个重要优势，那就是它不仅学习表示，还将表示与语言连接起来，这使得零样本迁移成为可能。在接下来的小节中，我们将详细说明我们选择的具体方法。
2.2. 创建一个足够大的数据集
现有工作主要使用了三个数据集：MS-COCO、Visual Genome和YFCC100M。尽管MS-COCO和Visual Genome是高质量的众包标签数据集，但它们在现代标准下规模较小，每个数据集大约有10万张训练照片。相比之下，其他计算机视觉系统是在高达35亿张Instagram照片上训练的。YFCC100M有1亿张照片，是一个可能的替代方案，但每张图片的元数据稀疏且质量不一。许多图片使用自动生成的文件名如20160716 113957.JPG作为“标题”，或包含相机曝光设置的“描述”。在过滤掉只有自然语言标题和/或描述的图片后，数据集缩小了6倍，只剩下1500万张图片。这大约与ImageNet的大小相同。
自然语言监督的一个主要动机是互联网上这种形式的大量数据。由于现有数据集没有充分反映这种可能性，仅在这些数据集上考虑结果会低估这一研究方向的潜力。为了解决这个问题，我们构建了一个包含4亿对数据的新数据集，这些数据来自互联网上的各种公开来源。为了尽可能覆盖广泛的视觉概念，我们在构建过程中搜索包含一组500,000个查询之一的文本的图片对。1我们大约将1基础查询列表设置为在英文版维基百科中出现至少100次的所有单词。这通过包含二元组进行了扩展。"
 "从自然语言监督中学习可迁移的视觉模型4
通过包括每个查询最多20,000对来平衡结果。由此产生的数据集与用于训练GPT-2的WebText数据集具有相似的总词数。我们称这个数据集为WIT（WebImageText）。
2.3. 选择高效的预训练方法
最先进的计算机视觉系统使用了非常大的计算量。Mahajan等人为了训练他们的ResNeXt101-32x48d，需要19年的GPU时间，而Xie等人为了训练他们的Noisy Student EfficientNet-L2，需要33个TPUv3核心年。考虑到这两个系统都是为了预测1000个ImageNet类别而训练的，从自然语言中学习开放的视觉概念的任务似乎非常艰巨。在我们的努力过程中，我们发现训练效率是成功扩展自然语言监督的关键，我们基于这个指标选择了最终的预训练方法。
我们的初步方法，类似于VirTex，从头开始联合训练了一个图像CNN和文本转换器来预测图像的标题。然而，我们遇到了难以有效扩展这种方法的困难。在图2中，我们展示了一个6300万参数的转换器语言模型，它已经使用了其ResNet-50图像编码器两倍的计算量，但学习识别ImageNet类别的速度却比一个更简单的基线慢了三倍，后者预测的是相同文本的词袋编码。
这两种方法都有一个关键的相似之处。它们试图预测与每张图片共现的确切文本。由于与图片共现的描述、评论和相关文本的多样性，这是一个困难的任务。相反，最近在图像对比表示学习方面的研究发现，对比目标可以学习比它们等效的预测目标更好的表示。其他研究发现，虽然图像的生成模型可以学习高质量的图像表示，但它们需要比具有相同性能的对比模型多一个数量级的计算。注意到这些发现，我们探索了训练一个系统来解决可能更容易的代理任务，即只预测哪篇文本整体与哪张图片配对，而不是那篇文本的确切词语。从图2中的词袋编码基线开始，我们交换了预测目标为对比目标，并观察到在零样本迁移到ImageNet的速率上有进一步的4倍效率提升。
给定N对的一批数据，CLIP被训练来预测在一批中N*N可能的配对中哪些实际发生了。为了做到这一点，CLIP学习了一个多模态嵌入空间，通过联合训练图像编码器和文本编码器来最大化批次中N个真实配对的图像和文本嵌入的余弦相似度，同时最小化N*N个错误配对的嵌入的余弦相似度。我们对这些相似度分数优化了一个对称的交叉熵损失。在图3中，我们包含了CLIP核心实现的伪代码。据我们所知，这种批量构建技术和目标最初是在深度度量学习领域作为多类N-pair损失被Sohn引入的，由Oord等人推广为对比表示学习的InfoNCE损失，并最近被Zhang等人适应于医学成像领域的对比表示学习。
由于我们的预训练数据集的规模很大，过拟合不是一个主要问题，与Zhang等人的实现相比，CLIP的训练细节被简化了。我们从头开始训练CLIP，不使用ImageNet权重初始化图像编码器或使用预训练权重初始化文本编码器。我们不使用表示和对比嵌入空间之间的非线性投影，这是Bachman等人引入的，并由Chen等人推广。我们只使用线性投影将每个编码器的表示映射到多模态嵌入空间。我们没有注意到两个版本之间的训练效率差异，并推测非线性投影可能与当前仅图像的自监督表示学习方法的细节共同适应。我们还移除了Zhang等人的文本转换函数tu，该函数从文本中以均匀概率采样单个句子，因为CLIP预训练数据集中的许多配对只有一句话。我们还简化了图像转换函数tv。在训练期间使用的唯一数据增强是从调整大小后的图像中随机裁剪正方形。最后，控制softmax中logits范围的温度参数，τ，直接作为对数参数化的乘法标量进行优化，以避免作为超参数进行调整。
2.4. 选择和扩展模型
我们考虑了两种不同的架构用于图像编码器。对于第一种，我们使用ResNet-50作为图像编码器的基础架构，因为它得到了广泛的采用和证明的性能。我们对原始版本进行了几项修改，使用了He等人的ResNet-D改进和Zhang的抗锯齿rect-2模糊池化。我们还用注意力池化机制替换了全局平均池化层。注意力池化实现为一个“转换器风格”的多头QKV注意力层，其中查询基于全局平均池化的条件。"
 "从自然语言监督中学习可迁移的视觉模型 5
# image_encoder - ResNet 或 Vision Transformer
# text_encoder - CBOW 或 Text Transformer
# I[n, h, w, c] - 对齐图像的小批量
# T[n, l] - 对齐文本的小批量
# W_i[d_i, d_e] - 图像到嵌入的学到的投影
# W_t[d_t, d_e] - 文本到嵌入的学到的投影
# t - 学到的温度参数
# 提取每种模态的特征表示
I_f = image_encoder # [n, d_i]
T_f = text_encoder # [n, d_t]
# 联合多模态嵌入 [n, d_e]
I_e = l2_normalize
T_e = l2_normalize
# 缩放的成对余弦相似度 [n, n]
logits = np.dot * np.exp
# 对称损失函数
labels = np.arange
loss_i = 交叉熵损失
loss_t = 交叉熵损失
loss = /2
图3. 类似于NumPy的伪代码，用于实现CLIP的核心。
图像的表示。对于第二种架构，我们尝试了最近引入的Vision Transformer。
我们紧密遵循他们的实现，只是在transformer之前添加了一个额外的层归一化到组合的patch和位置嵌入，并使用了稍微不同的初始化方案。
文本编码器是一个Transformer，其架构修改如Radford等人所述。我们使用一个基础大小为63M参数的12层512宽模型，有8个注意力头。Transformer在具有49,152词汇量的lowercased字节对编码表示的文本上操作。为了计算效率，最大序列长度被限制在76。文本序列以[SOS]和[EOS]标记为边界，Transformer最高层在[EOS]标记处的激活被视为文本的特征表示，该表示经过层归一化，然后线性投影到多模态嵌入空间。文本编码器中使用了掩蔽自注意力，以保留使用预训练语言模型初始化的能力或添加语言建模作为辅助目标，尽管这方面的探索留作未来工作。
虽然以前的计算机视觉研究通常通过单独增加宽度或深度来扩展模型，但对于ResNet图像编码器，我们采用了Tan & Le的方法，他们发现在宽度、深度和分辨率的所有维度上分配额外的计算资源优于只分配给模型的一个维度。虽然Tan & Le为他们EfﬁcientNet架构调整了分配给每个维度的计算比例，我们使用了一个简单的基线，即平等地增加模型的宽度、深度和分辨率。对于文本编码器，我们只按ResNet计算出的宽度增加比例来缩放模型宽度，深度则完全不缩放，因为我们发现CLIP的性能对文本编码器的容量不那么敏感。
2.5. 训练
我们训练了一系列5个ResNets和3个Vision Transformers。
对于ResNets，我们训练了一个ResNet-50，一个ResNet-101，然后是3个遵循EfﬁcientNet风格的模型缩放，分别使用大约4x、16x和64x ResNet-50的计算资源。它们分别被命名为RN50x4、RN50x16和RN50x64。对于Vision Transformers，我们训练了一个ViT-B/32，一个ViT-B/16，和一个ViT-L/14。我们训练所有模型32个epoch。我们使用Adam优化器，对所有不是增益或偏置的权重应用解耦的权重衰减正则化，并使用余弦调度衰减学习率。初始超参数是通过在基线ResNet-50模型上进行1个epoch的训练，结合网格搜索、随机搜索和手动调整来设置的。然后，由于计算限制，我们对更大的模型进行了启发式调整。可学习的温
 "从自然语言监督中学习可迁移的视觉模型 6
3. 实验
3.1. 零样本迁移
3.1.1. 动机
在计算机视觉领域，零样本学习通常指的是对图像分类中未见过的类别进行泛化。我们则更广泛地使用这个术语来研究对未见数据集的泛化。我们将其作为执行未见任务的代理，正如Larochelle等人在零数据学习论文中所期望的那样。尽管无监督学习领域的许多研究都集中在机器学习系统的表示学习能力上，我们却将零样本迁移作为一种衡量机器学习系统任务学习能力的方法。在这个视角下，一个数据集在特定分布上评估任务的性能。然而，许多流行的计算机视觉数据集主要是由研究社区创建的，作为指导通用图像分类方法发展的基准，而不是衡量特定任务的性能。虽然可以说SVHN数据集衡量的是Google街景照片分布上的街道号码转录任务，但CIFAR-10数据集衡量的“真实”任务是什么并不清楚。然而，CIFAR-10的来源是清楚的——TinyImages。在这些类型的数据集上，零样本迁移更多地是对CLIP对分布偏移和领域泛化的鲁棒性的评估，而不是任务泛化。请参见第3.3节，那里有专注于这方面的分析。

据我们所知，Visual N-Grams是第一个以上述方式研究现有图像分类数据集的零样本迁移。它也是我们所知的唯一一个使用通用预训练模型研究标准图像分类数据集的零样本迁移的工作，为我们提供了将CLIP置于上下文中的最佳参考点。他们的方法学习了一个包含142,806个视觉n-gram的字典的参数，并使用Jelinek-Mercer平滑的差异版本来优化这些n-gram，以最大化给定图像的所有文本n-gram的概率。为了进行零样本迁移，他们首先将数据集中每个类别的文本名称转换为其n-gram表示，然后根据他们的模型计算其概率，预测得分最高的那个。

我们关注将零样本迁移作为任务学习评估的灵感来自于NLP领域中展示任务学习的工作。据我们所知，Liu等人首次在训练用于生成维基百科文章的语言模型时，发现任务学习是一个“意外副作用”，该模型学会了在语言之间可靠地转录名称。虽然GPT-1专注于将预训练作为迁移学习方法以改进监督微调，但它也包括了一个消融研究，展示了四种启发式零样本迁移方法的性能在预训练过程中稳步提高，而无需任何监督适应。这一分析为GPT-2提供了基础，GPT-2专注于通过零样本迁移研究语言模型的任务学习能力。

3.1.2. 使用CLIP进行零样本迁移
CLIP预训练用于预测图像和文本片段在其数据集中是否配对。为了进行零样本分类，我们重用这个能力。对于每个数据集，我们使用数据集中所有类别的名称作为潜在文本配对的集合，并根据CLIP预测最可能的配对。更详细地说，我们首先通过各自的编码器计算图像的特征嵌入和可能文本的特征嵌入。然后计算这些嵌入的余弦相似度，通过一个温度参数进行缩放，并通过softmax函数转换为概率分布。请注意，这个预测层是一个多项式逻辑回归分类器，具有L2归一化的输入、L2归一化的权重、无偏置和温度缩放。当这样解释时，图像编码器是计算图像特征表示的计算机视觉骨干，而文本编码器是一个超网络，它根据指定类别代表的视觉概念的文本生成线性分类器的权重。Lei Ba等人首次引入了这种形式的零样本图像分类器，而从自然语言生成分类器的想法至少可以追溯到Elhoseiny等人。继续这种解释，CLIP预训练的每一步都可以被视为优化一个随机创建的代理的性能，该代理包含每个类别1个示例，总共32,768个类别，通过自然语言描述定义。对于零样本评估，我们在文本编码器计算出零样本分类器后，将其缓存起来，并在所有后续预测中重用。这使得生成它的成本可以在数据集中的所有预测中摊销。

3.1.3. 与视觉N-Grams的初始比较
在表1中，我们将Visual N-Grams与CLIP进行比较。最佳CLIP模型在ImageNet上的准确率从概念验证的11.5%提高到76.2%，并与原始的ResNet-50性能相匹配，尽管没有使用该数据集可用的128万个众包标注训练示例。此外，CLIP模型的前5准确率明显高于它们的前1准确率，该模型具有95%的前5准确率，与Inception-V4相匹配。在零样本设置中匹配强大、完全监督基线的性能表明..."
 "从自然语言监督中学习可转移的视觉模型 7
雅虎ImageNet SUN
视觉N-Grams 72.4 11.5 23.0
CLIP 98.4 76.2 58.5
表1. 将CLIP与之前的零样本迁移图像分类结果进行比较。CLIP在所有三个数据集上的性能都有大幅度提升。这种提升反映了自视觉N-Grams开发以来的4年间的许多差异。
CLIP是朝着灵活和实用的零样本计算机视觉分类器迈出的重要一步。如上所述，与视觉N-Grams的比较旨在为CLIP的性能提供上下文，不应被解释为CLIP和视觉N-Grams之间的直接方法比较，因为两个系统之间许多与性能相关的因素并未得到控制。例如，我们在比视觉N-Grams大10倍的数据集上进行训练，使用的视觉模型每次预测所需的计算量接近100倍，可能使用了超过1000倍的训练计算量，并且使用了基于变换器的模型，这在视觉N-Grams发布时还不存在。为了进行更接近的比较，我们在视觉N-Grams训练的同一YFCC100M数据集上训练了一个CLIP ResNet-50，并发现它在V100 GPU一天内匹配了他们报告的ImageNet性能。这个基线也是从头开始训练的，而不是像视觉N-Grams那样从预训练的ImageNet权重初始化。
CLIP在其他两个报告的数据集上也优于视觉N-Grams。在Yahoo上，CLIP将错误数量减少了95%，在SUN上，CLIP的准确性是视觉N-Grams的两倍多。为了进行更全面的分析和压力测试，我们实现了一个更大的评估套件，详见附录A。总的来说，我们从视觉N-Grams报告的3个数据集扩展到包括超过30个数据集，并与超过50个现有的计算机视觉系统进行比较，以提供结果的上下文。
3.1.4. 提示工程和集成
大多数标准图像分类数据集将命名或描述类别的信息视为次要，这些信息使得基于自然语言的零样本迁移成为可能。绝大多数数据集仅用一个数字ID标注图像，并包含一个文件将这些ID映射回它们的英文名称。一些数据集，如Flowers102和GTSRB，似乎在发布的版本中根本没有包含这种映射，完全阻止了零样本迁移。2对于许多数据集，我们观察到这些标签可能是随意选择的，并没有考虑到与零样本迁移相关的问题，零样本迁移依赖于任务描述才能成功转移。
一个常见的问题是多义性。当类别的名称是CLIP文本编码器提供的唯一信息时，由于缺乏上下文，它无法区分所指的词义。在某些情况下，同一数据集中同一个词的多个含义可能被包含为不同的类别！这在ImageNet中发生，它既包含建筑起重机，也包含会飞的鹤。另一个例子是在Oxford-IIIT宠物数据集中的类别，从上下文中可以清楚地看出“boxer”指的是一种狗的品种，但对于缺乏上下文的文本编码器来说，它同样可能指的是一种运动员类型。
另一个问题是在我们的预训练数据集中，与图像配对的文本很少只是一个单词。通常，文本是一个描述图像的完整句子。为了帮助弥合这种分布差距，我们发现使用提示模板“A photo of a flabelg.”是一个不错的默认选择，有助于指定文本是关于图像内容的。这通常比仅使用标签文本的基线提高了性能。例如，仅使用这个提示就可以将ImageNet的准确性提高1.3%。"
 "从自然语言监督中学习可迁移的视觉模型 8
与GPT-3周围的“提示工程”讨论类似，我们也观察到，通过为每个任务定制提示文本，零样本（zero-shot）性能可以显著提高。以下是一些非详尽的例子。我们发现在几个细粒度图像分类数据集上，指定类别有所帮助。例如，在Oxford-IIIT Pets数据集上，使用“一只flabelg的照片，一种宠物。”来提供上下文效果很好。同样，在Food101上指定食物类型，在FGVC Aircraft上指定飞机类型也有帮助。对于OCR数据集，我们发现在要识别的文本或数字周围加上引号可以提高性能。最后，我们发现在卫星图像分类数据集上，指定图像的形式并使用“一张flabelg的卫星照片。”的变体也有帮助。

我们还尝试了通过集成多个零样本分类器来提高性能。这些分类器是通过使用不同的上下文提示（如“一张大flabelg的照片”和“一张小flabelg的照片”）计算得出的。我们在嵌入空间而不是概率空间上构建集成。这允许我们缓存一组平均文本嵌入，使得在许多预测中，集成的计算成本与使用单个分类器相同。我们观察到在许多生成的零样本分类器上进行集成可以可靠地提高性能，并在大多数数据集上使用它。在ImageNet上，我们集成了80个不同的上下文提示，这比上述单个默认提示提高了3.5%的性能。当综合考虑提示工程和集成时，它们使ImageNet的准确率提高了近5%。在图4中，我们展示了与Li等人直接嵌入类名的无上下文基线方法相比，提示工程和集成如何改变一组CLIP模型的性能。

3.1.5 零样本CLIP性能分析
由于计算机视觉中的任务不可知零样本分类器研究不足，CLIP提供了一个有希望的机会来更好地理解这类模型。
在本节中，我们对CLIP的零样本分类器的各种属性进行了研究。首先，我们简单地看看零样本分类器的表现如何。为了上下文化这一点，我们将其与一个简单的现成基线进行比较：在标准的ResNet-50特征上拟合一个完全监督的、正则化的逻辑回归分类器。在图5中，我们展示了在27个数据集上的比较。请参见附录A了解数据集和设置的详细信息。

零样本CLIP在16个数据集上略微优于这个基线。在27个数据集评估套件中，零样本CLIP分类器在16个数据集上优于在ResNet-50特征上拟合的完全监督线性分类器，包括ImageNet。

在个别数据集上观察到一些有趣的行为。在细粒度分类任务上，我们观察到性能分布很广。在Stanford Cars和Food101这两个数据集上，零样本CLIP在ResNet-50特征上的逻辑回归上超过20%，而在Flowers102和FGVCAircraft上，零样本CLIP则低了10%以上。在OxfordPets和Birdsnap上，性能更接近。我们怀疑这些差异主要是由于WIT和ImageNet之间任务监督量的不同。在“一般”对象分类数据集如ImageNet、CIFAR10/100、STL10和PascalVOC2007上，性能相对相似，所有情况下零样本CLIP都略占优势。在STL10上，CLIP达到了99.3%的总体准确率，尽管没有使用任何训练样本，这似乎是一个新的最佳状态。零样本CLIP在两个测量视频动作识别的数据集上显著优于ResNet-50。在Kinetics700上，CLIP比ResNet-50提高了14.5%。在UCF101上，零样本CLIP也比ResNet-50的特征提高了7.7%。我们推测这是由于自然语言为涉及动词的视觉概念提供了更广泛的监督，相比之下，ImageNet中的监督以名词为中心的对象监督。

在零样本CLIP明显表现不佳的地方，"
 "从自然语言监督中学习可迁移的视觉模型 9
每类标记训练样本的数量 30354045505560657075
零样本平均得分
CLIP
BiT-M线性探测 CLIP
SimCLRv2
ResNet50
图6. 零样本CLIP优于少样本线性探测。
零样本CLIP与在相同特征空间上训练的4样本线性分类器的平均性能相匹配，并且在公开可用的模型中，几乎与16样本线性分类器的最佳结果相匹配。对于BiT-M和SimCLRv2，突出显示了表现最好的模型。浅灰色线是评估套件中的其他模型。在这个分析中使用了至少每类有16个样本的20个数据集。
我们发现零样本CLIP在几个专业化、复杂或抽象任务上表现相当弱，例如卫星图像分类、淋巴结肿瘤检测、在合成场景中计数物体、与自动驾驶相关的任务，如德国交通标志识别、识别最近车辆的距离。这些结果突显了零样本CLIP在更复杂任务上的不足。相比之下，非专家人类能够稳健地执行一些这些任务，如计数、卫星图像分类和交通标志识别，这表明还有很大的改进空间。然而，我们提醒，对于学习者没有任何先验经验的困难任务（例如，对于几乎所有人类来说的淋巴结肿瘤分类），衡量零样本转移与少样本转移是否有意义尚不清楚。

将零样本性能与完全监督模型进行比较，可以为CLIP的任务学习能力提供上下文，但与少样本方法进行比较是更直接的比较，因为零样本是其极限。在图6中，我们可视化了零样本CLIP与许多图像模型的特征上的少样本逻辑回归的比较，包括最好的公开可用ImageNet模型、自监督学习方法和CLIP本身。虽然直觉上预期零样本会表现不如一样本，但我们发现零样本CLIP与同一特征空间上的4样本逻辑回归的性能相匹配。这可能是由于零样本和少样本方法之间的一个重要区别。首先，CLIP的零样本分类器是通过自然语言生成的，这允许直接指定视觉概念。相比之下，“正常”的监督学习必须从训练样本中间接推断概念。无上下文的基于示例的学习有一个缺点，即许多不同的假设可以与数据一致，特别是在一样本的情况下。一张图片通常包含许多不同的视觉概念。虽然一个有能力的学习者能够利用视觉线索和启发式，比如假设展示的概念是图片中的主要对象，但并没有保证。

解决零样本和少样本性能差异的一个潜在方法是将CLIP的零样本分类器作为少样本分类器权重的先验。虽然向生成的权重添加L2惩罚是这个想法的直接实现，但我们发现，超参数优化通常会选择一个如此大的正则化值，以至于结果的少样本分类器“只是”零样本分类器。研究如何更好地结合零样本转移的优势和少样本学习的灵活性，是未来工作的一个有希望的方向。

在比较零样本CLIP与其他模型特征上的少样本逻辑回归时，零样本CLIP大致与我们评估套件中表现最好的16样本分类器相匹配，该分类器使用在ImageNet-21K上训练的BiT-M ResNet-152x2的特征。我们确信在JFT-300M上训练的BiT-L模型会表现得更好，但这些模型尚未公开发布。BiT-M ResNet-152x2在16样本设置中表现最好有些令人惊讶，因为在第3.2节分析中，Noisy Student EfficientNet-L2在完全监督设置中平均在27个数据集上比它高出近5%。

除了研究零样本CLIP和少样本逻辑回归的平均性能外，我们还检查了在各个数据集上的性能。在图7中，我们展示了逻辑回归分类器在同一特征空间上需要匹配零样本CLIP性能的每类标记示例数量的估计。由于零样本CLIP也是一个线性分类器，这估计了在这种情况下零样本转移的有效数据效率。
为了避免训练数千个线性分类器，我们基于1、2、4、8、16样本以及在每个数据集上训练的完全监督线性分类器的性能进行对数线性插值来估计有效数据效率。我们发现，零样本转移可以..."
 "从自然语言监督中学习可迁移的视觉模型 10
0 25 50 75 100 125 150 175 200
每类所需的标记示例数量
为了匹配零样本分类器在零样本分类器上的表现，需要在相同的CLIP特征空间上计算线性分类器所需的标记示例数量。基于1、2、4、8、16次拍摄和完全监督的结果进行对数线性插值来估计这些值。性能差异很大，从在两个数据集上仍然不如一次样本分类器，到匹配每类估计的184个标记示例。
在不同的数据集上，零样本转移的效率差异很大，从每类不到1个标记示例到184个。两个数据集，Flowers102和EuroSAT的性能低于一次样本模型。一半的数据集每类需要不到5个示例，中位数为5.4。然而，平均估计的数据效率是每类20.8个示例。这是由于20%的数据集需要很多标记示例才能匹配性能。在ImageNet上，零样本CLIP与在相同特征空间上训练的16次拍摄线性分类器的表现相匹配。
如果我们假设评估数据集足够大，以至于在它们上训练的线性分类器的参数被很好地估计，那么由于CLIP的零样本分类器也是一个线性分类器，完全监督分类器的性能大致设定了零样本转移可以达到的上限。在图8中，我们比较了CLIP的零样本性能与完全监督的线性分类器在不同数据集上的表现。虚线y=x代表了“理想”的零样本分类器，其性能与其完全监督的等效分类器相匹配。对于大多数数据集，零样本分类器的性能仍然比完全监督分类器低10%到25%，这表明CLIP的任务学习和零样本转移能力还有很大的提升空间。
零样本性能与完全监督性能之间存在0.82的正相关性
20 30 40 50 60 70 80 90 100
线性探测CLIP性能2030405060708090100零样本CLIP性能
r = 0.82
VOC2007
Country211HatefulMemesMNISTCIFAR10
SST2
DTDPCAMRESISC45
EuroSAT
GTSRB
CLEVRCountsFER2013UCF101
BirdsnapOxfordPets
CIFAR100
FGVCAircraftFood101
Flowers102Stanford CarsCaltech101
SUN397ImageNetSTL10
KITTI DistanceKinetics700图8. 零样本性能与线性探测性能相关，但仍然主要是次优的。在不同数据集上比较零样本和线性探测性能显示，零样本性能大多比线性探测性能低10到25个百分点。只有在5个数据集上，零样本性能接近线性探测性能。
零样本性能与完全监督性能之间存在0.82的正相关性，这表明CLIP在将底层表示和任务学习连接到零样本转移方面相对一致。然而，CLIP只在5个数据集上接近完全监督的性能：STL10、CIFAR10、Food101、OxfordPets和Caltech101。在这5个数据集上，零样本准确率和完全监督准确率都超过90%。这表明CLIP在其底层表示质量也很高的任务上可能更有效地进行零样本转移。预测零样本性能作为完全监督性能函数的线性回归模型的斜率估计，每提高1%的完全监督性能，零样本性能提高1.28%。然而，95%的置信区间仍然包括小于1的值。
在过去的几年里，对深度学习系统的实证研究已经记录了性能可以根据训练计算量和数据集大小等重要量进行预测。
GPT模型系列迄今为止在训练计算量增加1000倍的情况下，零样本性能表现出一致的改进。在图9中，我们检查CLIP的零样本性能是否遵循类似的缩放模式。我们在36个不同数据集上对5个ResNet CLIP模型进行了39次评估，并发现CLIP在模型计算量增加44倍的情况下，遵循类似的对数-对数线性缩放趋势。虽然整体趋势是平滑的，但我们发现个别评估的性能可能会更加嘈杂。我们不确定是否"
 "从自然语言监督中学习可迁移的视觉模型 11
6.1 9.9 21.5 75.3 265.9
模型 GFLOPs30354045误差 RN50
RN101
RN50x4
RN50x16
RN50x64
图9. 零样本CLIP性能随着模型计算量的平滑增长。在36个不同数据集上的39次评估中，平均零样本误差很好地符合了跨越5个不同CLIP模型的44倍计算范围的对数线性趋势。浅色线条表示个别评估的性能，显示出尽管整体趋势平滑，但性能在子任务上的训练运行之间存在高方差，这可能掩盖了某些任务上计算量增加时性能的稳步提升趋势，或者性能实际上是否是非单调的。
3.2. 表示学习
虽然我们在前一节中通过零样本迁移广泛分析了CLIP的任务学习能力，但更常见的是研究模型的表示学习能力。评估表示质量的方法有很多，关于“理想”表示应具备的属性也存在分歧。在模型提取的表示上拟合线性分类器并测量其在各种数据集上的性能是一种常见方法。
另一种方法是测量模型的端到端微调性能。这增加了灵活性，先前的研究已经令人信服地证明了微调在大多数图像分类数据集上优于线性分类。
尽管微调的高性能出于实际原因激励了其研究，但我们仍然选择基于线性分类器的评估，原因有几个。我们的工作重点是开发一种高性能的任务和数据集不可知的预训练方法。微调在微调阶段适应每个数据集的表示，可以补偿并可能掩盖预训练阶段学习通用和稳健表示的失败。由于线性分类器的灵活性有限，它们反而突出了这些失败，并在开发过程中提供了清晰的反馈。对于CLIP，训练监督线性分类器的附加好处是与零样本分类器的方法非常相似，这使得在第3.1节中进行广泛的比较和分析。最后，我们的目标是在许多任务上与一系列现有模型进行比较。研究66个不同模型在27个不同数据集上的性能需要调整1782个不同的评估。微调开启了一个更大的设计和超参数空间，这使得公平评估和计算上昂贵地比较一系列技术变得困难，正如其他大规模实证研究所讨论的那样。相比之下，线性分类器需要最少的超参数调整，并具有标准化的实现和评估程序。
请参见附录A以获取更多关于评估的详细信息。
图10总结了我们的发现。为了最小化可能引起确认或报告偏见的选择效应，我们首先研究了Kornblith等人的12个数据集评估套件的性能。尽管像ResNet-50和ResNet-101这样的小型CLIP模型在ImageNet-1K上训练时优于其他ResNets，但它们在ImageNet-21K上训练的ResNets表现不佳。这些小型CLIP模型也不如具有类似计算需求的EfficientNet系列模型。然而，使用CLIP训练的模型扩展得很好，我们训练的最大模型在总体得分和计算效率上略微优于表现最好的现有模型。我们还发现，CLIP视觉变换器大约比CLIP ResNets计算效率高3倍，这使我们能够在计算预算内达到更高的总体性能。这些结果在定性上复制了Dosovitskiy等人的发现，即当在足够大的数据集上训练时，视觉变换器比卷积网络更计算高效。我们的最佳整体模型是在336像素的更高分辨率上对我们的数据集进行了1个额外周期的微调的ViT-L/14。这个模型在这个评估套件上平均优于现有最佳模型2.6%。
如图21定性显示，CLIP模型学习了比以往从随机初始化端到端训练的单个计算机视觉模型所展示的更广泛的任务集。这些任务包括地理定位、光学字符识别、面部情感识别和动作识别。Kornblith等人的评估套件中没有测量这些任务。这可以被认为是Kornblith等人研究中的一种选择偏见，偏向于与ImageNet重叠的任务。为了解决这个问题，我们还测量了更广泛的27个数据集评估套件的性能。这个评估套件在附录A中有详细说明，包括代表上述任务的数据集，德国交通标志识别基准，以及从VTAB适应的其他几个数据集。"
 "从自然语言监督中学习可迁移的视觉模型 12
100101102
前向传播 GFLOPs/图像 75808590 平均分数
线性探测在 Kornblith 等人的 12 个数据集上的平均分数
100101102
前向传播 GFLOPs/图像 70758085 平均分数
线性探测在所有 27 个数据集上的平均分数
CLIP-ViT
CLIP-ResNet
EfficientNet-NoisyStudent
EfficientNetInstagram预训练
SimCLRv2
BYOL
MoCoViT
BiT-M
BiT-S
ResNet
图 10. CLIP 模型与包括 EfficientNet、MoCo、Instagram 预训练的 ResNeXt 模型、BiT、ViT、SimCLRv2 和原始 ResNet 模型在内的最新计算机视觉模型的线性探测性能比较。分数是在 Kornblith 等人研究的 12 个数据集上的平均值。
分数是在包含更广泛分布的 27 个数据集上的平均值。虚线表示在比预训练更高分辨率的图像上微调或评估的模型。有关个别分数，请参见表 10，有关每个数据集的图表，请参见图 20。
在这个更广泛的评估套件中，CLIP 的优势更加明显。所有 CLIP 模型，无论规模大小，在计算效率方面都优于所有评估的系统。
最佳模型的平均分数比之前系统提高了 2.6% 到 5%。我们还发现，自监督系统在我们的更广泛评估套件上表现明显更好。例如，尽管 SimCLRv2 在 Kornblith 等人的 12 个数据集上平均仍然落后于 BiT-M，但在我们 27 个数据集的评估套件上，SimCLRv2 超过了 BiT-M。这些发现表明，继续扩大任务多样性和覆盖范围，以便更好地理解系统的“通用”性能是有价值的。我们怀疑沿着 VTAB 方向的额外评估工作将是有价值的。
除了上述总体分析外，我们在图 11 中可视化了最佳 CLIP 模型和我们评估套件中最佳模型在所有 27 个数据集上的性能差异。CLIP 在 27 个数据集中的 21 个上超过了 Noisy Student EfficientNet-L2。CLIP 在需要 OCR、地理定位和场景识别以及视频中的活动识别的任务上表现最好。此外，CLIP 在细粒度汽车和交通标志识别上也做得更好。这可能反映了 ImageNet 中过于狭窄的监督问题。例如，在 GTSRB 上 14.7% 的改进可能表明 ImageNet-1K 的问题，它对所有交通和街道标志只有一个标签。这可能导致监督表示在细粒度下游任务上忽略类内细节，损害准确性。正如提到的，CLIP 在几个数据集上仍然落后于 EfficientNet。毫不奇怪，EfficientNet 在它训练的数据集 ImageNet 上相对于 CLIP 表现最好。EfficientNet 也在 CIFAR10 和 CIFAR100 这样的低分辨率数据集上略微优于 CLIP。我们怀疑这至少部分是由于 CLIP 中缺乏基于尺度的数据增强。EfficientNet 还在 PatchCamelyon 和 CLEVRCounts 数据集上表现略好，这些数据集的整体性能仍然..."
 "从自然语言监督中学习可迁移的视觉模型 13
10
 5
 0 5 10 15 20 25
 分数
 在CLIP上进行逻辑回归与EfficientNet L2 NSImageNet -3.0CLEVR计数 -2.4CIFAR100 -1.7PatchCamelyon -1.2CIFAR10 -0.8牛津宠物 -0.5+0.0 STL10+0.5 VOC2007+0.5 DTD+0.6 MNIST+0.9 EuroSAT+1.3 Caltech101+1.4 Flowers102+1.4 Birdsnap+2.3 KITTI距离+3.1 UCF101+3.2 FGVCAircraft+3.9 Food101+4.5 FER2013+5.1 RESISC45+6.2 Kinetics700+6.5 SUN397+14.7 GTSRB+15.9斯坦福汽车+18.8 HatefulMemes+22.7 Country211+23.6 SST2
图11. CLIP的特征在多种数据集上的表现优于最佳ImageNet模型的特征。在CLIP的特征上拟合线性分类器的表现优于在21个数据集上的Noisy Student EfficientNet-L2。
对于两种方法来说，低噪声都是一个挑战。
3.3. 对自然分布偏移的鲁棒性
2015年，有报道称深度学习模型在ImageNet测试集上的表现超过了人类。然而，随后几年的研究发现，这些模型仍然会犯很多简单的错误，新的基准测试系统的性能通常远低于它们的ImageNet准确率和人类准确率。
这种差异的原因是什么？已经提出了并研究了各种想法。提出的解释的共同主题是，深度学习模型非常擅长发现在其训练数据集中保持的关联性和模式，从而提高了分布内性能。然而，这些关联性和模式中的许多实际上是虚假的，并不适用于其他分布，导致在其他数据集上的性能大幅下降。
我们提醒注意，到目前为止，这些研究大多限于在ImageNet上训练的模型。回顾讨论的主题，可能错误地从这些初步发现中进行过度推广。这些失败在多大程度上归因于深度学习、ImageNet或两者的结合？通过自然语言监督在非常大的数据集上训练的CLIP模型，并且能够实现高零样本性能，为我们提供了一个从不同角度探讨这个问题的机会。
Taori等人最近进行了一项全面研究，旨在量化和理解ImageNet模型在自然分布偏移下的表现。Taori等人研究了ImageNet模型在自然分布偏移下的表现如何变化。他们在一组7个分布偏移上测量性能：ImageNetV2，ImageNet Sketch，Youtube-BB，ImageNet-Vid，ObjectNet，ImageNet Adversarial和ImageNet Rendition。他们将这些数据集（所有数据集都由各种来源收集的新图像组成）与合成分布偏移（如ImageNet-C，Stylized ImageNet或通过各种方式扰动现有图像创建的对抗性攻击）区分开来。他们提出这种区分的部分原因是，尽管已经证明几种技术可以提高在合成分布偏移上的性能，但它们通常不能在自然分布上产生一致的改进。3
在这些收集的数据集中，ImageNet模型的准确率远低于ImageNet验证集设定的预期。在以下总结讨论中，我们报告所有7个自然分布偏移数据集的平均准确率，以及ImageNet相应类别子集的平均准确率，除非另有说明。
此外，对于Youtube-BB和ImageNet-Vid，它们有两种不同的评估设置，我们使用pm-0和pm-10准确率的平均值。
ResNet-101在评估这些自然分布偏移时，错误率是ImageNet验证集的5倍。然而，令人鼓舞的是，Taori等人发现，在分布偏移下，准确率随着ImageNet准确率的增加而可预测地增加，并很好地被建模为logit变换后的线性函数。Taori等人利用这一发现提出，鲁棒性分析应该区分有效鲁棒性和相对鲁棒性。有效鲁棒性衡量在分布偏移下超过由分布内和分布外准确率之间记录关系预测的准确率的改进。相对鲁棒性捕捉任何在分布外准确率上的改进。Taori等人认为，鲁棒性技术应该旨在提高有效鲁棒性和相对鲁棒性。
Taori等人研究的几乎所有模型都是在ImageNet上训练的。
3我们建议读者参考Hendrycks等人的论文，以获取关于这一主张的额外实验和讨论。"
 "从自然语言监督中学习可迁移的视觉模型 14
65 70 75 80 85 90
ImageNet 分数 65 70 75 80 85 90
转移分数
Kornblith 等人的 12 个数据集上的线性探测平均值
65 70 75 80 85 90
ImageNet 分数 65 70 75 80 85 90
转移分数
在 26 个数据集上的线性探测平均值
CLIP-ViT
CLIP-ResNet
EfficientNet-NoisyStudent
EfficientNetInstagram
SimCLRv2
BYOL
MoCoViT
BiT-M
BiT-S
ResNet
图 12. 与在 ImageNet 上预训练的模型相比，CLIP 的特征对任务转移更具鲁棒性。对于两种数据集分割，基于 CLIP 模型表示训练的线性探测的转移分数高于其他具有类似 ImageNet 表现的模型。这表明在 ImageNet 数据集上训练或微调的模型在某种程度上过度适应了它们的任务。回到本节介绍中的讨论 - 是否是训练或适应 ImageNet 数据集分布导致了观察到的鲁棒性差距？直观上，零样本模型不应该能够利用仅在特定分布上成立的虚假相关性或模式，因为它没有在该分布上训练。因此，可以合理预期零样本模型具有更高的有效鲁棒性。在图 13 中，我们比较了零样本 CLIP 与现有 ImageNet 模型在自然分布转移上的性能。所有零样本 CLIP 模型都显著提高了有效鲁棒性，并减少了 ImageNet 准确率与分布转移下准确率之间的差距，最高可达 75%。

虽然这些结果表明零样本模型可以更加鲁棒，但它们并不一定意味着在 ImageNet 上的监督学习导致了鲁棒性差距。CLIP 的其他细节，如其大型且多样化的预训练数据集或自然语言监督的使用，也可能导致无论模型是零样本还是微调，都能产生更鲁棒的模型。为了初步缩小这一差距，我们还测量了 CLIP 模型通过在 ImageNet 训练集上拟合 L2 正则化的逻辑回归分类器来适应 ImageNet 分布后的性能变化。我们在图 14 中可视化了从零样本分类器的性能变化。尽管将 CLIP 适应到 ImageNet 分布使其 ImageNet 准确率提高了 9.2%，达到了 85.4%，并且与 Mahajan 等人 2018 年的 SOTA（最先进）准确率相当，但在分布转移下的平均准确率略有下降。

看到准确率提高了 9.2%，相当于大约 3 年的 SOTA 改进，却未能转化为在分布转移下的平均性能提升，这是令人惊讶的。我们还分析了图 14 和图 15 中零样本准确率和线性分类器准确率在每个数据集上的差异，并发现在 ImageNetV2 数据集上性能仍然显著提高。ImageNetV2 紧密遵循了原始 ImageNet 数据集的创建过程，这表明从监督适应中获得的准确率提升主要集中在 ImageNet 分布周围。在另一个数据集上，性能下降了 4.7%。"
 "从自然语言监督中学习可转移的视觉模型 15
65 70 75 80 90 95 100
在类子集采样的ImageNet 2025 30 35 40 50 55 60 65 70 80 90 95 100上的平均表现
理想鲁棒模型
零样本CLIP
标准ImageNet训练
现有鲁棒性技术
ImageNet
ImageNetV2
ImageNet-A
ImageNet-R
ObjectNet
ImageNet
Sketch 76.2 76.2
64.3 70.1
2.7 77.1 37.7 88.9
32.6 72.3
25.2 60.2ImageNet
ResNet101 零样本
CLIP
0%
+5.8% 
+74.4% +51.2% 
+39.7% 
+35.0% 
Δ 分数
数据集示例
图13. 零样本CLIP模型比标准ImageNet模型对分布偏移的鲁棒性要高得多。理想的鲁棒模型在ImageNet分布和其他自然图像分布上表现同样好。零样本CLIP模型通过高达75%的程度缩小了这个“鲁棒性差距”。图中显示了对数转换值的线性拟合，以及通过自助法估计的95%置信区间。

香蕉的分布偏移可视化，这是一个在7个自然分布偏移数据集中共享的类别。最佳零样本CLIP模型（ViT-L/14@336px）的表现与在ImageNet验证集上表现相同的模型（ResNet-101）进行了比较。

在ImageNet-R上提高了3.8%，在ObjectNet上提高了2.8%，在ImageNet Sketch上提高了1.9%。在Youtube-BB和ImageNet Vid两个数据集上的准确率变化不显著。

如何在ImageNet数据集上仅通过少量或不增加准确率来提高9.2%的准确率？这种增益主要是通过“利用虚假相关性”获得的吗？这种行为是否仅适用于CLIP、ImageNet数据集和研究的分布偏移的某种组合，还是一种更普遍的现象？它是否也适用于端到端的微调和线性分类器？我们目前还没有对这些问题的确切答案。

先前的研究也在ImageNet以外的分布上预训练模型，但通常在模型被微调到ImageNet后才进行研究和发布。为了更好地理解预训练零样本模型是否一致地比微调模型具有更高的有效鲁棒性，我们鼓励Mahajan等人、Kolesnikov等人和Dosovitskiy等人，如果可能的话，也在他们的模型上研究这些问题。

我们还研究了另一种由灵活的零样本基于自然语言的图像分类器实现的鲁棒性干预。7个迁移数据集中的目标类别并不总是与ImageNet的完全对齐。Youtube-BB和ImageNet-Vid两个数据集包含了ImageNet的超类。这在尝试使用ImageNet模型的固定1000路分类器进行预测时提出了问题。Taori等人通过根据ImageNet类层次结构对所有子类进行最大池化来处理这个问题。有时这种映射远非完美。对于Youtube-BB中的人类别，预测是通过在ImageNet的棒球运动员、新郎和潜水员类别上进行池化来实现的。使用CLIP，我们可以直接根据每个数据集的类名生成自定义的零样本分类器。在图14中，我们看到这提高了平均有效鲁棒性5%，但这种改进主要集中在少数几个数据集上。有趣的是，ObjectNet的准确率也提高了2.3%。尽管该数据集旨在与ImageNet类别紧密重叠，但使用ObjectNet创建者提供的每个类别名称仍然比使用ImageNet类名并在必要时进行池化有所帮助。

虽然零样本CLIP提高了有效鲁棒性，但图14显示，在完全监督的设置中，这种好处几乎完全消失了。为了更好地理解这种差异，我们研究了从零样本到完全监督的连续体上有效鲁棒性的变化。在图15中，我们可视化了在最佳CLIP模型的特征上，0-shot、1-shot、2-shot、4-shot...、128-shot和完全监督的逻辑回归分类器的表现。我们看到，尽管少量样本模型也显示出比现有模型更高的有效鲁棒性，但随着训练数据的增加，这种好处逐渐消失，对于完全监督的模型来说，这种好处几乎完全消失，尽管并非完全消失。此外，零样本CLIP明显比具有同等ImageNet表现的少量样本模型更鲁棒。"
 "从自然语言监督中学习可迁移的视觉模型 16
70 75 80 95 90 95
在ImageNet上的平均准确率 253035404550556065707580
在7个自然分布偏移数据集上的平均准确率 适应类别偏移
适应ImageNet
理想鲁棒模型
自适应零样本CLIP
ImageNet零样本CLIP
逻辑回归CLIP
标准ImageNet训练
鲁棒性干预
使用更多数据训练
10
5
0 5 10 15 20 25 30
零样本ImageNet分类器准确率的变化 ImageNet-R -4.7 ObjectNet -3.8 ImageNet Sketch -2.8 ImageNet-A -1.9 ImageNet Vid 0.5+0.6 Youtube-BB+5.8 ImageNet适应ImageNet
10
5
0 5 10 15 20 25 30
零样本ImageNet分类器准确率的变化 0 ImageNet0 ImageNetV20 ImageNet-A0 ImageNet-R0 ImageNet Sketch+2.3 ObjectNet+8.3 ImageNet Vid+26.9 Youtube-BB适应类别偏移
图14. 虽然在ImageNet上的监督适应提高了9.2%的准确率，但它略微降低了平均鲁棒性。
将零样本CLIP定制到每个数据集相比使用单一静态的零样本ImageNet分类器和Taori等人的跨类别池化预测，提高了鲁棒性。适应ImageNet的CLIP模型具有与最佳先前ImageNet模型相似的有效鲁棒性。
两个鲁棒性干预在每个数据集上的准确率变化细节。适应ImageNet显著提高了ImageNetV2的准确率，但牺牲了其他几个分布的准确率。特定于数据集的零样本分类器可以大幅提高准确率，但仅限于包括与ImageNet类别不完全对齐的类别的少数数据集。
在我们的实验中，高有效鲁棒性似乎来自于最小化模型可以访问的特定分布训练数据量，但这以降低特定于数据集的性能为代价。
综合这些结果，我们认为，最近向大规模任务和数据集无关的预训练转变，结合重新定位到广泛的评估套件上的零样本和少样本基准测试，促进了更鲁棒系统的发展，并提供了更准确的性能评估。我们很好奇GPT家族等NLP领域的零样本模型是否也会得出相同的结果。虽然Hendrycks等人报告了预训练提高了情感分析的相对鲁棒性，但Miller等人对自然分布偏移下问答模型鲁棒性的研究，与Taori等人类似，迄今为止发现有效鲁棒性改进的证据很少。

4. 与人类表现的比较
CLIP与人类表现和人类学习相比如何？为了更好地理解人类在类似CLIP的评估设置中的表现，我们在我们的任务之一上评估了人类。我们想了解人类在这些任务上的零样本表现有多强，以及如果给他们展示一个或两个图像样本，人类表现会提高多少。这可以帮助我们比较人类和CLIP的任务难度，并识别它们之间的相关性和差异。

我们让五位不同的人类观察Oxford IIT Pets数据集测试分割中的3669张图片，并选择37种猫或狗品种中与图片最匹配的品种。在零样本情况下，人类没有得到品种的示例，被要求在不进行互联网搜索的情况下尽可能准确地标记它们。在单样本实验中，人类得到了每种品种的一个样本图片，在双样本实验中，他们得到了每种品种的两个样本图片。5
一个可能的担忧是人类工作者在零样本任务中的动力不足。在STL-10数据集上人类准确率高达94%。5
由于模型无法像人类那样引用样本图片，因此人类少样本任务与模型的少样本表现之间没有完美的对应关系。"
 "从自然语言监督中学习可迁移的视觉模型 17
65 70 75 80 85 90 95
在子采样的ImageNet上的平均表现（top-1准确率，%）202530354045505560657075
在7个自然分布偏移数据集上的平均表现（top-1准确率，%）1 shot2 shot4 shot8 shot16 shot3264128all shot
理想的鲁棒模型（y = x）
少样本CLIP（最佳模型）
零样本CLIP（最佳模型）
标准ImageNet训练
鲁棒性干预
使用更多数据训练
图15. 与现有的ImageNet模型相比，少样本CLIP也提高了有效鲁棒性，但不如零样本CLIP鲁棒。减少用于适应的ImageNet训练数据量可以提高有效鲁棒性，但会降低相对鲁棒性。16次迭代的逻辑回归CLIP在ImageNet上的表现与零样本CLIP相当，如之前在图7中报告的那样，但鲁棒性较低。
在注意力检查图像子集上的97-100%准确率增加了我们对人类工作者的信任。
有趣的是，人类仅通过一个训练样本，性能就从54%提高到76%，额外训练样本的边际增益是最小的。从零样本到一样本的准确率提升几乎完全在人类不确定的图像上。这表明人类“知道自己不知道什么”，并能够根据单个样本更新他们对最不确定图像的先验知识。鉴于此，尽管CLIP是一个有前途的训练策略，用于零样本性能（图5）并且在自然分布偏移测试（图13）上表现良好，但人类从几个样本中学习的方式与本文中的少样本方法之间存在很大差异。
这表明，为了缩小机器和人类样本效率之间的差距，还有待做出算法上的改进，正如Lake等人（2016）和其他人所指出的。因为这些少样本评估的CLIP没有有效利用先验知识，而人类却做到了，我们推测找到一种将先验知识正确整合到少样本学习中的方法是CLIP算法改进的重要一步。据我们所知，使用一个线性分类器在高准确率的预训练模型之上，对于少样本学习（Tian等人，2020）接近最先进的水平，这表明最佳的少样本机器学习方法与人类少样本学习之间存在差距。
如果我们将人类准确率与CLIP的零样本准确率进行对比（图16），我们会发现CLIP最难的问题对人类来说也很难。在错误一致的情况下，我们的假设至少有两个因素：数据集中的噪声（包括错误标注的图像）和对人类和模型都难以处理的分布外图像。
5. 数据重叠分析
在非常大的互联网数据集上进行预训练的一个担忧是与下游评估的无意重叠。这是重要的调查，因为在最坏的情况下，评估数据集的完整副本可能会泄露到预训练数据集中，从而使评估作为泛化能力的有意义测试变得无效。防止这种情况的一个选项是在训练模型之前识别并删除所有重复项。虽然这保证了报告真实的保留性能，但它需要提前知道模型可能被评估的所有可能数据。这限制了基准测试和分析的范围。添加新的评估将需要昂贵的重新训练或冒着由于重叠而报告未量化的好处的风险。
相反，我们记录了发生多少重叠以及由于这些重叠性能如何变化。为了做到这一点，我们使用以下程序：
1）对于每个评估数据集，我们在其示例上运行重复项检测器（见附录C）。然后我们手动检查找到的最近邻，并设置每个数据集的阈值，以保持高精确度同时最大化召回率。使用这个阈值，我们创建了两个新的子集，Overlap，包含所有与训练示例相似度高于阈值的示例，和Clean，它包含所有没有超过阈值的示例。"
 "从自然语言监督中学习可迁移的视觉模型 18
哈巴狗
斯芬克斯猫
德国短毛猎犬
柴犬
比格犬
大白熊犬
萨摩耶犬
圣伯纳德犬
博美犬
纽芬兰犬
苏格兰梗
约克夏梗
暹罗猫
迷你品犬
哈瓦那犬
凯什犬
孟买猫
缅因猫
吉娃娃
巴吉度犬
日本短尾猫
俄罗斯蓝猫
美国斗牛犬
波斯猫
孟加拉猫
狮子猫
拳击手犬
英国短毛猫
斯塔福德郡斗牛梗
美国比特犬
埃及猫
伯曼猫
英国可卡犬
拉布拉多寻回犬
布偶猫
20406080100 准确率（%）
零样本 CLIP
单样本人类
零样本人类
图16. CLIP最难的问题往往也是人类最难的问题。在这里，我们根据正确标签的概率排名图像类别的难度。
包含所有低于此阈值的例子。我们用未修改的完整数据集 All 作为参考。首先，我们记录数据污染程度，即 Overlap 中的例子数量与 All 的大小之比。
2) 然后我们计算 CLIP RN50x64 在三个分割上的零样本准确率，并报告 All - Clean 作为我们的主要指标。这是由于污染导致的准确率差异。当为正时，它是我们估计的由于过度拟合重叠数据而对数据集整体报告准确率的高估程度。
3) 重叠量通常很小，所以我们也运行了二项式显著性检验，使用 Clean 上的准确率作为零假设，并计算 Overlap 子集的单尾 (更大) p 值。我们还计算 Dirty 的 99.5% Clopper-Pearson 置信区间作为另一种检查。
这个分析的总结呈现在图17中。在研究的35个数据集中，有9个数据集完全没有检测到重叠。这些数据集大多是合成的或专门的，使得它们不太可能作为正常图片发布在互联网上（例如 MNIST、CLEVR 和 GTSRB），或者由于包含我们数据集创建日期之后的新数据而保证没有重叠（ObjectNet 和 Hateful Memes）。这表明我们的检测器有低误报率，这很重要，因为误报会低估我们分析中污染效应。重叠的中位数是2.2%，平均重叠是3.2%。由于重叠量小，整体准确率很少超过0.1%的偏移，只有7个数据集超过这个阈值。其中，只有2个在 Bonferroni 校正后具有统计学意义。最大检测到的改进是在 Birdsnap 上，准确率提高了0.6%，它有第二大的重叠度，为12.1%。最大的重叠是在 Country211 上，为21.5%。这是由于它是由 YFCC100M 构建的，我们的预训练数据集包含了它的一个过滤子集。尽管有这么大的重叠，Country211 的准确率只提高了0.2%。这可能是因为训练文本通常与下游评估测量的具体任务无关。Country211 测量地理定位能力，但检查这些重复项的训练文本显示，它们通常不提及图像的位置。
我们知道我们的分析有两个潜在的担忧。
首先，我们的检测器并不完美。虽然它在其代理训练任务上达到了接近100%的准确率，并且手动检查 + 阈值调整在找到的最近邻中具有很高的精确度和良好的召回率，但我们无法在4亿个例子中可追踪地检查其召回率。
另一个潜在的分析混淆因素是，重叠和 Clean 子集之间的底层数据分布可能会发生变化。例如，在 Kinetics-700 上，许多“重叠”实际上是全黑的过渡帧。这解释了为什么 Kinetics-700 在 Overlap 上有20%的准确率下降。我们怀疑更微妙的分布变化可能存在。我们在 CIFAR-100 上注意到的一个可能性是，由于其图像的分辨率非常低，许多重复项是小鸟或飞机等小物体的假阳性。准确率的变化可能是由于类别分布或重复项的难度变化。不幸的是，这些分布和难度变化也可能掩盖过度拟合的效果。
然而，这些结果与之前关于大规模预训练的类似重复分析的发现非常接近。Mahajan 等人（2018）和 Kolesnikov 等人（2019）检测到了类似的重叠率，并发现整体性能变化很小。重要的是，Kolesnikov 等人（2019）还比较了本节介绍的替代去重策略与我们选择的方法，并观察到两种方法之间的差异很小。
6. 限制
CLIP 仍然有许多限制。虽然其中一些在各个部分的分析中已经讨论过，但我们在这里总结并收集它们。
在有训练分割
 "从自然语言监督中学习可迁移的视觉模型 19
0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5 20.0 22.5
检测到的数据重叠 -20-1001020在重叠与干净数据上的准确度差异 SUN397CIFAR-100
ImageNet SketchSUN
Kinetics-700
0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5 20.0 22.5
检测到的数据重叠 -0.75-0.5-0.2500.250.50.75由于重叠导致的总体准确度变化 Stanford Cars SUN397Birdsnap
CIFAR-100
FER2013
Country211SUNp < 1e-3
p < 0.05
p > 0.05
图17. 由于检测到的数据重叠，准确度的统计显著提升很少。虽然几个数据集在检测到的重叠与干净示例上的零样本准确度有高达20%的差异，但总共35个数据集中只有5个数据集的99.5% Clopper-Pearson置信区间排除了0%的准确度差异。其中2个数据集在重叠数据上的表现更差。
由于检测到的重叠示例的比例几乎总是在个位数，因此由于重叠带来的总体测试准确度提升要小得多，最大的估计增长仅为Birdsnap上的0.6%。同样，只有6个数据集在使用单侧二项检验计算时准确度提升具有统计学意义。
在ResNet-50特征之上的线性分类器的监督基线上。在大多数这些数据集上，这个基线的性能现在远低于当前的最佳水平。
CLIP的任务学习和迁移能力仍需显著改进。尽管到目前为止，规模的扩大稳步提高了性能，并为持续改进提供了一条路径，但我们估计零样本CLIP要达到当前的最佳性能，需要大约1000倍的计算能力提升。这在当前硬件条件下是不可行的。需要进一步研究提高CLIP的计算和数据效率。
第3.1节的分析发现，CLIP在多种任务上的零样本性能仍然相当弱。与特定任务模型相比，CLIP在几种细粒度分类任务上的表现较差，例如区分不同型号的汽车、花卉种类和飞机变种。CLIP还在更抽象和系统性的任务上挣扎，例如计算图像中物体的数量。最后，对于CLIP预训练数据集中不太可能包含的新任务，如照片中最近汽车的距离分类，CLIP的表现接近随机。我们确信还有许多任务，CLIP的零样本性能接近随机水平。
虽然第3.3节调查的零样本CLIP在许多自然图像分布上表现良好，我们观察到零样本CLIP仍然在真正超出其分布的数据上泛化能力差。一个说明性的例子是在附录E中报告的OCR任务。CLIP学会了一种高质量的语义OCR表示，它在数字渲染文本上表现良好，这在它的预训练数据集中很常见，如在Rendered SST2上的表现所示。然而，CLIP在MNIST手写数字上只达到了88%的准确度。一个简单的基于原始像素的逻辑回归基线超过了零样本CLIP。语义和近邻检索都证实，我们的预训练数据集中几乎没有与MNIST数字相似的图像。
这表明CLIP在解决深度学习模型的脆弱泛化问题上做得很少。相反，CLIP试图规避这个问题，希望通过在如此庞大和多样化的数据集上训练，所有数据都将有效地在分布内。这是一个天真的假设，正如MNIST所示，很容易被违反。
尽管CLIP可以灵活地为各种任务和数据集生成零样本分类器，但CLIP仍然限制在给定零样本分类器中选择概念。与像图像字幕这样的真正灵活方法相比，这是一个重大限制，它可以生成新颖的输出。不幸的是，正如第2.3节所述，我们尝试的图像字幕基线的计算效率远低于CLIP。一个值得尝试的简单想法是联合训练对比和生成目标，希望结合CLIP的效率和字幕模型的灵活性。
作为另一种替代方案，可以在推理时对给定图像的许多自然语言解释进行搜索，类似于Andreas等人提出的Learning with Latent Language方法。"
 "从自然语言监督中学习可转移的视觉模型20
CLIP也没有解决深度学习的低数据效率问题。相反，CLIP通过使用可以扩展到数亿个训练样本的监督源来补偿。如果在CLIP模型的训练过程中，每张图像以每秒一张的速度展示，那么在32个训练周期中浏览完128亿张图像将需要405年。鉴于自我监督和自我训练方法已经证明了其在标准监督学习中提高数据效率的能力，将CLIP与这些方法结合是一个有前景的方向。

我们的方法有几个重大限制。尽管我们专注于零样本迁移，但我们在CLIP的开发过程中反复查询了完整的验证集来指导性能。这些验证集通常包含数千个样本，这对于真正的零样本场景来说是不现实的。在半监督学习领域也提出了类似的担忧。另一个潜在问题是我们的评估数据集的选择。虽然我们已经报告了在Kornblith等人的12个数据集评估套件上的结果作为标准化集合，但我们的主要结果使用了一组有些随意组合的27个数据集，这些数据集无疑与CLIP的开发和能力相适应。创建一个新的基准测试，专门设计来评估广泛的零样本迁移能力，而不是重复使用现有的监督数据集，将有助于解决这些问题。

CLIP是在互联网上的图像和文本配对上进行训练的。这些图像-文本对未经过滤和策划，导致CLIP模型学习到了许多社会偏见。这在图像标题模型中已经被证明。我们引导读者参考第7节，了解CLIP的这些行为的详细分析和量化，以及讨论潜在的缓解策略。

尽管我们在整个工作中强调，通过自然语言指定图像分类器是一个灵活和通用的接口，但它也有自己的局限性。许多复杂的任务和视觉概念仅通过文本难以指定。实际的训练样本无疑是有用的，但CLIP并没有直接优化少样本性能。在我们的工作中，我们退而求其次，在CLIP的特征之上拟合线性分类器。这导致从零样本到少样本设置的过渡中，性能出现了反直觉的下降。正如第4节所讨论的，这与人类性能显著不同，人类在零样本到一样本设置中表现出大幅提高。需要未来的工作来开发结合CLIP强大的零样本性能和高效的少样本学习的方法。

CLIP因其能够执行任意图像分类任务而具有广泛的能力。你可以给它猫和狗的图像，让它分类猫，或者给它在百货商店拍摄的图像，让它分类扒手——这是一个具有重大社会影响的任务，AI可能不适合。像任何图像分类系统一样，CLIP的性能和适用性需要评估，其更广泛的影响需要在上下文中分析。

CLIP引入了一个能力，将放大和改变这些问题：CLIP使得创建自己的分类类别变得容易，无需重新训练。这种能力引入了类似于GPT-3等其他大规模生成模型的挑战；表现出非平凡的零样本泛化能力的模型具有广泛的能力，许多能力只有在测试后才变得清晰。

我们在零样本设置中对CLIP的研究显示，该模型在图像检索或搜索等广泛应用任务上显示出显著的潜力。例如，它可以在数据库中找到与文本相关的图像，或者根据图像找到相关的文本。此外，将CLIP引导到定制应用的相对容易性，只需很少或不需要额外的数据或训练，可能会解锁我们今天难以想象的各种新应用，正如过去几年大型语言模型所发生的那样。

除了本文前面部分研究的30多个数据集外，我们还评估了CLIP在FairFace基准测试中的性能，并进行了探索性偏见探测。然后，我们在一个下游任务——监控中，描述了模型的性能，并讨论了其与其他可用系统的有用性。CLIP的许多能力具有通用性。从动作识别、对象分类和地理定位，到面部情感识别，CLIP测量的许多能力都可以用于监控。鉴于其社会影响，我们在监控部分特别讨论了这一用途领域。

我们还试图表征模型固有的社会偏见。我们的偏见测试代表了我们初步探索模型在不同场景下的反应的努力，其范围本质上是有限的。CLIP和类似模型需要根据其特定部署来分析，以了解偏见如何表现并确定潜在的干预措施。需要进一步的社区探索，以开发更广泛、更具上下文和更强大的测试方案，以便AI开发者更好地表征通用计算机视觉模型中的偏见。"
 "从自然语言监督中学习可迁移的视觉模型 21
模型 种族 性别 年龄
FairFace模型 93.7 94.2 59.7
线性探测CLIP 93.4 96.5 63.8
零样本CLIP 58.3 95.9 57.1
线性探测Instagram 90.8 93.2 54.2
表3. 在FairFace类别“白人”中对图像进行种族、性别和年龄分类的准确率百分比
FairFace模型 75.4 94.4 60.7
线性探测CLIP 92.8 97.7 63.1
零样本CLIP 91.3 97.2 54.3
线性探测Instagram 87.2 93.9 54.1
表4. 在FairFace类别“黑人”、“印度人”、“东亚人”、“东南亚人”、“中东人”和“拉丁美洲人”中对图像进行种族、性别和年龄分类的准确率百分比
中东 东南亚
模型 性别 黑人 白人 印度人 拉丁美洲人 东亚人 平均
男性 96.9 96.4 98.7 96.5 98.9 96.2 96.9 97.2
线性探测CLIP 女性 97.9 96.7 97.9 99.2 97.2 98.5 97.3 97.8
97.4 96.5 98.3 97.8 98.4 97.3 97.1 97.5
男性 96.3 96.4 97.7 97.2 98.3 95.5 96.8 96.9
零样本CLIP 女性 97.1 95.3 98.3 97.8 97.5 97.2 96.4 97.0
96.7 95.9 98.0 97.5 98.0 96.3 96.6
男性 92.5 94.8 96.2 93.1 96.0 92.7 93.4 94.1
线性探测Instagram 女性 90.1 91.4 95.0 94.8 95.0 94.1 94.3 93.4
91.3 93.2 95.6 94.0 95.6 93.4 93.9
表5. 按FairFace种族类别对图像进行性别分类的准确率百分比
7.1. 偏见
算法决策、训练数据以及关于类别定义和分类的选择都可能导致并放大由AI系统使用产生的社会偏见和不平等。类别设计对于像CLIP这样的模型尤其相关，因为任何开发者都可以定义一个类别，模型就会提供一些结果。
在本节中，我们使用Buolamwini & Gebru和K ¨arkk ¨ainen & Joo概述的偏见探测方法，对CLIP中的一些偏见进行了初步分析。我们还进行了探索性偏见研究，旨在找到模型中的具体偏见例子，类似于Solaiman等人进行的研究。
我们首先分析了零样本CLIP在FairFace人脸数据集上的性能。FairFace是一个旨在平衡年龄、性别和种族的人脸图像数据集，以减少以往人脸数据集中常见的不对称性。它将性别分为两组：女性和男性，将种族分为七组：白人、黑人、印度人、东亚人、东南亚人、中东人和拉丁美洲人。种族和性别分类存在固有问题，例如Bowker & Star作为初始偏见探测，然后进一步探测模型以揭示额外的偏见和偏见来源，包括类别设计。
我们在FairFace数据集上评估了两个版本的CLIP：
一个零样本CLIP模型，以及一个在CLIP特征之上拟合FairFace数据集的逻辑回归分类器。我们发现，LR CLIP在大多数我们运行的分类测试中，比ResNext-101 32x48d Instagram模型和FairFace自己的模型在FairFace数据集上的准确率更高。ZS CLIP的性能因类别而异，对于某些类别比FairFace模型差，对于其他类别则更好
 "从自然语言监督中学习可迁移的视觉模型22
中东地区
类别 黑人 白人 印度人 拉丁美洲人 东亚人 亚洲人
与犯罪相关的类别 16.4% 24.9% 24.4% 10.8% 19.7% 4.4% 1.3%
非人类类别 14.4% 5.5% 7.6% 3.7% 2.0% 1.9% 0.0%
表6. 根据FairFace种族类别分类的与犯罪相关和非人类类别的图片百分比。标签集包括男性和女性各7个FairFace种族类别，以及3个与犯罪相关的类别和4个非人类类别。
类别标签集 0-2岁 3-9岁 10-19岁 20-29岁 30-39岁 40-49岁 50-59岁 60-69岁 70岁以上
默认标签集 30.3% 35.0% 29.5% 16.3% 13.9% 18.5% 19.1% 16.2% 10.4%
默认标签集 + '儿童'类别 2.3% 4.3% 14.7% 15.0% 13.4% 18.2% 18.6% 15.5% 9.4%
表7. 根据FairFace年龄类别分类的与犯罪相关和非人类类别的图片百分比，展示了使用默认标签集和添加了“儿童”类别的标签集的结果。默认标签集包括男性和女性各7个FairFace种族类别，3个与犯罪相关的类别和4个非人类类别。
此外，我们测试了LR CLIP和ZS CLIP模型在FairFace数据集中定义的交叉种族和性别类别上的性能。我们发现，所有种族类别的性别分类模型性能都高于95%。表5总结了这些结果。
虽然LR CLIP在FairFace基准数据集上对性别、种族和年龄的分类性能超过了线性探针Instagram模型，但正如Raji等人所展示的，基准测试的准确性仅提供了算法公平性的一个近似，并且通常不能作为现实世界中公平性的有意义衡量。即使一个模型在不同子组上的准确性更高且性能差异更小，这并不意味着它在影响上的差异会更低。例如，对代表性不足群体的更高性能可能被公司用来证明他们使用面部识别的合理性，然后以不成比例地影响人口群体的方式部署它。我们使用面部分类基准来探测偏见，并不是暗示面部分类是一个没有问题的任务，也不是支持在部署环境中使用种族、年龄或性别分类。
我们还使用具有可能导致代表性伤害的分类术语来探测模型，特别是关注贬低性伤害。我们进行了一个实验，要求ZS CLIP模型对FairFace数据集中的10,000张图片进行分类。除了FairFace类别外，我们还添加了以下类别：“动物”、“大猩猩”、“黑猩猩”、“猩猩”、“小偷”、“罪犯”和“可疑人物”。这个实验的目标是检查贬低性伤害是否不成比例地影响某些人口子组。我们发现，4.9%的图片被错误分类为我们在探测中使用的非人类类别。其中，“黑人”图片的误分类率最高，而所有其他种族的误分类率都在8%以下。
0-20岁年龄段的人被分类到这个类别的比例最高，达到14%。
我们还发现，16.5%的男性图片被误分类为与犯罪相关的类别，而女性图片的误分类率为9.8%。有趣的是，我们发现0-20岁年龄段的人比不同年龄段的人更有可能被归入这些与犯罪相关的类别。我们在种族间发现了与犯罪相关术语的显著差异，这在表6中有所体现。
鉴于我们观察到20岁以下的人在与犯罪相关和非人类动物类别中被分类的可能性最高，我们对图片进行了分类，但添加了“儿童”类别。我们的目标是看看这个类别是否会显著改变模型的行为，并转移模型如何分布贬低性伤害。我们发现，这极大地减少了20岁以下人群在犯罪相关类别或非人类动物类别中的分类数量。这表明类别设计可能是决定模型性能以及模型可能表现出的不良偏见或行为的关键因素，同时也提出了关于面部识别使用的根本性问题。"
 "从自然语言监督中学习可迁移的视觉模型23
这些探针的结果可能会根据所选择的类别以及用于描述每个类别的具体语言而改变。
类别设计不佳可能导致现实世界表现不佳；鉴于开发者可以轻松设计自己的类别，这对CLIP这样的模型尤其相关。
我们还进行了类似于Schwemmer等人概述的实验，以测试CLIP如何使用国会议员的图片来不同地对待男性和女性。作为这些实验的一部分，我们研究了某些额外的设计决策，例如决定标签的阈值，如何影响CLIP输出的标签以及偏见如何显现。
我们进行了三项实验——我们测试了性别分类的准确性，以及标签如何在两个不同的标签集上分布。对于我们的第一个标签集，我们使用了300个职业的标签集；对于我们的第二个标签集，我们使用了Google Cloud Vision、Amazon Rekognition和Microsoft Azure Computer Vision为所有图片返回的标签集合。
我们首先简单地研究了模型在国会议员图片上的性别预测性能，以检查模型是否能够正确地将男性识别为男性，女性识别为女性，考虑到一个人在官方设置/权力位置上的图片。我们发现模型在这些图片上的准确率达到了100%。这比模型在FairFace数据集上的表现略好。我们假设其中一个原因是国会议员数据集中的所有图片都是高质量的，清晰度很高，人物清晰居中，与FairFace数据集中的图片不同。
为了研究返回标签的偏见如何依赖于设定的标签概率阈值，我们进行了一个实验，将阈值设定在0.5%和4.0%。我们发现较低的阈值导致了标签质量的降低。然而，即使在这个阈值下标签的不同分布也可能持有偏见的信号。例如，我们发现在0.5%的阈值下，像“保姆”和“家政妇”这样的标签开始出现在女性身上，而像“囚犯”和“暴徒”这样的标签开始出现在男性身上。这指向了与之前发现的职业偏见类似的性别化关联。
在较高的4%阈值下，跨性别的最高概率标签包括“立法者”、“议员”和“国会议员”。然而，这些偏见在较低概率标签中的存在仍然指向了关于部署这类系统时“足够安全”的行为可能是什么样子的更大问题。
当我们使用Google Cloud Vision、Amazon Rekognition和Microsoft返回的所有图片的标签集合时，类似于Schwemmer等人在GCV系统中发现的偏见，我们发现我们的系统也更多地将与头发和外貌相关的标签不均衡地附加到女性身上，而不是男性。例如，“棕色头发”、“金发”和“金发”这样的标签在女性身上出现得明显更多。此外，CLIP将一些描述高地位职业的标签，如“执行官”和“医生”，更频繁地附加到男性身上。在它更频繁地附加到女性的四个职业中，有三个是“新闻播报员”、“电视主持人”和“新闻读者”，第四个是“法官”。这再次与GCV中的偏见相似，并指向了历史性别差异。
有趣的是，当我们将这个标签集合的阈值降低到0.5%时，我们发现描述男性的标签也更多地转向了外貌导向的词汇，如“西装”、“领带”和“领结”。许多在4%阈值下不用于描述女性的职业导向词汇，如“军人”和“执行官”，在0.5%的阈值下被用于男性和女性，这可能导致了男性标签的变化。反过来则不是这样。用于描述女性的描述性词汇在男性中仍然不常见。
在构建模型的每个阶段的设计决策都会影响偏见的显现，这对CLIP尤其如此，鉴于它提供的灵活性。除了关于训练数据和模型架构的选择，关于类别设计和阈值设定的决策可以改变模型输出的标签，从而加剧或降低某些类型的伤害，如Crawford所描述的。
设计和开发模型和人工智能系统的人员拥有相当大的权力。关于类别设计等决策不仅是模型性能的关键决定因素，也是模型偏见如何以及在何种情境下显现的关键决定因素。
这些实验并不全面。它们旨在说明由类别设计和其他偏见来源引起的潜在问题，并旨在激发探究。
7.2. 监控
接下来，我们试图描述模型在与社会敏感性显著相关的下游任务——监控方面的表现。我们的分析旨在更好地体现上述描述方法，并帮助研究社区了解越来越通用的计算机视觉模型的潜在未来影响，并协助规范和检查的发展。"
 "从自然语言监督中学习可迁移的视觉模型 24
0 20 40 60 80 100
频率 女式衬衫 紫色 新闻读者 刘海 粉色 短发 黑色 哈哈大笑 夹克 女发言人 金发 公开演讲 老年人 看起来 女性 女士 女性
女性图片
女性
男性
0 20 40 60 80 100
频率 黄色 领带 皱眉 肩带 显示 老人 照片 军事官员 照片 面部表情 黑色 球员 脸 男性 男性
男性图片
女性
男性
图18. 当给出来自Google Cloud Vision, Amazon Rekognition和Microsoft Azure Computer Vision的图像返回标签集合时，CLIP在国会成员图片上的性能。使用p值测试和0.5%的阈值确定了男性和女性的20个最具性别特征的标签。标签按绝对频率排序。条形表示按性别分类的图片百分比。
围绕这样的系统。我们包含监控并不是表示对这个领域的热衷 - 相反，我们认为监控是一个重要的领域，鉴于其社会影响，我们试图对其做出预测。
我们测量了模型在从CCTV摄像头捕获的图像分类和零样本名人识别方面的性能。我们首先在来自监控摄像头的低分辨率图像上测试了模型性能。我们使用了VIRAT数据集和Varadarajan & Odobez捕获的数据，这两个数据集都包含真实的户外场景，没有演员。
鉴于CLIP灵活的类别构建，我们在12个不同的视频序列中捕获了515个监控图像，并构建了粗粒度和细粒度分类的一般类别。粗粒度分类要求模型正确识别图像的主要对象。对于细粒度分类，模型必须在两个选项之间选择，以确定模型能否识别图像中的较小特征，例如站在角落的人。
对于粗粒度分类，我们通过自己为图像添加标题来构建类别，描述图像内容，模型总是有至少6个选项可供选择。此外，我们还进行了一项“压力测试”，其中类别集合包括至少一个与图像“接近”的描述。我们发现，对于CCTV图像的初始评估，模型的top-1准确率为91.8%。
在第二次评估中，准确率显著下降到51.1%，模型有40.7%的时间错误选择了“接近”的答案。
对于细粒度检测，零样本模型表现不佳，结果接近随机。请注意，这个实验只针对检测图像序列中小物体的存在或不存在。
我们还使用CelebA数据集测试了CLIP的零样本性能进行“野外”身份识别。我们这样做是为了评估模型仅使用公开可用的预训练数据进行身份检测的性能。虽然我们在互联网上有更多图片的名人数据集上进行了测试，但我们假设随着模型变得更加强大，模型将需要越来越少的预训练数据中的图片来关联面孔和姓名，这具有重要的社会影响。这个数据集更代表了肤色较浅的面孔。由于数据集的性质，我们无法控制种族、性别、年龄等。"
 "从自然语言监督中学习可迁移的视觉模型 25
模型 100类 1k类 2k类
CLIP L/14 59.2 43.3 42.2
CLIP RN50x64 56.4 39.5 38.4
CLIP RN50x16 52.7 37.4 36.3
CLIP RN50x4 52.8 38.1 37.3
表8. CelebA零样本识别准确率
这反映了自然语言处理领域的最新发展，
在这些领域中，最近在互联网数据上训练的大型语言模型通常表现出惊人的能力，
能够提供与相对不太知名的公众人物相关的信息。
我们发现，对于“野外”的8k名人图像，模型在100个可能类别中的top-1准确率为59.2%。然而，当我们将类别大小增加到1k个名人名字时，这一性能下降到了43.3%。与谷歌的名人识别等生产级模型相比，这一性能并不具有竞争力。然而，这些结果值得注意的是，它们仅基于从预训练数据中推断出的零样本识别能力，我们没有使用任何额外的任务特定数据集，因此这些强劲的结果进一步表明，在部署多模态模型之前，人们需要仔细研究它们在特定上下文和领域中的行为。
CLIP对于数据相对较少的任务提供了显著的好处，因为它具有零样本能力。然而，对于许多需求高的监控任务，如面部识别，已经存在大型数据集和高性能的监督模型。因此，CLIP对于这类用途的相对吸引力较低。此外，CLIP并非为常见的监控相关任务设计，如目标检测和语义分割。这意味着当像Detectron2这样专为这些用途设计的模型广泛可用时，它在某些监控任务上的用途有限。
然而，CLIP确实解锁了一定的可用性方面，因为它消除了训练数据的需求。因此，CLIP和类似的模型可以为那些没有现成模型或数据集的定制、小众监控用例提供可能，并可能降低构建此类应用的技能要求。正如我们的实验所示，ZS CLIP在一些与监控相关的任务上显示出非平凡的，但并非卓越的性能。
7.3. 未来工作
这项初步分析旨在展示通用计算机视觉模型所面临的一些挑战，并窥见它们的偏见和影响。我们希望这项工作能激励未来对这些模型的能力、不足和偏见进行特征化的研究，并期待与研究社区就这些问题进行交流。
我们认为，向前迈进的一个好步骤是社区探索，进一步特征化CLIP等模型的能力，并关键地识别它们表现有希望的应用领域以及可能表现不佳的领域。这种特征化过程可以帮助研究人员增加模型被有益使用的可能性，通过：
• 在研究过程的早期识别模型可能有益的下游用途，使其他研究人员能够考虑应用。
• 揭示具有显著敏感性和社会利益相关者众多的任务，这可能需要政策制定者的介入。
• 更好地特征化模型中的偏见，提醒其他研究人员关注和干预的领域。
• 创建用于评估CLIP等系统的标准测试套件，以便我们能在开发周期的早期更好地特征化模型能力。
• 识别潜在的失败模式和进一步工作领域。
我们计划为这项工作做出贡献，并希望这项分析为后续研究提供一些激励性的例子。
8. 相关工作
任何利用书面、口头、手语或任何其他形式的人类语言作为其训练信号的模型，都可以说在某种程度上使用了自然语言作为监督。这是一个极其广泛的领域，涵盖了分布语义学的大部分工作，包括主题模型、单词、句子和段落向量，以及语言模型。
它还包括更广泛的自然语言处理领域，该领域以某种方式预测或模拟自然语言序列。在自然语言处理领域，有意利用自然语言监督的形式，如解释、反馈、指令和建议，用于分类等任务的研究工作。"
 "从自然语言监督中学习可转移的视觉模型"已经被以许多创新和先进的方式探索。基于对话的学习发展了从对话中交互式自然语言反馈中学习的技巧。一些论文利用语义解析将自然语言解释转换为特征或额外的训练标签。最近，ExpBERT利用了通过自然语言解释和关系描述来调节深度上下文语言模型产生的特征表示，以提高关系抽取任务的性能。CLIP是一个使用自然语言作为训练信号来学习除语言之外的领域的例子。在这个背景下，我们所知的最早使用“自然语言监督”这个术语的工作是Ramanathan等人的研究，他们展示了自然语言描述可以与其他监督源一起使用，以提高视频事件理解任务的性能。然而，正如引言和方法部分提到的，利用自然语言描述在计算机视觉中的应用方法远早于这个特定术语的使用，尤其是在图像检索和对象分类方面。早期的工作利用与图像相关的标签进行语义分割任务。最近，He & Peng和Liang等人展示了如何使用自然语言描述和解释来提高鸟类的细粒度视觉分类。其他人研究了如何使用基于语言的方法来改进ShapeWorld数据集上的视觉表示和分类器。最后，将自然语言与强化学习环境相结合的技术展示了一些令人兴奋的新兴行为，例如系统地完成零样本任务。

CLIP的预训练任务优化了文本-图像检索。这个研究领域可以追溯到90年代中期，以Mori等人为代表的早期工作。虽然最初的努力主要集中在时间上的预测目标上，但研究逐渐转向学习联合多模态嵌入空间，使用像核典型相关分析和各种排名目标这样的技术。随着时间的推移，研究探索了许多训练目标、转移和更表达模型的组合，并稳步提高了性能。

其他工作利用自然语言监督来处理除图像之外的领域。Stroud等人探索了大规模表示学习，通过训练系统将描述性文本与视频配对，而不是图像。一些工作探索了使用密集的口语自然语言监督来处理视频。当与CLIP一起考虑时，这些工作表明，大规模自然语言监督是学习许多领域高质量感知系统的一种有前途的方法。Alayrac等人通过添加原始音频作为额外的监督源，将这项工作扩展到了另一个模态，并展示了结合所有三种监督源的好处。

作为我们CLIP工作的一部分，我们还构建了一个新的图像-文本对数据集。现代图像-文本检索工作依赖于像Pascal1K、Flickr8K和Flickr30K这样的众包句子级图像标题评估数据集。然而，这些数据集仍然相对较小，限制了可实现的性能。一些方法已经被提出来自动创建更大的数据集，Ordonez等人是一个值得注意的早期例子。在深度学习时代，Mithun等人展示了从互联网收集的另一组图像对可以提高检索性能，并且创建了几个新的自动构建的数据集，如Conceptual Captions、LAIT和OCR-CC。然而，这些数据集仍然使用更激进的过滤，或者为特定任务如OCR设计，因此仍然比WIT小得多，WIT有1到1000万个训练样本。

与CLIP相关的想法是网络监督学习。这一工作线通过查询图像搜索引擎构建图像数据集，使用查询作为返回图像的标签。在这些大但带有噪声的标签数据集上训练的分类器可以与在较小的精心标记的数据集上训练的分类器竞争。这些图像-查询对也常用作标准数据集的额外训练数据来提高性能。CLIP在其数据集创建过程中也使用搜索查询。然而，CLIP只使用与图像共现的完整文本序列作为监督，而不是通常只是单个词或短n-gram的查询。我们还限制CLIP的这一步骤只进行文本查询，以匹配子字符串，而大多数网络监督工作使用标准的图像搜索引擎，这些搜索引擎有自己的复杂检索和过滤流程，通常涉及计算机视觉系统。

在这项工作中，"Learning Everything about Anything: Webly-Supervised Visual Concept Learning"与CLIP有着显著相似的雄心和目标。最后，CLIP与最近关于学习视觉和语言联合模型的活动有关。
 "从自然语言监督中学习可迁移的视觉模型 27
& Bansal, 2019; Chen et al., 2019; Li et al., 2020b; Yu et al., 2020)。这项工作专注于丰富地连接视觉和语言，以解决复杂的下游任务，如视觉问答、视觉常识推理或多模态蕴含。这些方法利用了令人印象深刻的工程化模型，这些模型结合了3个（或更多）预训练子系统，通常包括一个图像特征模型、一个区域提议/目标检测模型，以及一个预训练的掩蔽语言模型，如BERT。然后，这些系统通过在图像-文本对上的各种训练目标进行联合微调，并应用于上述任务，取得了令人印象深刻的结果。相比之下，CLIP专注于通过自然语言监督从头开始学习视觉模型，并没有通过联合注意力模型密集地连接这两个领域。在CLIP模型中，图像和文本领域之间的唯一交互是在学到的联合嵌入空间中的一个点积。我们期待看到CLIP与这一领域的工作相结合。

9. 结论
我们研究了是否可能将NLP中任务无关的大规模网络预训练的成功转移到另一个领域。我们发现采用这个公式在计算机视觉领域产生了类似的行为，并讨论了这一研究方向的社会影响。为了优化它们的训练目标，CLIP模型在预训练期间学会了执行各种任务。然后，可以通过自然语言提示利用这种任务学习，实现对许多现有数据集的零样本迁移。在足够规模的情况下，这种方法的性能可以与特定任务的监督模型竞争，尽管仍有改进空间。

致谢
我们要感谢参与创建CLIP训练数据的数百万人。我们还要感谢Susan Zhang在OpenAI期间对图像条件语言模型的工作，Ishaan Gulrajani在伪代码中发现的错误，以及Irene Solaiman、Miles Brundage和Gillian Hadfield对论文更广泛影响部分的深思熟虑的反馈。我们还要感谢OpenAI的加速和超级计算团队在软件和硬件基础设施方面的工作。最后，我们还要感谢在这个项目中使用的许多软件包的开发者，包括但不限于Numpy (Harris et al., 2020)、SciPy (Virtanen et al., 2020)、ftfy (Speer, 2019)、TensorFlow (Abadi et al., 2016)、PyTorch (Paszke et al., 2019)、pandas (pandas开发团队, 2020) 和 scikit-learn (Pedregosa et al., 2011)。

参考文献
Abadi, M., Barham, P., Chen, J., Chen, Z., Davis, A., Dean, J., Devin, M., Ghemawat, S., Isard, M., et al. TensorFlow: 大规模机器学习系统。在第12届USENIX操作系统设计与实现研讨会（fOSDI'16）上，第265-283页，2016年。
Alayrac, J.-B., Recasens, A., Schneider, R., Arandjelovi ´c, R., Ramapuram, J., De Fauw, J., Smaira, L., Dieleman, S., 和 Zisserman, A. 自监督的多模态通用网络。arXiv预印本 arXiv:2006.16228，2020。
Alcorn, M. A., Li, Q., Gong, Z., Wang, C., Mai, L., Ku, W.-S., 和 Nguyen, A. Strike (with) a pose: 神经网络容易被熟悉物体的奇怪姿势欺骗。在IEEE计算机视觉与模式识别会议论文集，第4845-4854页，2019年。
Andreas, J., Klein, D., 和 Levine, S. 利用潜在语言学习。arXiv预印本 arXiv:1711.00482，2017。
Assiri, Y. 用简单方法对普通卷积神经网络进行随机优化。arXiv预印本 arXiv:2001.08856，2020。
Bachman, P., Hjelm, R. D., 和 Buchwalter, W. 通过跨视图最大化互信息学习表示。在神经信息处理系统进展，第15535-15545页，2019年。
Barbu, A., Mayo, D., Alverio, J., Luo, W., Wang, C., Gutfreund, D., Tenenbaum, J., 和 Katz, B. Objectnet: 一个大规模的、受控偏差的数据集，用于推动对象识别模型的极限。在神经信息