构建可以查找相似图像的图像搜索引擎的深度学习技术详解

在本文中将介绍如何查找相似图像的理论基础并且使用一个用于查找商标的系统为例介绍相关的技术实现，本文提供有关在图像检索任务中使用的推荐方法的背景信息。阅读本文后你将有能够从头开始创建类似图像的搜索引擎的能力。

图像检索（又名基于内容的图像检索Content-Based Image Retrieval 或 CBIR）是任何涉及图像的搜索的基础。

上图来自文章Recent Advance in Content-based Image Retrieval: A Literature Survey (2017) arxiv:1706.06064

“按照片进行搜索”方式已经出现在各个领域，特别是在电子商务网站中（例如淘宝），并且 “通过关键词搜索图片”（对图片内容的理解）早已被谷歌、百度，bing等搜索引擎使用（图片搜索）。我认为自从计算机视觉界轰动一时的 CLIP: Connecting Text and Images 出现后，这种方法的全球化将会加速。

在本文中，将只讨论研究计算机视觉中的神经网络的图片搜索方法。

基础服务组件

步骤 1. 训练模型。该模型可以在经典的 CV 或基于神经网络的基础上制作。模型输入——图像，输出——D维的特征嵌入。在传统的情况下，它可以是 SIFT-descriptor + Bag of Visual Words 的组合。在神经网络的情况下，可以是像 ResNet、EfficientNet 等这样的标准主干 + 复杂的池化层。如果有足够的数据，神经网络几乎总是表现得很好，所以我们将专注于它们。

步骤 2. 索引图像。索引是在所有图像上运行经过训练的模型，并将获得的嵌入写入特殊索引以进行快速搜索的过程。

步骤 3. 搜索。使用用户上传的图像，通过模型获得嵌入，并将该嵌入与数据库（索引）中的其他图像的嵌入进行比较，并且搜索结果可以按照相关性排序。

神经网络和度量学习

在寻找相似性任务中，神经网络的作用是特征提取器（主干网络）。主干网的选择取决于数据的数量和复杂性——可以考虑从 ResNet18 到 Visual Transformer 的所有模型。

图像检索中模型的第一个特点是是神经网络头的设计。在Image Retrieval 排行榜（https://kobiso.github.io/Computer-Vision-Leaderboard/cars.html）上，它们通过parallel pools 、Batch Drop Block等技术，可以获得使输出特征图的激活分布更均匀的最佳图像特征描述。

第二个主要的特征是损失函数的选择。仅在 Deep Image Retrieval: A Survey （arxiv 2101.11282）中，就有十几个推荐的可用于配对训练的损失函数。所有这些损失的主要目的都是训练神经网络将图像转换为线性可分空间的向量，以便进一步通过余弦或欧几里德距离比较这些向量：相似的图像将具有紧密的嵌入，不相似的图像将距离则比较遥远。下面我们看看几个主要的损失函数。

损失函数

1、Contrastive Loss

这是双重损失，即对象通过彼此之间的距离进行比较。

如果这些图像实际上相似，则神经网络会因图像 p 和 q 的嵌入彼此之间的距离过远而受到惩罚。如果图像实际上是彼此不同，但嵌入距离较近也会受到惩罚，但是在这种情况下设置了边界 m（例如，0.5），这个设置是认为神经网络已经应对了“分离”不同图像的任务，不需要进行过多的惩罚。

2、Triplet Loss

这个损失的目标是最小化anchor到positive的距离，最大化anchor到negative的距离。 Triplet Loss 最早是在 Google 的 FaceNet 关于人脸识别的论文中引入的，长期以来一直是最先进的解决方案。

3、N-tupled Loss

N-tupled Loss是Triplet Loss 的一种发展，它也采用 anchor 和 positive，但使用多个negative样本而不是一个negative样本。

3、Angular Additive Margin (ArcFace)

双重损失的问题在于选择anchor、positive和negative的组合——如果它们只是从数据集中均匀随机抽取，那么就会出现“light pairs”的问题，某些图像对的损失将为 0这样会网络非常快的收敛到一个状态，因为我们的输入中的大多数样本对它来说很“容易”，当损失为0时网络就停止学习了。为了避免这个问题，ArcFace为样本的配对提出复杂的挖掘技术—— hard negative和hard positive挖掘。对这方面感兴趣的可以看看一个叫PML 库，它实现了许多挖掘方法，该库包含很多关于 PyTorch 上的 Metric Learning 任务的有用信息，有兴趣的可以多关注下。

light pairs问题的另一个解决方案是分类损失。 ArcFace主要思想是在通常的交叉熵中添加一个缩进 m，它可以使同类图像的嵌入分布在该类的质心区域中心周围，以便它们都与其他类的嵌入集群分开最小的角度 m。

这是一个完美的损失功能，尤其是在使用MegaFace 进行基准测试时。但是ArcFace需要在有分类标记的情况下才会起作用。毕竟如果没有分类的标记是无法计算交叉熵的，对吧。

上图展示了具有单类和多类标记时选择损失函数的推荐（如果没有标记也可以通过计算样本的多标签向量之间的交集百分比从后者派生成匹配对的标记）。

池化

在神经网络架构中池化也会经常被用到，下面介绍图像检索任务中使用的几个池化层。

1、R-MAC

Regional Maximum Activation of Convolutions (R-MAC)可以看作一个池化层，它接收神经网络的输出特征图（在全局池化或分类层之前）并返回根据不同窗口计算输出激活总和的向量描述，其中每个窗口的激活是每个通道独立的取这个窗口的最大值。

这种操作是通过图像在不同尺度上的局部特征创建了更丰富的特征描述。这个描述符本身就是是一个嵌入的向量，所以它可以直接输送到loss函数。

2、Generalized Mean

Generalized Mean(GeM)是一个可以提高输出描述符的质量简单的池化操作，它将lambda范式应用到平均池化操作中。通过增加lambda，使网络聚焦于图像的重要部分，这在某些任务中是很有效的。

距离的测量

1、索引

高质量搜索相似图像的另一个关键点是排名，即显示给定查询的最相关结果。它的主要度量是建立索引的速度、搜索的速度和消耗的内存。

最简单的方法是直接使用嵌入向量进行暴力的搜索，例如使用余弦距离。但是当有数据量很大时就会出现问题——数百万、数千万甚至更多。搜索速度明显降低。

这些问题可以以牺牲质量为代价来解决——通过压缩(量化)而不是以原始形式存储嵌入。同时也改变了搜索策略——不是使用暴力搜索，而是尝试用最小的比较次数来找到最接近给定查询的嵌入向量。有大量的高效的框架来近似搜索最接近的对象。例如NMSLIB, Spotify Annoy, Facebook Faiss, Google Scann。除了机器学习的库以外，传统 Elasticsearch在7.3 以后也支持向量的查询。

2、重排

信息检索领域的研究人员很早早就发现了：在收到原始搜索结果后，可以通过某种方式对集合进行重新排序来改进搜索结果的质量。

使用最接近搜索输入的 top-k 来生成新的嵌入，在最简单的情况下可以取平均向量。如上图所示，还可以对嵌入进行加权，例如通过问题中的距离或与请求的余弦距离进行加权排序。

3、k-reciprocal

k-reciprocal 是一组来自 top-k 的元素包括最接近请求本身的 k 个元素，在这个集合的基础上构建了对结果进行重新排序的过程，其中之一是在Re-ranking Person Re-identification with k-reciprocal Encoding一文中进行的描述。 k-reciprocal 比 k最近邻更接近查询。因此可以粗略地将 k-reciprocal 集中的元素视为已知正样本，并更改加权规则。原始论文中包含大量计算，这超出了本文的范围，建议有兴趣的读者阅读。