准确和鲁棒的视觉目标跟踪是最具挑战性和最基本的计算机视觉问题之一。它需要估计图像序列中目标的轨迹,仅考虑其初始位置和分割,或者以边界框的形式粗略近似。鉴别相关滤波器(DCF)和深度Siamese 网络(SNs)已经成为主要的跟踪范例,这促进了领域的重大发展。随着视觉目标跟踪在过去十年中的快速发展,本次综述基于九个跟踪基准的结果,对90多个DCF和Siamese 跟踪器进行了系统和全面的审查。首先介绍了DCF和Siamese 跟踪核心公式的背景理论。然后,区分并全面回顾了这两种跟踪范式中的共享和特定开放研究挑战。此外,论文还深入分析了DCF和Siamese 跟踪器在九个基准上的性能,涵盖了视觉跟踪的不同实验方面:数据集、评估指标、性能和速度比较。在分析的基础上,针对突出的开放挑战提出建议,从而完成调查。
视觉目标跟踪(VOT)是计算机视觉中的一个基本开放问题,任务是估计图像序列中目标的轨迹和状态。VOT具有广泛的应用,包括自动驾驶、机器人、智能视频监控、运动分析和医学成像。给定任意目标对象的初始状态,VOT中的主要挑战是学习在后续帧中搜索目标对象时使用的外观模型。近年来,由于引入了多种跟踪基准,如TrackingNet、VOT2018和GOT-10K,VOT受到了极大的关注。尽管最近取得了进展,VOT仍然是一个开放的研究问题,可能比以往任何时候都更加活跃。
通用目标跟踪的核心挑战是在线学习任意目标的外观模型,仅考虑其初始状态。几个现实世界的因素使学习准确的外观模型变得复杂,例如,目标对象可能经历部分或完全遮挡、比例变化和变形。此外,还有影响目标外观的环境因素,包括照明变化和运动模糊,另一个因素是场景通常包括具有相似外观的对象或背景结构,这些对象或背景容易与目标本身混淆。为了应对这些挑战,文献中提出了大量的跟踪器,这些跟踪器有助于提高跟踪的技术水平(SOTA)!
在过去十年中,鉴别相关滤波器(DCF)和深度Siamese 网络(SN)一直是VOT的两个最突出的范例。在基于DCF的跟踪中,通过最小化最小二乘损失,在感兴趣区域上在线训练相关滤波器。然后通过快速傅里叶变换(FFT)卷积训练滤波器,在连续帧中检测目标。在深度Siamese 跟踪框架中,通过最大化目标和背景外观之间的距离,同时最小化两个补丁与目标本身之间的距离来离线学习嵌入空间。SN由两个相同的子分支组成:一个用于目标模板,另一个用于搜索区域。网络将模板和搜索区域都作为输入,并输出搜索区域中每个位置与目标的局部相似度。随着DCF和SN的设计,近年来跟踪界主要关注这两种范式,多年来,这两个框架显著提高了若干数据集的跟踪性能,如VOT数据集的性能改善,如图1所示。
本文对流行的基于DCF和Siamese 的跟踪范式进行了系统的回顾。两种范式都有相同的目标,即学习一个准确的目标外观模型,该模型可以有效地将目标对象与背景区分开来。尽管在解决上述目标方面出现了不同的基本范式,但深度学习给这两种范式带来了一些重要的相似之处和共同的挑战。例如,(i)特征表示:两种范式都利用不同的特征表示来估计目标平移和尺度变化,利用从预训练网络中提取的深度特征表示是两种范式共享的最近趋势。然而,在这两种跟踪范式中,深度架构和特征层次的选择仍然是一个开放的问题。(ii)目标状态估计:DCF和Siamese 跟踪器的核心公式仅涉及如何估计目标对象的平移。因此,两种范式都没有提供用于估计完整目标状态的显式方法,例如,处理由边界框参数化的细长对象,这在大多数应用中至关重要。(iii)离线培训:虽然最初只有Siamese 跟踪受益于端到端离线培训,但最近的DCF跟踪[5]、[24]也利用大规模离线学习,将其与高效且可区分的在线学习模块集成,以实现稳健的跟踪!
这两种流行的范式虽然有共同的属性,但也有特定的问题。例如,(i)边界伪影:DCF跟踪器通常利用训练样本的周期性假设来学习在线分类器,这引入了严重降低目标模型质量的不期望的边界效应。(ii)优化:损失函数最小化也给DCF跟踪器带来了挑战,特别是当目标特定约束(如空间或时间等)在回归损失内正则化时。(iii)在线模型适应性:当目标外观因照明条件或快速运动等的变化而发生变化时,预计学习的模型能够应对这些变化。DCF跟踪器具有通过损失函数随时间更新外观模型的能力。在第一帧,DCF通过FFT有效地建立前景和背景的模型,保证目标周围的高斯峰值响应。另一方面,Siamese跟踪没有继承这种在线模型更新机制。Siamese 跟踪器要么依赖于预训练的特征空间的适合性以及其中的互相关,要么通过微调深度网络来适应当前对象和背景,这在计算上是昂贵的操作,因此,在线适应性是Siamese 跟踪器的一个重要问题!
此外,还有一些概念可以在两种范式之间相互转化。例如,可以在端到端DCF跟踪pipelines中使用基于深度anchor的或anchor-free的边界框回归,DCF跟踪器利用了更深层次网络的潜力,ResNet驱动的DCF跟踪器可以进一步用于稳健的外观建模。虽然只有DCF跟踪器具有在线更新外观模型的能力,但该组件也可用于Siamese跟踪管道中的时间外观建模。Siamese跟踪器采用了鲁棒的多通道特征融合,其中离线优化了权重,DCF跟踪器缺乏这种能力,因此可能利用这种技术。Siamese跟踪器可以从空间或时空正则化中受益,以在计算互相关层内的相关响应图时惩罚背景像素。这些见解为基于两种范式中的最佳模式开发强大的跟踪框架开辟了新的可能性。
本次调查与之前的VOT调查之间的主要差异如下。与以往的VOT调查不同,本文仅关注两种表现最好的跟踪范式,即DCF和SN。论文提出了DCF和Siamese跟踪核心点以及广泛的背景理论。然后,提供了90多个DCF和Siamese跟踪器的概述,以及这两种范式向基于分割的跟踪演变。
DCFS和Siamese跟踪范式介绍
1.鉴别相关滤波器
判别相关滤波器(DCF)是一种用于学习线性回归的监督技术。近年来,基于DCF的跟踪器在多个跟踪基准上表现出优异的性能,DCF成功的关键是通过循环移位训练样本实现的密集采样的计算效率近似,这允许在学习和应用相关滤波器时使用快速傅里叶变换(FFT)。通过利用傅里叶变换的特性,DCF在线学习相关滤波器,通过有效地最小化最小二乘输出误差来在连续帧中定位目标对象。为了估计下一帧中的目标位置,之后将学习滤波器应用于最大响应的目标位置的感兴趣区域。然后通过用该估计值注释新样本,以迭代方式更新过滤器。
标准DCF跟踪pipelines
对于跟踪,DCF首先在线学习滤波器w,然后通过检测执行跟踪。一旦在当前帧中跟踪目标,则递归地学习模型,DCF跟踪pipelines的框图如图2所示。
目标检测:设m为当前图像帧的编号,在其中定位目标。从上一帧中,得到滤波器w_{m-1},其自初始帧以来已被递归更新。提取以预测目标位置为中心的图像块z,这里,z具有与训练补丁x_j相同的大小N_1×N_2。然后通过应用学习滤波器使用卷积预测每个位置n的目标分数s(n)∈ Ω !
Model update:
2.Siamese Tracking
深度学习模型彻底改变了许多机器学习应用,成功的关键是在大量数据上离线学习功能。这种离线训练模型能够从大量注释数据中学习复杂而丰富的关系,通过将其作为相似性学习问题,端到端离线训练模型也被用于通用目标跟踪。深度SNs已被广泛用于学习目标图像和搜索图像区域之间的相似性,SNs首先用于签名验证任务,然后适用于其他应用,包括指纹识别、立体匹配、地面到空中图像匹配和局部补丁描述符学习。在VOT中,离线深度网络在大量目标图像对上进行训练,以在训练期间学习匹配函数,然后在跟踪期间在线评估该网络作为函数。Bertineto等人揭示了SN的威力,并提出了VOT的完全卷积SN(SiamFC),SiamFC使用了主干特征提取器,并比较了相似性以确定目标对象在每个帧中的位置。
它还利用了使搜索可行的完全卷积特性,并被大多数后续基于SNs的跟踪器采用。SiamFC由两个分支组成,模板分支和检测分支。模板分支接收前一帧中的目标图像块作为输入,而检测分支接收当前帧中的图像块作为输出。这两个分支共享CNN参数,使得两个图像块编码适合于跟踪的相同变换,SiamFC的跟踪pipelines如图3所示。
SN的主要目的是克服预训练的深度神经网络的局限性,并充分利用端到端学习的优势在实时应用上。离线训练视频用于指导Siamese 跟踪器处理各种跟踪挑战,包括旋转、视点变化和照明变化等,并在连续帧中定位目标对象!
训练pipelines
在SiamFC中,考虑一对训练图像(x,z),大小为127×127×3的输入x是从第一帧中目标的GT框导出的参考图像。大小为255×255×3的输入z是每个帧的较大搜索区域。将这些对(x,z)输入到CNN中以获得两个特征图(例如,使用主干架构的最后一层)。通过使用相同权重的相同子网络,参考图像被编码为大小6×6×128的特征向量,搜索区域被嵌入为大小为22×22×128的特性向量,然后使用互相关来匹配两个特征图!
目标是响应图g_ρ(x,z)的最大值对应于目标位置,为了实现这一目标,网络在从视频集合中提取的数百万对随机对上进行离线训练,以跟踪通用对象,logistic loss的平均值通常用于训练网络:
测试pipelines
为了证明SiamFC的有效性及其在大规模数据集上训练时的泛化能力,采用了一种简单的跟踪算法,首先提取新帧中x和z的特征表示。然后将x的特征表示与z的特征表示进行比较,这是通过提取以先前估计为中心的窗口在每个新帧中获得的位置,面积为目标大小的四倍。然后对两个特征图进行互相关,得到大小为17×17×1的分数,还对相关图使用余弦窗来惩罚大位移。分数图中最高分数的位置被恢复到其相应位置,该位置被选为该帧的预测边界框中心。最初的SiamFC跟踪器在GPU上以140FPS的实时速度获得了令人惊讶的好结果。但是,它不会更新模型,因此无法处理较大的外观变化。本着同样的精神,Tao等人提出了SINT,其中欧几里得距离被用作相似性度量,而不是互相关,Held等人提出了GOTURN,其中使用了边界框回归。类似地,Valmadre等人提出了CFNET,其中相关滤波器作为匹配函数中的单独块添加到x中,并使该网络更浅但更有效。
凭借这些跟踪优势,SiamFC还缺少目标规模估计组件。为了解决这个问题,区域建议网络(RPN)用于预测传统SiamFC跟踪器内的目标规模,RPN获取输入图像并估计一组矩形目标建议,每个建议都有一个对象性得分,为此,在最后一个卷积层输出的卷积特征图上滑动一个小网络。Li等人提出了SiamRPN跟踪器,该跟踪器包含RPN组件。SiamRPN的输出包括一个分类和一个回归分支,用于对位置和尺度估计的目标边界框进行回归。与经典SiamFC跟踪器相比,SiamRPN显示出更高的精度,因此,SNs在推理和离线学习中都具有计算效率。SNs已经证明了SOTA跟踪性能,因此在跟踪社区中受到了很多关注,图4显示了文献中有影响力的Siamese 追踪器!
DCFS和Siamese 跟踪范式的常见开放问题
本节主要讨论两种范式的共同挑战,包括主干架构、目标状态估计、这些跟踪器向基于分割的跟踪器演变,以及将这些跟踪器集成到多目标跟踪pipelines中。
主干结构
在离线训练中,骨干特征提取网络在捕获目标的低级细粒度和高级语义信息方面起着主导作用。这里,骨干网络,如AlexNet、VGG-16或VGG-19和ResNet18或ResNet50,用于优化跟踪数据集上的深度特征。与依赖于预训练的网络不同,任务特定的深度特征学习有助于改进跟踪问题本身的表示,这两种跟踪模式都证明了使用强大骨干网络取得了令人鼓舞的性能。
例如,Valmadre等人提出了一种CFNET,它以离线方式跟踪相关滤波器的端到端学习。CFNET采用AlexNet模型的变体,并利用所有卷积层进行消融研究。第二个卷积层显示了有希望的跟踪结果。其他跟踪器,如CREST[118]和ACFN[18]也以在线方式遵循相同的策略。CREST利用VGG-16模型从conv4-3层提取特征图,使用PCA降维将特征通道减少到64个。在这些跟踪器中,目标是改进目标回归。与利用从预训练网络中提取的深度特征的跟踪器相比,这些方法表现出了相当的性能。最近,ATOM中引入了端到端目标尺度估计组件,而DiMP和PrDiMP中改进了经典DCF模型的分辨强度,ATOM利用ResNet-18预训练模型作为骨干网络。对于目标分类,它使用块4特征,而目标估计组件同时使用块3和4特征。DiMP和PrDiMP采用ResNet-18和ResNet-50 backbone架构,他们利用从第三块提取的特征进行模型预测。DCF跟踪器中端到端特征学习的最新趋势[5],[24],[26]在多个基准上产生了优异的跟踪性能,为探索DCF中更复杂的端到端特性学习铺平了道路。
在早期的Siamese 跟踪器(例如,SiamFC、GOTURN、SINT、SiamRPN)中,对修改的预训练AlexNet进行了微调。SiamFC使用五层提取卷积特征,并利用最后一层特征进行离线训练。GOTURN使用所有层提取特征,并利用最后一个完全连接层的特征来训练目标函数。使用从主干提取的一组不同特征,SINT显示出显著的性能改进。SiamRPN固定了前三个卷积层,仅微调了最后两个卷积层。各种跟踪器(FlowTrack、MemTrack和EAST)也使用了AlexNet。然而,据观察,这些跟踪器的性能仍然有限,因为AlexNet是一个相对较浅的网络,并且不会产生非常强的特征表示。
Li等人提出了ResNet驱动的SiamRPN跟踪器,在SNs中,当在没有零填充的情况下使用修改的AlexNet时,目标的学习空间特征表示不满足空间平移不变性约束。SiamRPN采用了ResNet-50架构,并对其进行了一些改进,以适应跟踪任务,SiamRPN利用conv3、conv4和conv5块的输出,并将它们送入三个SiamRPN模块。对于多层特征融合,还引入了加权和和深度互相关模块,提出了一种融合不同卷积块的丰富特征表示的分层聚合。三个RPN模块的输出具有相同的空间大小。三个输出的加权和用于生成最终特征图,权重与网络一起离线端到端优化。由于深度架构,SiamRPN可能具有更多的参数,这些参数需要更多的计算资源,并降低了跟踪速度。因此,与前代相比,跟踪器还配备了深度互相关层以提高效率。在搜索区域和模板区域之间执行深度方向的互相关,以获得多通道响应图,然后将响应与1×1核卷积,以将其维数减少到更少的信道。使用该技术,通过降维显著减少了参数的数量,并稳定了训练过程,最后的降维响应图被用作分类和回归分支的输入。
利用深度ResNet架构,许多Siamese 跟踪器的性能得到了改善。Zhang等人也研究了相同的问题,并提出了SiamDW,其中浅骨干AlexNet被深度网络取代,包括Inception、VGG-19和ResNet。据调查,除了特征填充之外,神经元的感受野和网络跨步也是这样一个更深的网络不能直接取代浅层网络的主要原因。此外,还评估了来自不同层和不同架构的特征,并将性能最佳的候选特征和架构用于跟踪器。这两项研究中的结果表明,与经典的基于SNs的跟踪器相比,具有优异的性能。有了这些基础,包括SiamCAR、Ocean和SiamBAN等在内的最新跟踪器也采用了强大的深度架构。这些最近的跟踪器从ResNet-50的最后三个残余块中提取特征,并融合以获得多通道响应图。ResNet骨干网由于其简单性和强大的性能,已成为Siamese 跟踪的既定首选方案。此外,深度互相关对于获得多通道特征图也引起了极大的关注。然而,视觉transformer网络的最新进展预计将在未来几年对跟踪社区产生重大影响。
目标状态估计
这两种跟踪范式在准确性和鲁棒性方面都显示了很有希望的结果。但是,当目标移动时,其模板大小(也称为边界框大小)也会发生变化,这两种范式都面临严重的scale变化挑战。因此,准确的尺度估计对这些跟踪器提出了巨大的挑战,处理bounding box大小以实现精确的目标尺度估计是一个既定的研究方向。跟踪社区在这方面取得了显著进展,并提出了处理这一问题的潜在解决方案,本文讨论了为两种范式提出的尺度估计方法!
多分辨率尺度搜索方法:DCF中的一种直接策略是在不同的图像尺度上应用学习的平移滤波器w。也就是说,首先通过不同的比例因子调整图像的大小,然后进行特征提取。将每个尺度上的特征图与学习滤波器w卷积以计算目标分数,就可以通过找到所有尺度上的最大得分来估计目标位置和尺度的变化。这是一种常见的策略,通常应用于跟踪和检测。Li等人提出了SAMF跟踪器,其中使用标准DCF公式联合训练平移和缩放滤波器,结果表明,与标准DCF相比,性能显著提高。这种比例自适应组件已用于许多基于DCF的跟踪器,如CACF、CFAT和FD-KCF。然而,这种方法具有较高的计算成本,因为必须以多个分辨率应用平移滤波器以实现缩放精度。Siamese 跟踪器也受益于这种scale估计方法,在经典SiamFC中,通过组合一小批缩放图像,在一次前向扫描中搜索多个尺度,然后计算最大响应。包括RASNET、SA Siam、StructSiam、UDT、UDT++、TADT、GradNet、RTINET和FlowTrack在内的早期跟踪器都采用了这种方法。
判别尺度空间搜索方法:Danelljan等人提出了DCF跟踪中精确尺度估计的替代策略。与[79]不同,目标估计分两步进行,以避免exhaustive search在尺度和平移上。由于两个帧之间的尺度变化通常较小或中等,因此首先通过在当前尺度估计处应用正常平移滤波器w来找到目标平移。然后,在比例维度中应用单独的一维filter来更新目标大小。尺度滤波器类似于平移滤波器进行训练,但通过从一组不同尺度中提取目标外观的样本来在尺度维度上操作。上述比例滤波器方法的优点有两方面。首先,通过减少搜索空间来提高计算效率;第二,训练尺度滤波器以区分不同尺度下目标的外观,这可以导致更准确的估计。所提出的比例滤波器组件已用于多种跟踪器,包括STAPLE、MUSTer、ASRCF、CACF、BACF、CSR-DCF、MCCT和LCT。此外,后续的fDSST跟踪器通过应用PCA和子网格插值减少了DSST的计算成本。Siamese tracker无法探索这种scale估计技术!
边界框回归方法:上述方法显示了改进的性能,然而,它们取决于比例因子参数和在线准确的滤波器响应,这些方法不会以离线方式利用深度特征表示。因此,这些方法在出现突然的scale变化时表现出性能下降。精确的目标尺度估计是一项复杂的任务,需要高层次的先验知识。边界框取决于目标的姿态和view,不能将其建模为简单的图像变换(例如,统一图像缩放),因此,在线学习准确的目标估计非常困难!在目标检测方法中,box回归已被广泛用于目标精确定位。为了利用端到端深度特征学习的优势进行目标尺度估计,该组件最近被用于基于DCFs的跟踪器。在ATOM中,受IoU Net的启发,训练了特定于目标的特征。由于原始IoU Net是类特定的,因此不适合通用跟踪,因此提出了一种新的架构,用于将目标特定信息集成到IoU预测中。这是通过引入基于调制的网络组件来实现的,该组件将目标外观结合在参考图像中以获得目标特定的IoU估计,这进一步使目标估计组件能够在大规模数据集上离线训练。在跟踪期间,通过简单地最大化每个帧中的预测IoU重叠来找到目标边界框。结果表明,与经典的多尺度搜索方法相比,性能有了显著提高。最近的几个DCF跟踪器,包括DiMP、PrDiMP和KYS,也使用了这种策略进行状态估计。在PrDiMP中,它使用基于能量的模型来预测边界框的非归一化概率密度,而不是预测IoU。这是通过最小化KL散度到标签噪声的高斯模型来训练的。Siamese tracker还探索了用于尺度估计的bounding box方法。文献中提出了两种不同类型的方法,包括基于anchor的和anchor-free的box回归。
Anchor-based Bounding Box Regression Method:Li等人提出了RPN驱动的Siamese 跟踪器,其输出分类(Lcls)和回归(Lreg)分量,用于估计位置和比例。与采用多尺度搜索进行尺度估计的SiamFC不同,SiamRPN首先在每个卷积特征地图位置初始化不同尺度和纵横比的前K个方案(即所谓的锚),并应用一些策略来确定其中的最佳方案。它丢弃了生成的距离中心太远的边界框,并通过对分数应用余弦窗口和比例变化惩罚来重新排列提案。RPN共享特征,从而实现高效的区域建议计算。与经典的多尺度空间搜索方法相比,该方法改进了Siamese 跟踪范式。许多最新的跟踪器,如DaSiamRPN、SiamRPN++、SiamDW、SPLT、C-RPN、SiamAttn、CSA和SPM等,也基于相同的概念。
Anchor-free Bounding Box Regression Method: Chen等人提出了SiamBAN跟踪器,其中使用anchor-free box回归来估计目标scale。跟踪器避免了与没有任何预设锚框的目标边界框关联的超参数。跟踪器利用全卷积网络的表达能力对目标进行分类,并以统一的方式回归其边界框。与SiamRPN类似,SiamBAN包括分类模块,其对相关层的每个点执行前景背景分类,回归模块对相应位置执行边界框预测。虽然基于anchor的边界框回归可以处理Siamese 跟踪器中的比例和纵横比变化,但它主要有两个缺点。首先,它通常需要一组非常大的anchor来覆盖图像中的几乎所有对象,并且由于图像中的目标可能只占据很小的区域,在正样本和负样本之间产生巨大的差距,这会大大降低预测模型的性能。其次,anchor的使用引入了许多超参数和选择,包括anchor的数量、尺寸和纵横比。在某种程度上,更好的跟踪结果在很大程度上取决于预设的anchor。另一方面,基于anchor-free边界框回归的跟踪器不需要选择具有先验知识的框。它的最大优点是根据网络的输出直接预测对象的类别和位置信息,而无需设置先验框的繁琐过程。由于其简单和方便,与基于anchor的RPN尺度估计方法相比,anchor-free跟踪器进一步提高了跟踪性能。Ocean和SiamCAR跟踪器也使用了相同的方法进行尺度估计,目标检测能力在两种范式的目标状态估计组件中都取得了显著进展。使用RPN和anchor-free边界框回归的最新趋势揭示了在端到端模式中进一步探索这些技术。基于深度DCF的跟踪器还可以利用这些基于anchor的和anchor-free的回归方法进行鲁棒跟踪。
Offline Training
为了解决这个问题,跟踪社区通过利用外部图像和视频数据集学习外观模型,取得了显著进展。目标检测、图像分类和目标分割数据集(包括ImageNet ILSVRC2014、ILSVRC2015、COCO、YouTubeBB和YouTube VOS)已被这两个跟踪器家族广泛使用。这些数据集充分覆盖了大量的语义,并且不关注特定的对象,否则,调整后的网络参数将过度适合离线训练中的特定对象类别,数据集通常用每帧中目标对象的边界框进行注释。
端到端DCF跟踪器充分利用大规模训练数据集来学习稳健的判别模型。例如,CFNET、ATOM、DiMP和PrDiMP使用了TrackingNet、LaSOT、GOT10K、ILSVRC2014和COCO数据集以及一些增强技术。DiMP从序列中输入一组多个训练样本,并在成对的训练和测试集上进行训练。每组由与其边界框配对的图像组成,然后使用训练样本预测目标模型,在测试帧上进行评估,ATOM和PrDiMP跟踪器采用了相同的策略。在Siamese 跟踪中,使用图像对训练网络,使用一幅图像预测目标模板,另一幅图像评估跟踪器。与DCF范式不同,标准Siamese 公式不能在跟踪过程中利用已知干扰物的外观。因此,当与目标本身相似的物体出现时,Siamese 的方法往往会遇到困难。例如,当视图中有相同语义类的其他对象时,就会发生这种情况。早期Siamese tracker在训练期间仅从同一视频中采集训练图像对,这种抽样策略不关注具有语义相似的干扰物对象的挑战性案例。为了解决这个问题,文献中已经开发了hard negative开采技术。例如,Zhu等人在DaSiamRPN中引入了hard negative挖掘技术,通过在训练过程中加入更多的语义hard negative对来克服数据不平衡问题。构建的负对由相同和不同类别的标记目标组成,该技术帮助DaSiamRPN通过更多地关注细粒度表示来克服漂移。Voigtlander等人提出了另一种使用嵌入网络和最近邻近似的hard negative挖掘技术。对于每个GT边界框,使用预训练的网络为相似的目标外观提取嵌入向量。然后使用索引结构来估计近似最近邻居,并使用它们来估计嵌入空间中目标对象的最近邻居。利用更多训练数据和设计数据挖掘技术的这一最新趋势已在多个基准上显示出优异的跟踪性能,为探索离线训练中更复杂的技术打开了许多大门!
两种范式向基于分割的跟踪器演变
精确的目标分割为跟踪提供了可靠的对象观察,分割和跟踪的结合可以解决几个跟踪问题,包括旋转边界框、遮挡、变形和缩放等,并从根本上避免跟踪失败。因此,分割分支可以充当跟踪器的补充组件。在文献中,基于分割的方法已被纳入DCF和基于Siamese的跟踪器中,用于在存在非矩形目标的情况下改进滤波器学习。例如,在DCF跟踪中,Bertineto等人使用基于颜色直方图的分割方法来改善在变化的照明变化、运动模糊和目标变形下的跟踪。Lukezic等人提出了一种使用基于颜色的分割方法来正则化滤波器学习的空间可靠性图,提出了一种使用手工特征的实时跟踪器,并使用深度特征实现了类似的性能。Kart等人将CSR-DCF跟踪器扩展为基于颜色和深度分割的RGB深度跟踪,因为深度线索提供了更可靠的分割图。Lukezic等人提出了一种单镜头分割跟踪器,以解决联合框架内的VOT和视频目标分割问题。目标用两个判别模型编码,用于联合跟踪以及分割任务。许多跟踪和分割基准都报告了结果,并证明了其好处。最近,Robinson等人使用从ATOM借来的快速优化方案,为视频对象分割任务采用了一种强大的判别模型,Bhat等人也使用目标模型辨别能力进行更稳健的视频目标分割。
最近,SNs也被扩展以执行视频对象分割和跟踪。Siamese跟踪器速度很快,提供实时性能,而视频分割方法速度慢且不实时,因此,将这两个问题结合起来,可以为跟踪和分割提供有效的解决方案。Wang等人提出了一个SN来同时估计二进制掩码、边界框和相应的背景前景得分,这种多级深度网络缺乏联合处理视觉跟踪和目标分割以提高鲁棒性的机会。Lu等人采用了无监督视频对象分割任务,其中基于SN[90]内的共同关注机制提出了一种新的架构。
多目标跟踪pipelines中两种范式的集成
多目标跟踪(MOT)是估计视频序列中多个目标的轨迹的任务。MOT具有挑战性,因为成功的方法不仅需要在每一帧中准确检测感兴趣的对象,还需要在整个视频中关联它们。尽管DCF和Siamese跟踪器有希望朝着单目标跟踪的方向发展,但这两种范式也已集成到MOT管道中,以定位每帧中的多个目标。例如,Zhu等人在统一框架中集成了ECO跟踪器,以处理鲁棒目标关联的噪声检测[173]。Chu等人将区分性实例感知KCF跟踪器集成到MOT框架中[20]。最近,Zhou等人,基于综合分割的判别跟踪器用于多对象分割[171]。跟踪器分支在线训练每个目标的单独单个目标跟踪模型,以将目标与其周围目标区分开来。
Taixe等人提出了MOT中第一批用于目标关联的SN。Yin等人整合了经典的SiamFC跟踪器,并提供了一个统一的模型来估计对象运动和亲和网络。最近的研究还成功地整合了SiamRPN和GOTURN跟踪器,以在存在闭塞的情况下提高MOT性能。上述MOT方法提高了鲁棒性,并减轻了在存在单个对象跟踪器的情况下对外部检测器的依赖。利用单目标跟踪范式作为MOT模型的一个组成部分的这一最新趋势在多个基准上表现出了优异的性能,为进一步探索DCF和SN的固有特性开辟了新的方向!
DCFS和Siamese跟踪器的明显开放问题
DCF跟踪pipeline中的显著问题
尽管具有重要的有前途特性,但标准DCF框架在应用于通用对象跟踪任务时面临着几个不同的挑战,包括特征表示、边界伪影和优化。下面我们确定并讨论了开发基于DCF的跟踪pipeline的这些重要挑战!
1)特征表达
在目标跟踪中,文献中研究了各种视觉特征。当应用线性判别模型(如DCF)时,找到有区别但不变的特征尤其重要,因为DCF仅限于找到线性决策边界。已经在基于DCF的跟踪框架内探索了手工制作的特征[22]、[39]、[129]、深度特征[13]、[51]、[116]、混合特征和端到端特征学习[24]。接下来将详细介绍基于DCF的跟踪器中使用的不同类型的功能。
手工制作的特点:早期的DCF跟踪器,如MOSSE和CSK,已经利用了强度特性进行目标跟踪。除了强度特征之外,局部颜色和强度直方图特征也用于DCF跟踪器,例如RPAC、LCT+、LCT和CACF。包括RGB和LAB在内的简单颜色表示已用于基于DCFs的跟踪器,如STAPLE(RGB)、SCT(RGB+LAB)和ACFN(RGB+AB)。为了实现更具辨别力的图像表示,ACA研究了不同的颜色描述符,并提出将颜色名称(CN)特征与强度通道一起使用。ACA跟踪器进一步引入了自适应降维技术来压缩CN特征,从而在速度和跟踪性能之间提供了折衷。CN特征也已用于几种后续的基于DCFs的跟踪器中,如MCCT、MKCF、MUSTer、CSR-DCF、CCOT、ECO、UPDT、AutoTrack、ARCF、GFS-DCF、RPCF和DRT。
基于DCF的跟踪器中采用的另一个流行的手工特征是定向梯度直方图(HOG),HOG通过收集图像梯度的统计信息来捕获形状信息,HOG形成在密集的图像网格中。在DCF范式中,KCF是第一个利用HOG特征进行跟踪的跟踪器。一些DCF跟踪器,如MCCF、CFLB、BACF、SRDCF、STRFC、RPCF、GFS-DCF、RPT、RCF、LMCF、PTAV、StruckCF、CFAT和LSART,已经利用了HOG特征。由于其速度和有效性,这些功能已成为手工方法中的首选。此外,HOG特征还被有效地与CN特征相结合,以利用形状和颜色信息。
深度特征:近年来,深度学习已使计算机视觉的许多领域发生了革命性变化。深度卷积神经网络(CNN)已证明特别适合于图像相关任务,他们将一系列可学习的卷积和非线性运算应用到图像上。然而,将深度特征用于目标跟踪已被证明具有挑战性,这主要是由于在深度学习的最初几年,用于跟踪的训练数据不足,以及特征的高维度。因此,许多基于DCF的跟踪器,如HCF、HDT、CCOT、ECO、ASRCF和RPCF,使用在ImageNet数据集上预训练的深度神经网络进行图像分类。尽管进行了分类训练,但这种深度表示适用于广泛的视觉任务。
在DCF框架内,从卷积层提取深度特征,Ma等人将分层深度卷积特征用于视觉跟踪,从每个卷积层计算相关响应图,然后将较小的权重分配给较早的层,并将较高的权重分配到较晚的层,以实现更精确的跟踪。HDT跟踪器还采用了来自同一网络的六个卷积层的深度特征。DeepSRDCF跟踪器使用imagenet-vgg-m-2048网络,并对用于跟踪的卷积特征图进行了分析,表明了浅层的重要性。浅层包含高空间分辨率的低层信息,对于精确的目标定位非常重要。另一方面,深层特征地图对复杂的外观变化(如变形和平面外旋转)具有高度不变性。因此,更深的层具有提高跟踪鲁棒性的潜力,同时在很大程度上不受小的平移和尺度变化的影响,在DCF框架内融合浅层和深层卷积层的精确策略一直是一个令人感兴趣的话题。在CCOT中,提出了DCF框架的连续域公式,该公式能够集成多分辨率特征。ECO研究了降低CCOT计算成本的策略,并缓解了过度拟合的风险。其他跟踪器,如HDT、HCF、MCCT、MCPF、MCPF、LMCF、STRRC、TRACA、DRT、UPDT和GFS-DCF,使用后期融合策略集成深度特征。该策略是在每个单独的特征表示,然后聚合特征响应图。
2)边界伪影
在DCF公式中,标准卷积被循环卷积有效地代替,以确保DFT的适用性,从而得到用于评估目标预测的公式。圆形卷积提高了计算效率,但作为缺点,它引入了不需要的边界伪影。DCF范式的基本概念是训练能够将目标与背景图像区域区分开来的滤波器w,由于周期性的影响,大部分原始背景内容被较小图像块的合成重复所取代。因此,该模型在训练过程中看到的背景样本较少,严重限制了其辨别能力。此外,由于周期性重复导致的失真,预测的目标分数仅在图像块的中心附近准确。因此,搜索区域的大小是有限的。正如传统上在信号处理中执行的那样,DCF方法通常通过将样本x乘以窗函数来预处理样本。然而,该技术并不试图解决上述问题,仅用于消除边界区域的不连续性。文献中提出了几种解决方案来克服上述边界伪影问题,为此,提出了几种方法,这些方法在DCF目标函数[21],[30],[42],[65],[74]中结合了目标特定的空间、时空和平滑度约束。
空间正则化:在SRDCF中,Danelljan等人提出了一个空间正则化框架来控制滤波器的空间范围,以缓解边界问题[30]。空间正则化组件被集成到多通道DCF公式中,如下:
约束优化:虽然SRDCF[30]旨在惩罚目标区域外的滤波器系数,但Kiani等人建议引入硬约束。该策略强制滤波器系数w(n)在目标区域外为零,所得DCF公式可通过引入二元掩模P来表示如下:
隐式方法:利用GFS-DCF,Xu等人提出了一种联合组特征选择模型,该模型同时学习三个正则化项,包括用于特征选择的空间正则化、用于特征信道选择的信道正则化和用于增强滤波器权重平滑度的低秩时间正则化项。Mueller等人提出正则化每个目标patches的上下文信息,在每一帧中,CACF对几个上下文patches进行采样,这些patches充当负样本。
空间公式:Danelljan等人和Bhat等人提出了ATOM和DiMP跟踪器。这两种跟踪器都采用低分辨率的深度特征(步幅16),以便首先粗略但稳健地定位目标对象。由于分辨率较低,目标滤波器尺寸较小,Danelljan等人发现,可以使用专用高效的迭代求解器在空间域中直接学习滤波器。这种方法允许ATOM和DiMP完全避免边界伪影问题,因为不执行训练样本的周期性扩展。基于正则化的(SRDCF,STRFC)和基于约束的(CFLB/BACF)公式都取得了巨大的成功,并在广泛的跟踪器中使用。然而,最近的深度学习方法(ATOM/DiMP)通过直接优化空间域中的滤波器,完全避免了边界伪影问题。因此,尽管傅里叶域在计算上对高分辨率特征地图很有吸引力,但当使用强大的低分辨率深度特征时,高效的空间域优化方法在在线学习中占优势。因此,最近在基于DCF的跟踪中构成当前SOTA的工作,[26]采用了纯空间公式,不需要额外的策略来缓解边界效应。通过进一步将滤波器扩展到多通道输出,后一种策略也证明了其用于分割。
3)Optimization
在标准DCF公式中,通过使用最小二乘解计算DFT系数进行推断。然而,当模型变得更加复杂和先进时,例如,通过引入多分辨率特征图和目标特定约束(如空间正则化和时间正则化),不能使用简单的最小二乘解来执行模型推断。由于计算效率在大多数应用中是一个关键因素,因此这些修改需要替代的推理方法。因此,在基于DCF的跟踪中,寻找有效且鲁棒的推理方案是一个关键问题。通过最小化多通道损耗来执行模型推断,这是DCF框架的基础。然而,它不允许任何有效的封闭形式解决方案。因此,许多DCF跟踪器(如CACF、CSK、KCF、MUSTer、SP-KCF和CFAT)在原始域或对偶域中使用可对角化情况来推导近似模型推断方案。这些损失函数分别依赖于单个特征信道D=1和单个训练样本m=1的非常严格的假设。此外,这些解决方案不能从上述额外的规则化中受益,文献中介绍了几种用于模型推断的有效优化方法,以最小化损失函数。
Gauss-Seidel方法:在线最小化DCF损失函数及其空间正则化变量是一个极具挑战性的问题,因为滤波器w包含数万或数十万个要优化的参数。在[30]中,提出了一种基于迭代高斯-塞德尔方法的优化方法,以最小化空间正则化损失函数。同样的策略也在其采用深度特征的变体DeepSRDCF中被考虑。通过采用基于Gauss-Seidel的优化,跟踪器实现了每秒几帧的跟踪速度。虽然还不是实时的,但与以前的方法相比,它表现出了卓越的鲁棒性和准确性,但比许多竞争对手更快。
基于共轭梯度的方法:为了为使用深度特征铺平道路并进一步提高计算效率,CCOT中使用了基于共轭梯度(CG)的策略,CG可以应用于任何一组满秩的正规方程Aw~=b。
交替方向乘子法(ADMM)方法:当经典DCF公式根据额外正则化增长时,该公式成为约束优化问题,可以使用有效的凸或非凸解算器(如基于ADMM的优化方法)来解决。ADMM方法最近被用于许多基于DCF的跟踪器中,以有效地解决DCF损失函数,特别是当引入额外的正则化时。基于ADMM的优化方法为每个子问题提供了封闭形式的解决方案,并在很少的迭代内经验收敛。在ADMM中,通过将模型分解成更小的部分来求解模型,这样就更容易处理。增广拉格朗日公式通常用于将约束优化模型转换为无约束模型,并将拉格朗日惩罚作为附加变量,然后以迭代方式解决无约束模型的每个子问题。BACF、DRT、AutoTrack、ARCF和RPCF等跟踪器已采用ADMM作为有效解决方案。ACFN、CREST和DSLT+跟踪器使用梯度下降等其他优化方法进行网络优化!
流行的选择:共轭梯度和ADMM(STRFC、BACF、RPCF、ASRCF、GFS-DCF和MCCT)都是DCF跟踪器的热门选择。两者都支持使用例如空间正则化或约束来减轻边界伪影所需的更复杂的DCF公式。最近的方法DiMP采用了空间域公式中的最陡下降,而PrDiMP将其与牛顿近似相结合,以最小化非线性KL发散目标。
Siamese跟踪pipelines中的显著问题
经典SN在精度和效率方面都优于DCF跟踪器,然而SN在离线训练中存在大量注释图像对、缺乏在线适应性和损失函数公式化方面也存在一些局限性。下面确定并讨论了开发基于Siamese强大跟踪器的重要挑战,还简要描述Siamese跟踪中这些问题的细节及其近年来开发的潜在解决方案。
1)Online Model Update
在SiamFC中,目标模板在第一帧中被初始化,然后在视频的其余部分保持固定。跟踪器不执行任何模型更新,因此,性能完全依赖于SN的一般匹配能力。然而,在存在跟踪挑战的情况下,外观变化通常很大,如果无法更新模型,则会导致跟踪器失败。在这种情况下,使模型适应当前目标外观非常重要。在文献中,跟踪社区还提出了这方面的潜在解决方案!
移动平均更新方法:许多最近的SOTA跟踪器,包括GOTURN、SINT和SiamAttn等,采用了一种简单的线性更新策略,使用固定学习率的运行平均值。虽然它提供了一种集成新信息的简单方法,但由于恒定的更新速率和简单的线性组合,跟踪器无法从漂移中恢复以前的外观模板。
学习动态SN方法:Guo等人提出了DSiam跟踪器,并设计了动态变换矩阵。包括目标外观变化和背景抑制在内的两个不同的在线变换矩阵被合并在经典SN中,这两个矩阵都在傅里叶域中用封闭形式的解来求解。DSiam提供了有效的在线学习,但它忽略了历史目标变化,这对于更平滑地适应示例模板很重要。
动态内存网络方法:Yang等人提出了MemTrack,它动态地写入和读取先前的模板,以应对目标外观变化,长期短期存储器用作存储器控制器。该网络的输入是搜索特征图,并且该网络输出用于存储器块的读取和写入过程的控制信号。该方法使跟踪器能够记住长期目标外观,然而,它只关注于结合先前的目标特征,而忽略了背景杂波中的辨别信息,这导致了在存在剧烈目标变化时的精度差距。为了解决这一不足,Yang等人提出了一种负记忆单元,该单元存储干扰物的模板,用于消除对象模板中的错误响应。
梯度引导方法:Li等人提出了GradNet,其中通过前馈和反向操作对梯度信息进行编码以更新目标模板。跟踪器利用来自梯度的信息来更新当前帧中的模板,然后合并自适应过程以简化基于梯度的优化过程。与上述方法不同,该方法充分利用了后向梯度中的判别信息,而不是仅仅集成先前的模板。与它他方法相比,这会提高性能,但是,以反向传播方式计算梯度会带来计算负担!
2)Loss Functions
跟踪性能还取决于SNs内采用的损失函数,SNs中使用了不同的损失函数,用于回归、分类或两项任务,下面将更详细地总结这些发展!
Logistic Loss:经典SiamFC采用Logistic Loss,包括DSiam、RASNET、SA-SIAM、CFNET、SiamDW和GradNet等在内的各种其它追踪器都使用了逻辑损失来训练基于SiamFC的模型。该训练方法通过最大化目标pos对上的相似性分数和最小化目标negative对上的相似度分数。
对比损失:定义为:
Triplet Loss: 上述损失仅利用图像之间的成对关系,而忽略了目标的正面和负面实例之间的潜在结构联系,Yan等人提出了SPLT跟踪器,其中在训练期间采用了Triplet Loss:
交叉熵损失:SNs中的分类成分通常从目标检测方法中借用。为了合并这一分支,使用了交叉熵损失(Lcls)。Li等人提出了采用交叉熵损失的SiamRPN跟踪器。其它跟踪器,如SiamRPN++[72]、SiamAttn[158]、Ocean[168]、CLNET[34]、SPM[131]、C-RPN[38]等,也已通过使用交叉熵损失的训练分类分支建立在SiamRPN跟踪器上。
回归损失:为了训练回归网络,使用了三种类型的损失函数,包括平滑L1范数、联合交叉(IoU)损失和正则化线性回归。在SiamRPN跟踪器[73]中,该范数用于训练回归分支,在此之后研究表明,包括SiamRPN++、SiamAttn、CLNET、SPM和C-RPN在内的其他跟踪器也使用smoothL1损失训练了跟踪器的回归分支。
正则化线性回归:为了用相关滤波器作为独立层来正则化SNs,在许多Siamese跟踪器中使用了线性回归损失,包括CFNET、TADT、RTINE、DSiam、FlowTrack、UDT和UDT++等。然后通过封闭形式的解决方案来解决岭回归问题,并以端到端的方式训练滤波器。从广义上讲,这些跟踪器的训练有点类似于端到端DCF训练。典的SiamFC使用强大的嵌入来定位目标对象,而无需在线模型更新。然而,使用固定的目标模板来比较外观可以防止学习者利用任何可能有助于辨别的视频特定线索。与经典Siamese跟踪不同,在这些跟踪器中使用相关滤波器作为单独的层有助于区分目标和背景区域,从而利用视频中的目标特定信息。目前,文献中对所采用的损失函数没有普遍共识,相反,最近的SOTA方法采用了不同的替代方案。在上述方法中,交叉熵损失仍然是一种流行的选择,对于最近的跟踪器也是如此。
实验比较
论文彻底分析了59个DCF和33个基于Siamese的跟踪器性能。这些跟踪器性能已经在九个跟踪基准上进行了定量比较:在线跟踪基准100(OTB100)、Temple Color 128(TC128)、无人机123(UAV)、视觉目标跟踪2014(VOT)、VOT2016、VOT2018、TrackingNet、大规模单目标跟踪(LaSOT)和通用目标跟踪10000(GOT-10K)。图5显示了来自不同跟踪基准的示例帧,比较跟踪器的定量结果直接取自各自的论文或其它论文。本文还评估了具有代表性的跟踪器,并再现了跟踪性能,以进行公平比较。
跟踪Datasets
为了对视觉跟踪器提供标准和公平的性能评估,随着时间的推移,提出了一些基准。除了short跟踪,最近的几个数据集提供了短期和长期跟踪序列。公开可用的基准数据集包含各种跟踪挑战,包括尺度变化(SV)、视野外(OV)、变形(DEF)、低分辨率(LR)、照明变化(IV)、面外旋转(OPR)、OCClusion(OCC)、背景杂波(BC)、快速运动(FM)、面内旋转(IPR)、运动模糊(MB)、部分OCClusions(POC)、相机突然运动(CM)、,纵横比变化(ARC)、全聚焦(FOC)、视点变化(VC)、相似物体(SOB)、物体颜色变化(OCC)、绝对运动(AM)、目标旋转(ROT)、场景复杂度(SCO)、快速相机运动(FCM)、低分辨率物体(LRO)和移动变化(MOC)。表1给出了实验比较中使用的每个数据集的描述,有关每个跟踪数据集的详细描述,请参阅补充材料。
Performance Evaluation Measures
为了比较跟踪器的性能,文献中提出了不同的评估指标,以评估鲁棒性、准确性和速度方面的有效性。
Precision Plot:精度图基于中心位置误差,该误差定义为目标物体的预测中心与帧中地面真实中心之间的平均欧几里德距离,然而,该误差不能准确地计算跟踪性能。因此,采用距离精度,其定义为目标对象位于T像素的中心位置误差内的帧的百分比,使用阈值T=20像素的该度量对跟踪器进行排名。通过绘制阈值范围内的距离精度来生成精度图。
平均重叠:该度量估计地面真实值和估计边界框之间的平均重叠,如成功图[60]所示。
SR0.50和SR0.75:这些度量表示测量成功跟踪帧百分比的成功率,其中重叠精度超过0.50和0.75的阈值。使用[140]中定义的一次通过评估标准来测量OTB100、TC128、UAV123和LaSOT数据集上的精度和跟踪性能。这些数据集上的跟踪器通过初始化第一帧上的边界框并让其运行到序列结束来评估,在VOT系列中,一旦跟踪器偏离目标,它就会重置。根据VOT评估协议[47]、[66]、[68],在精度(A)、鲁棒性(R)和预期平均重叠(EAO)度量方面比较跟踪器。A是成功跟踪期间预测和地面实况边界框之间的平均重叠。R测量跟踪器在跟踪过程中丢失目标(失败)的次数,一旦跟踪器丢失目标对象,重置机制会在一些帧后启动。EAO是跟踪器期望在具有与给定数据集相同视觉特性的大量短期序列上获得的平均重叠的估计量。
定量比较
表2、3、4和5显示了基于DCF的典型跟踪器在九个跟踪基准上的性能比较。虽然早期使用深度特征基于DCF的跟踪器在OTB100上取得了很好的性能,但它们在最近更具挑战性的大规模数据集(如LaSOT)上提供了较差的结果。例如,ECO在OTB上获得了91.0%的PR分数,但在LaSOT上仅获得30.1%的PR分数,相比之下,最近的端到端DCF框架,如DiMP及其继任者PrDiMP,在OTB100和LaSOT上都取得了令人印象深刻的性能。例如,PrDiMP在OTB100、UAV123和LaSOT上的PR得分分别为90.3%、87.8%和60.9%。在现有的基于DCF的跟踪器中,DiMP和PrDiMP在大多数基准上都取得了优异的结果。PrDiMP在UAV123、LaSOT和GOT10K上取得了顶级性能,同时在OTB100、VOT2016和VOT2018-ST上也取得了竞争性成绩(前三名)。这些现代DCF跟踪器(DiMP和[6],[26])的成功归功于其高效的端到端可训练架构,该架构能够通过充分利用目标和背景外观信息来学习有区别的目标模型预测。这些跟踪器使用特定的优化过程,在几次迭代中学习强大的模型。例如,PrDiMP利用更一般的牛顿近似来解决KL发散目标,此外,这些现代跟踪器包括专用的目标估计组件,以执行深度bounding box回归,并且还避免边界伪影的问题。
表2、表3、表4和表5还显示了代表性暹罗跟踪器在九个基准3上的性能比较。在最近的Siamese方法中,观察到跟踪器关注不同的基本问题,例如在线模型更新、重新检测组件、改进的区域细化、有效的box回归以及弥合对象跟踪和对象分割之间的差距。例如,SiamAttn引入了一种注意力机制,以自适应地更新目标模板,并在OTB100、UAV123、VOT2016上获得最佳性能,同时在LaSOT、VOT2018-ST和TrackingNet上也获得了竞争性的结果(排名前三)。SiamAttn在OTB100、UAV123、LaSOT和TrackingNet上的AUC得分分别为71.2%、65.0%、56.0%和75.2%。此外,它在VOT2016和VOT2018-ST上分别获得53.7%和47.0%的EAO分数。SiamRPN引入了基于锚的RPN组件,用于准确的规模估计,并获得了比SiamFC更好的性能(VOT2016上的EAO为34.4%)。SiamBAN引入无锚边界框回归,在VOT2016数据集上获得了超过SiamRPN 50.5%的最高性能。SiamR CNN引入了与基于tracklet的动态编程方案相结合的重新检测架构,并在TC128(64.9%的AUC分数)、LaSOT(64.8%的AUC得分)、GOT-10K(64.9%mAO分数)和TrackingNet(81.2%的AUC分)上获得了最高性能,同时在其他数据集上也获得了竞争性结果(在前三名中)。Ocean引入了一种方法来改进不精确的边界框预测以及学习对象感知特征,并在VOT2018-ST上获得了最佳性能(48.9%EAO分数)。D3S是一种单camera分割跟踪器,使用两个具有互补属性的目标模型,并在VOT2018-ST和VOT2020-ST上获得最佳结果(48.9%和43.9%EAO分数)。
图6显示了近年来不同基准(OTB100、LaSOT、GOT-10k和TrackingNet)的跟踪性能改进趋势。可以观察到近年来OTB100的性能已经饱和,几个视觉跟踪器获得了超过90%的PR分数(表2),这可能是由于许多相对容易的视频。然而,最近推出的LaSOT、GOT10K和TrackingNet都显示出类似的趋势,最近的跟踪器在这些数据集上取得了一致的改进。在图1中的VOT数据集上也观察到了类似的趋势,例如,LaSOT的最佳报告AUC评分仍在65%左右。类似地,尽管近年来在性能上有了令人印象深刻的飞跃,但仍有很大的空间来进一步提高VOT数据集中的跟踪性能。这表明,这些新的具有挑战性的基准对SOTA跟踪器来说仍然非常具有挑战性,它们的引入对推动视觉跟踪研究的边界做出了重大贡献。
本文还使用相同的训练数据集、相同数据集上的超参数调整以及相同机器上的速度比较,评估了一些具有代表性的SOTA跟踪器。有关更多实施细节,请参阅补充材料(第二节)。表6显示了这些代表性跟踪器的性能比较。总体而言,离线跟踪器在VOT数据集上表现出一致的性能改进。例如,DiMP是两个VOT数据集上基于DCF的跟踪器中表现最好的,EAO得分分别为49.1%和45.1%。同样,SiamCAR在Siamese追踪器中表现最好。用于尺度估计的无锚边界框回归组件也在SiamBAN和SiamCAR跟踪器中显示了有希望的性能改进。例如,与SiamRPN中使用的基于锚的尺度估计相比,与经典SiamFC跟踪器相比,SiamCAR中的无锚边界框回归实现了12.0%的改进和21.9%的改进。上述数据集也具有截然不同的性质和特征,LaSOT和UAV123含有长序列和多个干扰物。在这里实现高性能的跟踪器显示出强大的鲁棒性和重新检测能力。论文观察到,最近的跟踪器DiMP和PrDiMP获得了强大的结果,并且SiamR CNN中的干扰物感知轨迹生成提高了此类场景中的鲁棒性。与LaSOT相比,TrackingNet和GOT10k包含短序列,其中鲁棒性和重新检测能力的重要性要小得多。相反,这些数据集以高度精确的边界框预测来奖励跟踪器,例如SiamR CNN和PrDiMP,在Siamese跟踪器中,我们观察到SiamR CNN和SiamAttn在多个数据集中取得了最一致的良好结果。SiamAttn的例外是LaSOT,而SiamR CNN在VOT上举步维艰。在基于DCF的方法中,PrDiMP在所有评估的数据集!
速度比较
跟踪速度是评估跟踪器特别是满足实时要求的另一个非常重要的指标。然而,评估跟踪速度并不简单,因为许多关键因素都会影响跟踪速度,包括特征提取、模型更新方法、编程语言,以及最重要的是跟踪器所使用的硬件。我们使用特斯拉V100 GPU以表6所示的每秒帧数(FPS)评估了具有代表性的跟踪器的跟踪速度。总的来说,DCF跟踪范式还需要显示跟踪速度的显著改进。
一些结论
端到端跟踪框架的重要性:这些框架最近表现出了出色的性能。尽管端到端离线学习是Siamese跟踪的先决条件,但最近的DCF方法也成功地采用了这种模式。因此,学习基本特征以及预测头对于优化性能至关重要,这在过去几年中才有可能,因为引入了大规模的训练数据集。
稳健目标建模的重要性:尽管基于Siamese的方法在许多领域都表现出色,但基于端到端DCF的方法在具有挑战性的长期跟踪场景(如LaSOT)中仍然显示出优势。这表明了鲁棒在线目标外观建模的重要性,通过在网络架构中嵌入辨别学习模块来实现。这样的方法有效地整合了背景外观线索,并且可以在使用在线学习的跟踪过程中容易地更新。
目标状态估计:基于Siamese的方法通过利用邻近目标检测领域的进展,推动了更精确的bounding box回归的发展。最近的基于单阶段(anchor-free)的方法,例如Ocean,实现了简单、准确和高效的边界框回归。此外,这些策略是通用的,可以很容易地集成到任何视觉跟踪架构中。
分割的作用:尽管边界框回归的任务在跟踪方面取得了实质性进展,但这种目标状态模型本质上是有限的。相反,分割保证了对目标的像素精确估计,这在许多应用中是非常期望的。此外,分割提供了改进跟踪本身的潜力,例如通过帮助目标模型更新。此外,如示例[149]所示,分割进一步有助于精确边界框的回归,并有助于估计跟踪对象的尺度。因此,未来的努力应旨在将精确分割整合到稳健的跟踪框架[109],[142]中。
主干架构:ResNet架构在一些计算机视觉应用中经受住了时间的考验。在视觉跟踪中,它仍然是最流行的特征提取选择。该架构简单、有效,并允许以多种分辨率提取特征。尽管在推进SOTA的边界时有效,但对于具有较难计算约束的平台(如CPU)上的实时应用程序,它仍然需要计算成本。一个非常有趣的未来方向。
因此,开发适合跟踪任务的高效骨干网络。还可以提出融合细粒度和语义信息的融合策略,以增强跟踪器的辨别能力。此外,基于视觉vit的主干架构可以作为特征提取器模块或作为vit主干的端到端训练用于跟踪任务。
估计几何:在某些应用中,例如在增强现实中,需要在帧之间进行精确的几何变换,以使添加的图形显示为附加到对象。对于平面对象,需要在参考视图和当前视图之间进行至少仿射变换,但最好是单应性。对于非平面对象,问题与对象三维形状的在线重建相关[141]。DCF和Siamese方法都没有提供精确的几何对应,这仍然是一个开放的研究问题。
transformer的角色:transformer在各种视觉任务中取得了成功,最近的跟踪方法以不同的方式使用transformer。[14] ,[136]结合Siamese跟踪器的任一DCF,利用vit进行特征增强。[97]使用vit在存在干扰物的情况下在帧之间关联目标对象。
参考
[1] Visual Object Tracking with Discriminative Filters and Siamese Networks: A Survey and Outlook
版权归原作者 苦难大叔 所有, 如有侵权,请联系我们删除。