目标跟踪论文笔记：Deeper Wider Siamese Tracker（CVPR2019）

Happy清子 · 发表于 2019-3-24 10:54:23

Deeper and Wider Siamese Networks for Real-Time Visual Tracking

本文来自微软研究院和中科院王强团队出品，研究方向是实时目标跟踪算法，已经被CVPR2019收录，单目标的跟踪算法现在基本都是基于Siamese框架，本文的重点其实在于对Siamese框架的跟踪算法进行了比较系统的分析，得出了一些结论值得一看。

文章主要贡献

文章对影响跟踪精度的主干网络因素进行了系统的研究，为Siamese跟踪框架提供了一个架构设计的指导；基于文章提出的无填充残差单元，设计了一种新的用于Siamese跟踪的更深、更宽的网络架构。实验结果显示新的架构对基准跟踪算法确实有很明显的性能提升效果。文章对Siamese跟踪算法的分析

文章首先发现，将Siamese框架中的主干网络AlexNet换成VGG，ResNet，Inception之后，性能会随之下降，因此，作者试图通过详细的消融实验找到影响性能下降的根本原因。

1. 定量分析

作者指出性能下降的直接因素就是网络架构，这个从下面的对比表格可以看出来。

不同网络结构AUC的对比

上表更重要的是比较了各种网络结构中不同的细节，比如步长、填充、感受野等。接下来就是对基础网络进行针对性的修改，完成消融实验，其结果如下表所示。

消融实验结果

消融实验非常详细，对AlexNet，VGG，ResNet以及Inception四种网络都做了相同的因素分析实验，得到了一些定量的结论：

Siamese跟踪器更喜欢中层特征，因为实验来看步长4或者8的时候比步长16定位更精确；感受野大小对于主干网络结构不敏感，从实验来分析，最佳感受野大小一般覆盖了输入样本图像的60%～80%，它对于Siamese框架中的特征嵌入至关重要；填充步骤对最终性能有很大的负面影响。2. 定性分析

作者指出，Siamese框架将中心裁剪的图像作为训练数据，其中目标对象始终出现在图像的中心。当使用带填充操作的卷积网络时，这种中心裁剪的数据将导致网络模型学习到一种位置的偏差，使网络总认为目标应该在图像中心。

3. 设计指导

根据上述定量和定性的分析，文章总结了四个基本的设计指南：

即使网络深度增加也尽量不要增加步长，从经验上权衡准确率和效率的化，补偿选择4或者8；应该根据其与样本图像大小的比例来设置输出特征的感受野，经验来看，有效比例为60%～80%，最大感受野不应该大于目标图像；设计网络结构时应该综合考虑步长、感受野和输出特征图尺寸，如果改变一个，其他两个也需要相应改变，这样可以给Siamese框架提取更有区分度的特征；对于全卷积Siamese网络，去掉填充操作是至关重要的。由其引起的位置偏差会影响Siamese跟踪器的精度和鲁棒性，尤其是目标快速移动或者在图像边界移动时。更宽、更深的Siamese网络

本文设计了一种新的模块，叫做内部裁剪的残差单元（CIR Units），并且通过堆叠CIR单元搭建了更深、更宽的主干网络。

文章提出了几种CIR单元模块：结构分别如下图所示。

CIR单元

图中可以看到，基本的CIR单元，在残差单元的add后面加入了一个裁剪层，其目的在于将那些受到之前填充操作影响的地方都删除；下采样的CIR-D单元，为了消除填充的影响，作者在瓶颈层和短接层中将步长改为1，在add之后同样采用裁剪，最后再使用最大池化执行尺寸下采样；CIR-Inception和CIR-NeXt单元，将CIR单元通过多个特征变换扩宽而来，其他修改与CIR-D的修改差不多。

作者使用CIR和CIR-D单元构建了四种更深的网络（16，19，22，43），使用CIR-Inception和CIR-NeXt单元分别构建了两种宽度的网络，实验结果如下表所示。

设计的Siamese跟踪器网络结构

实验

作者将上一节设计的几个主干架构应用到了两种具有代表性的Siamese跟踪器上（SiamFC和SiamRPN），并且在OTB和VOT等多个数据集上进行了实验对比，结果如下表，SiamRPN的性能普遍好于SiamFC，并且也更快。

基准测试集结果

此外，作者在OTB-2013，OTB-2015，VOT15，VOT16，VOT17上将这两个网络和SOT的多个跟踪器进行了详细比较证明了文章提出的方法在多个数据集上都达到了SOT的性能，如下表所示。

多个测试集上的性能对比

最后，作者也对设计的四种深度的网络进行了消融实验，以此验证CIR和CIR-D单元以及感受野、特征尺寸、步长对跟踪器最后性能的影响。