CVPR 2019 | 惊艳的SiamMask：快速同时进行目标跟踪与分割算法

Happy清子 · 发表于 2019-3-24 10:27:42

本帖最后由 Happy清子于 2019-3-24 10:29 编辑

近日，CVPR 2019 的接收论文《Fast Online Object Tracking and Segmentation: A Unifying Approach》作者Qiang Wang开源了这套SiamMask代码，引起了极大关注。我们一起来看看吧。

研究目的

以往大多数目标跟踪得到的结果是目标的包围框，而作者希望将跟踪与分割结合起来，算法“实时“给出目标的像素级标注。

作者是在近年出现的 SiamFC 跟踪算法基础上做的改进。

下图展示了其整天算法流程。左侧上面图像为框出来的目标图像，左侧下面图像为要搜索目标位置的视频中的一帧，经过卷积网络，生成Row（response of a candidate window，候选窗口响应），网络后面有三个head，除了在SiamFC法中已经存在的预测box（目标位置）的head和预测响应score（目标出现概率）的head，作者增加了预测目标mask（目标二值掩码）的head。

另外也可以直接去掉预测box的head，提高计算速度，包围框也可以通过mask计算得到。网络结构如下：

下图展示了使用SiamMask算法计算得到的图像中不同位置的score值。

实验结果

作者在VOT-2016、VOT-2018数据集上测试跟踪精度，在DAVIS-2016、DAVIS-2017数据集上测试了目标分割的精度。

下图是与普通的跟踪算法的结果比较：

SiamMask 相比之前的跟踪算法的 state-of-the-art 精度又改进不少。

下图是与现有的视频目标分割算法的精度的比较：

虽然SiamMask精度并不是最高的，但速度却比其他算法快1到2个数量级！在真实应用中更有价值。

重点来了！代码地址：

https://github.com/foolwood/SiamMask