|
简介
首先是motivation,作者注意到几乎所有的跟踪器都只用到了RGB信息,很少有用到视频帧和帧之间丰富的运动信息;这就导致了跟踪器在目标遇到运动模糊或者部分遮挡的时候,性能只能依靠离线训练的特征的质量,鲁棒性很难保证。于是作者就想利用视频中的运动信息(Flow)来补偿这些情况下RGB信息的不足,来提升跟踪器的性能. 具体来说,作者首先利用历史帧和当前帧得到Flow,利用Flow信息把历史帧warp到当前帧,然后将warp过来的帧和本来的当前帧进行融合,这样就得到了当前帧不同view的特征表示,然后在Siamese和DCF框架下进行跟踪.
创新点
1. 第一篇把Flow提取和tracking任务统一在一个网络里面的工作。
2.采用Siamese结构,分为historical branch和current branch. 在historical branch里面,进行Flow的提取和warp,
3.在融合阶段,我们设计了一种spatial-temporal attention的机制.
4.在current branch,只提取特征. Siamese结构两支出来的特征送进DCF layer, 得到response map.
总结来说,就是把Flow提取,warp操作,特征提取和融合,CF tracking都做成了网络的layer,端到端地训练它们。
主要框架
Siamese结构和DCF框架
---------------------
|
|