窦凯奇, 朱福珍
(黑龙江大学 电子工程学院, 哈尔滨150080)
近年来,视觉目标跟踪逐渐成为计算机视觉领域最为活跃的研究分支之一,小型无人机技术得到了迅猛发展,广泛应用于农业种植、桥梁检测、航拍娱乐和交通监管等领域,成为获取信息的重要平台[1]。与传统的固定成像系统相比,无人机平台具有体积小和机动性强等优点,能在任意位置进行起飞和降落。无人机具备长时间滞空的能力,能够最大化的维持拍摄。虽然无人机平台拥有诸多的优势,但其自身的特性也为无人机目标跟踪带来了许多新的挑战。基于无人机平台的目标跟踪,由于受到航拍视频分辨率低、目标占比相对较小以及背景杂波等诸多问题的干扰,为近景图像中目标跟踪任务所设计的跟踪器不能直接应用于无人机遥感目标跟踪中。
随着视觉目标跟踪技术的发展,基于孪生网络类的目标跟踪算法逐渐走入研究学者的关注视野。作为开创性工作之一,Bertinetto等提出了一种基于孪生全卷积网络的跟踪器(SiamFC)。SiamFC通过暴力的多尺度搜索来回归目标边界框,效率低且准确度不高[2]。受物体检测中区域建议网络(Region proposal network, RPN)的启发,Li等提出了SiamRPN,它在孪生网络输出端进行区域建议提取,获得了更准确的目标边界框[3]。为了使跟踪模型更加关注语义干扰因素,Zhu 等提出了DaSiamRPN,它聚合了一个干扰感知模块来进行增量的学习,通过这种方式,网络的类内判别能力得到了增强[4]。Li等提出了SiamRPN++,它使用多层聚合的方式来融合浅层特征和深层特征,利用了现代深度神经网络对特征的捕捉能力[5]。Wang 等提出了SiamMask,它将孪生网络的思想与分割的思想相结合,在孪生网络的基础上增加了一个掩码分支来计算分割网络的损失,提升了跟踪的精确度[6]。Xu等提出了SiamFC++,以无锚框的方式直接对响应特征图每个位置的目标候选框进行分类和回归,避免了预定义锚框的超参数,提升了算法的性能[7]。
本文研究了无人机遥感视频的目标跟踪问题,通过对基于孪生网络的跟踪算法中的孪生骨干网络以及头部网络进行改进,将近景视频中的相关方法扩展应用到遥感视频领域,跟踪车辆、舰船和飞机等目标。在预测头部网络中聚合了质量评估分支,来抑制低质量预测边界框的生成。分类置信度与定位精度的相关性较低,离目标较远的位置往往会产生低质量的预测边界框,若直接根据分类得分确定最终的预测边界框,会使定位精度下降。使用改进的ResNet-50作为骨干网络对模板和搜索区域进行深度特征提取,将骨干网络所提取的浅层特征和深层语义特征相融合,提升了跟踪的精度。实验在UAV123数据集中验证,证明了改进之后的跟踪框架在性能上的提高。
基于改进的孪生网络的无人机遥感目标跟踪的网络架构,可以将跟踪任务分解为分类和回归两个子问题,以逐像素预测的方式对跟踪问题进行求解。如图1所示,所提出的网络架构由三个部分组成:孪生骨干网络、特征融合网络以及预测头部网络。为了提升在低分辨率视频中对目标的捕获能力,使用修改的ResNet-50作为骨干网络对模板和搜索区域进行特征提取。为了使跟踪器能在存在大量背景杂波的条件下实现对目标的精确定位,在预测头部网络中聚合了质量评估分支,来抑制低质量预测边界框的生成,实现对目标的精确定位。
1.1 特征提取主干网络
使用文献[5]中改进的ResNet-50作为主干网络对目标进行特征提取。虽然通过ResNet-50可以学习到目标抽象的特征表示,但空间分辨率因此降低,孪生网络跟踪器需要根据详细的空间信息对目标的位置进行预测。为了解决这个问题,将Conv4和Conv5块中的下采样操作移除,同时应用扩张卷积来增大网络的感受野。此外,受到多网格方法[8]的启发,对孪生骨干网络应用了不同的扩张速率。详细操作:将Conv4块中的步幅设置为1,扩张率设置为2;
将Conv5块中的步幅设置为1,扩张率设置为4,以此来增大感受野。由于边缘、角、颜色和形状等浅层特征能够较好地表示视觉属性,有利于目标的定位。深层语义特征往往拥有优秀的表达能力,更有利于目标的分类,因此,本文将浅层特征与深度语义特征相融合,来提升跟踪的精度。为了提升跟踪器的判别能力,将从主干网络最后3个残差模块所提取的特征进行级联操作:
φ(X)=Cat(O3(X),O4(X),O5(X))
(1)
式中:O3(X)、O4(X)和O5(X)分别表示ResNet-50骨干网络最后3个残差模块所输出的特征;
Cat代表信道的级联操作,Oi=3∶5(X)都包含256个通道,因此φ(X)的通道个数为3×256。
图1 基于改进的孪生网络的无人机遥感目标跟踪的网络架构
使用无填充的全卷积神经网络来构建用于视觉特征提取的孪生骨干网络。孪生骨干网络由两个共享权重的主干子网络构成:一个称为模板分支,它接收模板补丁Z作为输入,通过主干子网络得到模板特征φ(Z);
另一个称为搜索分支,以搜索区域X作为输入,通过主干子网络得到搜索特征φ(X)。这两个分支在卷积神经网络中的参数设置是相同的,以确保对这两个输入应用相同的转换。为了获得包含目标丰富信息的特征响应图F,以φ(Z)作为卷积核,在φ(X)上执行互相关运算:
Fi=φ(X)*φ(Z),i∈{cls, reg}
(2)
1.2 预测头部网络
(3)
式中dl、dt、dr和db分别表示(pi,pj)到4个边界框的距离。
1.3 损失函数
由t(i, j)可以计算出真实边界框与预测边界框之间的交并比(Intersection over Union, IoU),接着通过下式来计算回归损失:
(4)
(5)
式中如果响应特征图上的点(i,j)在搜索区域所对应的位置(pi,pj)在真实的候选框内,那么I(·)的值就为1,否则为0。
(6)
式中:C(i,j)的值与搜索区域中(pi,pj)和搜索区域中目标中心之间的距离成反比,如果(pi,pj)位于背景之中,那么将C(i,j)的值设置为0。
质量评估分支的损失函数可以表示为:
(7)
因此,总体的损失函数可以表示为:
L=Lcls+λ1Lqty+λ2Lreg
(8)
式中:常数λ1和λ2为加权超参数;
Lcls为交叉熵损失;
Lreg为IoU损失,在训练期间将λ1和λ2分别设置为1和3。
1.4 跟踪过程推理
视觉目标跟踪的目标就是预测当前帧中目标的位置。对于响应特征图上的任意位置(i,j),本文所设计的视觉目标跟踪框架可以生成一个六维的向量Aij=(cls,qty,dl,dr,dt,db),其中cls表示分类分支的前景得分,qty表示质量评估得分,(dl+dr)和(dt+db)分别表示当前帧中预测目标的宽度和高度。当预测框生成后,可以利用尺度变化惩罚pij对目标的移动和形变进行抑制,对分类分支的前景得分cls进行重新排序,并对六维向量进行更新PAij=(clsij×pij,dl,dr,dt,db),那么跟踪过程可以公式化的表述为:
(9)
式中:H表示余弦窗口;
常数λ3为相关权重;
输出b是得分最高的目标像素的位置,然后选择得分最高的边界框作为预测边界框。
实验在CPU为Intel Xeon E5-2660 V2、显卡为GeForce GTX 2080Ti的硬件平台上完成,软件环境为Ubuntu 16.04,编程环境为基于Python 3.7的Pytorch 10.2。
2.1 UAV123基准实验结果
UAV123是一个广泛使用的无人机跟踪测试基准,包含了从低航空视角捕获的123个视频序列,所有视频序列都用垂直的边界框进行了完整的注释[10]。数据集中的目标的特点主要表现为运动速度快、尺度变化大、光照变化大和遮挡严重等,这给跟踪带来了巨大的挑战。利用精确度(Precision)和成功率(Success)对跟踪算法的性能进行评估。精确度是指与目标中心位置误差Δ小于某一阈值的帧数占总帧数的比例,通常将该阈值设置为20,计算公式为:
(10)
式中目标中心位置误差Δ的计算公式为:
(11)
式中(xr,yr)和(xp,yp)分别表示预测边界框的中心坐标和真实边界框的中心坐标。
重叠率是指预测边界框与真实边界框之间的交并,计算公式为:
(12)
式中Ar和Ap分别表示预测边界框的面积和真实边界框的面积。
成功率是指预测边界框与真实边界框之间的IoU大于某一阈值的帧数占总帧数的比例,通常将这一阈值设置为0.5,计算公式为:
(13)
2.2 定量分析实验
为了评估跟踪算法的性能,将本文所设计的跟踪算法与多个跟踪算法在UAV123测试集上进行了比较,包括DaSiamRPN[4]、CCOT[11]、UPDT[12]和ECO[13]等,这些都是目标跟踪领域较为优秀和经典的跟踪算法,实验结果如图2所示。可以看出,所提出的跟踪算法的精确度曲线和成功率曲线的得分分别达到了0.803和0.616,在这些跟踪算法中排名第一。相较于DaSiamRPN,所设计的跟踪器在精确度曲线和成功率曲线上的得分分别提升了2.2%和4.7%。
图2 UAV123数据集上的实验结果
为了进一步分析所提出的跟踪算法在跟踪过程中可能出现问题的处理能力,基于UAV123测试集将所提出的跟踪算法与其他几种跟踪算法进行了比较,实验结果如图3所示。可以看出,所设计的跟踪器能够很好地处理快速运动(Fast motion)、光照变化(Illumination variation)、出视野(Out-of-view)和尺度变化(Scale variation)等问题,并且在这几个属性上的跟踪精度明显提升,得益于本文所提出的预测头部网络对隐性信息的解码。
图3 UAV123数据集上4种属性的精确度与成功率对比
2.3 定性分析实验
为了对本文所设计跟踪器的性能进行评估,对UAV123数据集中3个具有代表性的视频序列进行了可视化操作,结果如图4所示。图中绿色边框代表地面真实边界框,黄色代表本文所设计跟踪算法的跟踪结果。跟踪结果与地面真实边界框的重叠率越高,说明跟踪算法的性能越好。可以看出,在这3个典型的无人机视频序列中,本文的跟踪器都能对目标实现稳定的跟踪,证明了本文所设计的跟踪算法的有效性。
图4 UAV123数据集上选定序列的定性结果
本文提出了一种基于改进的孪生网络的无人机遥感目标跟踪算法。针对传统孪生网络目标跟踪算法在处理无人机遥感视频中分辨率低、目标占比小和背景干扰较多等问题,通过在预测头部网络中聚合质量评估分支以及使用改进的ResNet-50作为骨干网络对模板和搜索区域进行深度特征提取,同时将骨干网络所提取的浅层特征和深层语义特征相融合,以此来抑制低质量预测边界框的生成和提升跟踪的精度。本算法在UAV123数据集上,在对比算法中取得最优的效果。相较于经典的DaSiamRPN跟踪算法,所设计的跟踪器在精确度曲线和成功率曲线上的得分分别提升了2.2%和4.7%。实验结果表明,本算法具有更高的精确度和成功率,能够有效地缓解在无人机遥感目标跟踪中由于目标分辨率低、目标占比小和背景干扰较多而引起的跟踪漂移和目标丢失等问题,具有较好的应用价值。在此基础之上,将继续对无人机遥感目标跟踪器进行改进,提升跟踪模型对全局信息的聚合能力,充分利用时空信息建立远距离特征之间的关联,使跟踪器能够实现更加精确实时的无人机目标的跟踪。
猜你喜欢跟踪器精确度骨干光伏跟踪器阵列跟踪精度的测算方法研究太阳能(2022年3期)2022-03-29研究核心素养呈现特征提高复习教学精确度云南教育·中学教师(2020年11期)2021-01-07浅析一种风光储一体化跟踪器太阳能(2020年3期)2020-04-08“硬核”定位系统入驻兖矿集团,精确度以厘米计算山东煤炭科技(2020年1期)2020-03-06核心研发骨干均16年以上!创美克在产品研发上再发力当代水产(2019年11期)2019-12-23超长待机的自行车位置跟踪器当代工人·精品C(2019年2期)2019-05-10双向多轨迹判定方法在目标跟踪中的应用研究计算机应用与软件(2017年7期)2017-08-12骨干风采展示知识经济·中国直销(2017年5期)2017-06-15关于组建“一线话题”骨干队伍的通知中国学校体育(2014年11期)2014-05-10近似数1.8和1.80相同吗中学生数理化·七年级数学人教版(2008年8期)2008-10-15