基于弹载图像的Transformer目标跟踪算法

时间：2024-10-18 14:15:02 来源：网友投稿

孙子文，钱立志，袁广林，凌冲

(1 陆军炮兵防空兵学院高过载弹药制导控制与信息感知实验室，安徽合肥 230031；
2 陆军炮兵防空兵学院信息工程系，安徽合肥 230031)

经典的基于弹载图像目标跟踪方法,旨在第一帧给定目标初始位置后,使用特定的特征提取方法提取目标的特征,然后在目标周围区域进行样本采样,通过目标特征与样本特征比对之后,将最相似位置作为下一帧图像中的目标位置。图1为经典的基于弹载图像目标跟踪算法在跟踪目标时所遇到的挑战场景,弹载图像自寻的炮弹打击目标时,一方面受弹目距离影响,弹载图像目标会出现尺度非线性变化;另一方面,炮弹在空中弹载环境成像会受复杂战场中云雨雪雾、草地树木等背景信息以及相似目标的干扰,导致图像自寻的炮弹目标定位准确性降低。

图1 经典的基于弹载图像目标跟踪算法目标挑战Fig.1 Classical object tracking algorithm based on ballistic image object challenge

经典的基于弹载图像目标跟踪算法无法有效解决这类问题。2017年Transformer首次被Vaswani等[1]应用于机器文本翻译任务,随后Transformer凭借高效提取上下文信息以及全局建模的能力被广泛应用在视觉领域。基于Transformer的目标跟踪方法对大数据的适配能力更强,随着数据量的增加,模型的表现越来越好。不仅Transformer中的每个参数都是动态的,具有更强的可学习性,而且Transformer拥有自注意力机制,更关注特征之间的相互关系,能有效获得全局信息,并且通过多头注意力机制可以将其映射到多个空间,使模型表达能力变强。因此,设计一种能够结合Transformer模型的优势有效解决弹载图像中目标尺度不断发生变化、相似目标以及复杂背景等干扰因素的基于弹载图像目标跟踪算法是非常必要的。

基于Transformer的目标跟踪方法一般包括深度特征提取主干网络、Transformer特征融合模块以及预测头3个部分。2021年Yu等[2]提出了一种基于Transformer的跟踪器DTT,能够利用丰富的场景信息,在端到端学习中生成判别特征。为了提升模型的跟踪精度,改进经典的Transformer,使其在目标跟踪领域发挥更大的性能。TransT方法[3]用基于自注意力的自我上下文增强模块和基于交叉注意力的交叉特征增强模块交叉融合的方式代替经典Transformer,大幅提升跟踪性能。TrSiam和TrDiMP方法[4]也对经典Transformer进行完善,省略全连接的前馈层和保持轻量级的单头自注意力,在跟踪速度和性能上取得非常好的平衡。Track[5]将经典Transformer改成单个实例级关注层实现实时可视化转换器模块示例Transformer,实验跟踪精度提升明显。为了提升模型整体的性能,CSWinTT方法[6]改进现有逐像素求取注意力时破坏目标完整性,影响跟踪性能的问题。采用逐窗口计算特征注意力的方式代替逐像素,将注意力机制从像素级别提升至窗口级别。该方法通过聚合不同尺度的注意力,可以更好处理目标跟踪中的尺度变化问题,并提高跟踪的准确性和稳定性。ToMP方法[7]应用两种新的编码方式,将训练帧中目标的位置和边界框的信息与深度特征信息编码混合,将测试帧中的前景信息与深度特征编码混合,充分利用前景和背景信息,跟踪效果显著。AiATrack方法[8]应用于自注意力块和交叉注意力块,促进特征聚集和信息传播。通过引入有效的特征重用和目标背景嵌入,以充分利用时间参考信息,取得更好的跟踪性能,但是所采用的深度特征提取网络结构简单,提取特征能力较弱。随着Swin-Transformer方法[9]的提出,SwinTrack方法将其作为主干网络提取深度特征,通过Transformer网络进行特征融合,实验效果得到大幅提升。为了进一步提升性能,SFTransT方法[10]同样采用Swin-Transformer进行特征提取,然后用学习空间频率的Transformer进行特征融合处理,充分利用目标对象的空间先验信息,实验效果进一步提高。

为了解决弹载图像目标尺度变化大、相似目标以及复杂背景等因素干扰的问题,文中利用Transformer全局建模以及联系上下文的能力,提出一种基于弹载图像的Transformer目标跟踪算法。首先,在特征提取部分分别使用Swin-Transformer网络的前3层对输入的初始模板和搜索区域提取特征。其次,利用交叉注意力模块对提取的特征进行特征增强处理。再次,将特征拼接送入编、解码器模块进行特征的融合。最后,输出的特征经过回归和分类头进行目标定位。

文中创新点有以下两点:

1)针对自寻的弹药目标跟踪过程中弹载图像存在目标尺度变化大、相似目标以及复杂背景干扰等导致跟踪算法失效问题,提出基于弹载图像的Transformer目标跟踪方法。文中算法由交叉注意力模块增强初始模板的特征,通过简化基于Transformer的特征融合模块减少参数量提升跟踪速度。

2)算法利用Transformer架构联系上下文以及全局建模的能力时刻确定目标在弹载图像中准确的位置,在弹载图像数据集上取得领先效果。

如图2所示,Transformer模型分别由左侧的编码器和右侧的解码器构成。其中,编码器是由N=6的相同层组成,每一层有多头自注意力MSA(multi-headed self-attention),全连接前馈神经网络层FFN(feed-forward network)两个子层[11-12]。解码器包括N=6的相同层。每个解码器层有三个子层,第三子层全连接前馈神经网络层与编码器模块中的相同。第二子层是一个多头交叉注意力层MCA(multi-headed cross-attention),功能是聚合编码器的输出和解码器的输入。编码器模块中的输出构成了MCA的输入键K、值V,掩码MSA的输出构成了MCA的输入查询Q。第一子层相比于编码器模块中的MSA多了掩码处理这一步,因此这一层变成了掩码MSA。通过掩码函数将未来预测的数据进行掩码处理,从而可以不参与训练。此外,编码器和解码器中的所有子层都采用了残差连接[13]和层归一化[14],这样能够规范数据、加快收敛速度、提高模型的学习能力、增强数据传输的可扩展性。为了记录顺序信息,每个输入序列都在编码器和解码器堆的开头附加了一个位置编码[15]。结尾是一个线性层和一个Softmax层[16-17],可将向量转换为输出所要求的类型,完成预测的任务。

图2 Architecture transformerFig.2 Transformer模型

Transformer模型包含m=8的单头自注意力模块。每块都有自己的可学习的权重矩阵集{WQi,WKi,WVi},其中i=0,1,…,7。将输入序列X投影在这3个权重矩阵上可以得到Qi=XWQi,Ki=XWKi,Vi=XWVi,连接MSA中的8个自注意力模块将输出一个矩阵[Y0,Y1,…,Y7]∈Rn×8dv,MSA的过程可以表述为:

(1)

MultiHead(Q,K,V)=Concat(Y0,Y1,…,Ym)WQ

(2)

式中:i为自注意力头,i=0,1,2,…,m,m=8;dK等于矩阵K的维度大小;Yi表示每个自注意力头的输出结果;WQ为将多头注意力机制合并后的结果重新投影回原问题空间的权重矩阵;Attention为注意力算法。

在图像自寻的弹药打击目标的过程中,为了有效应对弹载图像目标尺度变化大、相似目标以及复杂背景干扰等问题,文中结合Transformer能够进行全局建模并获取长期上下文依赖关系的优势,提出基于弹载图像的Transformer目标跟踪算法。如图3所示,文中方法主要包括特征提取部分、特征增强部分、特征融合部分以及预测头3个部分。

图3 整体架构Fig.3 Overall architecture

2.1 基于交叉注意力的特征增强模块

由基于Swin Transformer的特征提取骨干网络提取的初始模板特征fz和搜索区域特征fx进行交叉注意力增强操作,目的是突出跟踪目标的特征。

如图4所示,交叉注意增强模块包括多头点积注意力、前馈网络、残差连接、层归一化和位置编码。与文献[1]中的自注意不同,因为K,V和Q分别来自两个不同的特征矩阵,所以通过残差连接部分将键、值与多头注意力部分的输出连接起来。

图4 交叉注意力模块Fig.4 Cross attention module

2.2 基于Transformer的特征融合模块

图5 基于Transformer的特征融合模块Fig.5 Transformer-based feature fusion module

2.3 损失函数

文中边界框预测头由分类预测头和回归定位头组成,将目标中心附近的像素定义为前景正样本:

(3)

(4)

回归预测头的三层感知机的输出维数为4,分别代表左上角和右下角的坐标(x0,y0,x1,y1)。回归定位头生成一个特征图Bx,y,损失函数为:

(5)

式中:LCIoU表示回归定位结果Bx,y所对应的CIoU损失。

综上所述,文中最终优化的目标损失函数为:

L=λ1Lcls+λ2Lreg

(6)

式中:λ1和λ2为平衡两个损失函数的超参数,文中分别设为1和2。

3.1 实验设置与评价指标

3.1.1 模型结构

特征提取主干网络为Swin Transformer-base[9],初始模板的像素大小为112×112,搜索区域像素大小为224×224。Swin Transformer第一阶段隐藏层的信道数Cs和特征融合中的编码器块数Ns分别为512,8。文中使用Swin Transformer第3阶段之后的输出进行特征提取。因此,主干网络步幅s被设置为16。编、解码器由多头注意层和前馈网络组成。多头注意层为8,前馈网络隐藏单元数为2 048。丢失率为0.1。预测头由一个隐藏单元数2 048的3层感知器组成。分类预测头的维数均为1,定位预测头的输出维数均为4。

3.1.2 训练策略

文中所使用的环境是Ubuntu 20.04,编程语言为Python 3.8,主框架是Pytorch 1.7和Pytracking。在NVIDIA A100 GPU上训练网络,文中分别使用LaSOT[18]、TrackingNet[19]和GOT-10k[20]得到模型的预训练权重并在此基础上进行微调,然后在自建的弹载图像目标跟踪数据集上训练学习弹载图像目标的特征,分别令段数为900视频序列用于训练,将段数100视频序列用于测试,模型进行轮次为300的训练。采用AdamW[21]对模型进行了优化,Swin Transformer主干网络和Transformer模块的初始学习率分别设为10-5和10-4,学习率衰减和权重衰减分别设为10-1和10-4,并采用梯度裁剪,以防止非常大的梯度误导优化过程。每个GPU每迭代批次输入组数为32训练图像组,每个图像组包含裁剪得到的搜索区域和初始模板,GPU组数为4,训练图像组数为128。

3.1.3 评价指标

为客观评价弹载图像目标跟踪结果的各项指标,采样目标跟踪常用的跟踪精度率P和成功率S评价指标,P指标是指中心定位误差小于20像素的帧数占视频总帧数的百分比。P中的中心定位误差计算公式为:

(7)

式中:(xa,ya)表示预测目标中心位置;(xb,yb)表示真实的目标中心位置。

S指标是计算预测框与真值框之间的重叠度高于给定阈值(通常为0.5)的帧数占视频总帧数的百分比。重叠率计算公式如下所示:

(8)

式中:Ba是预测框;Bb是真值框。

3.2 实验结果与分析

文中通过Swin-Transformer提取到具有前景背景判别性的弹载图像深度特征,利用交叉注意力在搜索区域增强目标特征,由Transformer编、解码器融合特征获取弹载图像目标在图像帧中的任意位置以及目标尺度变化情况。文中算法在弹载图像数据集上与KCF[22],ECO[23],SiamRPN++[24],TrTr,TransT[3],TrDiMP[4],ToMP-101[7],AiATrack[8],SwinTrack在性能、速度和参数量上进行对比实验,如表1所示。

表1 十大算法在弹载图像数据集上的性能及效率比较Table 1 Comparison of performance and efficiency of the top ten algorithms on the missile-borne image datasets

文中算法在跟踪精度和成功率方面都取得最优的效果。性能方面,从表1可以看到,相比于其他跟踪算法,文中算法在弹载图像数据集上测试的跟踪成功率和精度分别达到了73.87%和91.46%,达到了最优性能。相比SwinTrack分别提高了1.23和0.81个百分点。效率方面,表1展示了文中算法与其他算法在参数量和跟踪速度上面的比较。由于文中算法优化Transformer中的编、解码器的结构,减少了其中多余的部分,使其参数量为73.45 Mbit,分别比SwinTrack和AiATrack要低27.42 Mbit和14.06 Mbit,并且速度分别比SwinTrack和SiamRPN++高出9.14和19.31 帧/s,能够以56.79 帧/s的速度完成实时目标跟踪任务。

为了直观反映算法面对弹载图像中目标尺度变化、相似目标以及复杂背景干扰等复杂情况时的跟踪状态,文中在多段仿真弹载图像序列进行测试,并显示跟踪结果。由于受多因素的限制,在实弹试验中布设的打靶目标通常以布质靶标等低成本替代物代替敌方实际装备目标进行试验验证和考核,与真实战场目标仍有一定差距,这种差距会给图像自寻的炮弹实际作战的效果带来不确定性。因此,为了满足图像自寻的炮弹中的目标跟踪算法的模型训练、算法测试及性能验证对数据的要求,提高自寻的弹药应对战场环境多类目标多场景下的打击任务的能力。文中的航母编队目标和坦克编队目标的弹载图像场景皆是利用三维仿真技术开发生成的。图6～图8为跟踪数据集中针对不同目标生成的单个弹载图像目标序列的跟踪可视化结果。图6为图像自寻的炮弹下滑角为45°时海面雨天背景干扰下的3 km航母编队目标图像序列。为了测试雨天环境以及其他相似舰船干扰条件下文中算法的跟踪能力,选择舰船目标进行测试。图7为图像自寻的炮弹下滑角为45°时雨天林地背景下生成的3 km范围的坦克车集群目标图像序列,图8为图像自寻的炮弹下滑角为25°时雪天平原背景下生成的3 km范围的坦克车集群目标图像序列,为了测试雨天和雪天环境以及其他相似坦克干扰条件下文中算法的跟踪能力,选择图像中心位置的坦克进行测试。

图6 雨天海面环境下舰船目标图像序列跟踪结果Fig.6 Sequence tracking of ship target images in rainy sea environment

图7 雨天林地环境下坦克目标图像序列跟踪结果Fig.7 Sequence tracking of tank target images in rainy forested environments

图8 雪天平原环境下坦克目标图像序列跟踪结果Fig.8 Sequential tracking of tank target images in snowy plains environment

由图6～图8可见,图像自寻的炮弹飞向目标的过程中,目标表观特征变化较大,同时目标尺度也在增大,在受图像自寻的炮弹自身运动和外部环境背景以及相似目标干扰的条件下,文中算法能够克服这些挑战干扰成功实现弹载图像中目标的跟踪。当初始图像的输入到文中算法中时,算法通过SwinTransformer特征提取网络提取深度特征,然后利用Transformer架构中的注意力机制进行上下文的全局建模,将模板区域与搜索区域的深度特征信息进行融合。这使得目标跟踪算法能够适应多尺度变化的弹载图像目标,并且能够克服相似目标以及复杂背景信息的干扰,算法在弹载图像数据集上能成功跟踪目标。

文中借助Transformer强大的全局建模以及联系上下文的能力,通过特征增强,结构优化等策略提出一种全新的基于弹载图像的Transformer目标跟踪方法。在弹载数据集上的跟踪成功率和精度分别达到了73.87%和91.46%,取得领先水平。相较于经典的弹载目标跟踪方法KCF,有效解决在弹载图像跟踪过程中目标尺度变化大、相似目标以及复杂背景干扰等导致跟踪算法失效的情况,使得跟踪更具有鲁棒性。但由于文中算法所使用的数据集是通过三维仿真软件开发生成的,数据与实际应用中的目标存在一定区别,并且文中方法在面临目标遮挡、光照变化等导致目标表观信息发生变化时没有办法提供稳定的模板信息用于跟踪目标从而可能会导致跟踪失败,因此在后续研究中还需要根据更多工程人员的研究与反馈,获得更多的反馈和建议,不断地迭代优化才能更加满足弹载实际的需求。

猜你喜欢解码器特征提取注意力让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09科学解码器（一）小学生必读(低年级版)(2021年10期)2022-01-18科学解码器(二)小学生必读(低年级版)(2021年11期)2021-03-09科学解码器（三）小学生必读(低年级版)(2021年12期)2021-03-04线圣AudioQuest 发布第三代Dragonfly Cobalt蓝蜻蜓解码器家庭影院技术(2019年8期)2019-12-04基于Daubechies(dbN)的飞行器音频特征提取电子制作(2018年19期)2018-11-14“扬眼”APP:让注意力“变现”传媒评论(2017年3期)2017-06-13Bagging RCSP脑电特征提取算法自动化学报(2017年11期)2017-04-04A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21基于MED和循环域解调的多故障特征提取噪声与振动控制(2015年4期)2015-01-01