当前位置:舍宁秘书网 > 专题范文 > 公文范文 > 基于视觉信息积累的行人重识别网络

基于视觉信息积累的行人重识别网络

时间:2024-02-15 12:30:02 来源:网友投稿

耿 圆,谭红臣,李敬华,王立春

基于视觉信息积累的行人重识别网络

耿 圆,谭红臣,李敬华,王立春

(北京工业大学人工智能与自动化学院,北京 100124)

在以往的行人重识别方法中,绝大部分的工作集中于图像注意力区域的学习,却忽视了非注意力区域对最终特征学习的影响,如果在关注图像注意力区域的同时加强非注意力区域的特征学习,可进一步丰富最终的行人特征,有利于行人身份信息的准确识别。基于此,提出了视觉信息积累网络(VIA Net),该网络整体采用两分支结构,一个分支倾向于学习图像的全局特征,另一个分支则拓展为多分支结构,通过结合注意力区域和非注意力区域的特征逐步加强局部特征的学习,实现视觉信息的积累,进一步丰富特征信息。实验结果表明,在Market-1501等行人重识别数据集上,所提出的VIA Net网络达到了较高的实验性能;
同时,在In-Shop Clothes Retrieval数据集上的实验证明:该网络也适用于一般的图像检索任务,具有一定的通用性。

行人重识别;
视觉信息;
注意力区域;
非注意力区域;
度量学习

行人重识别任务是指在不同的监控摄像头下的行人检索问题,其目标是在经过裁剪的行人图像上查询匹配同一个人,即:给定一张行人的查询图像,该任务需在其他监控摄像头拍摄的大量图像中识别出包含该行人的图像。行人重识别在现实世界中有很多的应用场景,如视频监控安全、视频检索和人机交互。但是由于监控摄像头视角变化、分辨率较低,行人图像背景杂乱和遮挡等问题的影响,重识别目前依然是个具有挑战性的任务。

最初,行人重识别的解决思路是利用从裁剪后的行人图像中提取的手工特征进行相似性度量实现重识别[1-3],如颜色和纹理等视觉特征,但早期的方法性能低且鲁棒性差。随着深度学习技术的发展,目前基于深度学习的行人重识别成为了主流,其大多数工作[4-6]都集中于利用卷积神经网络(convolutional neural networks,CNN)学习对人体姿势和视角变化等具有鲁棒性的特征表示。但在实际中,由于人脸、四肢等身体部位会随着监控摄像头视角的变化发生改变,甚至产生遮挡,因此CNN在学习的过程中,会更多地关注人的主体部位,忽略了其他的身体部位也会产生判别特征。

为了解决这个问题,一些基于姿态的方法通过定位不同的身体部位并对齐相关特征进行重识别。姿态归一化生成对抗网络[7](pose-normalized generative adversarial network,PN-GAN)考虑行人重识别中的姿态归一化设计了生成对抗网络,通过将数据中的所有行人姿态归一化到8种标准姿态中,以学习没有姿态变化影响的行人特征。姿态不变方法[8](pose-invariant embedding,PIE)则引入了姿态不变嵌入向量作为行人描述子,首先使用PoseBox结构使行人与标准姿态对齐,其次设计了一个以原始图像、PoseBox和姿态估计置信度为输入的PoseBox Fusion (PBF) CNN结构以减少姿态估计误差。还有一些基于身体部位的方法使用粗分割或注意力网络来改进特征学习。PCB-RPP[9]提出了基于部位的卷积基线网络(part-based convolutional baseline,PCB),即输入一张图像,能够输出若干个部位级别的特征;
同时还提出了优化部位池化(refined part pooling,RPP)策略以避免分割时每个部位中出现极端值。关系感知全局注意力[10](relation-aware global attention,RGA)是基于全局注意力的行人重识别工作,提出了关系感知全局注意力模块以充分利用全局相关性,通过对行人不同部位的特征施加权重实现增强判别特征,抑制无关特征。注意力金字塔[11](attention pyramid,APNet)提出了一种通过注意力金字塔以多尺度的方式模仿人类视觉感知过程的方法,首先将特征分割为数个局部区域并学习相应的注意力,之后合并注意力并将其与残差连接堆叠形成注意力金字塔。

可以看出,绝大部分的工作集中于图像注意力区域的学习,也证明了关注注意力区域对最终重识别任务的有效性。但是很少有工作涉及到非注意力区域的学习,考虑到非注意力区域也可能存在有用的判别特征,因此本文试图将非注意力区域与注意力区域的特征同时考虑,以进一步丰富最终的行人特征,从而有利于行人身份信息的准确识别。

尽管基于身体姿态和部位的方法可以获得不错的实验效果,然而上述网络通常需要附加的身体姿态信息。此外,这些网络是根据具体的研究对象使用特定的划分机制设计的,如水平部位划分,其适合于行人重识别任务,但并不通用,很难推广到其他任务上。随着技术的不断发展,行人重识别任务已不再是一个简单的分类问题,正逐渐演变为度量学习问题[12],即类内样本(同一个行人)之间的距离至少应小于类间样本(不同的行人)之间的距离。因此,本文设想构建一个简单且通用的网络,不仅可以用在行人重识别任务上,还可用于其他度量学习任务。

基于以上分析,本文提出了一个基于视觉信息积累的重识别网络,该网络整体上采用两分支结构,包括全局分支(global branch)和视觉信息积累分支(visual information accumulation branch),使得网络在关注人主体部位的同时不忽略其他身体部位的判别特征,促使网络学习到更加全面的特征。由于传统的两分支结构一定程度上限制了特征的多样性[13],本文在两分支的基础上进一步拓展——将视觉信息积累分支拓展为多分支。具体来说,全局分支对全局特征表示进行编码,网络会着重学习人主体部位的判别特征;
视觉信息积累分支则在拓展的多分支上利用注意力机制逐步进行视觉信息的积累,实现注意力区域和非注意力区域同时关注,不断地关注新的局部细节特征,网络着重学习其他身体部位的判别特征。

对于行人重识别任务,本论文在CUHK03[14],Market-1501[15]和DukeMTMC-reID[16]等数据集上进行了模型的训练与测试。对于一般的度量学习任务,在In-Shop Clothes Retrieval[17]数据集上进行了实验。实验结果表明本文方法实现了较高性能的行人重识别,也适用于一般的度量学习任务。如,在Market-1501数据集上的mAP指标达到了83.6%,Rank-1指标达到了93.5%;
在In-Shop Clothes Retrieval数据集上Recall@1指标达到了93.0%,Recall@20指标达到了99.1%。

图1为本文所提出VIA Net的网络框架图,该网络由主干网络ResNet-50、全局分支(global branch)和视觉积累分支(visual information accumulation branch)组成。在全局分支中,特征图经全局平均池化(global average pooling,GAP)得到2048-dim的特征,再降维得到具有全局信息的512-dim特征,该分支提供全局判别特征。在视觉积累分支中,卷积块注意力模型(convolutional block attention module,CBAM)为本文使用的注意力机制,V1~V3 sub为3个子分支,concat为维度拼接操作,GMP为全局最大池化(global max pooling,GMP)。在V1 sub上,将通过主干网络得到的特征图作为输入,减去其经过注意力机制细化后的特征图,可得到除去注意力区域的其他区域,将得到的特征图作为V2 sub的输入。在V2 sub和V3 sub上,再次执行与V1 sub相同的步骤,最后将3个子分支得到的特征图进行维度拼接作为该分支最后的输出特征图,实现视觉信息的积累。

图1 VIA Net网络框架图

1.1 CBAM注意力机制

本文的VIA Net网络所用到的注意力机制是CBAM[18]机制,如图2所示,该机制结合了通道(channel)与空间(spatial)的注意力,对输入的特征图进行细化,使得网络集中关注图像中最感兴趣的区域。

图2 CBAM注意力机制

通道注意力模块如图3所示,输入的特征图分别经过GAP和GMP后共同输入到共享多层神经网络(shared MLP)中,然后对输出的特征进行相加后经过Sigmoid激活函数得到权重系数c。将c与输入的特征图进行相乘操作得到通道注意力模块生成的特征图,即需要送入空间注意力模块的特征。

图3 通道注意力模块

空间注意力模块如图4所示。将通道注意力模块的输出作为空间注意力模块的输入,同样对该输入的特征分别经过GAP和GMP后依照通道拼接两部分特征。之后经过一个7×7的卷积层,再经过一个Sigmoid线性激活函数得到权重系数,将与此模块的输入特征图进行相乘操作得到最终的特征图。

图4 空间注意力模块

方便起见,在此后的介绍中将该注意力机制用式(1)进行描述

其中,为输入的特征图;
T(*)为通道与空间注意力操作;
*为经过注意力机制的输出特征图。由于CBAM为即插即用,因此可方便地插入网络中任何需要的地方。如图1所示,将其插入到视觉积累分支的3个子分支中。

1.2 网络结构

(1) 主干网络。与行人重识别中的大部分方法相同,本文采用ResNet-50[19]作为主干网络用于特征提取。同时为了与主流的方法进行比较,将主干网络的第4阶段起始时的下采样操作删除,以得到大小为2048×24×8的特征图。

(2) 全局分支(global branch)。其由GAP层、1×1卷积层、批归一化层(batch normalization,BN)和线性整流函数(rectified linear unit,ReLU)组成。通过在Stage4层生成的2048×24×8的特征图上进行GAP得到2048-dim的特征向量,再利用1×1卷积层、BN层和ReLU层将其进一步降低到512-dim,使用三元组损失和交叉熵损失约束全局特征的学习。全局分支在多分支网络结构中一般用于提供全局特征表示[20]。在本文中,全局分支关注行人的主体部位,学习全局判别特征。

(3) 视觉信息积累分支(visual information accumulation branch)。其由注意力模块CBAM、GMP层和1×1卷积层、BN层和ReLU层组成,与全局分支类似,利用三元组损失和交叉熵损失约束网络的学习。为进一步丰富特征信息,本文将视觉信息积累分支拓展为多分支结构,如图1所示的V1~V3子分支,依次利用CBAM注意力机制进行视觉信息的积累,具体过程如下:

可以注意到:在VIA Net中全局分支使用GAP,而视觉信息积累分支使用GMP,这是因为GMP会鼓励网络在减去最具辨别力的部分后仍可在剩余弱特征中识别出相对显著的特征。综上,在全局分支关注图像全局特征的同时,视觉信息积累分支通过注意力相减操作融合注意力区域和非注意力区域的特征,从而不断地关注新的局部特征,最终将2个分支的特征进行拼接,使得最终获得的特征表示更加全面。

(4) 损失函数。其是全局分支和视觉信息积累分支上的重识别损失与难样本三元组损失[21]之和,即

reid重识别损失采用标签平滑交叉熵损失[22]。得到的行人特征利用全连接层(fully connected layer)和softmax激活函数可得到对应的预测概率,进而使用标签平滑交叉熵损失进行约束。为了在计算损失函数时减少真实样本标签类别的权重,即达到防止过拟合训练集的目的,对真实的概率分布进行改进,即

其中,为行人类别数;
()为预测概率;
为权重;
为真实的样本标签。

triplet为难样本三元组损失,使用时为每个anchor找到其最难的正样本和负样本,即为每个anchor找到其最不相像的正样本和最相像的负样本进行三元组损失的计算,从而使得类内样本之间的距离减小,类间样本距离增大,即

在测试过程中,将来自全局分支和视觉信息积累分支的特征维度拼接,作为行人图像的嵌入向量。值得注意的是本文所提出的VIA Net的全局分支和视觉信息积累分支皆具有通用性,因此可以应用于除行人重识别任务之外的其他度量学习任务,这一点将在下一部分的实验中给出证明。

在主流的行人重识别数据集上验证了本文所提出的VIA Net网络,在训练过程中,将输入图像的大小调整为384×128,然后通过随机水平翻转和标准化进行数据增强,训练过程设置为400 epochs。测试图像调整为同样大小,仅通过标准化进行增强。在In-Shop Clothes Retrieval数据集上验证了本文的网络同样适用于一般的度量学习任务,训练和测试过程中均将图像进行填充并调整大小为256×256,训练过程设置为300 epochs。网络训练时使用Adam优化器,在前50个epochs学习率为10–3,在200个epochs后学习率为10–4,在300个epochs后学习率为10–5。在2个任务上将本文结果分别与前沿方法进行了比较与分析。

推荐理由:本书介绍了中国改革开放发展成就,主要从改革路径、对外开放、宏观经济、区域发展、“三农”政策、扶贫脱贫、产业发展、科技引领、生态文明、人力资源、社会保障、收入分配这十二个方面讲述中国故事。中国改革开放促进发展与分享的成功故事,以及建立经济特区和试验区先行先试,继而实施区域发展战略,在中西部地区创造条件重演沿海地区发展奇迹的有益经验。

2.1 行人重识别任务实验

2.1.1 数据集及评价指标

本文在行人重识别数据集上进行网络的训练与测试,包括Market-1501,DukeMTMC-reID和CUHK03数据集。Market-1501数据集使用6台摄像机收集了1 501个身份,共有32 668张行人图像。该数据集含有12 936张751个身份的图像的训练集,以及含有3 368张查询图像和750个身份的15 913张的图库图像的测试集。DukeMTMC-reID数据集包含1 404个身份,由2台以上的摄像机拍摄,一共有36 411张图像。训练集则包含702个身份和16 522张图像,测试集包含其他的702个身份。CUHK03数据集包含标记的14 096张图像和检测到的14 097张图像,据此将数据集分为CUHK03-Label和CUHK03-Detect2个数据集,数据集中共有1 467个身份,767个身份用于训练,700个身份用于测试。

对于每个查询图像,按照与查询图像的欧氏距离降序排列所有图库图像,并计算累积匹配特征(CMC)曲线,本文使用Rank-1值和mAP值作为评价指标。

2.1.2 与前沿方法的比较与分析

本文在ResNet-50主干网络的基础上联合全局分支(global branch)构成本文的基线网络(Baseline)。表1展示了本文所提出的VIA Net网络在CUHK03-Label,CUHK03-Detect,DukeMTMC-reID和Market-1501数据集与一些前沿方法之间的统计比较。结果表明,本文方法的mAP值与Rank-1值均高于绝大多数前沿方法。

表1 VIA Net在行人重识别任务上与前沿方法的比较

注:加粗数据为最优值

可以看到,在简单的Market-1501数据集上,VIA Net相比于基线网络提升了1~2个百分点,在相对复杂的CUHK03-Label,CUHK03-Detect和DukeMTMC-reID数据集上,VIA Net提升了大约4~9个百分点。分析原因可能是当数据集较为复杂时,网络关注全局特征已无法取得良好的判别特征,此时视觉信息积累分支关注局部细节特征的优势相对突出。这表明:VIA Net的视觉信息积累分支在复杂数据集上有明显的优势。

2.1.3 消融实验

表2 消融实验(Branch)

注:加粗数据为最优值

表2显示,当网络只使用全局分支时,网络的性能并不高;
当只使用视觉信息积累分支时,网络的性能优于表2的基线网络,联合使用全局分支可以进一步提高网络性能。这表明全局分支和视觉信息积累分支对于网络的整体学习是相互增强的,缺一不可。

表3 消融实验(Sub Branch)

注:加粗数据为最优值

从表3中可以看出,当网络使用V1+V2+V3子分支时的性能是最优的,当减少或增加子分支时,实验性能均有所下降。当只使用V1子分支或V1+V2子分支时的实验性能有所下降,原因可能是此时子分支数较少,网络学习时积累的视觉信息不够丰富;
当采用V1+V2+V3+V4子分支时,虽然网络积累的视觉信息可能会增加,但是由于视觉信息积累分支关注的是局部细节特征,在子分支上进行注意力区域逐步相减的操作,使得有用的判别信息随着逐分支递增而减少,再积累视觉信息反而不利于网络的学习。

2.1.4 可视化分析

使用本文提出的VIA Net分别在Market-1501和CUHK03-Detect数据集上进行可视化实验,将与query图像相似度top-7 (排名前7)的行人图像进行展示,结果如图5和图6所示。最左侧的图像为query图像,右侧有边框的为检索到对应的top-7行人图像,其中,绿色边框表示检索正确,红色边框表示检索错误。

图5 Market-1501数据集上的可视化检索结果((a) Baseline检索结果;
(b) VIA Net检索结果)

图6 CUHK03-Detect数据集上的可视化检索结果((a) Baseline检索结果;
(b) VIA Net检索结果)

由可视化结果可知,在简单的Market-1501数据集上,基线网络在top-7的检索中,仅在第6张时出现了检索错误;
而VIA Net无错误匹配出现。在较复杂的CUHK03-Detect数据集上,基线网络在top-7的检索中,出现了3张检索错误;
而VIA Net只出现了1张检索错误。可以看出,数据集较为简单时,使用基线网络可以达到不错的效果,VIA Net对结果的提升比较有限;
而在较为复杂的数据集上,在使用基线网络效果不佳时,使用视觉信息积累分支关注局部细节特征,可使VIA Net会更有优势,这与2.1.2节中的分析一致。

2.2 度量学习任务实验

2.2.1 数据集及评价指标

本文在In-Shop Clothes Retrieval数据集上验证了该网络同样适用于一般的度量学习任务,具有一定的通用性。该数据集为卖家秀的图像集,一共包括7 982件商品,52 712张图像,图像从不同角度拍摄而成,具有较大的挑战性。本文使用标准召回率Recall@K衡量图像检索性能的指标。

2.2.2 与前沿方法的比较与分析

表4为本文网络在Clothes数据集上与一些前沿方法之间的统计比较。

表4 VIA Net在度量学习任务上与前沿方法的比较

注:加粗数据为最优值

结果表明,本文方法Recall@1值达到了93.0,同时在Recall@10与Recall@20指标上也有较高地提升,均高于前沿算法的表现。

本文提出了一个基于视觉信息积累的简单且通用的重识别网络(VIA Net),该网络整体上包含全局分支和视觉信息积累分支。其中,全局分支关注于图像的主体区域,学习全局判别特征;
视觉信息积累分支利用注意力机制实现注意力区域和非注意力区域同时关注,进而进行视觉信息的积累,着重学习其他身体部位的判别特征,关注局部特征,从而使得学习到的判别特征更加全面。实验结果显示,本文提出的VIA Net不仅在行人重识别数据集上达到了较高的实验结果,在一般的图像检索数据集上也有很好的性能表现。

[1] BAZZANI L, CRISTANI M, PERINA A, et al. Multiple-shot person re-identification by HPE signature[C]//The 20th International Conference on Pattern Recognition. New York: IEEE Press, 2010: 1413-1416.

[2] MIGNON A, JURIE F. PCCA: a new approach for distance learning from sparse pairwise constraints[C]//2012 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2012: 2666-2672.

[3] LI Z, CHANG S Y, LIANG F, et al. Learning locally-adaptive decision functions for person verification[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2013: 3610-3617.

[4] CHEN D P, XU D, LI H S, et al. Group consistent similarity learning via deep CRF for person re-identification[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8649-8658.

[5] ZHAO L M, LI X, ZHUANG Y T, et al. Deeply-learned part-aligned representations for person re-identification[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 3239-3248.

[6] ZHENG Z D, ZHENG L, YANG Y. A discriminatively learned CNN embedding for person reidentification[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2017 14(1): 13.

[7] QIAN X L, FU Y W, XIANG T, et al. Pose-normalized image generation for person re-identification[M]//Computer vision - ECCV 2018. Cham: Springer International Publishing, 2018: 661-678.

[8] ZHENG L, HUANG Y J, LU H C, et al. Pose invariant embedding for deep person re-identification[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2019, 28(9):4500-4509.

[9] SUN Y F, ZHENG L, YANG Y, et al. Beyond part models: person retrieval with refined part pooling (and A strong convolutional baseline)[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 501-518.

[10] ZHANG Z Z, LAN C L, ZENG W J, et al. Relation-aware global attention for person re-identification[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 3183-3192.

[11] CHEN G Y, GU T P, LU J W, et al. Person re-identification via attention pyramid[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2021, 30: 7663-7676.

[12] SU C, LI J N, ZHANG S L, et al. Pose-driven deep convolutional model for person re-identification[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 3980-3989.

[13] WU X F, XIE B, ZHAO S L, et al. Diversity-achieving slow-DropBlock network for person re-identification[EB/OL]. [2022-05-05]. https://arxiv.org/abs/2002.04414.

[14] LI W, ZHAO R, XIAO T, et al. DeepReID: deep filter pairing neural network for person re-identification[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 152-159.

[15] ZHENG L, SHEN L Y, TIAN L, et al. Scalable person re-identification: a benchmark[C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2016: 1116-1124.

[16] RISTANI E, SOLERA F, ZOU R, et al. Performance measures and a data set for multi-target, multi-camera tracking[M]//Lecture notes in computer science. Cham: Springer International Publishing, 2016: 17-35.

[17] LIU Z W, LUO P, QIU S, et al. DeepFashion: powering robust clothes recognition and retrieval with rich annotations[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1096-1104.

[18] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.

[19] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 770-778.

[20] CHENG D, GONG Y H, ZHOU S P, et al. Person re-identification by multi-channel parts-based CNN with improved triplet loss function[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1335-1344.

[21] HERMANS A, BEYER L, LEIBE B. In defense of the triplet loss for person re-identification[EB/OL]. [2022-05-07]. https://arxiv.org/abs/1703.07737.

[22] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 2818-2826.

[23] ZHENG Z D, ZHENG L, YANG Y. Pedestrian alignment network for large-scale person re-identification[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(10): 3037-3045.

[24] CHEN Y B, ZHU X T, GONG S G. Person re-identification by deep learning multi-scale representations[C]//2017 IEEE International Conference on Computer Vision Workshops. New York: IEEE Press, 2017: 2590-2600.

[25] 吴绍君, 高玲, 李强. 基于多层次深度学习网络的行人重识别[J]. 山东师范大学学报: 自然科学版, 2020, 35(2): 208-216.

WU S J, GAO L, LI Q. Multi-level deep learning network for person re-identificatioin[J]. Journal of Shandong Normal University: Natural Science, 2020, 35(2): 208-216 (in Chinese).

[26] ZHONG Z, ZHENG L, KANG G L, et al. Random erasing data augmentation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Washington, DC: AAAI, 2020: 13001-13008.

[27] WANG Y, WANG L Q, YOU Y R, et al. Resource aware person re-identification across multiple resolutions[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 8042-8051.

[28] ALMAZAN J, GAJIC B, MURRAY N, et al. Re-ID done right: towards good practices for person re-identification[EB/OL]. [2022-04-25]. https://arxiv.org/abs/1801.05339.

[29] 厍向阳, 李蕊心, 叶鸥. 融合随机擦除和残差注意力网络的行人重识别[J]. 计算机工程与应用, 2022, 58(3): 215-221.

SHE X Y, LI R X, YE O. Pedestrian re-identification combining random erasing and residual attention network[J]. Computer Engineering and Applications, 2022, 58(3): 215-221 (in Chinese).

[30] 田智慧, 郑付科, 高需. 内容一致性行人重识别算法[J]. 计算机工程, 2021, 47(3): 237-242.

TIAN Z H, ZHENG F K, GAO X. Content-consistent pedestrian re-identification algorithm[J]. Computer Engineering, 2021, 47(3): 237-242 (in Chinese).

[31] ZHUANG Z J, WEI L H, XIE L X, et al. Rethinking the distribution gap of person re-identification with camera-based batch normalization[M]//Computer Vision - ECCV 2020. Cham: Springer International Publishing, 2020: 140-157.

[32] 宋晓茹, 杨佳, 高嵩, 等. 基于注意力机制与多尺度特征融合的行人重识别方法[J]. 科学技术与工程, 2022, 22(4): 1526-1533.

SONG X R, YANG J, GAO S, et al. Person re-identification method based on attention mechanism and multi-scale feature fusion[J]. Science Technology and Engineering, 2022, 22(4): 1526-1533 (in Chinese).

[33] YUAN Y H, YANG K Y, ZHANG C. Hard-aware deeply cascaded embedding[C]//2017 IEEE International Conference on Computer Vision. New York: IEEE Press, 2017: 814-823.

[34] XUAN H, SOUVENIR R, PLESS R. Deep randomized ensembles for metric learning[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 751-762.

[35] GE W F, HUANG W L, DONG D K, et al. Deep metric learning with hierarchical triplet loss[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018: 272-288.

[36] OPITZ M, WALTNER G, POSSEGGER H, et al. Deep metric learning with BIER: boosting independent embeddings robustly[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 276-290.

[37] KIM W, GOYAL B, CHAWLA K, et al. Attention-based ensemble for deep metric learning[M]//Computer vision - ECCV 2018. Cham: Springer International Publishing, 2018: 760-777.

[38] DAI Z Z, CHEN M Q, GU X D, et al. Batch DropBlock network for person re-identification and beyond[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2020: 3690-3700.

Visual information accumulation network for person re-identification

GENG Yuan, TAN Hong-chen, LI Jing-hua, WANG Li-chun

(School of Artificial Intelligence and Automation, Beijing University of Technology, Beijing 100124, China)

The preceding person re-identification methods were mostly focused on the learning of the image attention region, but ignored the impact of the non-attention region on the final feature learning. If the feature learning of image non-attention regions is enhanced while focusing on attention regions, the final person features can be further enriched, which is beneficial to the accurate identification of person identity information. Based on this, this paper proposed a visual information accumulation network (VIA Net), adopting two branches. One branch tended to learn the global features of the image, and the other branch was expanded into a multi-branch structure. By combining the features of the attention and non-attention regions, the learning of local features could be gradually strengthened, thus realizing the accumulation of visual information and further enriching the feature information. The experimental results show that the proposed VIA Net could attain high experimental performance in terms of person re-identification datasets such as Market-1501. At the same time, the experiment on the In-Shop Clothes Retrieval dataset shows that the network could also be applicable to general image retrieval tasks and possess certain universality.

person re-identification; visual information; attention region; non-attention region; metric learning

TP 391

10.11996/JG.j.2095-302X.2022061193

A

2095-302X(2022)06-1193-08

2022-08-02;

:2022-11-10

第7批全国博士后创新人才支持计划项目(BX20220025);
第70批全国博士后面上基金项目(2021M700303)

耿 圆(1997-),女,硕士研究生。主要研究方向为行人重识别、视觉语言导航。E-mail:geng1455289970@163.com

谭红臣(1992-),男,讲师,博士。主要研究方向为行人重识别、图像生成、视觉定位等。E-mail:tanhongchenphd@bjut.edu.cn

2 August,2022;

10 November,2022

The 7th National Postdoctoral Innovative Talent Support Program (BX20220025); The 70th Batch of National Post-Doctoral Fellowships (2021M700303)

GENG Yuan (1997-), master student. Her main research interests cover person re-identification and vision-and-language navigation. E-mail:geng1455289970@163.com

TAN Hong-chen (1992-), lecturer, Ph.D. His main research interests cover person re-identification, image generation, object detection, etc. E-mail:tanhongchenphd@bjut.edu.cn

猜你喜欢集上分支全局实数集到时标上的概念推广的若干原则大学数学(2022年6期)2023-01-14一类离散时间反馈控制系统Hopf分支研究黑龙江大学自然科学学报(2022年1期)2022-03-29软件多分支开发代码漏合问题及解决途径①计算机系统应用(2021年10期)2022-01-06GCD封闭集上的幂矩阵行列式间的整除性四川大学学报(自然科学版)(2021年6期)2021-12-27巧分支与枝学生天地(2019年28期)2019-08-25落子山东,意在全局金桥(2018年4期)2018-09-26记忆型非经典扩散方程在中的全局吸引子Acta Mathematica Scientia(English Series)(2018年6期)2018-03-01师如明灯,清凉温润文苑(2015年9期)2015-09-10几道导数题引发的解题思考新课程学习·中(2013年3期)2013-06-14硕果累累疯狂英语·口语版(2013年1期)2013-01-31

推荐访问:行人 识别 积累

猜你喜欢