摘要
行人重识别是从多个数据源中检索出指定目标的任务。红外(IR)和可见光(VIS)的图像差距较大,可见光和红外图像跨模态检索是主要挑战之一。为了能在弱光或夜间也具备相同的检索能力,需要结合红外图像的跨模态模型实现判断。 本文提出一个通过人体关键点引导注意力的新方法,通过关键点引导将全局特征拆分为局部特征,再用生成的局部掩码重新训练原模型,强化对不同局部信息的注意力。使用这个方法,模型可以更好地理解和利用图像中的关键部位,从而提升行人重识别任务的准确率。
行人重识别(Re-ID)是从多个数据源中检索出指定目标的子检索任务。随着深度学习领域的快速发展和更多场景的数据集发布,基于深度神经网络的行人重识别方法取得了巨大的进展,可见光-红外行人重识别(RGB-IR Person ReID)是在行人重识别任务基础上,使用了红外图像去检索或被检索的任务。现有的多数工作都是通过手动设计的特征选择模块来实现性能提高的,目前已有模型主要是利用骨干网提取特征,再从特征中提取所需的关键信息。由于可见光和红外图像的波长范围不同、通道数不同、需要使用不同的预处理方法,同时也存在行人遮挡及背景干扰等问题,检索任务的源图像和目标图像差别较大,效果很好的单模态方法很难适应多模态图像间的相互检索,所以跨模态的红外行人重识别任务具有挑战性。
由于跨模态特征差别大,常见的一种思路是将多种不同模态的图像映射到同一个特征空间中,通过训练最终输出为相同的类别。相比于同源数据,由于初始特征差别较大,特征对齐也变得更为重要。
使用特征金字塔可以有效定位原图特征位置。CCVI
在重识别任务中,普遍存在检索数据集太少、实践时泛用性与训练时不一致以及数据难以获取的问题,数据量的不足,使跨模态时检索难度加大。目前的人工智能模型不像人脑那样直接利用已经训练好的脑功能区处理新问题,一些相关尝试例如,Zhu, K
使用有监督训练往往比无监督训练的准确率更高,但有监督模型的迁移能力不足,遇到新场景往往需要重新学习,有些模型是针对数据特化的模型。随着更多的模型被训练出来,对已有模型的再利用的迁移学习会更有发展潜力。Transformer 的方法和PCB方法都证明了分区域学习的有效性,然而目前很多方法并不使用已有训练好的模型,而是重新训练。虽然有很多有效的方法,但一直存在一个问题,即无监督很多是在相同的源域和目标域进行训练和测试,实际场景被查询的人既不在训练数据集中也不在测试数据集中。
如




图1 红外数据集上人体关键点示意图
Fig. 1 Schematic representation of key points of the human body on the infrared dataset
Ci Yuanzhen
一种分层跨模态的方
针对以上问题,本文提出了一种基于红外图像跨模态的行人重识别模型。
1. 提出一种从模型中取模型的方法。利用多级模型构建关系型数, 将模型按类别的属性拆分成更小子任务,方便从模型中获得语义信息,拆分成的属性模型是模型的子任务。
2. 提出一种外源引导的注意力机制,更多地关注指定的区域,使模型可以从更多的数据中提取信息。
深度学习是端到端的模型,这种现象不利于理解黑箱,由于目前没有非常通用且有效的分析出每层语义的方法,所以不利于理解和调整模型。以往的行人重识别模型中,对整体判断时输入的像素信息在局部有特征提取器黑箱中完成,要实现获得模块化的语义模型并让模型表达概念间依赖关系可理解模型内部,可以通过拆解任务解决查看黑箱的问题。本文提出一种将原始语义保留传递的模型,使端到端的深度模型变成端到子模型再到端的模型,模型首先映射成一个中间状态,这个状态描述了局部信息,然后根据每个局部信息的判断再进行整体判断。
为了提取一组标签,将一个重识别任务分成两部分学习,第一部分找到每个局部特征的位置和最佳区域,第二部分将第一部分的编码结果当作包含语义信息的词汇编码。受到transformer多头自注意力的启发,构造一个关键点引导的局部注意力机制对词汇间关系的学习能力,最后解码为一个描述全局的信息,已经训练好的其他有监督模型当作教师模型,实现对属性语义模型教学,用给模型提供信息的模型来生成标签的模型。由于知识蒸馏不但可以减少训练参数,同时也能保持甚至获得更好的效果(performance),所以,借鉴知识蒸馏的方法构造一个拆分模型的方法充分利用了已有模型。通过对局部特征的拆解,将局部特征也纳入到检索任务,从而实现对物体子属性的查询。例如,检索与目标人物相同的头、上肢和下肢的照片。
模型的训练分两个部分,第一个部分是构造局部掩码生成器(Local Mask Generator, LMG)引导拆分教师模型训练的局部特征,第二部分是融合局部特征检索器。
行人重识别模型应用于目标检测的下一步是在一帧视频里选出人的区域,利用已有的前置加工数据不会增加计算量,并且由于关键点检测模型和图像分割任务较为相似,所以前置的目标检测模型或姿态模型常常既可以做图像分割又可以检测人体关键点。例如,分割模型和姿态估计模型,姿态估计模型的重点和难点是定位人体关键点,可以使用姿态估计模型增强识别模型。本文选择用YOLO 获得17个关键点特征。
减少参数量增加局部输出,将行人重识别拆解为局部肢体重识别。由于局部图片较少,所以我们使用已有的模型生成需要的非人工标签的数据。局部掩码生成器是一个向模型学习的模型,是利用神经网络权重实现的。因为YOLO输出的人体关键点的范围比较小,不能直接适用于行人重识别,所以设计一个结构和ResNet类似的局部掩码生成器置于resnet和YOLO之间(如

图2 LMG结构图
Fig. 2 LMG structure
输入的图像分别送入已训练过的行人重识别模型当做教师模型,同时将图像送入人体关键点检测模型获得关键点信息和分割信息。选择用COCO与训练的模型可获得17个人体部位的位置信息,编号从0到16对应的部位分别是:鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左腕、右手腕、左髋关节、右髋关节、左膝、右膝、左脚踝、右脚踝。由于图像分辨率不高会出现识别不准确,将对应的通道按(0,1,2,3,4)、(5,6,7,8,9,10)、(5,6,11,12)、(11,12,13,14,15,16) 重新分组,分别是头、上肢、上身和下肢,使用四个独立的卷积神经网络ResNet50记作 backbone-N (N∈{1,2,3,4})分别学习这4个局部特征。
局部掩码生成器用来修改输入数据,由于局部掩码生成器目的是让模型注意到人体关键点及临近像素的范围较小,所以局部掩码生成器通过两次池化后再使用双线性插值上采样 (Bilinear interpolation)实现扩大区域,不关注部分被掩码置0,最后特征融合时使用分组1×1卷积齐通道数并将上采样调整到和LMG-layer1一致。
让输入经过统一特征模块后,再计算一次BN层有助于提取到更好的反例信息防止过拟合, 按通道拼接特征输入到Backbone、Backbone-N和Backbone-G(如

图3 用LMG拆分全局特征的方法
Fig. 3 Splitting of global features by LMG
通过调节温度、调整知识蒸馏类别的输出值,可防止训练后学生模型的特征分布过于集中。所以,计算获得ID前的教师模型、拆解的特征重新获得各个局部特征权重的学生模型,只学部分的学生模型,都需要使用如下
. | (1) |
重新调节权重,可以使注意力均摊到不同部位,用姿态模型进行预处理,为了可复用模型,激活原始模型后利用伪标签进行自监督学习。
LMGNet模型输出的局部特征用1×1卷积调整通道后使用三元损失函数学习教师模型的特征,如
, | (2) |
表示三元损失函数,是预测值, 和 分别是正样本和负样本。正样本和负样本之间的距离m设置为0.3,||*|| 是欧氏距离, M表示LMG输出掩码的函数。
交叉熵损失通常用于多分类如
. | (3) |
使用交叉熵损失函数分类不同的id,Backbone-N和 Backbone-G的输入乘以掩码后再正向传导。C是分类的总数,的输出是类别标签,p是预测的类别,i是样本编号,c表示类别编号即行人id号。
掩码生成器使用深度可分离卷积将输入拆分为4组的特征,LMG-conv1输出的4个通道特征与从YOLO获得人体关键点位置的特征,使用均方差函数计算出loss值如
. | (4) |
张量尺寸为 (-1,17,128,64) 是特征上的所有点,利用类似特征金字塔的结构让局部掩码生成器把backbone的特征当做数据输入。
整个损失函数可以表示为
, | (5) |
其中i是每个Backbone-N的编号,当i=0时是Backbone-G。
现有的多数模型都不是对父类和子类进行学习,一些利用在模型中区分子属性的多见于横向分割的重识别模型。试图解决局部特征的方法有很多,比如注意力机制如

图4 引导局部注意力
Fig. 4 Guiding localized attention
用Other-Attention(OA)融合多局部特征为注意力,引导全局特征提取,如
. | (6) |
为了在空间上融合局部特征,先将4个不同部位输出的X(batch-size, C,H,W)拼接为L,L表示一组局部特征(Local features),局部特征和全局特征在语义上是组合关系,4个局部注意力分别训练,这里用表示为一个(batch-size,4×C,H×W)尺寸的张量。所以,用M(Matrix)调整每个局部特征的位置。M 是尺寸为(H×W,H×W),d=H×W,LM输出的结果除以后,用Conv卷积计算实现按比例合并为全局特征。经过softmax函数后矩阵乘法乘以G,G表示全局特征(Global Features)(batch-size,C,H×W)。从源数据提取的特征L和G,利用注意力融合为一个全局特征,从而使Backbone-G在排除环境干扰的基础上更关注到局部重要位置的特征。使用了局部注意力和整体注意力,都是使用了相同的输入数据提取特征,使用了相同的教师模型指导。
为了分析本文方法的有效性,在两个经常被人使用的红外行人重识别数据集SYSU-MM01和RegDB上进行实验,来测试和评估本文提出的LMGNet的效果,并使用LMGNet与同类型的最先进的其他方法进行比较。
SYSU-MM0
RegD
实验的硬件使用了GeForce RTX 3090TI、CUDA11, 框架使用PyTorch1.7,学生模型的Backbone使用了ImageNet的预训练权重FastReID的ResNet50、torchreid(框架是OSNet模型的文章的一部分)。开始时学习速率0.01,优化器使用Adam训练120个epoch,每20个epoch衰减10,输入图像的大小调整为256×128。在使用掩码修改演示图像后,在非关注去随机添加随机遮挡和噪声,使用的数据增强包括随机翻转、随机裁剪。
本文采用行人重识别常见的评级标准对模型性能的评估,分别是累积匹配特征 (cumulative matching characteristic, CMC) 和平均精度(mean aver-age precision, mAP) 作为评估指标,CMC指标报告了在给定一个文本描述作为查询时,在对可能性排序的前k个中找到至少一个匹配的人图像的概率, 在后续表中用Rank-k表示。
为验证LMG模型的先进性 ,在 SYSU-MM01和 RegDB 两个公共数据集上与近几年研究出的红外行人重识别模型 Zero-Pad、Hi-CMD、DDAG、AGW、NFS、PMT、HCML和AlignGAN进行了对比。
从在 SYSU-MM01 数据 集上测试的 all-search 和 indoor-search 两种模式的实验结果(
方法名 | 全查模式 | 室外模式 | ||||||
---|---|---|---|---|---|---|---|---|
rank-1/% | rank-10/% | rank-20/% | mAP/% | rank-1/% | rank-10/% | rank-20/% | mAP/% | |
Zero-Pad | 14.8 | 54.12 | 71.33 | 15.59 | 20.58 | 68.38 | 85.79 | 26.92 |
Hi-CMD | 34.94 | 77.58 | - | 35.94 | - | - | - | - |
DDAG | 54.75 | 90.36 | 95.81 | 53.02 | 61.02 | 94.06 | 98.41 | 67.98 |
AGW | 47.5 | 84.39 | 92.14 | 47.65 | 54.17 | 91.14 | 95.98 | 62.97 |
NFS | 56.91 | 91.34 | 96.52 | 55.45 | 62.79 | 96.53 | 99.07 | 69.79 |
PMT | 67.53 | 95.36 | 98.64 | 64.98 | 71.66 | - | - | 69.5 |
HCML | 14.32 | 53.16 | 69.17 | 16.16 | 24.52 | 73.25 | 86.73 | 30.08 |
AlignGAN | 42.4 | 85.0 | 93.7 | 40.7 | 45.9 | 87.6 | 94.4 | 54.30 |
本文方法 | 71.42 | 95.61 | 98.86 | 65.89 | 78.88 | 98.31 | 99.1 | 81.65 |
从在RegDB 数据集上测试的可检查红外和 红外查可见两种模式的实验结果(
方法名 | 可见查红外 | 红外查可见 | ||||||
---|---|---|---|---|---|---|---|---|
rank-1/% | rank-10/% | rank-20/% | mAP/% | rank-1/% | rank-10/% | rank-20/% | mAP/% | |
Zero-Pad | 17.75 | 34.21 | 44.35 | 18.9 | - | - | 44.25 | 17.82 |
Hi-CMD | 70.93 | 86.39 | - | 66.04 | - | - | - | - |
DDAG | 69.34 | 86.19 | 91.49 | 63.46 | 68.06 | 85.15 | 90.31 | 61.8 |
AGW | 70.05 | 87.28 | 92.04 | 66.37 | 68.83 | 83.69 | 88.35 | 64.45 |
NFS | 80.54 | 91.96 | 95.07 | 72.1 | 77.95 | 16.63 | 34.68 | 69.79 |
PMT | 84.83 | - | - | 76.55 | 84.16 | - | - | 75.13 |
HCML | 24.44 | 47.53 | 56.78 | 20.08 | 21.7 | 45.02 | 55.58 | 22.24 |
AlignGAN | 57.9 | - | - | 53.6 | 56.3 | - | - | 53.4 |
本文方法 | 89.52 | 92.31 | 95.34 | 80.89 | 88.11 | 92.23 | 97.67 | 82.57 |
经过伪标签重新训练局部特征获得的模型更专注于局部信息,本文的模型可以调节局部特征是否开启。
为了验证我们提出的模型中组件的有效性,在SYSU-MM01数据集上进行了消融实验。通过取消的部分组件验证,整体设置不变,采用DEEN
设置 | SYSU-MM01 | |||
---|---|---|---|---|
基线 | LMG | 全局 | mAP/% | Rank-1/% |
✓ | 62.0 | 64.7 | ||
✓ | ✓ | 64.99 | 70.19 | |
✓ | ✓ | 64.45 | 67.28 | |
✓ | ✓ | ✓ | 65.89 | 71.42 |
局部注意力模块,将掩模重构模块加入baseline 进行实验,Rank-1和mAP分别为70.19%和64.99%,较baseline分别提高了5.49%和2.99%,说明局部注意力模块能够很好地消除无关特征的影响,使模型对人体区域具有更准确的识别能力。
全局模块直连后,Rank-1和mAP分别为67.28%和62.45%,较baseline分别提高了2.45%和2.58%,说明全局模块是有效的且对模型有着积极的影响。
总体上看,通过局部注意力模块引导和全局模块的融合,最终使模型的Rank-1和mAP分别提升至71.42%和65.89%,Rank-1和mAP较baseline分别提高了6.72%和3.89%。
在本小节中,将分析方法中每个组成部分的有效性。为了证明局部特征提取的有效性,输入SYSU-MM01数据集的图片后,分别输出了4个局部特征的热度图(如

(a)

(b)

(c)

(d)

(e)
图5 模型关注的局部对比图
Fig. 5 Comparison of the local areas of interest of the model
针对红外光场景下的行人重识别存在的跨模态的差异和环境特征干扰等问题, 提出了一种简单而有效的新方法LMGNet。为了实现有目的且有效的引导注意力,此方法通过学习另一个模型的输出,对不同尺度的全局范围结构信息进行建模、获得掩码,以提高模型推理的准确性。由于生成了具有语义信息特征,所以利用这些信息可以通过关系型数据库实现对特定目标的检索,而不仅仅是完全使用神经网络模型。通过指定模型的通道来学习指定的身体部位,增加了模型的可解释性,并且只比较存在相同部位的通道的距离,以提高精度。与同类的先进的方法相比较,在数据集SYSU-MM01上全查模式的mAP和Rank-1 ,分别提升了 3.89% 和 0.91%。拆分局部后可以有效对齐局部特征,从而正确引导模型的注意力,实验表明了本文方法的有效性。
References
Gu X, Chang H, Ma B, et al. Clothes-changing person Re-identification with RGB modality only[C]. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022: 1060-1069. [百度学术]
Park H, Ham B. Relation network for person re-identification[C]. Proceedings of the AAAI conference on artificial intelligence. 2020, 34(07): 11839-11847. [百度学术]
Zhang Z, Lan C, Zeng W, et al. Relation-aware global attention for person re-identification[C]. Proceedings of the ieee/cvf conference on computer vision and pattern recognition. 2020: 3186-3195. [百度学术]
Miao J, Wu Y, Yang Y. Identifying visible parts via pose estimation for occluded person re-identification[J]. IEEE Transactions on Neural Networks and Learning Systems. 2022, 33(9): 4624-4634. [百度学术]
Sun Y, Zheng L, Yang Y, et al. Beyond part models: person retrieval with refined part pooling (and a strong convolutional baseline)[C]. Proceedings of the European conference on computer vision (ECCV). 2018: 480-496. [百度学术]
Zhu K, Guo H, Zhang S, et al. A aformer: auto-aligned transformer for person re-identification[J]. IEEE Transactions on Neural Networks and Learning Systems. 2023. [百度学术]
Ci Y, Wang Y, Chen M, et al. UniHCP: a unified model for human-centric perceptions [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 17840-17852. [百度学术]
Che J, Zhang Y, Yang Q, et al. Research on person re-identification based on posture guidance and feature alignment[J]. Multimedia Systems. 2023, 29(2): 763-770. [百度学术]
Gu J, Wang K, Luo H, et al. MSINet: twins contrastive search of multi-scale interaction for object ReID [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 19243-19253. [百度学术]
Pan H, Chen Y, He Z. Multi-granularity graph pooling for video-based person re-identification [J]. Neural Networks. 2023, 160: 22-33. [百度学术]
Zhang G, Zhang H, Lin W, et al. Camera contrast learning for unsupervised person re-identification [J]. IEEE Transactions on Circuits and Systems for Video Technology. 2023, 33(8): 4096-4107. [百度学术]
Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[J]. arXiv preprint arXiv:1503.02531. 2015. [百度学术]
Liu X, Yu C, Zhang P, et al. Deeply coupled convolution-transformer with spatial-temporal complementary learning for video-based person re-identification[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023: 1-11. [百度学术]
Wang M, Lai B, Huang J, et al. Camera-aware proxies for unsupervised person re-identification[C]. Proceedings of the AAAI conference on artificial intelligence. 2021, 35(4): 2764-2772. [百度学术]
Dou Z, Wang Z, Li Y, et al. Identity-seeking self-supervised representation learning for generalizable person re-identification[C]. Proceedings of the IEEE/CVF international conference on computer vision. 2023: 15847-15858. [百度学术]
Chen Z, Cui Z, Zhang C, et al. Dual clustering co-teaching with consistent sample mining for unsupervised person re-identification[J]. IEEE Transactions on Circuits and Systems for Video Technology. 2023, 33(10): 5908-5920. [百度学术]
Feng J, Wu A, Zhen W. Shape-erased feature learning for visible-infrared person re-identification[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 22752-22761. [百度学术]
Saber S, Meshoul S, Amin K, et al. A multi-attention approach for person re-identification using deep learning[J]. Sensors. 2023, 23(7): 3678. [百度学术]
Choi S, Lee S, Kim Y, et al. Hi-CMD: hierarchical cross-modality disentanglement for visible-infrared person re-identification [C]. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 10257-10266. [百度学术]
Ye M, Shen J, J. Crandall D, et al. Dynamic dual-attentive aggregation learning for visible-infrared person re-identification[C]. Computer Vision-ECCV 2020:16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part XVII 16. Springer International Publishing, 2020: 229-247. [百度学术]
Chen Y, Wan L, Li Z, et al. Neural feature search for RGB-infrared person re-identification[C]. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 587-597. [百度学术]
Lu H, Zou X, Zhang P. Learning progressive modality-shared transformers for effective visible-infrared person re-identification[C]. Proceedings of the AAAI conference on artificial intelligence. 2023, 37(2): 1835-1843. [百度学术]
Ye M, Lan X, Li J, et al. Hierarchical discriminative learning for visible thermal person re-identification[C]. Proceedings of the AAAI conference on artificial intelligence. 2018, 32(1). [百度学术]
Wang G, Zhang T, Cheng J, et al. RGB-infrared cross-modality person re-identification via joint pixel and feature alignment[C]. Proceedings of the IEEE/CVF international conference on computer vision. 2019: 3623-3632. [百度学术]
Wu A, Zheng W, Yu H, et al. RGB-infrared cross-modality person re-identification[C]. Proceedings of the IEEE international conference on computer vision. 2017: 5380-5389. [百度学术]
Ye M, Shen J, Lin G, et al. Deep learning for person re-identification: a survey and outlook[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2022, 44(6): 2872-2893. [百度学术]
Zhang Y, Wang H. Diverse embedding expansion network and low-light cross-modality benchmark for visible-infrared person re-identification[J]. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2023: 2153-2162. [百度学术]