摘要
基于毫米波图像的隐匿物检测技术在无接触式人体安检中具有重要意义。目前,毫米波设备已实现三维成像,但隐匿物检测算法通常将其简单压缩为二维图像进行目标检测,未能充分利用图像深度方向的信息。针对这一问题,提出一种毫米波图像隐匿物检测框架,将三维图像视为截面序列并充分利用其截面内特征沿序列(即深度方向)的内在逻辑关系。该框架由卷积神经网络与长短时记忆网络构成,前者用于提取截面的粗细粒度特征,后者用于提取上述特征沿深度方向的全局关联性,实现特征级信息融合,从而提高隐匿物二维定位准确率。实验结果表明,与现有主流毫米波图像隐匿物检测方法相比,所提模型能大幅提高检测精度。
毫米波是指波长在1~10 mm之间的电磁
本文所用数据全部由主动式设备——毫米波全息成像系统Sim-Image采集,仪器原型以及实验所采用的违禁物如

图1 毫米波成像设备 (a) Sim-Image系统,(b) 违禁物示例
Fig. 1 MMW imaging system (a) prototype of Sim-Image, (b) examples of contraband

图2 毫米波成像过程示意图
Fig. 2 Diagram of MMW imaging system
目前,基于毫米波图像的隐匿物检测仍是一项艰巨的任务。一方面,安检任务中的隐匿物具有纹理形状各异、空间尺度较小等特点;另一方面,毫米波图像相比光学图像空间分辨率较低、本底噪声较大,使得隐匿物特征难以提取。对于以上难点,传统毫米波图像目标检测方法依赖手工设计特
然而,主流的毫米波图像隐匿物检测方法均没有充分利用毫米波原始数据的三维空间信息。相比三维毫米波图像,二维图像各像素只保留了三维空间中同一平面位置、不同深度上的最大回波强度值,导致隐匿物空间纹理特征的扭曲,更丢失了深度方向上回波波形蕴含的目标信息,不利于隐匿物的检出。为提高隐匿物检测的准确性,必须充分考虑三维毫米波图像的深度方向上提供的信息。其中一个解决方案是采用三维卷积核进行特征提取,但该方法不适用于三维毫米波图像,主要原因在于三维毫米波图像在深度方向的物理有效分辨率低于其他两个方
最近,视频内容分类中的研究表
综上所述,本文提出一种面向三维毫米波图像的隐匿物检测框架,用较小的代价尽可能地充分利用毫米波图像的三维空间信息,以提高隐匿物二维坐标预测的准确率。相较于现有的毫米波图像隐匿物检测方法,所提议模型避免了在特征提取之前进行图像信息融合的做法,同时引入长短时记忆网络提取截面图像在深度方向上的逻辑关系,从而充分利用三维毫米波图像的空间信息。更进一步地,所提议模型实际上是将xy平面与z轴向的特征提取进行了分解,不仅解决了毫米波图像分辨率各向异性的问题,同时相比采用三维卷积核进行三维目标检测的方法具有更小的计算代价。实验结果表明,该框架能有效地利用三维毫米波图像沿深度方向的全局关联信息,检测性能相比现有方法有了大幅度的提升。
目前,毫米波设备已可以实现三维成像,但随后通常将三维成像结果投影到二维空间进行检测。上述操作实际上是进行了像素级的信息融合,只保留了三维空间中同一平面位置、不同深度方向上的最大回波强度值,但丢失了深度方向上回波所蕴含的目标信息,使得部分隐匿物变得模糊、难以辨认,称为困难样本,具体可分为两类:1)当隐匿物被携带于人体正面,且纹理、亮度与人体特征十分接近时,视觉上难以区分目标与背景,如

图3 毫米波图像分析示例 (a)、(c)第一、二类困难样本二维毫米波图像及真值框,(b)、(d)采样过程示意图
Fig. 3 Examples of MMW image processing (a)、(c) 2D MMW image with ground truth of difficult case 1 and 2,(b)、(d) illustration of the sampling process

图4 第一类困难样本分析结果 (a) 含目标区域采样点沿深度方向的强度分布曲线,(b) 背景区域采样点沿深度方向的强度分布曲线,(c) 背景与含目标区域沿深度方向的平均强度分布曲线比较,(d-f) I、II、III深度区间对应截面示例
Fig. 4 Analysis results of difficult case 1 intensity distribution curve of sampling point along depth direction of (a) object and (b) background, (c) comparison of the average intensity distribution curve of the object and the background area along the depth direction, (d-f) example of MMW cross-section corresponding to interval I, II and III

图5 第二类困难样本采样点沿深度方向的强度分布曲线 (a) 含目标区域,(b) 背景区域
Fig. 5 Analysis results of difficult case 2 intensity distribution curve of sampling point along depth direction of (a) object and (b) background
除人体躯干外,我们对其他背景区域进行了采样分析,这些区域的主要强度响应为成像噪声。

图6 目标物与噪声强度分布对比 (a) 、(e) 二维毫米波图像及采样区域,(b) 、(f) 含目标区域采样点在深度方向的强度分布曲线,(c-d) 、(g-h) 噪声区域采样点在深度方向的强度分布曲线
Fig. 6 Comparison of intensity distribution between object and noise (a) (e) 2D MMW image with sampling area, intensity distribution curve in depth direction of (b) (f) object, and (c-d)、 (g-h) noise
综上所述,三维毫米波图像深度方向所包含的信息对于隐匿物的检测具有重要作用,由于目标物与人体躯干、噪声等背景在深度方向的分布不同,对深度方向信息的充分利用是本文提高检测精度的主要思想。
目前,基于深度学习的目标检测模型通常由两个部分构成:第一,特征提取模块,负责从原始图像提取具有一定表达能力的特征描述;第二,预测模块,负责根据所提取特征以及监督信息,进行目标类别与坐标的预测。对于毫米波图像隐匿物的检测,一方面,对原始图像的像素级信息融合无法充分利用深度方向上回波波形蕴含的目标信息,导致隐匿物空间纹理的扭曲,因此需要设计新的特征提取模块,以充分考虑毫米波图像的三维空间信息;另一方面,由于隐匿物三维边界框(bounding box)的预测难度大、标注成本高,加之实际应用中三维边界框并非必要,因此本任务仍然属于二维检测问题,模型所预测与优化的对象仍为二维边界框。我们考虑,毫米波图像的三维空间信息可以理解为二维空间结构沿深度方向的变化关系,故引入长短时记忆网络以挖掘上述变化关系,实现特征级信息融合,从而提高在二维空间的检测精度。
基于以上观察与分析,提出了一个新颖的三维毫米波图像目标检测框架,该框架由三个部分组成:1)截面内特征提取模块;2)截面间上下文提取模块(Bi-CLSTM);3)预测模块。其中,模块一、模块二构成特征提取器,获得毫米波截面序列全局性特征;模块三基于上述特征,进行毫米波图像违禁物品的检测。模型的整体结构如

图7 所提议方法的整体框架
Fig. 7 The overall framework of the proposed method
对于毫米波图像截面的特征提取,由于安检任务中隐匿物的种类繁多、形状各异,且尺寸往往较小,因此基于手工设计的方法难以提取目标特征。针对以上特点,借鉴YOLO-v

图8 截面内特征提取模块结构示意图
Fig. 8 Structure of intra-section context extraction module
基于毫米波图像的特点,我们引入长短时记忆网络提取图像深度方向的逻辑关系。LSTM是一种特殊的循环神经网络,被证明可以很好地处理序列问
. | (1) |

图9 LSTM的基础结
Fig. 9 Commom structure of LST
然而,传统LSTM模型的输入为一维向量,而模块一输出的特征图具有二维空间结构。为了保证上述二维特征的空间信息不丢失,本文将LSTM改进为卷积LSTM(Convolutional LSTM, CLSTM)网络,即采用卷积操作替换经典LSTM中的点乘,使得步骤一中得到的二维特征可以直接输入LSTM,而不用转换为一维向量。同时,由于步骤一所提取的特征已经足够高阶,CLSTM的卷积操作均采用卷积核。此外,在经典的LSTM中,信息只往一个方向传递,即只能提取一个方向的上下文信息,为了更充分地利用毫米波图像的深度方向信息,本文采用双向的CLSTM(Bi-Directional CLSTM, Bi-CLSTM),以提取深度方向双向的上下文信息,有利于模型性能的提升。设输入为序列,则对于Bi-CLSTM模块,第i个单元的输出可表示为:
, | (2) |
其中,表示方向计算的CSLTM隐层输出,表示方向计算的CSLTM隐层输出,表示对上述两者进行拼接。与的具体计算过程与
通过以上方式,本文将毫米波截面序列全局性特征描述的提取分解为两个步骤:首先,采用深度卷积网络提取各个截面的二维截面内特征表达;随后,利用Bi-CLSTM模块提取截面间上下文关系表达。由于模块一所提取的特征具有丰富的空间纹理信息与高阶语义信息,不仅能提高Bi-CLSTM模块对深度方向的建模能力,更因为前者的特征向量已经编码了邻域信息,因此Bi-CLSTM模块通过融合上述特征向量,从而获得可以表征毫米波三维空间关系的特征描述。
目前,深度学习检测方法中的预测模块可分为两大类:1)两阶段结构,其预测通常为串行结构,即先完成背景/前景的分类,再进行进一步分类与定位;2)单阶段结构,即不预先进行背景/前景的分类,而是并行地进行分类与定位两个任务。其中,两阶段结构的设计带来了大量的空间开销与重复计算,无法满足实时性的要求;而单阶段结构只需进行一次回归计算,模型中卷积运算的共享程度更高,内存占用小,具有明显的速度优势,因此本文基于单阶段结构来设计预测模块。
预测模块采用并行两分支结构,同时进行类别预测与边界框定位两个任务,通过构建多任务损失函数实现端到端的优化,仅需一次计算即可进行目标物体的分类与定位。采用卷积层替代传统分类网络中的全连接层,从而更好地保留目标物体的空间位置信息。此外,为提高召回率,引入anchor机制进行预测,即预先设定5个不同尺寸的先验框(anchor box),在特征图的每个位置上对应地预测5个边界框。其中,先验框不是手工挑选得来,而是针对本研究所用的数据集,采用k-means算法进行聚类,以确定先验框的尺寸。
对于模型输入的毫米波截面序列,设模块一的特征提取函数为F,首先对每个截面进行特征提取,得到截面粗细粒度特征序列:。随后,Bi-CLSTM模块提取截面间的上下文信息,其参数为,则整个特征提取过程可表示为:。基于毫米波截面序列全局性特征,预测模块在特征图的每个位置上进行回归计算,得到边界框、置信度与类别概率。针对以上预测,构建多任务损失函数,对上述任务进行联合训练。因此,模型的损失函数由三个部分构成,分别是边界框损失、置信度损失以及分类损失,整体损失函数的表达式如下:
, | (3) |
, | (4) |
, | (5) |
, | (6) |
其中,表示特征图尺寸,表示先验框数量。对于第个网格的第个预测框,表示其中心点坐标与宽/高度,表示类别概率,表示置信度;相对应地,、与表示真值框的各项参数。针对本任务目标尺寸较小的特点,在计算边界框损失时,乘以修正项,即根据真值框的大小对权重系数进行修正,使得对于尺寸较小的框权重更大。训练时,为了降低优化问题的复杂性,采用解耦的优化方式对模型参数F与G进行优化。首先,优化F来保证二维空间特征的有效提取;其次,固定参数F,优化Bi-CLSTM的参数G,保证得到的毫米波截面序列全局性特征描述是毫米波图像三维空间关系的有效表达。
实验采用的三维毫米波数据集由毫米波全息成像系统Sim-Image采集,共包含204张图像,尺寸为像素,图像示例如

图10 实验数据集示意图 (a) 三维毫米波图像,(b) 沿y方向投影图,(c) 沿x方向投影图,(d) 数据集统计分析结果
Fig. 10 Illustration of our dataset (a) 3D MMW image, (b) the projection in the y-direction, (c) the projection in the x-direction, (d) statistical analysis result of the dataset
所提议模型将毫米波三维数据处理为z轴向的二维截面序列,具体为200个尺寸为的二维毫米波截面。由于采集数据时人体站立位置固定,因此只有一些特定的深度通道存在有效信息。为了保证算法性能、降低计算量,实验中对不包含人体信息的截面进行舍弃。为此,我们对数据集进行统计分析,
考虑到截面之间存在信息冗余,为降低模型复杂度与计算成本,采用等间隔抽样对区间I进行降2倍采样,每个三维毫米波图像抽取25个截面,作为算法输入。此外,由于数据集样本数量较小,我们采用5折交叉验证法进行实验,以保证实验结果的可靠性;训练与测试数据的划分比例为4∶1。对于每组数据,均重复5次实验。
实验基于Pytorch框架构建模型,并使用NVIDIA TITAN XP的单个GPU对模型进行训练与测试,该GPU具有12GB的内存。训练时,采用解耦训练的方式,首先训练截面内特征提取模块,以获得最优性能,其次训练Bi-CLSTM模块。对于模块一,使用在ImageNet数据上预训练的权值进行网络参数初始化,从而提高训练效率、缓解过拟合。模型采用带动量的随机梯度下降法(Stochastic Gradient Descent, SGD)进行权值更新,网络初始学习率为0.000 1。为了进一步防止过拟合,设置权值衰减,系数为0.000 5。对于Bi-CLSTM模块,采用Adam优化器进行权值更新,设置初始学习率为0.000 1,权值衰减系数设置为0.000 1。
实验采用平均查准率均值(Mean Average Precision, mAP)作为评价指标,以评估算法的性能。其中,平均查准率(AP)表示查准率(Precision)对查全率(Recall)所取的平均。查准率与查全率是一对相互矛盾的指标,通过对预测结果的置信度设置不同阈值可得到不同的结果对,形成查准率-查全率曲线(P-R曲线),AP实际上是P-R曲线下方的面积,能更好地反映全局性能。mAP表示各类别平均查准率(AP)的均值,由于本实验中把所有的违禁物归为同一类,故此时mAP与AP相同。
其中,查准率与查全率的定义分别如下:
, | (7) |
, | (8) |
TP(True Positive)、FP(False Positive)、FN(False Negative)分别表示“正确检出”、“虚警”与“漏检”。其中,所预测的边界框是否为正样本取决于其与真值框的重叠程度,用IoU度量(Intersection over Union),其计算方法如
. | (9) |
在本节,将所提议方法与常用毫米波图像隐匿物检测方法进行了对比。具体地,对基于二维毫米波图像的YOLO-v2和SSD模
保持所提议模型的其他结构不变的前提下,移除Bi-CLSTM模块,得到消融模型。其具体结构为:将三维毫米波图像以截面形式依次输入YOLO-v2模块,得到各个截面的特征图;对于上述特征图进行拼接(Concatenate)后使用1×1卷积,实现特征融合,并进行后续的预测,模型具体结构如

图11 消融模型的结构
Fig. 11 Structure of the ablation model
具体的检测结果如
为观察所提议模型准确率提高的原因,利用类激活映射(Class Activation Mapping,CAM

图12 特征图CAM可视化结果 (a) 待测图像及真值框,(b) 传统方法特征图显著区域,(c) 所提议方法特征图显著区域
Fig. 12 The visualization results of the CAM of feature map (a) the image to be measured with ground truth, (b) the salient region of the feature map obtained by the traditional method, (c) the salient region of the feature map obtained by the proposed method
为进一步解释Bi-CLSTM在所提议框架中所起的作用,对所提议模型经Bi-CLSTM处理前、处理后的截面特征图进行CAM可视化,分别观察其显著区域,如

图13 各截面特征图CAM可视化对比 (a-b) 待测三维图像侧视图,(c) 经Bi-CLSTM处理前CAM结果及其侧视图,(d) 经Bi-CLSTM处理后CAM结果及其侧视图
Fig. 13 Comparison of CAM visualization of feature maps of cross-section (a-b) the side view of 3D MMW image to be measured, CAM results and the side view (c) before, and (d) after Bi-CLSTM
为了更深入地探究所提议模型的作用机制,设计了截面预测合成模型,与基于二维图像的检测模型相比,该模型舍弃了在特征提取前对图像进行像素级融合的做法。具体地,截面预测合成模型分别对各二维截面进行特征提取与预测,随后采用非极大值抑制法对各个预测结果进行融合。我们统计了不同方法所预测的候选框数量,如

图14 P-R曲线结果对比
Fig. 14 Comparison P-R curve
提出了一种面向三维毫米波图像的隐匿违禁物品检测框架,该框架能有效利用毫米波截面序列间的全局关联性,缓解了以往无法充分利用三维毫米波图像空间信息的问题。所提议框架由卷积神经网络与长短时记忆网络构成,前者用于进行二维截面的粗细粒度特征提取,后者沿深度方向整合截面间的全局关联性,实现特征级信息融合。由于隐匿物与人体躯干、成像噪声等背景区域沿深度方向具有不同分布,通过对深度方向逻辑关系的建模,可以降低漏检与虚警情况,更加准确地实现隐匿物的定位。所提议模型实际上是将毫米波图像xy平面与z轴向的特征提取进行了分解,由于长短时记忆网络中各单元间参数共享,因此能够在参数量固定的前提下实现变长序列的建模。换言之,模型可以针对不同的毫米波成像设备灵活调整长短时记忆网络的长度,以适应毫米波图像分辨率各向异性的问题。此外,相比采用三维卷积核进行三维目标检测的方法,所提议框架不仅具有更小的计算代价,而且得以在训练阶段充分利用基于二维检测任务的预训练模型,从而减少训练与标注成本。因此,我们的方法提供了一种新的思路,用较小的代价尽可能地充分利用毫米波图像的三维空间信息,以提高隐匿物二维坐标预测的准确率,相比现有的毫米波隐匿物检测方法具有更好的检测性能。
References
Xiang J, Zhang M. Millimeter-Wave radar and its applications[M]. National Defense Industry Press, 2005. [百度学术]
Ghasr M T, Ying K P, Zoughi R. Wideband millimeter wave interferrometer for high-resolution 3D SAR imaging[C]. 2015 IEEE International Instrumentation and Measurement Technology Conference (I2MTC) Proceedings, 2015: 925-929. 10.1109/i2mtc.2015.7151393 [百度学术]
Peng F , Fang W , Wen X , et al. State of the art and future prospect of the active millimeter wave imaging technique for personnel screening[J]. Journal of Microwaves, 2015, 31(2):91-96. [百度学术]
Zhu Y, Yang M, Wu L, et al. Millimeter-wave holographic imaging algorithm with amplitude corrections [J]. Progress In Electromagnetics Research M, 2016, 49: 33-39. 10.2528/pierm16050801 [百度学术]
Zhu Y, Yang M, Wu L, et al. Practical millimeter-wave holographic imaging system with good robustness[J]. Chinese Optics Letters, 2016, 14(10):43-47. 10.3788/col201614.101101 [百度学术]
Yeom S, Lee D S, Son J Y, et al. Concealed object detection using passive millimeter wave imaging[C]// Universal Communication Symposium. IEEE, 2010. 10.1109/iucs.2010.5666180 [百度学术]
Mu S, Shan H, Zhou J, et al. A method for detecting hidden objects of human body in passive millimeter wave image. Science & Technology Information, 2014, 36: 202-203. [百度学术]
Nian F, Chen W, Wang W, et al. Concealed objects detection in active millimeter-wave images[J]. Systems Engineering and Electronics, 2016, 38(6): 1462-1469. 10.3969/j.issn.1001-506X.2016.06.37 [百度学术]
Yao J, Yang M, Zhu Y, et al. Using convolutional neural network to localize forbidden object in millimeter-wave image[J]. Journal of Infrared and Millimeter Waves, 2017, 36(003): 354-360. 10.11972/j.issn.1001-9014.2017.03.018 [百度学术]
Zhang B, Chen T, Wang B, et al. Densely semantic enhancement for domain adaptive region-free detectors[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021,DOI: 10.1109/TCSVT.2021.3069034. [百度学术]
Zhang B, Wang B, Wu X, et al. Domain adaptive detection system for concealed objects using millimeter wave images[J]. Neural Computing and Applications, 2021, 33:11573-11588 . 10.1007/s00521-021-05847-5 [百度学术]
Luo S, Wu X, Yang M, et al. Convolutional neural network based human concealed object detection for millimeter wave images[J]. Journal of Fudan University(Natural Science), 2018, 57(4): 442-452. 10.1145/3297067.3297081 [百度学术]
Liu C, Yang M, Sun X. Towards robust human millimeter wave imaging inspection system in real time with deep learning[J]. Progress In Electromagnetics Research, 2018, 161: 87-100. 10.2528/PIER18012601 [百度学术]
Liu T, Zhao Y, Wei Y, et al. Concealed object detection for Activate millimeter wave image[J]. IEEE Transactions on Industrial Electronics. 2019, 66(12): 9909-9917. 10.1109/TIE.2019.2893843 [百度学术]
Sheen D M, McMakin D L, Hall T E. Three-dimensional millimeter-wave imaging for concealed weapon detection[J]. IEEE Transactions on microwave theory and techniques, 2001, 49(9): 1581-1592. 10.1109/22.942570 [百度学术]
Ng Y H, Hausknecht M, Vijayanarasimhan S , et al. Beyond short snippets: Deep networks for video classification[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2015. 10.1109/cvpr.2015.7299101 [百度学术]
Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8):1735-1780. 10.1162/neco.1997.9.8.1735 [百度学术]
Shahzadi I, Tang T B, Meriadeau F, et al. CNN-LSTM: Cascaded framework for brain tumour classification[C]// 2018 IEEE-EMBS Conference on Biomedical Engineering and Sciences (IECBES). IEEE, 2018, DOI: 10.1109/IECBES.2018.8626704. [百度学术]
Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 6517-6525. 10.1109/cvpr.2017.690 [百度学术]
Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014, arXiv:1409.1556v6 . 10.1007/978-3-319-16865-4_35 [百度学术]
Lin M, Chen Q, Yan S. Network In Network[J]. Computer Science , 2013, arXiv:1312.4400 . 10.2991/iccsee.2013.711 [百度学术]
Patraucean V, Handa A, Cipolla R. Spatio-temporal video autoencoder with differentiable memory[J]. Computer Science, 2015, 58(11):2415 - 2422. 10.1109/cvpr.2016.442 [百度学术]
Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[J]. Computer Science , 2015: 21-37. 10.1007/978-3-319-46448-0_2 [百度学术]
Zhou B , Khosla A , Lapedriza A , et al. Learning deep features for discriminative localization[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR) ,2016:2921-29 . 10.1109/cvpr.2016.319 [百度学术]