基于自适应特征金字塔的行人检索方法与流程

文档序号：18886899发布日期：2019-10-15 21:04阅读：230来源：国知局

本发明属于计算机视觉技术领域，更为具体地讲，涉及一种基于自适应特征金字塔的行人检索方法。

背景技术：

二十世纪以来，随着科技的高速发展，利用现代高科技的手段维护社会公共安全、侦破公安部门刑事案件等已经成为一种重要方式。而随着“平安校园”、“智慧城市”等一些社会安防项目的提出和实施，视频监控系统逐渐在交通、教育、商业、公安等领域有较为广泛的应用。能否快速地从茫茫人海之中找到嫌疑目标，是社会安防、刑事案件侦破等问题的关键。假如给定一张嫌疑人的全身照片，在视频图像中定位目标行人的整个过程称为行人检索，即根据输入图像，从其他摄像头下完整的图像中找出该行人的过程。

目前行人检索主要有两种思路，一种是将行人检索定义为递归地聚焦于感兴区域的过程，并提出了一种神经行人检索器npsm(neuralpersonsearchmachine)。npsm充分利用输入行人信息和每次递归过程中的上下文信息，通过不断递归缩小搜寻范围来定位目标行人。具体算法原理可以参见文献：h.liu,j.feng,z.jie,etal.neuralpersonsearchmachines[c].2017ieeeinternationalconferenceoncomputervision(iccv),2017,493-501。另一种是将行人检测与行人重识别融合到同一网络中进行联合学习，提出了一种基于深度学习的行人检索框架，并提出了新的损失函数oim(onlineinstancematching)，从而利用整图中出现的无标签行人的信息。具体算法原理可以参见文献：x.tong,l.shuang,b.wang,etal.jointdetectionandidentificationfeaturelearningforpersonsearch[c].ieeeconferenceoncomputervisionandpatternrecognition,2017,3376-3385。

图1是基于深度学习的行人检索方法的流程图。如图1所示，原始图片经过行人检测后，检测出的行人框大小不一，具有各种各样的尺度，那么在行人重识别的过程中就会产生多尺度下的行人匹配问题。现有框架主要的目标是在于提升行人检索的准确率，聚焦于如何进行联合学习，让两个任务相互协同与促进，而忽视了在行人重识别过程中的潜在问题——多尺度匹配问题。

技术实现要素：

本发明的目的在于克服现有技术的不足，提供一种基于自适应特征金字塔的行人检索方法，利用自适应特征金字塔网络提取特征解决行人检索过程中的多尺度匹配问题，提高行人检索准确度。

为实现上述发明目的，本发明基于自适应特征金字塔的行人检索方法包括以下步骤：

s1：构建待检索行人特征提取网络，包括一个包含n个残差块的残差网络和m个自适应特征金字塔网络，其中n＞m，将待检索行人图像输入残差网络，记残差网络输出的特征图为fn，大小为w×h；在前n-1个残差块中，选择m个残差块，记第m个所选择的残差块的序号为nm，m＝1,2,…,m；将第nm个残差块输出的特征图输入第m个自适应特征金字塔网络，转换得到大小为w×h的特征图将m个特征图和特征图fn分别转换为长度为w×h的特征向量，再拼接为一个长度为w×h×(m+1)特征向量f，该特征向量f即为待检索行人的特征向量；

其中，自适应特征金字塔网络包括全局均值池化层，第一全连接层，第二全连接层、第三全连接层和乘积层，其中第一全连接层和第二全连接层的激活函数为relu函数，第三全连接层的激活函数采用sigmoid函数；全局均值池化层对输入的特征图进行全局均值池化，将得到的特征图分别输出至第一全连接层和第二全连接层，第二全连接层将其特征图输出至第三全连接层，第一全连接层和第三全连接层的输出特征图大小与残差网络的输出特征图大小相同，即为w×h，将第一全连接层和第三全连接层的特征图输入至乘积层中进行对应像素值相乘，得到降维后特征图；

s2：构建候选行人特征提取网络，包括一个包含n个残差块的残差网络、m个自适应特征金字塔网络和1个区域候选网络，其中残差网络和自适应特征金字塔网络的结构与待检索行人特征提取网络中的残差网络和自适应特征金字塔网络的结构相同。将包含候选行人的待检索图像输入残差网络，将残差网络中某一卷积层的特征图输入区域候选网络，由区域候选网络进行行人检测，得到k个候选行人框，k表示待检索图像检测得到的行人目标数量，将候选行人框图像输入后续残差网络，得到候选行人的残差网络输出特征图k＝1,2,…,k；

当第nm个残差块的序号nm小于区域候选网络所在残差块序号时，根据第k个候选行人框的坐标和残差网络的特征图缩放尺度，从第nm个残差块输出的特征图中提取候选行人对应的子特征图输入第m个自适应特征金字塔网络，转换为大小为w×h的特征图当第nm个残差块的序号nm大于等于区域候选网络所在残差块序号时，直接将第nm个残差块输出的第k个候选行人框对应的特征图输入第m个自适应特征金字塔网络，转换为大小为w×h的特征图将m个特征图和特征图分别转换为长度为w×h的特征向量，再拼接为一个长度为w×h×(m+1)特征向量该特征向量即为待检索图像中第k个候选行人的特征向量；

s3：计算待检索行人的特征向量f与待检索图像中k个候选行人的特征向量的相似度，将k个候选行人按照相似度从大到小进行排列，如果相似度最大的候选行人与待检索行人的特征向量相似度大于预设阈值，则判定该候选行人即为待检索行人的匹配目标，否则该待检索图像中不存在待检索行人的匹配目标。

本发明基于自适应特征金字塔的行人检索方法，基于残差网络和自适应特征金字塔网络构建待检索行人特征提取网络，提取待检索行人的多尺度特征，融合得到特征向量，基于残差网络、自适应特征金字塔网络和区域候选网络构建候选行人特征提取网络，提取出待检索图像中各个候选行人的特征向量，通过特征向量之间的相似度进行待检索行人与候选行人的匹配，实现行人检索。本发明利用自适应特征金字塔网络提取特征解决行人检索过程中的多尺度匹配问题，提高行人检索准确度。

附图说明

图1是基于深度学习的行人检索方法的流程图；

图2是本发明基于自适应特征金字塔的行人检索方法的具体实施方式流程图；

图3是本发明中自适应特征金字塔网络的结构图；

图4是本实施例中待检索行人特征提取网络的结构图；

图5是本实施例中候选行人特征提取网络的结构图；

图6是本实施例中本发明行人检索方法对cuhk-sysu数据集中部分图片的测试结果图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图2是本发明基于自适应特征金字塔的行人检索方法的具体实施方式流程图。如图2所示，本发明基于自适应特征金字塔的行人检索方法的具体步骤包括：

s201：提取待检索行人特征：

首先基于残差网络和自适应特征金字塔网络构建待检索行人特征提取网络。残差网络是一种深度卷积网络，包括若干残差块(residualblock)。残差网络解决了增加深度带来的副作用(退化问题)，这样能够通过单纯地增加网络深度，来提高网络性能，从而提高图像分类、检测、定位的准确度。

在行人检索中，原始图片经过行人检测后，检测出的行人框大小不一，具有各种各样的尺度，在行人重识别的过程中就会产生多尺度下的行人匹配问题。本发明利用特征金字塔来解决多尺度下的行人匹配问题，针对低层特征损害高层特征表达的问题，设计了一种自适应特征金字塔网络，以解决不同尺度特征分布差异的问题。

本发明在残差网络的基础上，加入自适应特征金字塔(adaptivefeaturepyramid，afp)网络，从而构建出待检索行人特征提取网络。本发明中待检索行人特征提取网络包括一个包含n个残差块的残差网络和m个自适应特征金字塔网络，其中n＞m，将待检索行人图像输入残差网络，记残差网络输出的特征图为fn，大小为w×h。显然特征图fn是最后一个残差块的输出特征图。在前n-1个残差块中，选择m个残差块，记第m个所选择的残差块的序号为nm，m＝1,2,…,m，1≤nm≤n。将第nm个残差块输出的特征图输入第m个自适应特征金字塔网络，转换得到大小为w×h的特征图将m个特征图和特征图fn分别转换为长度为w×h的特征向量，再拼接为一个长度为w×h×(m+1)的特征向量f，该特征向量f即为待检索行人的特征向量。

图3是本发明中自适应特征金字塔网络的结构图。如图3所示，本发明中自适应特征金字塔网络包括全局均值池化层gap，第一全连接层fc1，第二全连接层fc2、第三全连接层fc3和乘积层scale，其中第一全连接层fc1和第二全连接层fc2的激活函数为relu函数，第三全连接层fc3的激活函数采用sigmoid函数。全局均值池化层gap对输入的特征图进行全局均值池化，将得到的特征图分别输出至第一全连接层fc1和第二全连接层fc2，第二全连接层将其特征图输出至第三全连接层fc3，第一全连接层fc1和第三全连接层fc3的输出特征图大小与残差网络的输出特征图大小相同，即为w×h，将第一全连接层fc1和第三全连接层fc3的特征图输入至乘积层scale中进行对应像素值相乘，得到降维后的特征图。第二连接层fc2和第三连接层fc3组成一个瓶颈(bottleneck)结构，这样的结构有两个好处，一个是降维，从而减少参数量。另一个是去噪声，也就是去掉冗余信息。采用自适应特征金字塔网络，可以达到在通道维度上对原有特征分布重标定的目的。

s202：提取候选行人特征：

相应地，为了提取候选行人特征，本发明中基于相同的残差网络和自适应特征金字塔网络，结合区域候选网络rpn，构建得到候选行人特征提取网络。本发明中候选行人特征提取网络包括一个包含n个残差块的残差网络、m个自适应特征金字塔网络和1个区域候选网络，其中残差网络和自适应特征金字塔网络的结构与待检索行人特征提取网络中的残差网络和自适应特征金字塔网络的结构相同。将包含候选行人的图像输入残差网络，将残差网络中某一卷积层的特征图输入区域候选网络，由区域候选网络进行行人检测，得到候选行人框，将候选行人框图像输入后续残差网络，得到候选行人的残差网络输出特征图可见，在区域候选网络之前的残差网络和区域候选网络构成行人检测网络，后续残差网络作为行人重识别网络。区域候选网络在残差网络中的位置设定，需要兼顾行人检测和行人重识别的准确率，在实际应用中可以通过实验得到最佳位置。区域候选网络rpn的详细原理可以参见文献“s.ren,k.he,r.girshick,etal.fasterr-cnn:towardsreal-timeobjectdetectionwithregionproposalnetworks[c].arxivpreprint,2015,arxiv:1506.01497”。

当第nm个残差块的序号nm小于区域候选网络所在残差块序号时，根据候选行人框的坐标和残差网络的特征图缩放尺度，从第nm个残差块输出的特征图中提取候选行人对应的子特征图输入第m个自适应特征金字塔网络，转换为大小为w×h的特征图当第nm个残差块的序号nm大于等于区域候选网络所在残差块序号时，直接将第nm个残差块输出的第k个候选行人框对应的特征图输入第m个自适应特征金字塔网络，转换为大小为w×h的特征图将m个特征图和特征图分别转换为长度为w×h的特征向量，再拼接为一个长度为w×h×(m+1)的特征向量该特征向量即为待检索图像中第k个候选行人的特征向量。

s203：待检索行人匹配：

计算待检索行人的特征向量f与待检索图像中k个候选行人的特征向量的相似度，将k个候选行人按照相似度从大到小进行排列，如果相似度最大的候选行人与待检索行人的特征向量相似度大于预设阈值，则判定该候选行人即为待检索行人的匹配目标，否则该待检索图像中不存在待检索行人的匹配目标。。本实施例中在进行相似度时采用余弦相似度，余弦相似度越大，表明待检索行人的特征向量f与候选行人的特征向量越相似。

为了更好地说明本发明的技术效果，采用一个具体实例对本发明进行实验验证。

图4是本实施例中待检索行人特征提取网络的结构图。如图4所示，本实施例中，残差网络采用参考文献“hek,zhangx,rens,etal.deepresiduallearningforimagerecognition[j].2015.”所记载的残差网络，包含5个残差块，配置2个自适应特征金字塔网络，将残差网络中第3个残差块和第4个残差块输出的特征图f3和f4，输入自适应特征金字塔网络进行降维，得到特征图f3′和特征图f4′，与残差网络的输出特征图f5一起得到待检索行人的特征向量。

图5是本实施例中候选行人特征提取网络的结构图。如图5所示，本实施例中在残差网络的第4个残差块中卷积层conv4-3后设置区域候选网络。根据候选行人框的坐标和残差网络的特征图缩放尺度，从第3个残差块输出的特征图中提取候选行人对应的子特征图，输入自适应特征金字塔网络，转换得到特征图将第4个残差块输出的候选行人框对应的特征图输入自适应特征金字塔网络，转换得到特征图与残差网络输出的候选行人框对应的特征图一起得到候选行人的特征向量

本次实验验证中采用公开数据集cuhk-sysu进行实验验证，评价指标为cmctop-q和map。cmctop-q表示前q个准确命中检索目标的概率，map值等于pr曲线坐标图中pr曲线下的面积之和，cmctop-q值和map值越大说明算法性能越好。为了进行检索效果对比，本次实验验证中将基于oim(onlineinstancematching，在线实例匹配)方法和基于npsm(neuralpersonsearchmachines，神经行人搜索器)的行人检索方法作为两种对比方法。表1是本实施例中本发明行人检索方法和两种对比方法的性能对比表。

表1

从表1可以看出，本发明行人检索方法拥有优秀的准确率，在解决行人检索过程中的多尺度匹配问题有显著的效果。

图6是本实施例中本发明行人检索方法对cuhk-sysu数据集中部分图片的测试结果图。如图6所示，左图为待检索图像，右图为待检索行人与候选行人图像中各个候选行人的相似度排序结果。黑色候选行人框代表同一行人匹配正确，白色候选行人框代表其他行人，候选行人框上的数字代表相似度。可以看出本发明基于自适应特征金字塔的行人检索方法在实际场景的应用下有良好的效果。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周雪;向伟;邹见效;徐红兵
技术所有人：电子科技大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。