一种基于深度学习的跨场景行人搜索方法

文档序号：9866137阅读：234来源：国知局

一种基于深度学习的跨场景行人搜索方法
【专利说明】一种基于深度学习的跨场景行人搜索方法
[0001]
技术领域
[0002]本发明涉及信息技术技术领域，特别涉及一种基于深度学习的跨场景行人搜索方法。
[0003]
【背景技术】
[0004]随着平安城市战略的启动，越来越多的网络监控摄像机被安装在大型广场、商场、公司、医院、公园、学校、地铁站等人群密集且易发生公共安全事件的场所。当事件发生后，需要从多个摄像机的监控视频画面中寻找可疑目标人物，而这些监控摄像机安装在各个地方且跨度很大，这样就给工作人员从多个监控视频画面中寻找该可疑目标行人带来巨大挑战。传统的搜索比对方法比较多，比如基于颜色、纹理和轮廓等，均是以公开库做样本库，而且需要对特征进行设计而且特征的鲁棒性不强，实际搜索应用的准确率不高。
[0005]

【发明内容】

[0006]本发明提供了一种基于深度学习的跨场景行人搜索方法，是以监控视频中的获取的图片做样本库，不需要对特征进行设计、特征鲁棒性强且实际搜索准确率高。
[0007]为了实现上述发明目的，本发明提供了一种基于深度学习的跨场景行人搜索方法，其中，所述方法包括:
步骤SlOl:构建样本库，对样本库中的每张图片进行尺寸归一化、分割预处理，每张图片均得到对应的上半身图像和下半身图像，经上述处理后，样本库包括两组图像集，分别为上半身图像集和下半身图像集；
步骤S102:构建卷积神经网络，将步骤SlOl得到的上半身图像集和下半身图像集分别输入到卷积神经网络进行训练，得到最终训练好的卷积神经网络模型；
步骤S103:将步骤SlOl得到的两组图像集输入到训练好的卷积神经网络模型，得到与两组图像集对应的上半身局部特征向量集和下半身局部特征向量集，然后将同一图像对应的上半身局部特征向量和下半身局部特征向量融合，得到与样本库所有图片一一对应的全局特征向量；
步骤S104:将待搜索图片经过尺寸归一化、分割预处理后，输入到训练好的卷积神经网络模型，将得到的上半身局部特征向量和下半身局部特征向量融合，得到待搜索图片对应的全局特征向量；
步骤S105:通过余弦相似度将步骤S104得到的与待搜索图片对应的全局特征向量，与步骤S103得到的与样本库图片对应的全局特征向量，依次进行比对，输出一组相似度值，并将相似度值按照排序算法进行排序，得到最大相似度值对应的样本库中的图片。
[0008]其中，所述样本库是由利用Hog特征和SVM分类器，对监控视频的视频帧进行行人检测，获取的完整行人图片组成。
[0009]所述步骤SlOl和所述步骤S104中，所述尺寸归一化具体为:将图像统一归一化为60X160像素;所述分割预处理是将图像分割为上一半图像和下一半图像，且上一半图像与下一半图像有重叠部分，所述重叠部分至少占整张图像的1/3，经所述分割预处理的图像均得到与人体上半身图像对应的上一半图像和与人体下半身图像对应的下一半图像。
[0010]所述步骤S102中，所述卷积神经网络包括四层卷积池化层和三层全连接层。
[0011]本发明的有益效果是:本发明是以监控视频中获取的行人图片作为样本库，不需要对特征进行设计、特征鲁棒性强且实际搜索准确率高;本发明基于图像内容对图片进行分割，可以精确提取行人目标的局部特征，并对重要位置特征多次提取，增强特征效果，有效减少局部特征丢失，提高搜索准确率;构建一个适应于行人搜索的深度网络结构(卷积神经网络)，采用大数据投入网络训练，利用深度卷积神经网络提取出高级特征，计算出它们的相似度，以此搜索目标行人;根据排序结果既可清晰的查到搜索行人的效果，最终实现跨场景行人搜索。
[0012]
【附图说明】
[0013]图1为本发明实施例的方法流程图。
[0014]图2为本发明实施例中图像分割预处理的示意图。
[0015]图3为本发明实施例中卷积神经网络的结构图。
[0016]
【具体实施方式】
[0017]本发明提供了一种基于深度学习的跨场景行人搜索方法，首先基于图像内容对图像进行分割，构建一个适应于行人搜索的深度网络结构，然后将处理过后的图像投入训练，得出训练模型，再根据此排名算法输出排名结果，最终达到跨场景搜索行人的目的。
[0018]参见图1，具体方法如下:
步骤SlOl:构建样本库，对样本库中的每张图片进行尺寸归一化、分割预处理，每张图片均得到对应的上半身图像和下半身图像，经上述处理后，样本库包括两组图像集，分别为上半身图像集和下半身图像集；
步骤S102:构建卷积神经网络，将步骤SlOl得到的上半身图像集和下半身图像集分别输入到卷积神经网络进行训练，得到最终训练好的卷积神经网络模型；
步骤S103:将步骤SlOl得到的两组图像集输入到训练好的卷积神经网络模型，得到与两组图像集对应的上半身局部特征向量集和下半身局部特征向量集，然后将同一图像对应的上半身局部特征向量和下半身局部特征向量融合，得到与样本库所有图片一一对应的全局特征向量；
步骤S104:将待搜索图片经过尺寸归一化、分割预处理后，输入到训练好的卷积神经网络模型，将得到的上半身局部特征向量和下半身局部特征向量融合，得到待搜索图片对应的全局特征向量；
步骤S105:通过余弦相似度将步骤S104得到的与待搜索图片对应的全局特征向量，与步骤S103得到的与样本库图片对应的全局特征向量，依次进行比对，输出一组相似度值，并将相似度值按照排序算法进行排序，得到最大相似度值对应的样本库中的图片。
[0019]其中，样本库是由利用Hog特征和SVM分类器，对监控视频的视频帧进行行人检测，获取的完整行人图片组成;监控视频中的视频帧为24张/s。
[0020]步骤SlOl和步骤S104中，尺寸归一化具体为:将图像统一归一化为60X 160像素；分割预处理如图2所示，具体是将图像分割为上一半图像和下一半图像，且上一半图像与下一半图像有重叠部分，所述重叠部分至少占整张图像的1/3，经所述分割预处理的图像均得到与人体上半身图像对应的上一半图像和与人体下半身图像对应的下一半图像。
[0021]步骤S102中，卷积神经网络结构包括四层卷积池化层和三层全连接层；
如图3所示，卷积神经网络主要采用四层卷积(conl-con4)、池化层(pooll_pool4)和三层全连接层(1口1、1口2、1口3);具体过程如下:
1、原图是60X107像素(分辨率为72像素/英寸)的图片，通过第一次5X5的卷积核之后，得到尺寸为(60-5+1) X (107-5+1)的卷积图片，卷积核的权重是取一定范围内的随机值，该图片的像素还需要进行Relu函数的变换，normal层的处理，才能作为池化层的输入，将56X103像素的图片进行2X2的最大池化，得到尺寸为28X51的图片，作为下一层卷积层的输入；
2、剩余的三层卷积池化层(con2-con4、pool2-pool4)按照上述过程逐一进行；
3、将最后一层卷积池化后，进行全连接(ipl)输出4096维特征向量，然后进行Relu函数的变换，再通过dropout层去除多余权重信息；
4、最后经过全连接(ipl、ip2)处理，最终输出训练模型。
[0022]
以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
【主权项】
1.一种基于深度学习的跨场景行人搜索方法，其特征在于，所述方法包括: 步骤SlOl:构建样本库，对样本库中的每张图片进行尺寸归一化和分割预处理，每张图片均得到对应的上半身图像和下半身图像，经上述处理后，样本库包括两组图像集，分别为上半身图像集和下半身图像集；步骤S102:构建卷积神经网络，将步骤SlOl得到的上半身图像集和下半身图像集分别输入到卷积神经网络进行训练，得到训练好的卷积神经网络模型；步骤S103:将步骤SlOl得到的两组图像集输入到训练好的卷积神经网络模型，得到与两组图像集对应的上半身局部特征向量集和下半身局部特征向量集，然后将同一图像对应的上半身局部特征向量和下半身局部特征向量融合，从而得到该图像的全局特征向量，对样本库中所有图像进行相同处理得到与样本库所有图片一一对应的全局特征向量；步骤S104:将待搜索图片经过尺寸归一化和分割预处理后，输入到训练好的卷积神经网络模型，将得到的上半身局部特征向量和下半身局部特征向量融合，得到待搜索图片对应的全局特征向量；步骤S105:通过余弦相似度将步骤S104得到的与待搜索图片对应的全局特征向量，与步骤S103得到的与样本库图片对应的全局特征向量，依次进行比对，输出一组相似度值，并将相似度值按照排序算法进行排序，得到最大相似度值对应的样本库中的图片。2.根据权利要求1所述的基于深度学习的跨场景行人搜索方法，其特征在于，所述样本库是由利用Hog特征和SVM分类器，对监控视频的视频帧进行行人检测，获取的完整行人图片组成。3.根据权利要求1或2所述的基于深度学习的跨场景行人搜索方法，其特征在于，所述步骤SlOl和所述步骤S104中，所述尺寸归一化具体为:将图像统一归一化为60 X 160像素；所述分割预处理是将图像分割为上一半图像和下一半图像，且上一半图像与下一半图像有重叠部分，所述重叠部分至少占整张图像的1/3，经所述分割预处理的图像均得到与人体上半身图像对应的上一半图像和与人体下半身图像对应的下一半图像。4.根据权利要求1-3任一项所述的基于深度学习的跨场景行人搜索方法，其特征在于，所述步骤S102中，所述卷积神经网络包括四层卷积池化层和三层全连接层。
【专利摘要】本发明公开了一种基于深度学习的跨场景行人搜索方法，包括：对样本库中的每张图片进行预处理；构建卷积神经网络并训练；对经预处理的两组图像集提取上半身局部特征向量集和下半身局部特征向量集，然后将其融合得到全局特征向量；将待搜索图片经过预处理后，提取上半身局部特征向量和下半身局部特征向量并融合，得到的全局特征向量；将待搜索图片对应的全局特征向量与样本库图片对应的全局特征向量，通过余弦相似度依次进行比对，输出一组相似度值，并将相似度值按照排序算法进行排序。本发明的有益效果是：本发明是以监控视频中获取的行人图片作为样本库，不需要对特征进行设计、特征鲁棒性强且实际搜索准确率高。
【IPC分类】G06K9/00, G06K9/34, G06K9/46
【公开号】CN105631413
【申请号】CN201510977881
【发明人】舒泓新, 蔡晓东, 宋宗涛, 王爱华
【申请人】中通服公众信息产业股份有限公司
【公开日】2016年6月1日
【申请日】2015年12月23日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：舒泓新;蔡晓东;宋宗涛;王爱华;
技术所有人：中通服公众信息产业股份有限公司;
我是此专利的发明人

上一篇：一种基于贝叶斯分类器的车载多障碍物分类装置及方法
上一篇：一种数据录入方法及终端的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。