基于查询自适应部件特征组合的特定行人追踪方法及系统与流程

文档序号：12906421阅读：235来源：国知局

本发明涉及特定行人的追踪视频，具体地指基于查询自适应部件特征组合的特定行人追踪方法与系统，属于视频侦查业务领域。

背景技术：

随着平安城市的广泛建设和各种场所面临监控的普及，视频监控数据量变得越来越大，这给刑侦破案带来了巨大的挑战，如何快速准确地从这些海量数据库提取出目标嫌疑人成为破案的关键。传统的行人追踪方法能有效解决长时间人工手动检索可能带来的漏检和误检的问题，但是匹配效率相对较低，其主要问题在于：(1)行人代表图提取不准确，导致无法准确定位行人图像，图像连带多人或残缺，使得后续特征提取失效；(2)只提取行人全局特征，行人表达不精细，使得行人表达有偏差或判别力不足；(3)对所有行人都采用统一的匹配方法，不考虑个体差异，导致方法使用场景和个体受限。

技术实现要素：

本发明目的在于克服上述现有技术的不足而提供一种基于查询自适应部件特征组合的特定行人追踪方法与系统，本发明通过对行人图像进行像素级分割，以提取部件特征，部件间的相似度度量相比全局特征度量更有针对性，能更好解决视角问题，提高对特定行人追踪的效率和准确度。

实现本发明目的采用的技术方案是一种基于查询自适应部件特征组合的特定行人追踪方法，该方法包括：

从输入视频中提取出行人目标代表帧；

根据行人目标代表帧获得行人图像的结构化语义描述，并提取行人图像的整体特征；将行人目标代表帧进行语义部件分割生成行人的部件，提取行人部件的部件特征；

将行人图像的结构化语义描述、整体特征和部件特征分别与查询图像的特性进行组合度量，得到行人与查询人的目标相似度，相似度最大对应的行人即为追踪的人。

在上述技术方案中，将行人图像进行语义部件分割生成行人的部件包括：

从输入视频中提取出行人目标集合；

从行人目标集合的每个行人图像序列中各选出一帧图像作为代表相应行人，选出的图像帧即为目标代表帧；

然后对行人图像的目标代表帧进行语义部件分割生成行人的部件。

此外，本发明还提供一种基于查询自适应部件特征组合的特定行人追踪系统，该系统包括：

目标提取模块，用于从输入视频中提取出行人目标代表帧；

特征提取模块，用于将行人目标代表帧进行语义部件分割生成行人的部件，形成行人图像的结构化语义描述、提取行人部件的部件特征，以及提取行人图像的整体特征；

组合度量模块，将行人图像的结构化语义描述、部件特征和整体特征与查询人的特性进行组合度量，得到行人与查询人的目标相似度，相似度最大对应的行人即为追踪的人。

本发明具有以下优点：

1、与现有技术的全局特征是从一个矩形图像上提取，且包含了背景相比，本发明方法对行人图像进行像素级分割，以提取部件特征，使得部件间的相似度度量比更有针对性，能更好解决视角问题。

2、在视觉特征基础上，通过提取语义属性，相比基于视觉特征检索方法的鲁棒性更高；

3、根据视频侦查需求，提出可语义分割的27个行人部件，还提出17个类别的语义属性，为视频侦查和特定行人追踪扩展思路；

4、根据查询目标的不同，选用不同的度量方式。依赖于查询的动态度量方法，也是首次在特定行人追踪中提出，这满足了不同嫌疑目标，不同环境的要求。

附图说明

图1为本发明基于查询自适应部件特征组合的特定行人追踪方法的流程图。

图2为输入的行人代表帧图像。

图3为图2经过特征提取模块语义分割后成部件后的图像。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的详细说明。

本发明基于查询自适应部件特征组合的特定行人追踪系统包括目标提取、特征提取、组合度量三个模块，每个模块具体实现如下功能：

(1)目标提取模块包括背景建模、特征提取、目标检测与定位、目标跟踪、目标代表帧提取等子功能，具体实现的功能如下：

首先，目标提取模块可以通过两种方式获取目标前景图像，一是用传统的背景建模和前景提取方法，二是用基于深度学习的目标检测方法。

其次，目标提取模块利用目标跟踪方法，将一系列目标前景图像会形成多个不同的行人图像序列，不同的序列代表不同的行人目标。

最后，目标提取模块从每个行人图像序列中选出一个图像帧来代表相应的行人，该图像帧作为目标代表帧。

(2)特征提取模块的输入是行人目标集中每个行人的目标代表帧图像，输出是行人图像结构化语义、行人的部件和其特征，以及行人的整体特征，它包括目标语义部件分割、行人结构化语义特征、部件特征提取、整体特征提取等子功能。首先，行人的代表帧图像，经过语义分割会生成行人的不同部件；然后，分割好的行人图像分别提取各个部件的特征和整体特征，并形成语义结构化描述。

(3)组合度量模块的输入是每个行人图像的结构化语义、部件特征和整体特征，输出是视频中行人目标集的排序结果，它包括查询自适应组合策略选择、和相似度度量等子功能。在利用行人目标结构化语义、部件特征和整体特征等信息进行相似度量之前，模块参考被检索目标情况，对不同部件赋予不同权重(不同组合策略)。相似度度量过程中，模块利用被检索目标特有的组合策略，进行行人图像相关信息的度量。

上述基于查询自适应部件特征组合的特定行人追踪系统实现特定行人追踪方法包括：

s1、目标提取模块对输入的视频文件或视频流处理后输出目标代表帧，具体包括：

s1.1、从视频帧序列到行人前景图像：视频文件或视频流经过经过背景建模、前景提取、目标检测定位功能，生成行人前景图像。

本实施例提供两套方案获取行人前景图像，一是用传统的背景建模和前景提取方法，二是用基于深度学习的目标检测方法。实际操作中，对于分辨率不高，对处理速度有要求的场景用传统方法；对于分辨率高、行人密度大的场景用基于深度学习的目标检测方法。

s1.2、从行人前景图像到行人序列：多张行人前景图像经过跟踪后生成行人前景图像序列；

s1.3、从行人前景图像序列到行人代表帧图像：行人前景图像序列经过目标代表帧提取选出行人的代表帧图像。本实施例提取目标代表帧的过程如下：

记录第n个序列行人图像的面积为s(n)，第n+1个序列行人图像的面积为s(n+1)。

如果s(n)>s(n+1)，代表帧为n；

如果s(n)<s(n+1)，且s(n+1)<a*s(n)，a一般取2，代表帧为n+1；

如果s(n+1)>a*s(n)，代表帧为n。

如此循环，找到行人序列的合适代表帧图像。

s2、特征提取模块对输入的代表帧图像处理后输出行人图像的结构化语义描述、行人部件的部件特征，以及行人图像的整体特征，具体包括：

s2.1从行人代表帧图像到行人部件：行人代表帧图像经过目标语义部件分割生成行人的部件；

本实施例中，目标图像语义分割采用全卷积网络方法，训练语义分割模型。

对每个行人代表帧图像，会把其分成如下表1中的部件：

表1

将图2作为输入的图片按上表1进行分割成部件，输出的图片如图3所示。

s2.2、从行人部件到行人结构化语义和特征：行人代表帧图像和部件分割信息经过行人结构化语义、部件特征提取、整体特征提取等功能形成行人结构化语义和特征。

本发明将学习得出如下表2中的17个类别的语义。

表2

本实施例提取整体特征采用基于中轴线的高斯权重分布的特征提取方法，具体方法为对行人图像的上身部分和下身部分，分别取中轴线。以中轴线为对称轴，作为高斯分布的最高值。以高斯分布作为权重，提取带权重的颜色直方图。只提取上衣部分和下衣部分特征，并组合成全局特征。

本实施例提取部件特征先对每个部件提取颜色和纹理直方图，然后对每个直方图，用相应部件的像素个数进行归一化。

s3、组合度量模块对输入的行人图像的结构化语义、部件特征和整体特征进行组合度量后输出是视频中行人目标集的排序结果，具体包括：

从行人结构化语义和特征到组合相似度：行人的结构化语义和特征在查询图像的指导下经过组合度量模块，得到查询图像与之的组合相似度；

从组合相似度到排序结果：多个目标的相似度最后得到排序结果。

本实施例中相似度度量功能采用组合加权度量方法，具体如下：

假设查询图像为x1，比对图像为x2，其行人结构化语义分别(17个类别语义组成17维的向量)为a1和a2。查询图像和比对图像语义分割后的部件特征分别为：头部h1、h2，躯干部分u1、u2，裸露部分l1、l2，携带物s1、s2，其他部分t1、t2。已经全局特征g1、g2。它们的相似度分别为sim(a1,a2)、sim(h1,h2)、sim(u1,u2)、sim(l1,l2)、sim(s1,s2)、sim(t1,t2)、sim(g1,g2)。

两张图像的相似度为：

sim(x1,x2)＝α1*sim(a1,a2)+α*sim(y1,y2)+α7*sim(g1,g2)；其中，α*sim(y1,y2)为α2*sim(h1,h2)、α3*sim(u1,u2)、α4*sim(l1,l2)、α5*sim(s1,s2)、α6*sim(t1,t2)中一个或者多个；

其中，α1+α+α7＝1；

α1～α7，根据x1的特性获得；

[α1,α,α7]＝get_alpha(a1,y1,solution)，y1为行人图像x1的中头部特征、躯干部分特征、裸露部分特征、携带物特征和其他部分特征中的一个或多个特征；

本实施例以选择部件的五个部分来说明，两张图像的相似度为：sim(x1,x2)＝α1*sim(a1,a2)+α2*sim(h1,h2)+α3*sim(u1,u2)+α4*sim(l1,l2)+α5*sim(s1,s2)+α6*sim(t1,t2)+α7*sim(g1,g2)，其中，α1+α2+α3+α4+α5+α6+α7＝1。α1-α7，根据图像x1的特性获得。

[α1,α2,α3,α4,α5,α6,α7]＝get_alpha(a1,u1,l1,s1，t1,solution)；其中，a1为行人图像x1的结构化语义，h1为行人图像x1的头部特征，u1为行人图像x1的躯干部分特征，l1为行人图像x1的裸露部分特征，s1为行人图像x1的携带物特征，t1为行人图像x1的其他部分特征，solution为行人图像x1的分辨率。

说组合的权重分配依赖于语义结构化属性描述、头部部分、躯干部分、裸露部分、携带物和其他部分的颜色特征以及图像的分辨率。这些特性不一样，权重α1-α7就不一样。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：严国建
技术所有人：武汉大千信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。