基于二维人体姿态估计的行人服饰颜色识别方法及装置与流程

文档序号：18741683发布日期：2019-09-21 01:50阅读：264来源：国知局

本发明涉及计算机视觉领域、机器学习领域以及模式识别技术领域，特别涉及一种基于二维人体姿态估计的行人服饰颜色识别方法及装置。

背景技术：

二维人体姿态估计是定位出二维图像中人体部位关节点所在位置的过程，确定头部、胸部、四肢的姿态。目前，基于深度学习的人体姿态估计主要是直接通过一个卷积神经网络来回归出人体的关节点位置。具体是输入图像，经过卷积神经网络的训练得到关节点热点图，然后采用后续处理在热点图中找到最终的关节点位置。人体姿态估计是计算机视觉研究范涛的一个重要问题，在许多实际应用中，如视频监控、人机交互、数字娱乐和运动场景等领域都具有广泛的应用前景。

近年来，随着计算机及互联网的飞速发展，各类监控和交通相关的信息呈现爆炸式增长的态势，为了能够高效管理及应用这些信息，智能监控系统应运而生。智能监控系统可以在卡口、停车场、刑事案件追踪等方法展现强大的作用。视频图像信息中车辆信息包括车牌颜色、车辆颜色、车辆品牌等信息，行人信息包括行人性别、行人纹理、行人服饰颜色等信息，目标颜色识别在监控中有着举足轻重的作用。行人服饰颜色是监控系统中的一个重要的属性，例如在刑事案件中，在监控系统中查找嫌疑人，行人的服饰颜色信息则是最重要的信息。行人服饰颜色识别主要分为两个部分，首先是目标颜色区域的提取，然后对该区域进行颜色识别，最后输出行人的服饰颜色。

目前，对行人服饰颜色的识别主要是通过传统的方式确定行人服饰位置信息，例如采用HOG特征检测行人位置信息，采用Sobel算子检测行人边缘轮廓形状，之后再用种子填充的方法对行人上本身和下半身的服饰颜色进行连通区域标记，最后把提取到的颜色特征输入至SVM分类器进行颜色判别。这种传统的方法容易在复杂情景下定位错行人服饰位置信息，从而影响颜色识别率。

技术实现要素：

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于二维人体姿态估计的行人服饰颜色识别方法及装置。

第一方面，本发明实施例提供一种基于二维人体姿态估计的行人服饰颜色识别方法，包括：

获取待识别二维静态的行人图像；

根据人体姿态估计算法定位出所述行人图像中行人关键点位置信息，根据所述行人关键点位置信息确定行人上衣和裤子颜色区域；

将所述行人上衣和裤子颜色区域的图像输入至预设的卷积神经网络，提取颜色区域特征；

将所述颜色区域特征，通过softmax分类器进行颜色分类识别，获得所述行人图像中行人服饰颜色。

在一个实施例中，根据人体姿态估计算法定位出所述行人图像中行人关键点位置信息，包括：

基于PAF的实时多人人体姿态估计算法，将获取到的待识别二维静态行人图像输入至预设的卷积神经网络提取特征，获得一组特征图；

从所述特征图中分别提取置信图和PAF，使用图论中的预设算法，将同一个人的关节点连接起来，输出人体姿态估计图。

在一个实施例中，根据所述行人关键点位置信息确定行人上衣和裤子颜色区域；包括：

根据人体姿态估计图，定位出的人体肩部的宽度作为上衣颜色区域的宽度，将人体胸部的长度作为上衣颜色区域的长度；

根据定位出的人体腿部的上半部分作为裤子颜色区域图像。

在一个实施例中，所述预设的卷积神经网络为VGG19网络结构；

所述VGG19网络结构包括16个卷积层、3个全连接层和5个池化层。

在一个实施例中，所述VGG19网络结构的损失函数采用Euclidean loss函数，计算公式如下：

其中表示预测的值，表示标签的值，N表示样本的数量。

在一个实施例中，所述VGG19网络结构的最后一层连接softmax分类器。

第二方面，本发明实施例提供一种基于二维人体姿态估计的行人服饰颜色识别装置，包括：获取模块，用于获取待识别二维静态的行人图像；；

定位模块，用于根据人体姿态估计算法定位出所述行人图像中行人关键点位置信息；

确定模块，用于根据所述行人关键点位置信息确定行人上衣和裤子颜色区域；

提取模块，用于将所述行人上衣和裤子颜色区域的图像输入至预设的卷积神经网络，提取颜色区域特征；

识别模块，用于将所述颜色区域特征，通过softmax分类器进行颜色分类识别，获得所述行人图像中行人服饰颜。

在一个实施例中，所述定位模块，包括：

输入子模块，基于PAF的实时多人人体姿态估计算法，将获取到的待识别二维静态行人图像输入至预设的卷积神经网络提取特征，获得一组特征图；

输出子模块，从所述特征图中分别提取置信图和PAF，使用图论中的预设算法，将同一个人的关节点连接起来，输出人体姿态估计图。

在一个实施例中，所述确定模块，具体用于根据人体姿态估计图，定位出的人体肩部的宽度作为上衣颜色区域的宽度，将人体胸部的长度作为上衣颜色区域的长度；根据定位出的人体腿部的上半部分作为裤子颜色区域图像。

在一个实施例中，所述提取模块和所述输入子模块中的所述预设的卷积神经网络为VGG19网络结构；

所述VGG19网络结构包括16个卷积层、3个全连接层和5个池化层。

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明实施例提供的基于二维人体姿态估计的行人服饰颜色识别方法，其利用卷积神经网络的深度学习算法来进行人体姿态估计，从而确定行人服饰位置信息，进而将确定的行人服饰区域图像输入至卷积神经网络进行训练，提取颜色特征，最后将提取到的颜色特征输入至分类器进行颜色分类判别。该方法可以准确地识别行人服饰颜色，对一些复杂姿态的行人定位更具有鲁棒性，并且能适用于较复杂的监控场景下的行人服饰颜色识别，在刑事案件侦查中起到了积极的作用。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的基于二维人体姿态估计的行人服饰颜色识别方法的流程图；

图2为本发明实施例提供的基于二维人体姿态估计的行人服饰颜色识别方法的深度学习的示意图；

图3为本发明实施例提供的行人上衣和裤子区域示意图；

图4为本发明实施例提供的基于二维人体姿态估计的行人服饰颜色识别装置的框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1所示，本发明实施例提供的基于二维人体姿态估计的行人服饰颜色识别方法，包括以下步骤：

S101、获取待识别二维静态的行人图像；

S102、根据人体姿态估计算法定位出所述行人图像中行人关键点位置信息，根据所述行人关键点位置信息确定行人上衣和裤子颜色区域；

S103、将所述行人上衣和裤子颜色区域的图像输入至预设的卷积神经网络，提取颜色区域特征；

S104、将所述颜色区域特征，通过softmax分类器进行颜色分类识别，获得所述行人图像中行人服饰颜色。

本发明中所称的行人图像则是指由输入设备比如摄像机、监控探头捕捉的实际场景画面或以数字化形式存储的任意画面。

本发明实施例提供的基于二维人体姿态估计的行人服饰颜色识别方法，将获取的待识别二维静态的行人图像在RGB空间上显示，比如在监控视频中获取到二维静态的RGB行人图像，然后作为深度学习的人体姿态估计算法的输入数据源。其中可将获取到的RGB行人图像进行预处理，比如包括缩放、旋转和镜像，可以更好的定位人体姿态，再根据人体姿态确定行人上衣和裤子颜色区域，进进而将确定的行人服饰区域图像输入至卷积神经网络进行训练，提取颜色特征，最后将提取到的颜色特征输入至分类器进行颜色分类判别。该方法可以准确地识别行人服饰颜色，对一些复杂姿态的行人定位更具有鲁棒性，并且能适用于较复杂的监控场景下的行人服饰颜色识别，在刑事案件侦查中起到了积极的作用。

在一个实施例中，上述步骤S102中定位步骤，先定位出行人关键点的位置信息，采用基于深度学习的人体姿态估算法。

上述人体姿态估计算法采用的是基于部分亲和字段(Part Affinity Fields，PAF)的实时多人人体姿态估计算法，参照图2所示，采用卷积神经网路VGG19的网络结构，使用bottom_up的方式，首先将获取到的二维静态RGB行人图像输入至卷积神经网络提取特征，得到一组特征图，然后分成两路，分别使用VGG19网络提取置信图(Part Confidence Maps)和PAF(Part Affinity Fields)，得到这两个信息后，使用图论中的预设算法，比如Hungarian algorithm(匈牙利算法)将同一个人的关节点连接起来，输出最终的人体姿态估计图。

将上述提取到的置信图进行关节检测，每一个关节对应一个置信图，图像每一个像素点都有一个置信度，置信图中每点的值与ground truth(标注数据)的距离相关。对于一张图像有多人的情况，比如将K个人的置信图合并取该点每个人的最大值，在test阶段，在预测的置信图上进行非极大值抑制来获取身体部分的候选。

进一步地，将上述提取到每个人关节点的PAF进行身体部分组合，每个PAF可以看作是记录一个肢(limb)位置和方向的2D向量。对于一张图像有多人的情况，首先检测到不同人的部分，再将每个人的身体分别组合在一起形成full-body，若某个点有多人重叠，则将K个人的vector矢量求和，再除以人数K。

在一个实施例中，将上述定位出的人体姿态图，包括人的头部、肩部、胸部、手部以及腿部，从而按照一定的比例选取行人上衣和裤子颜色区域。

优选地，将上述定位出的人体肩部的宽度作为上衣颜色区域的宽度，将人体胸部的长度作为上衣颜色区域的长度，将人体的腿部的上半部分作为裤子颜色区域。

比如，在实际应用中，行人的衣服和裤子并非单纯的某一种颜色，而是呈现多种颜色的混合，例如衣服上有各种图案，或者条纹的裤子，因此，有必要对上述得到的行人上半身、下半身区域的服饰颜色进行上衣和裤子的预期分割，此处参照图3，例如，以不同的比例截取行人上半身和下半身信息得到行人上衣和裤子区域。可以是将行人上半身的五分之二处选取为行人上衣区域，将行人下半身的五分之二处选取为行人裤子的区域。

参照图3所示，根据上述输出的人体姿态估计图，可以得到行人上衣区域图像的高度值以及宽度值；按照预设比例，比如可根据行人的肩部宽度，作为上衣颜色区域的宽度；将人体胸部的长度作为上衣颜色区域的长度；

根据人体腿部的上半部分宽度值，作为裤子颜色区域图像的宽度值，再根据人体腿部的上半部分高度值，作为裤子颜色区域图像的高度值；

可根据上述输出的人体姿态估计图，确定上衣、裤子区域的高度值和宽度值，从而实现确定行人上衣和裤子的区域图像；在此区域内的颜色，相对来说是可以确定为上衣和裤子的颜色；

进一步地，分别将上述所确定的行人上衣、裤子颜色区域分别输入至预设的卷积神经网络进行训练，提取特征；上述预设的卷积神经网络采用VGG19网络结构。参照图2所示，将上述所预设的网络VGG19后加一个softmax分类器，输出识别结果。

上述卷积神经网络VGG19的损失函数采用Euclidean loss函数，即在网络VGG19最后接一层Euclidean loss，计算公式如下：

其中表示预测的值，表示标签的值，N表示样本的数量。

在一个实施例中，步骤S103将上述所确定的行人和裤子颜色区域图像输入至预设的卷积神经网络，提取颜色区域特征。建立与上述步骤S102中卷积神经网络VGG19同样的网络结构，包括16个卷积层(convolutional layer)、3个全连接层(fully connected layer)和5个池化层(pooling layer)，参照图2所示，将上述步骤S102所确定的行人上衣和裤子颜色区域图像分别输入至网络VGG19中进行训练，提取特征。

步骤S104利用softmax分类器进行颜色分类判别，得到行人服饰颜色，并输出最终的识别结果。

本发明通过一种基于二维人体姿态估计的行人服饰颜色识别方法来对监控视频下抓拍到的行人服饰进行二次分析，可以正确定位行人姿态，进而更加高效的识别行人服饰的颜色，在刑事案件追踪展现其强大的作用。

基于同一发明构思，本发明实施例还提供了基于二维人体姿态估计的行人服饰颜色识别装置，由于该装置所解决问题的原理与前述基于二维人体姿态估计的行人服饰颜色识别方法相似，因此该装置的实施可以参见前述方法的实施，重复之处不再赘述。

本发明实施例还提供了一种基于二维人体姿态估计的行人服饰颜色识别装置，参照图4所示，包括：

获取模块41，用于获取待识别二维静态的行人图像；；

定位模块42，用于根据人体姿态估计算法定位出所述行人图像中行人关键点位置信息；

确定模块43，用于根据所述行人关键点位置信息确定行人上衣和裤子颜色区域；

提取模块44，用于将所述行人上衣和裤子颜色区域的图像输入至预设的卷积神经网络，提取颜色区域特征；

识别模块45，用于将所述颜色区域特征，通过softmax分类器进行颜色分类识别，获得所述行人图像中行人服饰颜。

在一个实施例中，所述定位模块42，包括：

输入子模块421，基于PAF的实时多人人体姿态估计算法，将获取到的待识别二维静态行人图像输入至预设的卷积神经网络提取特征，获得一组特征图；

输出子模块422，从所述特征图中分别提取置信图和PAF，使用图论中的预设算法，将同一个人的关节点连接起来，输出人体姿态估计图。

在一个实施例中，所述确定模块43，具体用于根据人体姿态估计图，定位出的人体肩部的宽度作为上衣颜色区域的宽度，将人体胸部的长度作为上衣颜色区域的长度；根据定位出的人体腿部的上半部分作为裤子颜色区域图像。

在一个实施例中，所述提取模块44和所述输入子模块421中的所述预设的卷积神经网络为VGG19网络结构；

所述VGG19网络结构包括16个卷积层、3个全连接层和5个池化层。

在一个实施例中，所述VGG19网络结构的损失函数采用Euclidean loss函数，计算公式如下：

其中表示预测的值，表示标签的值，N表示样本的数量。

在一个实施例中，所述VGG19网络结构的最后一层连接softmax分类器。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蔡晓东;黄朝光
技术所有人：桂林远望智能通信科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。