二维视频图像中的人体姿态识别方法与流程

文档序号：11731083阅读：345来源：国知局

本发明属于图像处理技术领域，具体地说，是涉及一种二维视频图像中的人体姿态识别方法。

背景技术：
人体姿态识别可以应用于人体活动分析、人机交互以及视觉监视等领域，是近期计算机视觉领域中的一个热门问题。人体姿态识别是指从图像中检测人体各部分的位置并计算其方向和尺度信息，姿态识别的结果分二维和三维两种情况，而估计的方法分基于模型和无模型两种途径。公开号为CN101350064A的中国专利申请，公开了一种二维人体姿态估计方法与装置。该方法首先检测出二维图像中的人体区域并确定人体部位在二维图像中的搜索范围。然后根据人体部位的搜索范围，结合人体部位的躯干、头部、手部、腿部、脚部，模板计算匹配相似度，实现各部位的识别；结合相邻部位之间的约束关系，得到二维人体的姿态。实施步骤如下：第一步：利用现有的光流法、帧间差分法、背景相差分等已有方法检测二维图像中的人体区域。第二步：确定人体区域中的多个人体部位的搜索范围。（1）在人体区域中进行人脸检测，将检测到的人脸所在的位置作为头部的搜索范围；（2）利用检测到的人脸肤色特征确定左、右手的搜索范围；进而确定人体躯干、左臂、右臂的搜索范围。（3）将人体区域中的剩余部分确定为左腿、左脚、右腿、右脚的搜索范围。第三步：根据各人体部位模板在相应的人体部位搜索范围内计算匹配相似度，确定人体各部位的最优位置，结合相邻人体部位之间的约束关系，得到二维人体的姿态。上述估计人体姿态的方法存在着下述缺点：其一，采用利用现有的光流法、帧间差分法、背景相差分等已有方法检测二维图像中的人体区域，存在光照变化、背景动态变化、光流多尺度计算速度慢等问题，往往会导致检测到的人体区域有较大误差，为后续的人体部位检测算法埋下隐患，会导致整体算法的失效；其二，采用人脸检测方法进行头部区域定位会存在人脸部分或全部遮挡导致无法检测的问题，而且，人脸检测算法往往仅对正面人脸有很高的的检测精度，对侧面人脸效果较差；其三，模板匹配的方法进行人体部位识别定位会产生精度不高的问题，表现在视频图像中的人体部位会因为尺度大小变化、衣着不同等因素，造成匹配识别算法的精度变差，导致人体部位定位错误，使整个算法失效。

技术实现要素：
本发明的目的是提供一种识别精度高、识别速度快的二维视频图像中的人体姿态识别方法。为实现上述发明目的，本发明采用下述技术方案予以实现：一种二维视频图像中的人体姿态识别方法，所述方法包括下述步骤：a、按照尺度空间分层原理将原始视频图像分为组，，为所述原始视频图像的分辨率；b、对每组视频图像，计算一个尺度为的采样图像，为中的其中一个尺度，表示采样函数，表示第组视频图像，，为所述原始视频图像的分辨率，为设定的大于1的自然数，表示每组视频图像包含的采样视频图像的数量，；c、对每组内的采样图像分别计算HOG底层特征描述符；d、以步骤c获得的每组内的一个采样图像的HOG底层特征描述符为基础，根据预测公式计算每组内尺度为中其余（）个尺度的采样视频图像对应的HOG底层特征描述符，和分别表示采样图像和采样图像的尺度，为设定值；e、根据步骤c和步骤d的所有不同尺度采样视频图像的HOG底层特征描述符，结合训练好的SVM，检测所述原始视频图像中的人体目标区域；f、采用训练好的随机森林分类器将步骤e检测的人体目标区域的像素进行分类，确定所述人体目标区域中的肢体部位区域；g、将步骤f确定的各肢体部位连接形成人体轮廓，实现人体姿态识别。优选的，所述步骤b中，利用中的端部尺度对每组视频图像采样，计算端部尺度对应的采样图像。如上所述的二维视频图像中的人体姿态识别方法，所述步骤f中的随机森林分类器优选通过下述方法训练：获取包括人体姿态的人工合成视频图像和目标测试场景中的真实视频图像，每幅视频图像作为一个训练样本；依据设定肢体部位将每个训练样本中的背景区域及人体目标区域进行标注；利用SURF算子计算每个标注区域的像素特征，所有标注区域及其像素特征数据构成训练数据集合；利用所述训练数据集合及目标函数对随机森林分类器进行训练；其中，为随机森林中的一个决策树的一个分类节点，为权值，为信息熵计算函数，是所述人工合成视频图像训练样本中标注区域的像素特征，是所述真实视频图像训练样本中标注区域的像素特征，是所述人工合成视频图像训练样本中已标注的第个肢体部位的像素特征的统计描述符，是所述人工合成视频图像训练样本中所有标注区域内所有像素特征的统计描述符，是所述真实视频图像训练样本中所有标注区域内所有像素特征的统计描述符，为和的距离。与现有技术相比，本发明的优点和积极效果是：（1）采用HOG多尺度底层特征提取方法从原始视频图像中检测人体目标时，分组后的每组采样图像中仅需要计算一副采样图像的HOG底层特征描述符，其余采样图像的底层特征描述符通过特征预测计算得出，在不降低检测精度的基础上，加速了多尺度底层特征的计算速度，从根本上解决了制约多尺度人体目标检测方法走向实际应用面临的计算量大、实时性不足的棘手问题。（2）采用随机森林分类器对人体肢体部位进行分类识别，随机森林分类器训练时采用新的目标函数训练分类器中决策树节点，可以使弱分类器从训练样本空间泛化到测试样本空间时仍然具有一致的空间激活模式。这样，使得该分类器的训练可以通过由计算机图形学人工合成的人体姿态视频图像样本为主体、结合少量标注好的真实人体姿态视频来完成随机森林分类器的训练，从而实现从人工合成人体姿态样本到真实的人体姿态特征的泛化，降低了对训练样本的要求。结合附图阅读本发明的具体实施方式后，本发明的其它特点和优点将变得更加清楚。附图说明图1是本发明二维视频图像中的人体姿态识别方法一个实施例的流程图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白，以下将结合附图和实施例，对本发明作进一步详细说明。首先，简要说明本发明实现人体姿态识别的一般处理思路：从二维视频图像中识别人体姿态，分为两步，第一步是从原始视频图像中检测出人体目标区域，第二步是对人体目标区域进行分类识别，识别出人体肢体部位，如头、手、肘部、肩膀、臀部、膝部、脚等关节部位，并将肢体部位连接形成人体轮廓，进而实现人体姿态的识别。在本发明中，第一步检测人体目标区域时，采用HOG多尺度底层特征提取方法，减少背景、光照等的影响，保持尺度不变性；并对底层特征提取方法进行改进，提高实时性。第二步采用随机森林分类树识别人体肢体部位，提高分类精确度；并对随机森林分类树中的目标函数进行改进，提高分类器的泛化能力，降低分类器训练时所需训练样本的复杂度。更具体的实现方法，请参考下面的描述。请参见图1，该图所示为本发明二维视频图像中的人体姿态识别方法一个实施例的流程图。如图1所示，该实施例识别人体姿态的过程具体采用下述步骤来实现：步骤101：将原始视频图像按照空间分层原理划分为多组图像。按照尺度空间分层原理将原始视频图像分为组，其中，，为原始视频图像的分辨率。对视频图像按照尺度空间分层的原理和方法为现有技术，在此不作具体阐述。步骤102：每组中计算一个特定尺度的采样图像，并计算采样图像的HOG底层特征描述符。对每组视频图像进行采样，计算一个尺度为的采样图像。尺度为一个特定尺度，具体来说，为中的其中一个尺度。优选的，为中的端部尺度。其中，表示采样函数，表示第组视频图像，，为所述原始视频图像的分辨率，为设定的大于1的自然数，表示每组视频图像包含的采样视频图像的数量，。一般地，的取值为5-8，表示每组视频图像包含5-8层的采样视频图像。然后，计算每组内选定尺度的采样图像的HOG（HistogramofOrientedGradient，方向梯度直方图）底层特征描述符。计算HOG底层特征描述符可以采用现有技术中的方法，在此不作具体描述。步骤103：通过预测算法计算每组内其它特定尺度的采样视频图像的HOG底层特征描述符。对于每组视频图像，经步骤102计算出了一个采样图像的HOG底层特征描述符。然后，以该计算出的HOG底层特征描述符为基础，预测计算出其它特定尺度的采样视频图像的HOG底层特征描述符。具体来说，其它特定尺度是指中除了步骤102已经计算了HOG底层特征描述符的尺度之外的其余（）个尺度。采用下述公式来预测计算其它特定尺度的采样视频图像的HOG底层特征描述符：其中，和分别表示采样图像和采样图像的尺度，，为设定值，为采样图像的HOG底层特征描述符，为采样图像的HOG底层特征描述符。其中，作为幂指数，为一个设定值，该设定值可以根据经验验证方法拟合确定。在该实施例中，的优选值为0.0042。在上述公式中，幂指数为确定值，其中一个尺度及其对应的HOG底层特征描述符经步骤102计算得到，则，对于指定的另一尺度，可以方便地通过上述公式计算出该指定的另一尺度对应的HOG底层特征描述符。依次类推，可以方便地计算出组内其余尺度所对应的HOG底层特征描述符，从而计算出所有组内所包含的采样视频图像的HOG底层特征描述符。步骤104：根据所有不同尺度采样视频图像的HOG底层特征描述符，结合训练好的SVM，检测视频图像中的人体目标区域。采用步骤102和步骤103计算出的所有组内所包含的采样视频图像的HOG底层特征描述符，即可检测出不同尺度下的人体目标区域。采用HOG底层特征描述符及训练好的SVM，实现人体目标区域检测的具体方法可以采用现有技术来实现，在此不作详细描述。步骤105：采用随机森林分类器对人体目标区域的像素进行分类，确定肢体部位区域。步骤104确定了人体目标区域之后，采用训练好的随机森林分类器对人体目标区域的像素进行分类，从而确定肢体部位区域。随机森林分类器的输入是像素的特征，选定分类器的参数，包括森林中决策树的数量、内部节点随机选择属性的个数、终节点的最小样本数，将人体目标区域的像素特征作为输入参数输入分类器，分类器将输出像素所属肢体部位区域的结果，从而确定出肢体部位区域。在该实施例中，选用SURF（speeduprobustfeatures，快速鲁棒性梯度特征）算子计算像素特征，每个像素特征可以构建为128维的描述符。肢体部位区域包括人体的七个关节部分，分别为：脚、膝部、臀部、肩膀、肘部、手、头。步骤106：将各肢体部位连接形成人体轮廓，实现人体姿态识别。步骤105确定了肢体部位之后，将各肢体部位连接，按照头-肩膀-臀部-膝部-脚连接成躯干，两侧再连接上肘部和手，这样可以标识出人体轮廓，从而实现基于人体关节模型的人体姿态识别。在该实施例中，检测人体目标区域时，虽然采用了HOG底层特征描述符的方式，但是，仅对原始视频图像进行了分组，每组确定了所包含的采样视频图像的数量，也即每组的层数，每组内仅采用底层特征计算函数计算了一个采样图像的HOG底层特征描述符，组内其他尺度的采样图像的HOG底层特征描述符利用步骤103的预测算法计算得出，计算复杂度和计算量远小于采用底层特征计算函数方式。而且，采用预测算法，无需计算每个尺度对应的采样视频图像，直接获得该采样视频图像的HOG底层特征描述符，进一步降低了计算量。进而，提高了基于HOG人体目标检测的快速性和实时性，从根本上解决了制约多尺度人体目标检测方法走向实际应用面临的计算量大、实时性不足的棘手问题。在机器学习中，随机森林是一个包含多个决策树的分类器。它用于姿态识别主要原因是分类精度高，此外还有四个因素，其一是其学习过程是很快速的；其二是算法的复杂度可以由内部决策树的深度自适应控制；其三是在建造森林时，它可以在内部对于一般化后的误差产生不偏差的估计；其四，对异常值和噪声有很好的容忍度，且不易出现过拟合现象。但其主要缺点是要求训练数据与测试数据是相似的，即两者具有相同的分布，这限制了该分类器的泛化能力。因此，要获得高精度的随机森林分类器，就要求训练样本涵盖将来测试数据所有可能的变化状态。但是，实际测试场景中由于视角变化、肢体的扭动、人体着装纹理变化、光照变化等因素影响，是不可能获得足够充分的训练样本的。针对随机森林分类器存在的上述缺点，在本发明的上述实施例中，改进了随机森林分类器中训练决策树节点的目标函数，从而使弱分类器从训练样本空间泛化到测试样本空间时仍然具有一致的空间激活模式。这样，可以在训练样本选择时仅仅需要目标测试空间中的一些弱标注的样本即可，而其它的训练数据可以利用计算机图形学人工合成的人体姿态视频图像样本来完成，从而降低了对训练样本的要求。具体训练过程如下：获取包括人体姿态的人工合成视频图像和目标测试场景中的真实视频图像，每幅视频图像作为一个训练样本。而且，人工合成视频图像为主体，结合少量已标注好肢体部位及背景的目标测试场景中的真实视频图像即可。依据设定肢体部位将每个训练样本中的背景区域及人体目标区域进行标注。具体来说，依据人体关节部位将人体目标区域标注为八部分，其中一部分为背景，其余七部分分别为：脚、膝部、臀部、肩膀、肘部、手、头。利用SURF算子计算每个标注区域内的每个像素特征，所有标注区域及其对应的像素特征数据构成训练数据集合。具体而言，选用SURF算子计算人工合成视频图像训练样本和真实视频图像训练样本中每个标注区域内每个像素特征，每个像素特征构建为128维的描述符。人工合成视频图像训练样本中标注区域的像素特征记为，真实视频图像训练样本中标注区域的像素特征记为，和构成训练数据集合，为随机森林中的一个决策树的一个分类节点。同时，计算人工合成视频图像训练样本所有标记区域内所有128维SURF描述符的统计描述符及真实视频图像训练样本所有标记区域内所有128维SURF描述符的统计描述符。最后，利用上述训练数据集合及改进后的目标函数对随机森林分类器进行训练。其中，改进的目标函数的表达式为：上述公式中，为权值，该权值是一个实验测得的固定值，优选为，分类器的识别效果最好。为信息熵计算函数，具体函数表达式采用现有技术。是人工合成视频图像训练样本中已标注的第个肢体部位内所有像素特征的统计描述符，为和的距离。上述表达式中的目标函数，既考虑了训练样本熵（），又结合了训练数据与目标测试数据间的信息差异度（），将两者加权求和，作为训练决策树的目标函数，因而，提高了训练好的分类器的泛化能力。在利用训练好的分类器识别人体肢体部位时，能够获得较高的识别准确率。上述目标函数采用距离表示训练数据与目标测试数据间的信息差异度，但不局限于此，也可以采用欧式距离或其它距离来表示两者的差异度。以上实施例仅用以说明本发明的技术方案，而非对其进行限制；尽管参照前述实施例对本发明进行了详细的说明，对于本领域的普通技术人员来说，依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明所要求保护的技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王传旭;刘云;闫春娟;崔雪红;李辉;
技术所有人：青岛科技大学;
我是此专利的发明人

上一篇：磷酸铁锂正极复合材料及其制备方法与流程
上一篇：锂二次电池的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。