人体姿态估计方法和装置、电子设备、存储介质、程序与流程

文档序号：15272857发布日期：2018-08-28 22:38阅读：163来源：国知局

本发明涉及计算机视觉技术，尤其是一种人体姿态估计方法和装置、电子设备、存储介质、程序。

背景技术：

人体姿态估计是计算机视觉领域的一个基础研究课题。给定一张图像或一段视频，人体姿态估计旨在定位出图像或视频中人体身体各部分的二维位置或者三维位置。人体姿态估计在很多领域都有重要应用，如动作识别，行为识别，服装解析，人物比对，人机交互等。

随着深度学习的快速发展，二维人体姿态估计已经取得了长足的进步。然而三维人体姿态估计的进展仍然十分有限，三维人体姿态估计的难点主要在于获取训练数据十分困难，对二维人体姿态估计数据集而言，可通过人工标注获得，标注员只需要标注出人体关键点在图像中的位置即可；而对于三维人体姿态数据集，还需要知道每个关键点的深度信息，而深度信息无法通过人工标注。

技术实现要素：

本发明实施例提供的一种人体姿态估计技术。

根据本发明实施例的一个方面，提供的一种人体姿态估计方法，包括：

利用坐标估计网络，基于图像获得至少一个人体图像特征；

基于所述人体图像特征获得所述图像中的人体关键点的二维坐标信息，所述图像包括至少一个人体关键点；

利用深度估计网络，基于所述图像和所述图像中的人体关键点的坐标信息获得所述人体关键点的深度信息。

在基于本发明上述方法的另一个实施例中，所述坐标估计网络和所述深度估计网络通过与判别网络对抗训练获得。

在基于本发明上述方法的另一个实施例中，每个所述人体图像特征对应一个人体关键点。

在基于本发明上述方法的另一个实施例中，所述人体图像特征包括得分特征图；

基于所述人体图像特征获得所述图像中的人体关键点的二维坐标信息，包括：

基于所述得分特征图中最大分值的位置，将所述最大分值的位置映射到所述图像，得到对应所述人体关键点的二维坐标信息。

在基于本发明上述方法的另一个实施例中，所述利用深度估计网络，基于所述图像和所述图像中的人体关键点的二维坐标信息获得人体关键点的深度信息，包括：

所述图像经过所述坐标估计网络中的至少一个卷积层输出中间图像特征；

利用深度估计网络，基于所述中间图像特征和所述图像中的人体关键点的二维坐标信息获得人体关键点的深度信息。

在基于本发明上述方法的另一个实施例中，所述利用深度估计网络，基于所述中间图像特征和所述图像中的人体关键点的二维坐标信息获得人体关键点的深度信息，包括：

利用至少一个卷积层分别对所述中间图像特征和所述图像中的人体关键点的二维坐标信息进行卷积处理，得到图像特征和二维坐标特征；

利用池化层，基于所述图像特征和所述二维坐标特征得到一个特征向量；

利用全连接层，基于所述特征向量获得人体关键点的深度信息。

利用至少一个卷积层分别对所述图像和所述图像中的人体关键点的二维坐标信息进行卷积处理，得到图像特征和二维坐标特征；

利用池化层，基于所述图像特征和所述二维坐标特征得到一个特征向量；

利用全连接层，基于所述特征向量获得人体关键点的深度信息。

在基于本发明上述方法的另一个实施例中，所述利用池化层，基于所述图像特征和所述二维坐标特征得到一个特征向量，包括：

连接所述图像特征和所述二维坐标特征获得连接特征，利用池化层对所述连接特征进行池化处理得到一个特征向量。

在基于本发明上述方法的另一个实施例中，所述利用池化层，基于所述图像特征和所述二维坐标特征得到一个特征向量，包括：

利用池化层对所述图像特征和所述二维坐标特征分别进行池化处理，将得到的两个特征向量连接得到一个特征向量。

在基于本发明上述方法的另一个实施例中，所述利用全连接层，基于所述特征向量获得人体关键点的深度信息，包括：

利用全连接层，将所述特征向量进行维度变换，得到变换维度后的新特征向量，所述新特征向量的维度数对应所述图像中的人体关键点数；

基于所述新特征向量中各维度对应的值，得到对应所述人体关键点的深度信息。

在基于本发明上述方法的另一个实施例中，还包括：基于所述人体关键点的二维坐标信息和深度信息确定所述图像中的人体姿态。

在基于本发明上述方法的另一个实施例中，基于所述人体关键点的二维坐标信息和深度信息确定所述图像中的人体姿态，包括：

基于所述人体关键点的二维坐标信息确定所述图像中的各人体关键点；

基于所述人体关键点的深度信息连接所述各人体关键点，确定所述图像中的人体姿态。

在基于本发明上述方法的另一个实施例中，还包括：

将所述图像的人体关键点的三维坐标信息输入判别网络，得到预测分类结果，所述人体关键点的三维坐标信息包括二维坐标信息和深度信息，所述预测分类结果包括所述三维坐标信息是否为真实标注；

基于所述预测分类结果训练所述坐标估计网络、深度估计网络和判别网络。

在基于本发明上述方法的另一个实施例中，所述利用判别网络，基于所述图像的人体关键点的三维坐标信息，得到预测分类结果，包括：

将所述人体关键点的三维坐标信息分别分解为至少一个特征图，连接所述至少一个特征图得到组合特征；

利用卷积层对所述组合特征进行卷积操作，得到关键点特征；

利用池化层对所述关键点特征进行处理，得到关键点向量；

利用全连接层对所述关键点向量进行处理，得到二分类的预测分类结果，所述二分类的预测分类结果包括：所述人体关键点的三维坐标信息为真实标注，或所述人体关键点的三维坐标信息为网络标注。

在基于本发明上述方法的另一个实施例中，基于所述预测分类结果训练所述坐标估计网络、深度估计网络和判别网络，包括：

每次基于所述预测分类结果调整所述坐标估计网络和深度估计网络中的参数，或调整所述判别网络中的参数。

在基于本发明上述方法的另一个实施例中，还包括：

将所述图像、所述图像对应的几何描述子、和所述图像的人体关键点的三维坐标信息输入判别网络，得到预测分类结果；

基于所述预测分类结果训练所述坐标估计网络、深度估计网络和判别网络。

在基于本发明上述方法的另一个实施例中，基于所述预测分类结果训练所述坐标估计网络、深度估计网络和判别网络，包括：

响应于第i次基于所述预测分类结果调整所述坐标估计网络和深度估计网络中的参数，第i+1次基于所述预测分类结果调整所述判别网络中的参数，其中，i≥1；

响应于第j次基于所述预测分类结果调整所述判别网络中的参数，第j+1次基于所述预测分类结果调整所述坐标估计网络和深度估计网络中的参数，其中，j≥1；

直到满足预设结束条件，结束训练。

在基于本发明上述方法的另一个实施例中，所述满足预设结束条件包括所述预测分类结果中的两个分类概率的差值小于或等于预设概率值。

在基于本发明上述方法的另一个实施例中，将所述图像、所述图像对应的几何描述子、和所述图像的人体关键点的三维坐标信息输入判别网络，得到预测分类结果之前，还包括：

基于所述图像的人体关键点的三维坐标信息，确定所述图像对应的几何描述子。

在基于本发明上述方法的另一个实施例中，基于所述图像的人体关键点的三维坐标信息，确定所述图像对应的几何描述子，包括：

基于所述图像中每两个人体关键点之间的相对位置，得到3通道的第一描述特征图；

基于所述图像中每两个人体关键点之间的相对距离，得到3通道的第二描述特征图；

连接所述第一描述特征图和所述第二描述特征图，得到6通道的几何描述子。

在基于本发明上述方法的另一个实施例中，将所述图像、所述图像对应的几何描述子、和所述图像的人体关键点的三维坐标信息输入判别网络，得到预测分类结果，包括：

分别利用不同卷积层，对所述图像、所述图像对应的几何描述子、和所述图像的人体关键点的三维坐标信息进行处理，得到第一特征、第二特征和第三特征；

利用池化层对所述关键点特征进行处理，得到关键点向量；

利用全连接层对所述关键点向量进行处理，得到二分类的预测分类结果。

在基于本发明上述方法的另一个实施例中，所述分别利用不同卷积层，对所述图像、所述图像对应的几何描述子、和所述图像的人体关键点的三维坐标信息进行处理，得到第一特征、第二特征和第三特征，包括：

利用第一卷积层，基于所述图像得到第一特征；

利用第二卷积层，基于所述图像对应的几何描述子得到第二特征；

将所述人体关键点的坐标信息和深度信息分别分解为至少一个特征图，连接所述至少一个特征图得到组合特征；利用第三卷积层，基于所述组合特征得到第三特征。

根据本发明实施例的另一个方面，提供的一种人体姿态估计装置，包括：

特征估计单元，利用坐标估计网络，基于图像获得至少一个人体图像特征；

二维坐标单元，用于基于所述人体图像特征获得所述图像中的人体关键点的二维坐标信息，所述图像包括至少一个人体关键点；

深度估计单元，用于利用深度估计网络，基于所述图像和所述图像中的人体关键点的二维坐标信息获得所述人体关键点的深度信息。

在基于本发明上述装置的另一个实施例中，所述坐标估计网络和所述深度估计网络通过与判别网络对抗训练获得。

在基于本发明上述装置的另一个实施例中，每个所述人体图像特征对应一个人体关键点。

在基于本发明上述装置的另一个实施例中，所述人体图像特征包括得分特征图；

所述二维坐标单元，具体用于基于所述得分特征图中最大分值的位置，将所述最大分值的位置映射到所述图像，得到对应所述人体关键点的二维坐标信息。

在基于本发明上述装置的另一个实施例中，所述深度估计单元，包括：

中间特征模块，用于所述图像经过所述坐标估计网络中的至少一个卷积层输出中间图像特征；

估计深度模块，用于利用深度估计网络，基于所述中间图像特征和所述图像中的人体关键点的二维坐标信息获得人体关键点的深度信息。

在基于本发明上述装置的另一个实施例中，所述估计深度模块，包括：

第一卷积模块，用于利用至少一个卷积层分别对所述中间图像特征和所述图像中的人体关键点的二维坐标信息进行卷积处理，得到图像特征和二维坐标特征；

池化模块，用于利用池化层，基于所述图像特征和所述二维坐标特征得到一个特征向量；

全连接模块，用于利用全连接层，基于所述特征向量获得人体关键点的深度信息。

在基于本发明上述装置的另一个实施例中，所述深度估计单元，包括：

第二卷积模块，用于利用至少一个卷积层分别对所述图像和所述图像中的人体关键点的二维坐标信息进行卷积处理，得到图像特征和二维坐标特征；

池化模块，用于利用池化层，基于所述图像特征和所述二维坐标特征得到一个特征向量；

全连接模块，用于利用全连接层，基于所述特征向量获得人体关键点的深度信息。

在基于本发明上述装置的另一个实施例中，所述池化模块，具体用于连接所述图像特征和所述二维坐标特征获得连接特征，利用池化层对所述连接特征进行池化处理得到一个特征向量。

在基于本发明上述装置的另一个实施例中，所述池化模块，具体用于利用池化层对所述图像特征和所述二维坐标特征分别进行池化处理，将得到的两个特征向量连接得到一个特征向量。

在基于本发明上述装置的另一个实施例中，所述全连接模块，具体用于利用全连接层，将所述特征向量进行维度变换，得到变换维度后的新特征向量，所述新特征向量的维度数对应所述图像中的人体关键点数；基于所述新特征向量中各维度对应的值，得到对应所述人体关键点的深度信息。

在基于本发明上述装置的另一个实施例中，还包括：

姿态估计单元，用于基于所述人体关键点的二维坐标信息和深度信息确定所述图像中的人体姿态。

在基于本发明上述装置的另一个实施例中，所述姿态估计单元，具体用于基于所述人体关键点的二维坐标信息确定所述图像中的各人体关键点；基于所述人体关键点的深度信息连接所述各人体关键点，确定所述图像中的人体姿态。

在基于本发明上述装置的另一个实施例中，还包括：

标注判别单元，用于将所述图像的人体关键点的三维坐标信息输入判别网络，得到预测分类结果，所述人体关键点的三维坐标信息包括二维坐标信息和深度信息，所述预测分类结果包括所述三维坐标信息是否为真实标注；

训练单元，用于基于所述预测分类结果训练所述坐标估计网络、深度估计网络和判别网络。

在基于本发明上述装置的另一个实施例中，所述标注判别单元，具体用于将所述人体关键点的三维坐标信息分别分解为至少一个特征图，连接所述至少一个特征图得到组合特征；

利用卷积层对所述组合特征进行卷积操作，得到关键点特征；

利用池化层对所述关键点特征进行处理，得到关键点向量；

在基于本发明上述装置的另一个实施例中，所述训练单元，具体用于每次基于所述预测分类结果调整所述坐标估计网络和深度估计网络中的参数，或调整所述判别网络中的参数。

在基于本发明上述装置的另一个实施例中，还包括：

多信息判别单元，用于将所述图像、所述图像对应的几何描述子、和所述图像的人体关键点的三维坐标信息输入判别网络，得到预测分类结果；

训练单元，用于基于所述预测分类结果训练所述坐标估计网络、深度估计网络和判别网络。

在基于本发明上述装置的另一个实施例中，所述训练单元，包括：

迭代模块，用于响应于第i次基于所述预测分类结果调整所述坐标估计网络和深度估计网络中的参数，第i+1次基于所述预测分类结果调整所述判别网络中的参数，其中，i≥1；

还用于响应于第j次基于所述预测分类结果调整所述判别网络中的参数，第j+1次基于所述预测分类结果调整所述坐标估计网络和深度估计网络中的参数，其中，j≥1；

结束模块，用于直到满足预设结束条件，结束训练。

在基于本发明上述装置的另一个实施例中，所述满足预设结束条件包括所述预测分类结果中的两个分类概率的差值小于或等于预设概率值。

在基于本发明上述装置的另一个实施例中，还包括：

描述子确定单元，用于基于所述图像的人体关键点的三维坐标信息，确定所述图像对应的几何描述子。

在基于本发明上述装置的另一个实施例中，所述描述子确定单元，具体用于基于所述图像中每两个人体关键点之间的相对位置，得到3通道的第一描述特征图；基于所述图像中每两个人体关键点之间的相对距离，得到3通道的第二描述特征图；连接所述第一描述特征图和第二描述特征图，得到6通道的几何描述子。

在基于本发明上述装置的另一个实施例中，所述多信息判别单元，包括：

分别卷积模块，用于分别利用不同卷积层，对所述图像、所述图像对应的几何描述子、和所述图像的人体关键点的三维坐标信息进行处理，得到第一特征、第二特征和第三特征；

关键点处理模块，用于利用池化层对所述关键点特征进行处理，得到关键点向量；

分类预测模块，用于利用全连接层对所述关键点向量进行处理，得到二分类的预测分类结果。

在基于本发明上述装置的另一个实施例中，所述分别卷积模块，具体用于利用第一卷积层，基于所述图像得到第一特征；利用第二卷积层，基于所述图像对应的几何描述子得到第二特征；

并将所述人体关键点的坐标信息和深度信息分别分解为至少一个特征图，连接所述至少一个特征图得到组合特征；利用第三卷积层，基于所述组合特征得到第三特征。

根据本发明实施例的另一个方面，提供的一种电子设备，包括处理器，所述处理器包括如上所述的人体姿态估计装置。

根据本发明实施例的另一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与所述存储器通信以执行所述可执行指令从而完成如上所述人体姿态估计方法的操作。

根据本发明实施例的另一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，所述指令被执行时执行如上所述人体姿态估计方法的操作。

根据本发明实施例的另一个方面，提供的一种计算机程序，包括计算机可读代码，当所述计算机可读代码在设备上运行时，所述设备中的处理器执行用于实现如上所述人体姿态估计方法的指令。

基于本发明上述实施例提供的人体姿态估计方法和装置、电子设备、存储介质、程序，利用坐标估计网络，基于图像获得至少一个人体图像特征；基于人体图像特征获得图像中的人体关键点的二维坐标信息，通过坐标估计网络获得图像中各人体关键点的二维坐标信息，通过二维坐标信息可确定人体关键点在图像中所处的平面位置；利用深度估计网络，基于图像和图像中的人体关键点的二维坐标信息获得人体关键点的深度信息，通过获得的人体关键点的深度信息结合二维坐标信息，即可确定图像中人体关键点的三维坐标信息，实现三维人体姿态估计。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同描述一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1为本发明人体姿态估计方法一个实施例的流程图。

图2为本发明人体姿态估计方法一个具体示例中应用的沙漏网络的结构示意图。

图3为本发明人体姿态估计方法一个具体示例的结构示意图。

图4为本发明人体姿态估计方法中判别网络的一个具体示例的结构示意图。

图5为本发明人体姿态估计装置一个实施例的结构示意图。

图6为适于用来实现本公开实施例的终端设备或服务器的电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于计算机系统/服务器，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

现有的三维人体姿态估计数据集都是通过可穿戴设备(mocap系统)自动跟踪标注的。

在实现本发明的过程中，发明人发现，现有技术至少存在以下问题：这类可穿戴设备的使用条件非常严苛，因此数据必须在精密的实验室环境采集。因此，现有的三维人体姿态估计数据集存在背景单一，人体姿态类型单一等问题；并且，在这些数据集上训练得到的模型很难泛化到日常场景(如手机视频和照片)中。

图1为本发明人体姿态估计方法一个实施例的流程图。如图1所示，该实施例方法包括：

步骤101，利用坐标估计网络，基于图像获得至少一个人体图像特征。

获得的人体图像特征中对人体关键点进行识别，可选地，每个人体图像特征对应一个人体关键点，即，针对人体关键点的数量生成对应数量的人体图像特征，人体图像特征可以表现为特征图形式或特征矩阵形式；可选地，识别人体图像特征的各特征点对应图像中人体关键点的概率，当一个特征点对应的概率值最大时，说明这个特征点对应的图像中的像素点是人体关键点的概率很大，本实施例不限制获得人体图像特征所采用的具体网络结构。

步骤102，基于人体图像特征获得图像中的人体关键点的二维坐标信息。

其中，图像包括至少一个人体关键点；通过在每个人体图像特征中分别确定一个人体关键点的特征点，将特征点映射到图像中，即可在图像中确定人体关键点的二维坐标信息。

步骤103，利用深度估计网络，基于图像和图像中的人体关键点的二维坐标信息获得人体关键点的深度信息。

可选地，坐标估计网络和深度估计网络通过与判别网络对抗训练获得，经过与判别网络对抗训练获得的坐标估计网络和深度估计网络具有更好的泛化能力。

基于本发明上述实施例提供的人体姿态估计方法，利用坐标估计网络，基于图像获得至少一个人体图像特征；基于人体图像特征获得图像中的人体关键点的二维坐标信息，通过坐标估计网络获得图像中各人体关键点的二维坐标信息，通过二维坐标信息可确定人体关键点在图像中所处的平面位置；利用深度估计网络，基于图像和图像中的人体关键点的二维坐标信息获得人体关键点的深度信息，通过获得的人体关键点的深度信息结合二维坐标信息，即可确定图像中人体关键点的三维坐标信息，实现三维人体姿态估计。

本发明人体姿态估计方法的另一个实施例中，在上述实施例的基础上，人体图像特征包括得分特征图；

操作102，包括：

基于得分特征图中最大分值的位置，将最大分值的位置映射到图像，得到对应人体关键点的二维坐标信息。

可选地，本实施例可采用沙漏网络(hourglassnetwork)作为二维人体姿态估计模型的基本网络结构，该网络结构可以替换为任意处理人体姿态估计问题的网络结构。图2为本发明人体姿态估计方法一个具体示例中应用的沙漏网络的结构示意图。如图2所示，左侧是输入图片，右侧输出的是p个得分图，每个得分图对应p个人体关键点中的一个，分数越高的位置代表该人体关键点出现在该位置的可能性越大。因此，每个得分图分数最高的位置，即是对应的人体关键点预测得到的位置，基于该位置映射到原图像，即可确定人体关键点的二维坐标信息。

沙漏网络是通过pooling层不断减小分辨率，得到全局特征，然后将全局特征插值放大，和底层相同分辨率的特征相结合。在实现中，沙漏网络中有多个(如：8个)沙漏结构叠加在一起；在实现时，也可以采用其他的网络结构来实现二维人体姿态估计模型。

在一个或多个可选的实施例中，在上述各实施例的基础上，操作103，包括：

图像经过坐标估计网络中的至少一个卷积层输出中间图像特征；

利用深度估计网络，基于中间图像特征和图像中的人体关键点的二维坐标信息获得人体关键点的深度信息。

可选地，在本实施例中输入到深度估计网络的是经过坐标估计网络中的一个或多个卷积层经过卷积得到的中间图像特征和图像中的人体关键点的二维坐标信息，可以选择最后一个卷积层输出的图像特征，如果需要获得更多图像信息，还可以输入每一层卷积层输出的图像特征，深度估计网络的基本结构包括至少一个卷积层、池化层和全连接层等。

可选地，利用至少一个卷积层分别对中间图像特征和图像中的人体关键点的二维坐标信息进行卷积处理，得到图像特征和二维坐标特征；利用池化层，基于图像特征和二维坐标特征得到一个特征向量；利用全连接层，基于特征向量获得人体关键点的深度信息。

通过卷积层将中间图像特征和图像中的人体关键点的二维坐标信息的尺寸缩小，在经过池化(例如：最大池化、平均池化)将中间图像特征和图像中的人体关键点的二维坐标信息转换为一维向量，但该一维向量的维度是任意的，为了获得各人体特征点的深度信息，需要经过全连接层将一维向量的维度转换为对应人体关键点数量的一维向量，深度估计网络可采用残差网络(residualnetworks)，也可以采用其他结构的网络，本发明对网络采用的具体网络结构不做限制。

在另一些可选的实施例中，在上述各实施例的基础上，操作103，包括：

利用至少一个卷积层分别对图像和图像中的人体关键点的二维坐标信息进行卷积处理，得到图像特征和二维坐标特征；

利用池化层，基于图像特征和二维坐标特征得到一个特征向量；

利用全连接层，基于特征向量获得人体关键点的深度信息。

本实施例与上一实施例的区别仅在于，本实施例基于以图像作为输入，因此，在该实施例中需要增加相应的卷积层，经过卷积层处理得到的特征再输入类似上一实施例中的深度估计网络对特征进行处理，得到人体关键点的深度信息。

在本实施例中，基于人体关键点的二维坐标信息获得的二维坐标特征可以是得分特征图，即操作101获得的人体图像特征；

此时操作103包括：

利用至少一个卷积层对图像进行卷积处理，得到图像特征；或利用至少一个卷积层对中间图像特征进行卷积处理，得到图像特征。

利用池化层，基于图像特征和得分特征图得到一个特征向量，利用全连接层，基于特征向量获得人体关键点的深度信息。

可选地，利用池化层，基于图像特征和二维坐标特征得到一个特征向量，包括：

连接图像特征和二维坐标特征获得连接特征，利用池化层对连接特征进行池化处理得到一个特征向量。

或，可选地，利用池化层，基于图像特征和二维坐标特征得到一个特征向量，包括：

利用池化层对图像特征和二维坐标特征分别进行池化处理，将得到的两个特征向量连接得到一个特征向量。

在本实施例中，先对图像特征和二维坐标特征进行池化处理之后在连接两个特征向量，或先将图像特征和二维坐标特征连接之后再进行池化处理都可以，最终得到的是连接构成一维特征向量，该特征向量即体现图像的特征，又体现人体关键点的二维坐标的特征，其中二维坐标特征可以是二维坐标得分图。

在一个或多个可选的实施例中，利用全连接层，基于特征向量获得人体关键点的深度信息，包括：

利用全连接层，将特征向量进行维度变换，得到变换维度后的新特征向量，新特征向量的维度数对应图像中的人体关键点数；

基于新特征向量中各维度对应的值，得到对应人体关键点的深度信息。

在本实施例中，通过全连接层对特征向量进行维度变换，维度变换前，池化层得到的特征向量是任意维度的，此时每个特征值无法与人体特征点相对应，因此，需要进行维度变换，变换后，新特征向量的维度为人体关键点个数，即每个人体关键点对应一个特征，该特征即作为对应的人体关键点的深度信息。

本发明人体姿态估计方法的又一个实施例中，在上述实施例的基础上，还包括：基于人体关键点的二维坐标信息和深度信息确定图像中的人体姿态。

在本实施例中，已知图像中所有人体关键点的三维坐标信息(二维坐标信息和深度信息)，将各人体关键点进行连接。

在本发明人体姿态估计方法的一个具体示例中，在上述各实施例的基础上，基于人体关键点的二维坐标信息和深度信息确定图像中的人体姿态，包括：

基于人体关键点的二维坐标信息确定图像中的各人体关键点；

基于人体关键点的深度信息连接各人体关键点，确定图像中的人体姿态。

各人体关键点之间存在物理关系，如：肘关节在手腕与肩之间，因此，对应的关键点之间也存在相应关系，在连接时首先遵循人体关键点之间的物理关系。

可选地，为每个人体关键点建立一个坐标图，基于人体关键点的深度信息将人体关键点对应的坐标图进行排列，连接各坐标图中存在关联关系的关键点，得到人体姿态。

本发明人体姿态估计方法的还一个实施例中，在上述实施例的基础上，还包括：

将图像的人体关键点的三维坐标信息输入判别网络，得到预测分类结果；

其中，人体关键点的三维坐标信息包括二维坐标信息和深度信息，预测分类结果包括三维坐标信息是否为真实标注，即三维坐标信息是真实标注或三维坐标信息不是真实标注两种预测分类结果。

基于预测分类结果训练坐标估计网络、深度估计网络和判别网络。

本实施例中，引入对抗学习机制，使得在现有实验室环境的三维人体姿态数据集上学习到的模型能够泛化应用在日常场景中，同时增强模型在原有三维人体姿态数据集上的准确度；给定一组人体关键点的三维坐标，判别网络需要判断出该三维坐标是真实的标注信息，还是人体姿态估计网络和深度估计网络预测的坐标。

图3为本发明人体姿态估计方法一个具体示例的结构示意图。如图3所示，对抗学习框架由产生模型g(包括坐标估计网络和深度估计网络)和判别网络d两个模型组成：产生模型通常根据一组输入信息(如高斯噪声)，产生足够真实的样本，使得判别网络无法辨别出真实样本和产生的样本；判别网络用于判断一个输入样本是真实的样本还是产生的样本。两个模型交替训练，通过不断的对抗学习，使得产生模型能够产生越来越真实的样本。

在本发明人体姿态估计方法的一个具体示例中，在上述实施例的基础上，利用判别网络，基于图像的人体关键点的三维坐标信息，得到预测分类结果，包括：

将人体关键点的三维坐标信息分别分解为至少一个特征图，连接至少一个特征图得到组合特征；

利用卷积层对组合特征进行卷积操作，得到关键点特征；

利用池化层对关键点特征进行处理，得到关键点向量；

利用全连接层对关键点向量进行处理，得到二分类的预测分类结果。

本实施例中，判别网络以人体关键点的三维坐标信息为输入，输出一个维度为2的特征向量，中两个特征值分别代表输入的三维坐标信息是真实的(人工标注)还是基于模型获得(基于坐标估计网络和深度估计网络标注)的，为了使坐标估计网络和深度估计网络的标注效果达到最佳，本实施例希望得到的特征向量中两个特征值之间的差值越小越好，即，判别网络无法区分真实的和基于模型获得的三维坐标信息。

可选地，基于预测分类结果训练坐标估计网络、深度估计网络和判别网络，包括：

每次基于预测分类结果调整坐标估计网络和深度估计网络中的参数，或调整判别网络中的参数。

由于坐标估计网络和深度估计网络，与判别网络之间是对抗关系，即当坐标估计网络和深度估计网络的参数较好时，会导致判别网络输出的结果不理想(判别网络的训练目的是能更准确的识别三维数据是真实的还是模型标注的)，反之亦然；因此，每次只能对坐标估计网络和深度估计网络，或判别网络进行参数调整。

本发明人体姿态估计方法的再一个实施例中，在上述实施例的基础上，还包括：

将图像、图像对应的几何描述子、和图像的人体关键点的三维坐标信息输入判别网络，得到预测分类结果；

基于预测分类结果训练坐标估计网络、深度估计网络和判别网络。

本实施例中，为了避免坐标估计网络和深度估计网络输出的人体三维坐标合理但不符合原图像，引入了多信息源输入到判别网络中，多信息源包括原图像和基于人体关键点的二维坐标信息和深度信息获得的几何描述子，利用多信息源的神经网络来对人体姿态的先验信息建模，提升了模型的泛化能力。

图4为本发明人体姿态估计方法中判别网络的一个具体示例的结构示意图。如图4所示，判别网络的输入是真实的或者预测得到的三维人体坐标信息，输出的是二分类信息，判断输入是真实的三维人体姿态还是预测得到的三维人体姿态。为了使判别网络更加鲁棒，本示例设计了三组信息源：

原始图像：原始图像提供了丰富的图像上下文信息，用于建立图像与关键点位置信息的关联，如图4(a)所示。

几何描述子：提出了一个三维几何描述子来表示人体关键点的位置信息。在一个或多个可选的实施例中，还包括：

基于图像的人体关键点的二维坐标信息和深度信息，确定图像对应的几何描述子。具体地，几何描述子包含一阶和二阶的信息如公式(1)所示：

d(zi,zj)＝[δx,δy,δz,δx²,δy²,δz²]^t公式(1)

其中，zi表示第i个关键点的(x,y,z)三维坐标，δx＝(xi-xj)，δy＝(yi-yj)，δz＝(zi-zj)表示关键点i和关键点j的相对位置，δx²＝(xi-xj)²，δy²＝(yi-yj)²，δz²＝(zi-zj)²表示关键点i和关键点j的相对距离。如图4(b)所示。

可选地，基于图像的人体关键点的二维坐标信息和深度信息，确定图像对应的几何描述子，包括：

基于图像中每两个人体关键点之间的相对位置，得到3通道的第一描述特征图；

基于图像中每两个人体关键点之间的相对距离，得到3通道的第二描述特征图；

连接第一描述特征图和第二描述特征图，得到6通道的几何描述子。

即将图4(b)所示的两个信息连接成d(zi,zj)。

得分图表示：本实施例还使用了二维的人体关键点得分图和深度信息图作为第三个信息源，用于表示人体关键点位置的原始信息。其中每个关键点的深度图只有一个数值。关键点得分图和深度信息图拼接在一起，得到一个2p×高度值height×宽度值width的矩阵，p表示人体关键点数。

在一个可选的实施例中，基于预测分类结果训练坐标估计网络、深度估计网络和判别网络，包括：

响应于第i次基于预测分类结果调整坐标估计网络和深度估计网络中的参数，第i+1次基于预测分类结果调整判别网络中的参数，其中，i≥1；

响应于第j次基于预测分类结果调整判别网络中的参数，第j+1次基于预测分类结果调整坐标估计网络和深度估计网络中的参数，其中，j≥1；

直到满足预设结束条件，结束训练。

可选地，满足预设结束条件包括预测分类结果中的两个分类概率的差值小于或等于预设概率值。

本实施例中，体现了坐标估计网络和深度估计网络，与判别网络之间的交替训练，由于判别网络与坐标估计网络和深度估计网络之间是对抗关系，无法同时训练，但为了维持网络之间的平衡，需要交替训练，训练达到预设结束条件后，单独应用坐标估计网络和深度估计网络为图像标注三维坐标信息。

在一个或多个可选的实施例中，将图像、图像对应的几何描述子、和图像的人体关键点的三维坐标信息输入判别网络，得到预测分类结果，包括：

分别利用不同卷积层，对图像、图像对应的几何描述子、和图像的人体关键点的二维坐标信息和深度信息进行处理，得到第一特征、第二特征和第三特征；

可选地，利用第一卷积层，基于图像得到第一特征；

利用第二卷积层，基于图像对应的几何描述子得到第二特征；

将人体关键点的三维坐标信息分别分解为至少一个特征图，连接至少一个特征图得到组合特征；利用第三卷积层，基于组合特征得到第三特征。

利用池化层对关键点特征进行处理，得到关键点向量；

利用全连接层对关键点向量进行处理，得到二分类的预测分类结果。

本实施例中，为了实现基于三个信息源同时输入，而三个信息源各不相同，因此，基于不同的卷积层对其进行卷积操作，得到维度相同的特征，将得到的特征经过池化后进行连接得到一个包括三个信息源的特征向量，再经过全连接层进行维度转换，就实现了基于三个信息源对三维坐标信息进行真实性的判别。

本发明上述实施例提供的人体姿态估计方法具体可应用于：

用户给出一张包含人体的日常场景图片，本发明上述实施例提供的人体姿态估计方法能较为准确的给出人体各个部分的三维位置的估计。

用户给出一段包含人体的视频，本发明上述实施例提供的人体姿态估计方法能对视频每一帧给出人体各个部分位置的估计。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

图5为本发明人体姿态估计装置一个实施例的结构示意图。该实施例的装置可用于实现本发明上述各方法实施例。如图5所示，该实施例的装置包括：

特征估计单元51，利用坐标估计网络，基于图像获得至少一个人体图像特征。

二维坐标单元52，用于基于人体图像特征获得图像中的人体关键点的二维坐标信息。

其中，图像包括至少一个人体关键点，通过在每个人体图像特征中分别确定一个人体关键点的特征点，将特征点映射到图像中，即可在图像中确定人体关键点的二维坐标信息。

深度估计单元53，用于利用深度估计网络，基于图像和图像中的人体关键点的二维坐标信息获得人体关键点的深度信息。

基于本发明上述实施例提供的人体姿态估计装置，利用坐标估计网络，基于图像获得至少一个人体图像特征；基于人体图像特征获得图像中的人体关键点的二维坐标信息，通过坐标估计网络获得图像中各人体关键点的二维坐标信息，通过二维坐标信息可确定人体关键点在图像中所处的平面位置；利用深度估计网络，基于图像和图像中的人体关键点的二维坐标信息获得人体关键点的深度信息，通过获得的人体关键点的深度信息结合二维坐标信息，即可确定图像中人体关键点的三维坐标信息，实现三维人体姿态估计。

本发明人体姿态估计装置的另一个实施例中，在上述实施例的基础上，人体图像特征包括得分特征图；

二维坐标单元52，具体用于基于得分特征图中最大分值的位置，将最大分值的位置映射到图像，得到对应人体关键点的二维坐标信息。

可选地，本实施例可采用沙漏网络(hourglassnetwork)作为二维人体姿态估计模型的基本网络结构，该网络结构可以替换为任意处理人体姿态估计问题的网络结构。如图2所示，左侧是输入图片，右侧输出是p个得分图，每个得分图对应p个人体关键点中的一个，分数越高的位置代表该人体关键点出现在该位置的可能性越大。因此，每个得分图分数最高的位置，即是对应的人体关键点预测得到的位置，基于该位置映射到原图像，即可确定人体关键点的二维坐标信息。

在一个或多个可选的实施例中，在上述各实施例的基础上，深度估计单元53，包括：

中间特征模块，用于图像经过坐标估计网络中的至少一个卷积层输出中间图像特征；

估计深度模块，用于利用深度估计网络，基于中间图像特征和图像中的人体关键点的二维坐标信息获得人体关键点的深度信息。

可选地，估计深度模块，包括：

第一卷积模块，用于利用至少一个卷积层分别对中间图像特征和图像中的人体关键点的二维坐标信息进行卷积处理，得到图像特征和二维坐标特征；

池化模块，用于利用池化层，基于图像特征和二维坐标特征得到一个特征向量；

全连接模块，用于利用全连接层，基于特征向量获得人体关键点的深度信息。

在另一些可选的实施例中，在上述各实施例的基础上，深度估计单元53，包括：

第二卷积模块，用于利用至少一个卷积层分别对图像和图像中的人体关键点的二维坐标信息进行卷积处理，得到图像特征和二维坐标特征；

池化模块，用于利用池化层，基于图像特征和二维坐标特征得到一个特征向量；

全连接模块，用于利用全连接层，基于特征向量获得人体关键点的深度信息。

在上述两个实施例中，基于人体关键点的二维坐标信息获得的二维坐标特征可以是得分特征图，即特征估计单元51获得的人体图像特征；

此时，第一卷积模块，用于利用至少一个卷积层对中间图像特征进行卷积处理，得到图像特征；

第二卷积模块，用于利用至少一个卷积层对图像进行卷积处理，得到图像特征。

可选地，在上述各实施例的基础上，池化模块，具体用于连接图像特征和二维坐标特征获得连接特征，利用池化层对连接特征进行池化处理得到一个特征向量。

或者，可选地，在上述各实施例的基础上，池化模块，具体用于利用池化层对图像特征和二维坐标特征分别进行池化处理，将得到的两个特征向量连接得到一个特征向量。

在一个或多个可选的实施例中，全连接模块，具体用于利用全连接层，将特征向量进行维度变换，得到变换维度后的新特征向量，新特征向量的维度数对应图像中的人体关键点数；基于新特征向量中各维度对应的值，得到对应人体关键点的深度信息。

本发明人体姿态估计装置的又一个实施例中，在上述实施例的基础上，还包括：

姿态估计单元，用于基于人体关键点的二维坐标信息和深度信息确定图像中的人体姿态。

在本实施例中，已知图像中所有人体关键点的三维坐标信息(二维坐标信息和深度信息)，将各人体关键点进行连接。

在本发明人体姿态估计方法的一个具体示例中，在上述各实施例的基础上，姿态估计单元，具体用于基于人体关键点的二维坐标信息确定图像中的各人体关键点；基于人体关键点的深度信息连接各人体关键点，确定图像中的人体姿态。

本发明人体姿态估计装置的还一个实施例中，在上述实施例的基础上，还包括：

标注判别单元，用于将图像的人体关键点的三维坐标信息输入判别网络，得到预测分类结果，人体关键点的三维坐标信息包括二维坐标信息和深度信息，预测分类结果包括三维坐标信息是否为真实标注；

训练单元，用于基于预测分类结果训练坐标估计网络、深度估计网络和判别网络。

在本发明人体姿态估计装置的的一个具体示例中，在上述实施例的基础上，标注判别单元，具体用于将人体关键点的三维坐标信息分别分解为至少一个特征图，连接至少一个特征图得到组合特征；

利用卷积层对组合特征进行卷积操作，得到关键点特征；

利用池化层对关键点特征进行处理，得到关键点向量；

利用全连接层对关键点向量进行处理，得到二分类的预测分类结果。

二分类的预测分类结果包括：人体关键点的三维坐标信息为真实标注，或人体关键点的三维坐标信息为网络标注。

可选地，训练单元，具体用于每次基于预测分类结果调整坐标估计网络和深度估计网络中的参数，或调整判别网络中的参数。

本发明人体姿态估计装置的再一个实施例中，在上述实施例的基础上，还包括：

多信息判别单元，用于将图像、图像对应的几何描述子、和图像的人体关键点的三维坐标信息输入判别网络，得到预测分类结果；

训练单元，用于基于预测分类结果训练坐标估计网络、深度估计网络和判别网络。

在一个可选的实施例中，训练单元，包括：

迭代模块，用于响应于第i次基于预测分类结果调整坐标估计网络和深度估计网络中的参数，第i+1次基于预测分类结果调整判别网络中的参数，其中，i≥1；

还用于响应于第j次基于预测分类结果调整判别网络中的参数，第j+1次基于预测分类结果调整坐标估计网络和深度估计网络中的参数，其中，j≥1；

结束模块，用于直到满足预设结束条件，结束训练。

可选地，满足预设结束条件包括预测分类结果中的两个分类概率的差值小于或等于预设概率值。

在一个或多个可选的实施例中，还包括：

描述子确定单元，用于基于图像的人体关键点的三维坐标信息，确定图像对应的几何描述子。

可选地，描述子确定单元，具体用于基于图像中每两个人体关键点之间的相对位置，得到3通道的第一描述特征图；基于图像中每两个人体关键点之间的相对距离，得到3通道的第二描述特征图；连接第一描述特征图和第二描述特征图，得到6通道的几何描述子。

在一个或多个可选的实施例中，多信息判别单元，包括：

分别卷积模块，用于分别利用不同卷积层，对图像、图像对应的几何描述子、和图像的人体关键点的三维坐标信息进行处理，得到第一特征、第二特征和第三特征；

关键点处理模块，用于利用池化层对关键点特征进行处理，得到关键点向量；

分类预测模块，用于利用全连接层对关键点向量进行处理，得到二分类的预测分类结果。

可选地，分别卷积模块，具体用于利用第一卷积层，基于图像得到第一特征；利用第二卷积层，基于图像对应的几何描述子得到第二特征；

并将人体关键点的坐标信息和深度信息分别分解为至少一个特征图，连接至少一个特征图得到组合特征；利用第三卷积层，基于组合特征得到第三特征。

根据本发明实施例的一个方面，提供的一种电子设备，包括处理器，处理器包括本发明分类方法上述任一实施例的人体姿态估计装置。

根据本发明实施例的一个方面，提供的一种电子设备，包括：存储器，用于存储可执行指令；

以及处理器，用于与存储器通信以执行可执行指令从而完成本发明人体姿态估计方法上述任一实施例的操作。

根据本发明实施例的一个方面，提供的一种计算机存储介质，用于存储计算机可读取的指令，指令被执行时执行本发明人体姿态估计方法上述任一实施例的操作。

根据本发明实施例的一个方面，提供的一种计算机程序，包括计算机可读代码，当计算机可读代码在设备上运行时，该设备中的处理器执行用于实现本发明人体姿态估计方法任意一项实施例的指令。

本公开实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(pc)、平板电脑、服务器等。下面参考图6，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备600的结构示意图：如图6所示，计算机系统600包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(cpu)601，和/或一个或多个图像处理器(gpu)613等，处理器可以根据存储在只读存储器(rom)602中的可执行指令或者从存储部分608加载到随机访问存储器(ram)603中的可执行指令而执行各种适当的动作和处理。通信部612可包括但不限于网卡，所述网卡可包括但不限于ib(infiniband)网卡。

处理器可与只读存储器602和/或随机访问存储器630中通信以执行可执行指令，通过总线604与通信部612相连、并经通信部612与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如，利用坐标估计网络，基于图像获得至少一个人体图像特征；基于人体图像特征获得图像中的人体关键点的二维坐标信息；利用深度估计网络，基于图像和图像中的人体关键点的二维坐标信息获得人体关键点的深度信息。

此外，在ram603中，还可存储有装置操作所需的各种程序和数据。cpu601、rom602以及ram603通过总线604彼此相连。在有ram603的情况下，rom602为可选模块。ram603存储可执行指令，或在运行时向rom602中写入可执行指令，可执行指令使处理器601执行上述通信方法对应的操作。输入/输出(i/o)接口605也连接至总线604。通信部612可以集成设置，也可以设置为具有多个子模块(例如多个ib网卡)，并在总线链接上。

以下部件连接至i/o接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

需要说明的，如图6所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图6的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如gpu和cpu可分离设置或者可将gpu集成在cpu上，通信部可分离设置，也可集成设置在cpu或gpu上，等等。这些可替换的实施方式均落入本公开公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如，利用坐标估计网络，基于图像获得至少一个人体图像特征；基于人体图像特征获得图像中的人体关键点的二维坐标信息；利用深度估计网络，基于图像和图像中的人体关键点的二维坐标信息获得人体关键点的深度信息。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(cpu)601执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本公开的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

本公开的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用，并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨巍;欧阳万里;王晓刚
技术所有人：北京市商汤科技开发有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。