动态人体姿态的语义理解方法、装置、设备和存储介质与流程

文档序号：14774511发布日期：2018-06-23 02:43阅读：177来源：国知局

本发明实施例涉及模式识别和计算机视觉领域技术，尤其涉及一种动态人体姿态的语义理解方法、装置、设备和存储介质。

背景技术：

人体姿态估计是计算机视觉领域的一个重要技术，通过识别人的动作揣摩人的意图，可以将其应用于人体活动分析、人机交互和视频监视等方面。例如，对运动员进行姿态估计，分析运动过程中动作的关键点，学习姿态的位置、方向和尺度，可以帮助运动员有针对性的制定训练计划；一些带有体感体验的娱乐设备，可以通过人体姿态估计，识别人体的姿态，翻译出姿态对应的控制指令，从而可以控制娱乐设备作出相应的反应；对监控视频中的人进行人体姿态估计，检测是否有异常情况，可以提高视频监控整体水平。

目前大多数视觉控制是基于人体局部部位的检测，最常见的是脸部和手部，其需要被检测的局部部位在图像中占据主要位置，例如，人脸必须处于图像的中间位置，清晰且占据大部分区域，通过人脸的左右转动、上下俯仰，分别表示不同的语义。但是这种方法可以表达的语义有限，难以满足复杂场景下的信息准确传递和控制。

也可以通过点特征匹配法、图结构化模型和统计模型等方法进行人体姿态估计。但是在复杂环境中，会出现人物相互遮挡，姿态复杂，图像模糊，有类人物体等情况，很容易出现误检现象，导致机器不能准确识别到控制指令，及时作出反应。而且目前基于人体姿态估计的语义理解只有针对静态单帧图像，可获得的语义也是有限的。

技术实现要素：

本发明实施例提供一种动态人体姿态的语义理解方法、装置、设备和存储介质，以适应更丰富场景下的人体姿态识别，提高识别准确性。

第一方面，本发明实施例提供了一种动态人体姿态的语义理解方法，包括：

从获取的视频流图像帧中识别目标人物；

根据所述视频流中的指令图像帧，将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列，其中，所述指令图像帧为目标人物出现指令姿态的图像帧；

根据所述语义图像帧序列中的姿态识别对应的语义。

可选的，所述根据所述语义图像帧序列中的姿态识别对应的语义，包括：

将所述语义图像帧序列中的连续姿态输入循环神经网络，根据预先得到的动态姿态识别模型分类出所述语义图像帧序列对应的语义，所述动态姿态识别模型包括多个连续姿态和其表达的语义之间的对应关系。

可选的，在所述根据所述视频流中的指令图像帧，将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列之前，还包括：

将所述视频流图像帧中连续出现所述指令姿态的图像帧进行合并,作为一个所述指令图像帧；或者，

保留所述视频流图像帧中连续出现所述指令姿态的图像帧的第一帧或最后一帧，作为所述指令图像帧。

可选的，所述从获取的视频流图像帧中识别目标人物，包括：

对所述视频流图像帧进行特征提取，将提取出来的所述特征与目标检测模型进行匹配，根据匹配结果确定所述目标人物。

可选的，所述目标检测模型包括以下任一种或几种信息：

所述目标人物的外貌特征信息；

所述目标人物的衣着信息；

所述目标人物的位置信息；

所述目标人物在所述图像帧中的面积占比信息。

可选的，在所述根据所述视频流中的指令图像帧，将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列之前，还包括：

对所述视频流中的图像帧进行目标人物人体姿态识别；

将识别到的人物姿态与设定指令姿态进行匹配，并根据匹配结果确定所述指令图像帧。

可选的，所述对所述视频流中的图像帧进行目标人物人体姿态识别，包括：

通过图像识别确定人物的身体关键部位对应的关键点，并获得关键点的连线；

根据所述关键点和所述关键点的连线，确定人物的姿态。

可选的，所述指令图像帧包括符合起始指令姿态的起始指令图像帧和符合终止指令姿态的终止指令图像帧，所述相邻图像帧为起始指令图像帧和终止指令图像帧。

可选的，在所述根据所述语义图像帧序列中的姿态识别对应的语义之后，还包括：

根据所述语义确定对应的控制指令，并执行所述控制指令；

其中，所述目标人物为交通警察，所述控制指令为交通手势；或所述目标人物为游戏玩家，所述控制指令为游戏姿势。

第二方面，本发明实施例提供了一种动态人体姿态的语义理解装置，包括：

人物识别模块，用于从获取的视频流图像帧中识别目标人物；

待识别图像帧序列确定模块，用于根据所述视频流中的指令图像帧，将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列，其中，所述指令图像帧为目标人物出现指令姿态的图像帧；

语义识别模块，用于根据所述语义图像帧序列中的姿态识别对应的语义。

可选的，所述语义识别模块，具体用于将所述语义图像帧序列中的连续姿态输入循环神经网络，根据预先得到的动态姿态识别模型分类出所述语义图像帧序列对应的语义，所述动态姿态识别模型包括多个连续姿态和其表达的语义之间的对应关系。

可选的，所述待识别图像帧序列确定模块，还用于将所述视频流图像帧中连续出现所述指令姿态的图像帧进行合并,作为一个所述指令图像帧；或者，保留所述视频流图像帧中连续出现所述指令姿态的图像帧的第一帧或最后一帧，作为所述指令图像帧。

可选的，所述人物识别模块，具体用于对所述视频流图像帧进行特征提取，将提取出来的所述特征与目标检测模型进行匹配，根据匹配结果确定所述目标人物。

可选的，所述目标检测模型包括以下任一种或几种信息：

所述目标人物的外貌特征信息；

所述目标人物的衣着信息；

所述目标人物的位置信息；

所述目标人物在所述图像帧中的面积占比信息。

可选的，所述待识别图像帧序列确定模块，还用于对所述视频流中的图像帧进行目标人物人体姿态识别；将识别到的人物姿态与设定指令姿态进行匹配，并根据匹配结果确定所述指令图像帧。

可选的，所述待识别图像帧序列确定模块，具体用于通过图像识别确定人物的身体关键部位对应的关键点，并获得关键点的连线；根据所述关键点和所述关键点的连线，确定人物的姿态。

可选的，还包括：

处理模块，用于根据所述语义确定对应的控制指令，并执行所述控制指令；其中，所述目标人物为交通警察，所述控制指令为交通手势；或所述目标人物为游戏玩家，所述控制指令为控制游戏的姿态。

第三方面，本发明实施例提供了一种设备，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述第一方面任一所述的动态人体姿态的语义理解方法。

第四方面，本发明实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种动态人体姿态的语义理解方法，该方法包括：

从获取的视频流图像帧中识别目标人物；

根据所述语义图像帧序列中的姿态识别对应的语义。

本发明实施例通过对视频流图像帧中的目标人物出现指令姿态的图像帧之间的非指令图像帧序列进行姿态识别，可以基于明确的指令图像帧得到一系列要识别的图像帧序列，并获得一系列姿态对应的语义，因此降低了复杂场景中的人体姿态识别难度，也解决了局部检测只能表达有限语义的问题，达到了视觉控制语义多样化的效果，实现复杂场景下的信息准确传递。

附图说明

图1为本发明实施例一提供的动态人体姿态的语义理解方法的流程图；

图2a-2e为本发明实施例一中所提供的目标人物人体姿态示意图；

图3为本发明实施例二提供的动态人体姿态的语义理解装置的结构示意图；

图4为本发明实施例三提供的动态人体姿态的语义理解装置的结构示意图；

图5为本发明实施例四提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明实施例的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的动态人体姿态的语义理解方法的流程图，该方法可以由动态人体姿态的语义理解装置来执行，该装置可以应用于任意需要进行人体姿态识别的设备中，例如智能车辆的控制单元,有体感体验的娱乐设备,计算机，游戏控制台，或平板设备等。动态人体姿态的语义理解方法具体包括如下步骤：

步骤101、从获取的视频流图像帧中识别目标人物；

该视频流可以是通过摄像头、照相机等摄像装置实时采集获取到的，也可以是预先通过摄像装置采集保存下来的，本实施例可以从实时获取的视频流的当前图像帧中识别目标人物，也可以从预先获取的视频流中的各个图像帧中分别识别目标人物。视频流由一帧一帧的图像帧依时间顺序组成，本实施例中对这些图像帧进行识别，明确需要进行人体姿态识别的目标人物，这样可以避免在具有复杂背景、或多人物的图像帧中对错误的对象进行姿态识别。图像帧中的所有人物都可能成为目标人物，优选的是为图像帧中具有设定特征的人物。

步骤102、根据视频流中的指令图像帧，将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列，其中，指令图像帧为目标人物出现指令姿态的图像帧；

本实施例中目标人物发出的指令是由一系列的姿态组成的，将视频流图像帧中的目标人物出现指令姿态的图像帧作为指令图像帧，将相邻指令图像帧之间的非指令图像帧序列作为语义图像帧序列。通常人在不做动作时有一些习惯性的动作，例如，直立双手自然下垂，因此就可以依惯例将某一姿态设定为指令姿态，只要目标人物出现了该指令姿态就可以认为其所在的图像帧为指令图像帧。也可以将一些固定姿态作为指令姿态，预先告知目标人物，这样目标人物可以专门做一个指定的指令姿态，当图像帧中目标人物出现了该指令姿态就将其作为指令图像帧。以相邻指令图像帧作为起止图像帧，确定一个完整指令的边界，该边界之间的非指令图像帧序列可以认为反映了目标人物作出的一系列姿态，将其作为真正表达语义的语义图像帧序列，构成一个完整的语义指令。起止图像帧的指令姿态可以相同或不同。

可选的，基于视频流的帧速度，可能在指令图像帧之间的所有图像帧的相邻两个之间人物姿态的变化很小甚至没有变化，因此可以从这些图像帧中选取部分图像帧作为语义图像帧序列进行目标人物人体姿态的语义理解，例如，每隔一帧或多帧图像帧选取一帧图像帧。这样得到的语义图像帧序列既能保留关键姿态，反映目标人物的姿态变化，又能减少姿态识别的计算量。

步骤103、根据语义图像帧序列中的姿态识别对应的语义。

将语义图像帧序列中的连续姿态输入循环神经网络，根据预先得到的动态姿态识别模型分类出语义图像帧序列对应的语义，该动态姿态识别模型包括多个连续姿态和其表达的语义之间的对应关系。预先将带有已知语义标签信息的连续姿态输入循环神经网络，训练出动态姿态识别模型，该动态姿态识别模型中各语义对应的姿态不是静态姿态，而是由多个姿态依时间顺序组成的连续姿态，不仅包括多个关键姿态，还包括这些关键姿态之间的先后顺序和关联关系。将语义图像帧序列中的连续姿态输入循环神经网络，其中包括上述动态姿态识别模型，基于此，通过学习语义图像帧序列的特征，根据损失函数计算得到的语义图像帧序列对应的语义概率最大的语义即为图像帧序列对应的语义。

目前基于人体姿态估计的语义理解大多只有针对对静态单帧图像进行检测，而更多现实场景中，一些指令的语义由连续的图像帧序列构成，这对技术提出了更高的要求。本实施例中目标人物的人体姿态是其全身姿态，且是连续姿态，这样无论是身体哪一部位的连续姿态发生变化，或者连续姿态中的关键姿态发生变化，都可以赋予其不同的语义，这样表达的语义就可以很丰富多样。

本实施例的技术方案，通过对视频流图像帧中的目标人物出现指令姿态的图像帧之间的非指令图像帧序列进行姿态识别，可以基于明确的指令图像帧得到一系列要识别的图像帧，并获得一系列姿态对应的语义，因此降低了复杂场景中的人体姿态识别难度。

在上述技术方案的基础上，通常视频流中出现指令姿态的连续图像帧不会只有一帧，因此可以将视频流图像帧中连续出现指令姿态的图像帧进行合并,作为一个指令图像帧；或者，保留视频流图像帧中连续出现指令姿态的图像帧的第一帧或最后一帧，作为指令图像帧。

在连续出现指令姿态的多张图像帧中，可以将这多张图像帧合并成一张图像帧作为指令图像帧，也可以只保留这多张图像帧中的第一帧或最后一帧(其余图像帧剔除)作为指令图像帧，这样一方面可以明确一个完整指令的边界，另一方面在后续做语义识别时可以避免对重复的图像帧进行处理，减少计算量。

在上述技术方案的基础上，从获取的视频流图像帧中识别目标人物可以通过对视频流图像帧进行特征提取，将提取出来的特征与目标检测模型进行匹配，根据匹配结果确定目标人物。其中，目标检测模型包括以下任一种或几种信息：目标人物的外貌特征信息；目标人物的衣着信息；目标人物的位置信息；目标人物在图像帧中的面积占比信息。

举例说明，在车辆行驶中，需要以听从交警指挥，则交警就是要检测出来的目标人物，那么以交警为原型学习并设定目标检测模型，其中可以包括：外貌特征信息，即头戴交警帽；衣着信息，即交警特定的服装颜色、着装特征等；交警所处的位置，即通常交警站在一个圆柱形的高台上；交警在图像帧中的面积占比。将从图像帧中检测出来的特征与上述信息进行匹配，结果一致，或者相似度高达某阈值以上的就可以认为该特征是目标人物。

在上述技术方案的基础上，对于图像帧中的目标人物需要进行目标人物人体姿态识别，将识别到的人物姿态与设定指令姿态进行匹配，并根据匹配结果确定指令图像帧，指令图像帧可以包括符合起始指令姿态的起始指令图像帧和符合终止指令姿态的终止指令图像帧，相邻图像帧为起始指令图像帧和终止指令图像帧，即起止指令姿态和终止指令姿态可以设定为相同的姿态，也可以设定为不同的姿态，若是相同的姿态，则相邻两个识别到指定姿态的图像帧一前一后分别作为起始和终止指令图像帧，若是不相同的姿态，则从视频流图像帧中从视频流图像帧中识别到包括起始指令姿态的可以作为起始指令图像帧，从视频流图像帧中识别到包括终止指令姿态的可以作为终止指令图像帧。

通常可以通过图像识别确定人物的身体关键部位对应的关键点，并获得关键点的连线，再根据关键点和关键点的连线，确定人物的姿态。图2a-2e为本发明实施例一中所提供的目标人物人体姿态示意图，其中2a和2e是指令图像帧，其包括的人物姿态就是设定的指令姿态，2b、2c和2d是语义图像帧序列中抽取的关键帧，通过循环神经网络将各关键帧出现的人体姿态和彼此之间的先后顺序及关联关系与训练好的动态姿态识别模型进行匹配，其包括的目标人物人体姿态序列对应的语义与动态姿态识别模型中交警示意左转的姿态所表达的语义一致，表示其对应的语义是左转。由于目标人物的人体姿态是其全身姿态，且是连续姿态，这样无论是身体哪一部位的连续姿态发生变化，或者连续姿态中的关键姿态发生变化，都可以赋予其不同的语义，这就解决了局部检测和静态单帧图像只能表达有限语义的问题，其表达的语义就可以很丰富多样，达到了视觉控制语义多样化的效果，实现复杂场景下的信息准确传递。

在上述技术方案的基础上，对于识别到的语义确定其对应的控制指令，并执行控制指令；其中，目标人物为交通警察，控制指令为交通手势；或目标人物为游戏玩家，控制指令为游戏姿势。

举例说明，识别到交警姿态序列对应的语义为左转，则控制车辆左转；识别到游戏玩家挥动网球拍的姿态序列对应的语义为击打，则控制游戏界面上的球拍击打网球。此外还有其他利用视觉控制技术的应用场景，均可使用本实施例的方法得到目标人物的连续姿态序列对应的语义，进而执行相应的操作，对此本发明实施例不做具体限定。

实施例二

图3为本发明实施例二提供的动态人体姿态的语义理解装置的结构示意图，该装置包括人物识别模块11、待识别图像帧序列确定模块12和语义识别模块13，其中，人物识别模块11，用于从获取的视频流图像帧中识别目标人物；待识别图像帧序列确定模块12，用于根据所述视频流中的指令图像帧，将相邻指令图像帧之间的非指令图像帧序列确定为语义图像帧序列，其中，所述指令图像帧为目标人物出现指令姿态的图像帧；语义识别模块13，用于根据所述语义图像帧序列中的姿态识别对应的语义。

在上述技术方案的基础上，所述语义识别模块13，具体用于将所述语义图像帧序列中的连续姿态输入循环神经网络，根据预先得到的动态姿态识别模型分类出所述语义图像帧序列对应的语义，所述动态姿态识别模型包括多个连续姿态和其表达的语义之间的对应关系。

在上述技术方案的基础上，所述待识别图像帧序列确定模块12，还用于将所述视频流图像帧中连续出现所述指令姿态的图像帧进行合并,作为一个所述指令图像帧；或者，保留所述视频流图像帧中连续出现所述指令姿态的图像帧的第一帧或最后一帧，作为所述指令图像帧。

在上述技术方案的基础上，所述人物识别模块11，具体用于对所述视频流图像帧进行特征提取，将提取出来的所述特征与目标检测模型进行匹配，根据匹配结果确定所述目标人物。

在上述技术方案的基础上，所述目标检测模型包括以下任一种或几种信息：所述目标人物的外貌特征信息；所述目标人物的衣着信息；所述目标人物的位置信息；所述目标人物在所述图像帧中的面积占比信息。

在上述技术方案的基础上，所述待识别图像帧序列确定模块12，还用于对所述视频流中的图像帧进行目标人物人体姿态识别；将识别到的人物姿态与设定指令姿态进行匹配，并根据匹配结果确定所述指令图像帧。

在上述技术方案的基础上，所述待识别图像帧序列确定模块12，具体用于通过图像识别确定人物的身体关键部位对应的关键点，并获得关键点的连线；根据所述关键点和所述关键点的连线，确定人物的姿态。

在上述技术方案的基础上，所述指令图像帧包括符合起始指令姿态的起始指令图像帧和符合终止指令姿态的终止指令图像帧，所述相邻图像帧为起始指令图像帧和终止指令图像帧。

实施例三

在上述技术方案的基础上，图4为本发明实施例三提供的动态人体姿态的语义理解装置的结构示意图，该装置还包括：处理模块14，用于根据所述语义确定对应的控制指令，并执行所述控制指令；其中，所述目标人物为交通警察，所述控制指令为交通手势；或所述目标人物为游戏玩家，所述控制指令为控制游戏的姿态。

本发明实施例所提供的动态人体姿态的语义理解装置可执行本发明任意实施例所提供的动态人体姿态的语义理解方法，具备执行方法相应的功能模块和有益效果。

实施例四

图5为本发明实施例四提供的一种设备的结构示意图，如图5所示，该设备包括处理器20、存储器21、输入装置22和输出装置23；设备中处理器20的数量可以是一个或多个，图5中以一个处理器20为例；设备中的处理器20、存储器21、输入装置22和输出装置23可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器21作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的动态人体姿态的语义理解方法对应的程序指令/模块。处理器20通过运行存储在存储器21中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的动态人体姿态的语义理解方法。

存储器21可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器21可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器21可进一步包括相对于处理器20远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置22可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置23可包括显示屏等显示设备。

该设备可以是用于处理视频流的后台服务器，也可以是进行人体姿态实时识别并用于其他控制的便携式设备或固定设备等。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种动态人体姿态的语义理解方法，该方法包括：

从获取的视频流图像帧中识别目标人物；

根据所述语义图像帧序列中的姿态识别对应的语义。

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的动态人体姿态的语义理解方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明实施例可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台设备(可以是个人计算机，服务器，或者网络设备等)执行本发明实施例各个实施例所述的方法。

值得注意的是，上述装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明实施例的保护范围。

注意，上述仅为本发明实施例的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明实施例不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明实施例的保护范围。因此，虽然通过以上实施例对本发明实施例进行了较为详细的说明，但是本发明实施例不仅仅限于以上实施例，在不脱离本发明实施例构思的情况下，还可以包括更多其他等效实施例，而本发明实施例的范围由所附的权利要求范围决定。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张丽晶;汤炜;雷宇
技术所有人：北京智能管家科技有限公司
我是此专利的发明人

上一篇：一种路面检测方法、装置、终端及存储介质与流程
上一篇：一种虹膜识别系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。