视频数据的处理方法、装置及计算设备与流程

文档序号：14351817阅读：149来源：国知局

本发明涉及图像处理技术领域，具体涉及一种视频数据的处理方法、装置及计算设备。

背景技术：

随着科学技术的发展，更高层次的人机交互理念对交互方式提出了越来越高的要求，例如，体感人机交互方式，人们可以很直接地使用肢体动作，与周边的装置或者环境进行互动，无需使用任何复杂的控制设备，便可让人们身历其境地与装置或者环境做互动。

但是，发明人在实现本发明的过程中发现：现有技术中的体感人机交互方式往往需要高精度地捕捉用户的体感动作，例如需要定位人体的关节点以确定用户的体感动作；其次，现有技术中的体感人机交互方式往往依赖高精度、高深度的摄像头以对用户的体感动作进行预测，然而高精度、高深度的摄像头成本高，并且只能在无强烈的红外干扰的情况下使用，基于该方式的人机交互方式在移动终端上难以推广；另外，基于rgb图像的体感动作捕捉往往需要很大的计算量；此外，现有技术中往往单独以体感动作为驱动进行人机交互，该方式不能保证处理的准确性，存在一定的误判率。由此可见，现有技术中缺少一种能够很好地解决上述问题的方法。

技术实现要素：

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的视频数据的处理方法、装置及计算设备。

根据本发明的一个方面，提供了一种视频数据的处理方法，包括：针对所述视频数据中的多个图像帧进行人体分割处理，得到与所述多个图像帧相对应的多个人体区域数据；将所述多个人体区域数据分别与预设的组合动作数据集中包含的多个体感动作数据进行比较；当确定比较结果符合预设匹配规则时，根据与所述多个图像帧相对应的音频数据确定音频指令，判断与所述多个人体区域数据相匹配的组合动作数据集与所述音频指令是否匹配；若是，获取与所述多个人体区域数据相匹配的组合动作数据集所对应的组合动作处理规则，按照所述组合动作处理规则对所述视频数据进行处理，显示处理后的视频数据。

可选地，所述根据与所述多个图像帧相对应的音频数据确定音频指令的步骤具体包括：

针对与所述多个图像帧相对应的音频数据进行语音识别，得到语音识别结果；

根据预设的音频指令库确定与该语音识别结果相对应的音频指令；其中，所述音频指令库用于存储各个音频指令。

可选地，所述音频指令库进一步用于存储各个音频指令及其对应的组合动作数据集之间的映射关系；

则所述判断与所述多个人体区域数据相匹配的组合动作数据集与所述音频指令是否匹配的步骤具体包括：

根据所述音频指令库确定与所述多个人体区域数据相匹配的组合动作数据集与所述音频指令是否匹配。

可选地，所述预设的组合动作数据集包括：多个存储在预设的体感动作库中的组合动作数据集，且每个组合动作数据集中包含至少两个体感动作数据；

则所述将所述多个人体区域数据分别与预设的组合动作数据集中包含的多个体感动作数据进行比较的步骤具体包括：

将所述多个人体区域数据分别与所述体感动作库中存储的各个组合动作数据集中包含的多个体感动作数据进行比较。

可选地，所述预设匹配规则包括：

当所述多个人体区域数据中包含的m个人体区域数据分别与待比较的组合动作数据集中包含的m个体感动作数据匹配时，确定所述多个人体区域数据与所述待比较的组合动作数据集符合所述匹配规则；

其中，所述多个人体区域数据的总数量大于或等于m，所述待比较的组合动作数据集中包含的多个体感动作数据的总数量大于或等于m；其中，m为大于1的自然数。

可选地，所述待比较的组合动作数据集中包含的每个体感动作数据具有时间序号标识，则所述多个人体区域数据中包含的m个人体区域数据分别与待比较的组合动作数据集中包含的m个体感动作数据匹配的步骤具体包括：

判断所述多个人体区域数据中包含的m个人体区域数据在所述视频数据中的出现次序是否与待比较的组合动作数据集中包含的m个体感动作数据的时间序号标识匹配；

若是，则确定所述多个人体区域数据中包含的m个人体区域数据分别与待比较的组合动作数据集中包含的m个体感动作数据匹配。

可选地，所述针对所述视频数据中的多个图像帧进行人体分割处理，得到与所述多个图像帧相对应的多个人体区域数据的步骤具体包括：

按照各个图像帧在所述视频数据中的出现次序，实时获取所述视频数据中包含的当前待处理的图像帧，对所述当前待处理的图像帧进行人体分割处理，得到与所述当前待处理的图像帧相对应的人体区域数据。

可选地，所述将所述多个人体区域数据分别与预设的组合动作数据集中包含的多个体感动作数据进行比较的步骤具体包括：

将所述当前待处理的图像帧对应的人体区域数据分别与各个组合动作数据集中包含的多个体感动作数据进行比较；

将比较结果为成功的体感动作数据确定为第一动作数据，将所述第一动作数据所在的组合动作数据集确定为第一动作数据集；

将所述当前待处理的图像帧所对应的后n个图像帧对应的人体区域数据与所述第一动作数据集中包含的各个体感动作数据进行比较；其中，n为大于或等于1的自然数。

可选地，所述获取与所述多个人体区域数据相匹配的组合动作数据集所对应的组合动作处理规则的步骤具体包括：

根据预设的组合动作处理库，确定与所述多个人体区域数据相匹配的组合动作数据集所对应的组合动作处理规则；

其中，所述组合动作处理库用于存储各个组合动作数据集所对应的组合动作处理规则。

可选地，所述组合动作处理规则包括：根据与组合动作数据集相对应的效果贴图，对所述视频数据进行处理。

可选地，所述按照所述组合动作处理规则对所述视频数据进行处理的步骤具体包括：

对当前待处理的图像帧和/或所述当前待处理的图像帧所对应的后l个图像帧进行处理；其中，所述l为大于1的自然数。

可选地，所述视频数据包括：由图像采集设备实时拍摄的视频数据、和/或人机交互类游戏中包含的视频数据。

根据本发明的另一方面，提供了一种视频数据的处理装置，包括：分割模块，适于针对所述视频数据中的多个图像帧进行人体分割处理，得到与所述多个图像帧相对应的多个人体区域数据；比较模块，适于将所述多个人体区域数据分别与预设的组合动作数据集中包含的多个体感动作数据进行比较；音频指令确定模块，适于当确定比较结果符合预设匹配规则时，根据与所述多个图像帧相对应的音频数据确定音频指令；判断模块，适于判断与所述多个人体区域数据相匹配的组合动作数据集与所述音频指令是否匹配；处理规则获取模块，适于若判断出与所述多个人体区域数据相匹配的组合动作数据集与所述音频指令匹配，获取与所述多个人体区域数据相匹配的组合动作数据集所对应的组合动作处理规则；处理模块，适于按照所述组合动作处理规则对所述视频数据进行处理；显示模块，适于显示处理后的视频数据。

可选地，所述音频指令确定模块进一步适于：

针对与所述多个图像帧相对应的音频数据进行语音识别，得到语音识别结果；

根据预设的音频指令库确定与该语音识别结果相对应的音频指令；其中，所述音频指令库用于存储各个音频指令。

可选地，所述音频指令库进一步用于存储各个音频指令及其对应的组合动作数据集之间的映射关系；

则所述判断模块进一步适于：

根据所述音频指令库确定与所述多个人体区域数据相匹配的组合动作数据集与所述音频指令是否匹配。

可选地，所述预设的组合动作数据集包括：多个存储在预设的体感动作库中的组合动作数据集，且每个组合动作数据集中包含至少两个体感动作数据；

所述比较模块进一步适于：

将所述多个人体区域数据分别与所述体感动作库中存储的各个组合动作数据集中包含的多个体感动作数据进行比较。

可选地，所述预设匹配规则包括：

可选地，所述待比较的组合动作数据集中包含的每个体感动作数据具有时间序号标识，则所述比较模块进一步适于：

若是，则确定所述多个人体区域数据中包含的m个人体区域数据分别与待比较的组合动作数据集中包含的m个体感动作数据匹配。

可选地，所述分割模块进一步适于：

可选地，所述比较模块进一步适于：

将所述当前待处理的图像帧对应的人体区域数据分别与各个组合动作数据集中包含的多个体感动作数据进行比较；

将比较结果为成功的体感动作数据确定为第一动作数据，将所述第一动作数据所在的组合动作数据集确定为第一动作数据集；

可选地，所述处理规则获取模块进一步适于：

根据预设的组合动作处理库，确定与所述多个人体区域数据相匹配的组合动作数据集所对应的组合动作处理规则；

其中，所述组合动作处理库用于存储各个组合动作数据集所对应的组合动作处理规则。

可选地，所述组合动作处理规则包括：根据与组合动作数据集相对应的效果贴图，对所述视频数据进行处理。

可选地，所述处理模块进一步适于：

对当前待处理的图像帧和/或所述当前待处理的图像帧所对应的后l个图像帧进行处理；其中，所述l为大于1的自然数。

可选地，所述视频数据包括：由图像采集设备实时拍摄的视频数据、和/或人机交互类游戏中包含的视频数据。

根据本发明的又一方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述视频数据的处理方法对应的操作。

根据本发明的再一方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述视频数据的处理方法对应的操作。

根据本发明提供的视频数据的处理方法、装置及计算设备，该方法能够快速且准确地捕捉到人体的体感动作，以体感动作以及音频数据作为驱动对视频数据进行处理，捕捉体感动作不依赖高精度、高深度的摄像头拍摄的视频数据，适用于任何具有摄像头的移动终端，抗红外干扰能力强，成本低；提供了一种基于人体区域分割的以体感动作以及音频数据作为驱动的人机交互方式，能够根据体感动作以及音频数据快速确定对视频数据进行处理的处理规则，只有在多帧图像以及音频数据均匹配成功的前提下才执行对视频数据进行处理的步骤，因此，提升了处理的准确性，降低了误判率，并显示处理后的视频数据，提升了视频数据的显示效果，提升了人机交互的娱乐性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的视频数据的处理方法的流程图；

图2示出了根据本发明另一个实施例的视频数据的处理方法的流程图；

图3示出了步骤s220所包含的各个子步骤的流程示意图；

图4示出了根据本发明再一个实施例的视频数据的处理装置的结构示意图；

图5示出了根据本发明实施例的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的视频数据的处理方法的流程图。如图1所示，该方法包括以下步骤：

步骤s110，针对视频数据中的多个图像帧进行人体分割处理，得到与多个图像帧相对应的多个人体区域数据。

视频数据可以是摄像头拍摄的实时的视频数据，或者也可以是本地或者云端的预先通过摄像头录制的视频数据，还可以是由多个图片组合成的视频数据。其中，多个图像帧可以是连续的多个图像帧，也可以是视频数据中间隔预设的时间间隔的多个图像帧，本发明对视频数据的具体形式以及来源不进行限定。

对多个图像帧进行人体分割处理具体可通过以下方式实现：首先，检测出各个图像帧中的人体区域，具体可通过对各个图像帧所包含的像素点进行分类以判定各个图像帧中的人体区域。然后，将人体区域从对应的图像帧中分割出来，具体可将人体区域对应的像素点分割出来，得到与各个图像帧分别对应的多个人体区域数据。

步骤s120，将多个人体区域数据分别与预设的组合动作数据集中包含的多个体感动作数据进行比较。

本实施例的方法中，根据体感动作组合触发对视频数据进行处理的操作，因此需要判断多个人体区域数据是否满足触发条件，预设的组合动作数据集中包含的多个体感动作数据是判断多个人体区域数据是否满足触发条件的依据。其中，人体区域数据可包括人体区域包含的像素点以及像素点的坐标位置，本步骤具体可以判断多个人体区域数据是否分别与多个体感动作数据一致，或者多个人体区域数据与多个体感动作数据的匹配度是否大于预设匹配度阈值，例如预设的降龙十八掌组合动作数据集包括多个体感动作数据，则将多个人体区域数据与该多个体感动作数据分别进行比较。

步骤s130，当确定比较结果符合预设匹配规则时，根据与多个图像帧相对应的音频数据确定音频指令，判断与多个人体区域数据相匹配的组合动作数据集与音频指令是否匹配。

预设匹配规则可根据具体的应用场景进行设置，例如针对实时性及交互性较强的游戏或者直播的应用场景，当多个人体区域数据与多个体感动作数据的匹配度较低时即认为满足预设匹配规则，或者针对视频数据进行后期处理的应用场景，当多个人体区域数据与多个体感动作数据的匹配度较高时即认为满足预设匹配规则，具体应用中，本领域技术人员可根据实际需要进行设置。

在实际的应用中，存在不同的组合动作数据集中分别包含的多个体感动作数据比较相似的情况，例如，捶地组合动作数据集包含两个体感动作数据，先举起右手和后放下右手，撒花组合动作数据集包含两个体感动作数据，先按照从左下角至右上角的方向举起右手和后放下右手，则在根据多个人体数据确定对应的组合动作数据集的过程中可能会出错，即确定得到的组合动作数据集包含的多个体感动作数据与实际上用户的体感动作不一致。

因此，本实施例的方法进一步根据与多个图像帧相对应的音频数据确定音频指令，具体可通过对音频数据进行语音识别得到音频指令，判断与多个人体区域数据相匹配的组合动作数据集与音频指令是否匹配。具体可预先为多个组合动作数据集分别设置音频指令，当多个人体区域数据与多个体感动作数据的比较结果符合预设匹配规则时，确定了与该多个人体区域数据相对应的组合动作数据集，进一步确定该多个人体区域数据对应的多个图像帧所对应的音频指令，判断该多个图像帧对应的音频指令与该组合动作数据集对应的音频指令是否匹配。

步骤s140，若判断出与多个人体区域数据相匹配的组合动作数据集与音频指令匹配，获取与多个人体区域数据相匹配的组合动作数据集所对应的组合动作处理规则，按照组合动作处理规则对视频数据进行处理，显示处理后的视频数据。

当判断出与多个人体区域数据相匹配的组合动作数据集与音频指令匹配时，则获取该组合动作数据集所对应的组合动作处理规则，由此可知，本实施例的方法是根据多个人体区域数据及其对应的音频指令确定与多个人体区域数据相对应的组合动作数据集，该方式可以提高处理的准确性，同时可以提升人机交互的娱乐性。例如，只有当多个人体区域数据与降龙十八掌动作数据集匹配，且对应的音频指令也与降龙十八掌动作数据集对应的音频指令相匹配时，才获取降龙十八掌动作数据集对应的组合动作处理规则。

对视频数据进行处理具体为对视频数据包含的图像帧进行处理，组合动作处理规则可以是添加特效处理规则等各类处理规则，例如根据降龙十八掌动作数据集对应的组合动作处理规则对视频数据中包含的各个图像帧进行处理，并将处理的视频数据进行显示，使得显示的视频数据中包括降龙十八掌的特效。本发明并不限定视频处理的具体规则，只要能够提升视频展示效果即可。

根据本实施例提供的基于图像采集设备的图像数据处理方法，针对视频数据中的多个图像帧进行人体分割处理，得到与多个图像帧相对应的多个人体区域数据；将多个人体区域数据分别与预设的组合动作数据集中包含的多个体感动作数据进行比较；当确定比较结果符合预设匹配规则时，获取与多个人体区域数据相匹配的组合动作数据集所对应的组合动作处理规则；按照组合动作处理规则对视频数据进行处理，显示处理后的视频数据。该方式能够快速且准确地捕捉到人体的体感动作，通过结合体感动作以及音频数据两种因素确定多个图像帧对应的组合动作数据集，从而对视频数据进行处理，因此提升了处理的准确性，降低了误判率，以及提升了人机交互的娱乐性，并且捕捉体感动作不依赖高精度、高深度的摄像头拍摄的视频数据，适用于任何具有摄像头的移动终端，抗红外干扰能力强，成本低。

图2示出了根据本发明另一个实施例的视频数据的处理方法的流程图，如图2所示，该方法包括：

步骤s210，针对视频数据中的多个图像帧进行人体分割处理，得到与多个图像帧相对应的多个人体区域数据。

具体地，按照各个图像帧在视频数据中的出现次序，实时获取视频数据中包含的当前待处理的图像帧，对当前待处理的图像帧进行人体分割处理，得到与当前待处理的图像帧相对应的人体区域数据。

视频数据可以是通过摄像头拍摄到的视频数据，按照各个图像帧在视频数据中出现的先后顺序，实时获取视频数据中包含的当前待处理的图像帧，其中，由于本实施例的方法是根据多个体感动作触发对视频数据进行处理的操作，因此需要获取视频数据中包含的多个图像帧进行处理。具体地，视频数据还可以是预先拍摄录制的视频数据，此时，本方法即是对视频数据进行后期处理操作，按照时间先后顺序，可依次将视频数据中指定时间段内包含的各个图像帧依次确定为当前待处理的图像帧，也可以根据检测算法确定当前待处理的图像帧，具体地，根据检测算法检测包含人体区域的图像帧，将该图像帧及其之后的包含人体区域的多个图像帧依次确定为当前待处理的图像帧；视频数据还可以包括：由图像采集设备实时拍摄的视频数据、和/或人机交互类游戏中包含的视频数据，例如直播场景、体感游戏交互场景中图像设备实时采集的视频数据，此时则实时地将视频数据中包含的每一帧图像按照时间先后次序依次确定为当前待处理的图像帧，本发明对此不作限定。

对当前待处理的图像帧进行人体分割处理具体可通过以下方式实现：首先，检测当前待处理的图像帧中的人体区域，具体可通过神经网络算法检测当前待处理的图像帧中包含的人体区域。其中，神经网络算法可通过深度学习等方式不断学习人体区域的特征，并根据学习结果检测当前待处理的图像帧中包含的人体区域。然后，将检测到的人体区域从当前待处理的图像帧中分割出来，具体可将人体区域对应的像素点分割出来，得到与各个图像帧分别对应的多个人体区域数据，其中，人体区域数据包括人体区域对应的像素点及像素点的位置信息、像素点的颜色信息等信息。

上述提到的通过神经网络算法检测当前待处理的图像帧中包含的人体区域的方式属于检测方式。除通过检测方式实现之外，本步骤还可以进一步结合由跟踪算法实现的跟踪方式对当前待处理的图像帧进行人体分割处理。具体地，通过检测方式检测出当前待处理的图像帧中人体区域之后，将人体区域的位置信息提供给跟踪器，由跟踪器根据当前待处理的图像帧中的人体区域的位置对后续的图像帧中的人体区域进行跟踪，由于通常情况下，视频数据中的相同部位在连续的多帧图像中存在关联性，因此，通过跟踪方式能够加快后续图像帧的检测效率。并且，跟踪器还可以将跟踪结果提供给用于检测的检测器，以供检测器从整帧图像中确定一块局部区域作为检测范围，并仅在该检测范围内进行检测，从而提升检测效率。总之，通过检测方式和跟踪方式的结合使用，能够提升检测的效率和精度。

步骤s220，将多个人体区域数据分别与预设的组合动作数据集中包含的多个体感动作数据进行比较。

其中，预设的组合动作数据集包括：多个存储在预设的体感动作库中的组合动作数据集，且每个组合动作数据集中包含至少两个体感动作数据；则将多个人体区域数据分别与预设的组合动作数据集中包含的多个体感动作数据进行比较的步骤具体包括：将多个人体区域数据分别与体感动作库中存储的各个组合动作数据集中包含的多个体感动作数据进行比较。

预先设置体感动作库，由于本实施例的方法是根据检测到的一套连续的多个体感动作触发对视频数据进行处理的操作，而仅仅通过一个体感动作不能触发对视频数据进行处理的操作，因此，本实施例中将至少两个体感动作数据确定为一个组合动作数据集，将组合动作数据集及其对应的至少两个体感动作数据关联保存在体感动作库中。当从各个图像帧中分割出多个人体区域数据之后，将多个人体区域数据与多个体感动作数据分别进行比较，以确定多个人体区域数据对应的组合动作数据集。

其中，预设的组合动作数据集中包含的多个体感动作数据均具有时间序号标识，举例来说，一个组合动作数据集中包含举起右手和放下右手的两个体感动作数据，先举起右手后放下右手对应为捶地组合动作数据集，而先放下右手后举起右手对应为挥鞭组合动作数据集，由此可知，不同组合动作数据集中可能包含一样的体感动作数据，通过设置各个体感动作数据的时间序号标识可以区分各个组合动作数据集。

具体地，在本实施例中，本步骤进一步多个子步骤，图3示出了步骤s220所包含的各个子步骤的流程示意图，如图3所示，该步骤s220具体包括：

子步骤s221，将当前待处理的图像帧对应的人体区域数据分别与各个组合动作数据集中包含的多个体感动作数据进行比较。

分割出当前待处理的图像帧中的人体区域数据，将人体区域数据分别与各个体感动作数据进行比较，具体可根据人体区域数据所包含的像素点信息确定人体区域的轮廓和/或面积，将人体区域的轮廓和/或面积分别与各个组合动作数据集中包含的各个体感动作数据所对应的人体区域的轮廓和/或面积进行比较，另外，为了提高匹配效率，可将当前待处理的图像帧对应的人体区域数据分别与各个组合动作数据集对应的第一个体感动作数据进行比较，或者与各个组合动作数据集对应的次序靠前的多个体感动作数据分别进行比较。

子步骤s222，将比较结果为成功的体感动作数据确定为第一动作数据，将第一动作数据所在的组合动作数据集确定为第一动作数据集。

根据子步骤s221进行比较，本实施例中，若当前待处理的图像帧对应的人体区域的轮廓与一个体感动作数据对应的人体区域的轮廓一致或者匹配度大于预设的轮廓匹配度阈值，和/或当前待处理的图像帧对应的人体区域的面积与一个体感动作数据对应的面积一致或者两者之间的差值小于预设的差值阈值，则认为该当前待处理的图像帧的人体区域数据与该体感动作数据的比较结果为成功，将比较结果为成功的体感动作数据确定为第一动作数据，将第一动作数据所在的组合动作数据集确定为第一动作数据集。

子步骤s223，将当前待处理的图像帧所对应的后n个图像帧对应的人体区域数据与第一动作数据集中包含的各个体感动作数据进行比较；其中，n为大于或等于1的自然数。

将视频数据中当前待处理的图像帧所对应的后n个图像帧对应的人体区域数据与第一动作数据集中包含的各个体感动作数据分别进行比较，比较的方式可参见上述步骤s221的方法，在此不再赘述，例如，对当前待处理的图像帧进行分割处理，得到对应的人体区域数据，将该人体区域数据与各个组合动作数据集中包含的各个体感动作数据进行比较，若存在一个体感动作数据与该人体区域数据的比较结果为成功，则将该体感动作数据所在的组合动作数据集确定为第一动作数据集，则进一步将当前待处理的图像帧之后各个图像帧对应的人体区域数据与该第一动作数据集所包含的各个体感动作数据进行比较，通过该方式可以缩小比较对象的范围，加快查询与各个图像帧对应的动作数据集的过程。

步骤s230，当确定比较结果符合预设匹配规则时，针对与多个图像帧相对应的音频数据进行语音识别，得到语音识别结果；根据预设的音频指令库确定与该语音识别结果相对应的音频指令；其中，音频指令库用于存储各个音频指令；判断与多个人体区域数据相匹配的组合动作数据集与音频指令是否匹配。

预设匹配规则包括：当多个人体区域数据中包含的m个人体区域数据分别与待比较的组合动作数据集中包含的m个体感动作数据匹配时，确定多个人体区域数据与待比较的组合动作数据集符合匹配规则；其中，多个人体区域数据的总数量大于或等于m，待比较的组合动作数据集中包含的多个体感动作数据的总数量大于或等于m；其中，m为大于1的自然数。

待比较的组合动作数据集是指预设的组合动作数据集，人体区域数据与体感动作数据匹配是指该人体区域数据与该体感动作数据的比较结果为成功，在实际的应用中，会存在用户的多个体感动作与一个组合动作数据集所对应的体感动作不完全一致的情况，例如，相对于组合动作数据集对应的多个体感动作来说，检测到用户的多个体感动作中，存在错误的体感动作或者遗漏的体感动作，若严格规定用户的多个体感动作与一个组合动作数据对应的多个体感动作完全一致时才触发对视频数据进行处理的操作，会给用户造成不便，影响用户体感交互的体验。

因此，本领域技术人员可根据具体的应用场景设置预设匹配规则，例如，设置一定的匹配比例阈值，匹配比例是指多个人体区域数据中与一个组合动作数据集中包含的多个体感动作数据的比较结果为成功的人体区域数据的数量占该多个体感动作数据的数量的比例，若匹配比例不小于匹配比例阈值，则确定比较结果符合预设匹配规则。举例来说，若一个组合动作数据集中包含五个体感动作数据，通过上述步骤确定四个人体区域数据与该五个体感动作数据的其中四个人体区域数据的比较结果分别为成功，此时匹配比例为80％，则认为该四个人体区域数据与该组合动作数据集相匹配；另外，还可以为一个组合动作数据集中的各个体感动作数据分别设置优先级序号，若确定多个人体区域数据分别与组合动作数据集中的多个优先级序号较高的体感动作数据的比较结果为成功，则认为该多个人体区域数据与该组合动作数据集相匹配。

其中，待比较的组合动作数据集中包含的每个体感动作数据具有时间序号标识，则多个人体区域数据中包含的m个人体区域数据分别与待比较的组合动作数据集中包含的m个体感动作数据匹配的步骤具体包括：

判断多个人体区域数据中包含的m个人体区域数据在视频数据中的出现次序是否与待比较的组合动作数据集中包含的m个体感动作数据的时间序号标识匹配；若是，则确定多个人体区域数据中包含的m个人体区域数据分别与待比较的组合动作数据集中包含的m个体感动作数据匹配。

预设的组合动作数据集中包含的多个体感动作数据均具有时间序号标识，则需要按各个人体区域数据的出现次序与多个体感动作数据进行比较，举例来说，一个组合动作数据集中包含举起右手和放下右手的两个体感动作数据，先举起右手后放下右手对应为捶地组合动作数据集，而先放下右手后举起右手对应为挥鞭组合动作数据集，由此可知，不同组合动作数据集中可能包含一样的多个体感动作数据，通过设置各个体感动作数据的时间序号标识可以区分各个组合动作数据集，对应的，在查询与多个人体区域数据匹配的组合动作数据集的过程中，不仅需要确定多个人体区域数据分别与多个体感动作数据的比较结果，还需要进一步判断多个人体区域数据在视频数据中出现的次序是否与待比较的组合动作数据集中包含的多个体感动作数据的时间序号标识匹配，只有当多个人体区域数据与一个组合动作数据集包含的多个体感动作数据的比较结果符合预设匹配规则，并且多个人体区域数据在视频数据中出现的次序是与该组合动作数据集中包含的多个体感动作数据的时间序号标识匹配时，才确定该多个人体区域数据与该组合动作数据集相匹配。

视频数据中包含图像帧以及音频数据，本实施例的方法进一步根据视频数据中上述多个图像帧相对应的音频数据进行语音识别，得到语音识别结果，根据预设的音频指令库确定与该语音识别结果相对应的音频指令，音频指令库中存储了多个音频指令，在实际应用中，可根据音频指令中所包含的音频字符设置关键字，则在根据语音识别结果确定对应的音频指令过程中，判断语音识别结果所包含的音频字符是否包含上述关键字，若是，则可以确定语音识别结果对应的音频指令。例如，音频指令库中包含“降龙十八掌”音频指令，设置对应的关键字为“降龙”，多个图像帧的对应的语音识别结果为“降龙掌”，则可以确定该语音识别结果对应的音频指令为“降龙十八掌”。

其中，音频指令库进一步用于存储各个音频指令及其对应的组合动作数据集之间的映射关系，具体可以预先为多个组合动作数据集分别设置数据集标识，以及与多个组合动作数据集分别对应的音频指令，将多个组合数据集标识及其对应的音频指令相关联保存在音频指令库中，则可以根据音频数据的语音识别结果确定音频数据对应的组合动作数据集。

则判断与多个人体区域数据相匹配的组合动作数据集与音频指令是否匹配的步骤具体包括：根据音频指令库确定与多个人体区域数据相匹配的组合动作数据集与音频指令是否匹配。由于音频指令库中保存了音频指令及其对应的组合动作数据集之间的映射关系，则可以根据多个图像帧相对应的音频数据确定与音频数据相匹配的组合动作数据集，上述步骤确定了与多个人体区域数据相匹配的组合动作数据集，则进一步判断音频数据对应的组合动作数据集与多个人体区域数据相匹配的组合动作数据集是否一致。

步骤s240，若判断出与多个人体区域数据相匹配的组合动作数据集与音频指令匹配，获取与多个人体区域数据相匹配的组合动作数据集所对应的组合动作处理规则，对当前待处理的图像帧和/或当前待处理的图像帧所对应的后l个图像帧进行处理；其中，l为大于1的自然数。

根据上述步骤，若判断出与多个人体区域数据相匹配的组合动作数据集与音频指令匹配，也即，音频数据对应的组合动作数据集与多个人体区域数据对应的组合动作数据集一致，则该获取组合动作数据集对应的组合动作处理规则，组合动作处理规则可以是添加特效处理规则，也可以是添加效果贴图处理规则，也可以是显示动画处理规则，例如，在直播场景中，用户做出先举起右手后放下右手的体感动作，确定对应的组合动作处理规则为添加特效处理规则，则对视频数据进行添加特效处理；再如，在体感游戏中，用户做出右手击打网球的体感动作，确定对应的组合动作处理规则为显示动画处理规则，则对视频数据进行添加动画并显示处理。本发明对组合动作处理规则的内涵不进行限制。

根据上述步骤确定了与多个人体区域数据相匹配的组合动作数据集之后，进一步根据与组合动作数据集相对应的效果贴图，对视频数据进行处理，并显示处理后的视频数据。对视频数据处理即是对视频数据包含的图像帧进行处理，根据组合动作处理规则对视频数据进行处理，例如上述添加特效处理规则，对视频数据进行添加特效的处理，并显示处理的视频数据，例如根据降龙十八掌的组合动作数据集对应的组合动作处理规则对视频数据中对应的各个图像帧进行处理，并将处理的视频数据进行显示，使得显示的视频数据中包括降龙十八掌的特效。

具体地，对当前待处理的图像帧和/或当前待处理的图像帧所对应的后l个图像帧进行处理；其中，l为大于1的自然数。在实际的应用中，存在根据当前待处理的图像帧即可确定对应的组合动作处理规则的情况，则对当前待处理的图像帧及其所对应的后l个图像帧进行相应的处理；或者，存在根据当前待处理的图像帧及其之后的几个图像帧共同确定对应的组合动作处理规则的情况，则对当前待处理的图像帧对应的后l个图像帧进行处理。

根据本实施例提供的视频数据的处理方法，该方式基于人体分割的方式能够快速且准确地捕捉到人体的体感动作，以体感动作为驱动的对视频数据进行处理，并且，通过神经网络检测人体区域并将人体区域从图像中分割出来的方式对于摄像设备没有任何特殊要求，不依赖于高精度、高深度的摄像头拍摄的视频数据，适用于任何具有摄像头的移动终端，抗红外干扰能力强，成本低。另外，由于该方式通过多帧图像中的人体区域所对应的动作组合以及对应的音频数据来触发对应的特效，只有在多帧图像以及音频数据均匹配成功的前提下才执行后续步骤，因此，提升了处理的准确性，降低了误判率。提供了一种基于人体区域分割的以体感动作为驱动的人机交互方式，能够根据体感动作和音频数据快速确定对视频数据进行处理的处理规则，并显示处理后的视频数据，提升了视频数据的显示效果。

图4示出了根据本发明再一个实施例的视频数据的处理装置的结构示意图，如图4所示，该装置包括：

分割模块41，适于针对视频数据中的多个图像帧进行人体分割处理，得到与多个图像帧相对应的多个人体区域数据；

比较模块42，适于将多个人体区域数据分别与预设的组合动作数据集中包含的多个体感动作数据进行比较；

音频指令确定模块43，适于当确定比较结果符合预设匹配规则时，根据与多个图像帧相对应的音频数据确定音频指令；

判断模块44，适于判断与多个人体区域数据相匹配的组合动作数据集与音频指令是否匹配；

处理规则获取模块45，适于若判断出与多个人体区域数据相匹配的组合动作数据集与音频指令匹配，获取与多个人体区域数据相匹配的组合动作数据集所对应的组合动作处理规则；

处理模块46，适于按照组合动作处理规则对视频数据进行处理；

显示模块47，适于显示处理后的视频数据。

可选地，音频指令确定模块43进一步适于：

针对与多个图像帧相对应的音频数据进行语音识别，得到语音识别结果；

根据预设的音频指令库确定与该语音识别结果相对应的音频指令；其中，音频指令库用于存储各个音频指令。

可选地，音频指令库进一步用于存储各个音频指令及其对应的组合动作数据集之间的映射关系；

则判断模块44进一步适于：

根据音频指令库确定与多个人体区域数据相匹配的组合动作数据集与音频指令是否匹配。

可选地，预设的组合动作数据集包括：多个存储在预设的体感动作库中的组合动作数据集，且每个组合动作数据集中包含至少两个体感动作数据；

则比较模块42进一步适于：

将多个人体区域数据分别与体感动作库中存储的各个组合动作数据集中包含的多个体感动作数据进行比较。

可选地，预设匹配规则包括：

当多个人体区域数据中包含的m个人体区域数据分别与待比较的组合动作数据集中包含的m个体感动作数据匹配时，确定多个人体区域数据与待比较的组合动作数据集符合匹配规则；

其中，多个人体区域数据的总数量大于或等于m，待比较的组合动作数据集中包含的多个体感动作数据的总数量大于或等于m；其中，m为大于1的自然数。

可选地，待比较的组合动作数据集中包含的每个体感动作数据具有时间序号标识，则比较模块42进一步适于：

判断多个人体区域数据中包含的m个人体区域数据在视频数据中的出现次序是否与待比较的组合动作数据集中包含的m个体感动作数据的时间序号标识匹配；

若是，则确定多个人体区域数据中包含的m个人体区域数据分别与待比较的组合动作数据集中包含的m个体感动作数据匹配。

可选地，分割模块41进一步适于：

按照各个图像帧在视频数据中的出现次序，实时获取视频数据中包含的当前待处理的图像帧，对当前待处理的图像帧进行人体分割处理，得到与当前待处理的图像帧相对应的人体区域数据。

可选地，比较模块42进一步适于：

将当前待处理的图像帧对应的人体区域数据分别与各个组合动作数据集中包含的多个体感动作数据进行比较；

将比较结果为成功的体感动作数据确定为第一动作数据，将第一动作数据所在的组合动作数据集确定为第一动作数据集；

将当前待处理的图像帧所对应的后n个图像帧对应的人体区域数据与第一动作数据集中包含的各个体感动作数据进行比较；其中，n为大于或等于1的自然数。

可选地，处理规则获取模块45进一步适于：

根据预设的组合动作处理库，确定与多个人体区域数据相匹配的组合动作数据集所对应的组合动作处理规则；

其中，组合动作处理库用于存储各个组合动作数据集所对应的组合动作处理规则。

可选地，组合动作处理规则包括：根据与组合动作数据集相对应的效果贴图，对视频数据进行处理。

可选地，处理模块46进一步适于：

对当前待处理的图像帧和/或当前待处理的图像帧所对应的后l个图像帧进行处理；其中，l为大于1的自然数。

可选地，视频数据包括：由图像采集设备实时拍摄的视频数据、和/或人机交互类游戏中包含的视频数据。

上述各个模块的具体结构和工作原理可参照方法实施例中相应步骤的描述，此处不再赘述。

本申请又一实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的视频数据的处理方法。

图5示出了根据本发明实施例的一种计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图5所示，该计算设备可以包括：处理器(processor)502、通信接口(communicationsinterface)504、存储器(memory)506、以及通信总线508。

其中：

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器502，用于执行程序510，具体可以执行上述视频数据的处理方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是中央处理器cpu，或者是特定集成电路asic(applicationspecificintegratedcircuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个cpu；也可以是不同类型的处理器，如一个或多个cpu以及一个或多个asic。

存储器506，用于存放程序510。存储器506可能包含高速ram存储器，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：针对视频数据中的多个图像帧进行人体分割处理，得到与多个图像帧相对应的多个人体区域数据；将多个人体区域数据分别与预设的组合动作数据集中包含的多个体感动作数据进行比较；当确定比较结果符合预设匹配规则时，根据与多个图像帧相对应的音频数据确定音频指令，判断与多个人体区域数据相匹配的组合动作数据集与音频指令是否匹配；若是，获取与多个人体区域数据相匹配的组合动作数据集所对应的组合动作处理规则，按照组合动作处理规则对视频数据进行处理，显示处理后的视频数据。

在一种可选的方式中，程序510具体可以进一步用于使得处理器502执行以下操作：针对与多个图像帧相对应的音频数据进行语音识别，得到语音识别结果；根据预设的音频指令库确定与该语音识别结果相对应的音频指令；其中，音频指令库用于存储各个音频指令。

在一种可选的方式中，音频指令库进一步用于存储各个音频指令及其对应的组合动作数据集之间的映射关系；程序510具体可以进一步用于使得处理器502执行以下操作：根据音频指令库确定与多个人体区域数据相匹配的组合动作数据集与音频指令是否匹配。

在一种可选的方式中，预设的组合动作数据集包括：多个存储在预设的体感动作库中的组合动作数据集，且每个组合动作数据集中包含至少两个体感动作数据；则程序510具体可以进一步用于使得处理器502执行以下操作：将多个人体区域数据分别与体感动作库中存储的各个组合动作数据集中包含的多个体感动作数据进行比较。

在一种可选的方式中，预设匹配规则包括：当多个人体区域数据中包含的m个人体区域数据分别与待比较的组合动作数据集中包含的m个体感动作数据匹配时，确定多个人体区域数据与待比较的组合动作数据集符合匹配规则；其中，多个人体区域数据的总数量大于或等于m，待比较的组合动作数据集中包含的多个体感动作数据的总数量大于或等于m；其中，m为大于1的自然数。

在一种可选的方式中，待比较的组合动作数据集中包含的每个体感动作数据具有时间序号标识，则程序510具体可以进一步用于使得处理器502执行以下操作：判断多个人体区域数据中包含的m个人体区域数据在视频数据中的出现次序是否与待比较的组合动作数据集中包含的m个体感动作数据的时间序号标识匹配；若是，则确定多个人体区域数据中包含的m个人体区域数据分别与待比较的组合动作数据集中包含的m个体感动作数据匹配。

在一种可选的方式中，程序510具体可以进一步用于使得处理器502执行以下操作：按照各个图像帧在视频数据中的出现次序，实时获取视频数据中包含的当前待处理的图像帧，对当前待处理的图像帧进行人体分割处理，得到与当前待处理的图像帧相对应的人体区域数据。

在一种可选的方式中，程序510具体可以进一步用于使得处理器502执行以下操作：将当前待处理的图像帧对应的人体区域数据分别与各个组合动作数据集中包含的多个体感动作数据进行比较；将比较结果为成功的体感动作数据确定为第一动作数据，将第一动作数据所在的组合动作数据集确定为第一动作数据集；将当前待处理的图像帧所对应的后n个图像帧对应的人体区域数据与第一动作数据集中包含的各个体感动作数据进行比较；其中，n为大于或等于1的自然数。

在一种可选的方式中，程序510具体可以进一步用于使得处理器502执行以下操作：根据预设的组合动作处理库，确定与多个人体区域数据相匹配的组合动作数据集所对应的组合动作处理规则；其中，组合动作处理库用于存储各个组合动作数据集所对应的组合动作处理规则。

在一种可选的方式中，组合动作处理规则包括：根据与组合动作数据集相对应的效果贴图，对视频数据进行处理。

在一种可选的方式中，程序510具体可以进一步用于使得处理器502执行以下操作：对当前待处理的图像帧和/或当前待处理的图像帧所对应的后l个图像帧进行处理；其中，l为大于1的自然数。

在一种可选的方式中，视频数据包括：由图像采集设备实时拍摄的视频数据、和/或人机交互类游戏中包含的视频数据。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的视频数据的处理计算设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖胜涛;刘洛麒;赵鑫;邱学侃
技术所有人：北京奇虎科技有限公司
我是此专利的发明人

上一篇：一种用于电力线缆检测的取电夹的制作方法
上一篇：斜照吸顶灯的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。