基于图像的动作特征处理方法、装置、终端及存储介质与流程

文档序号：18826611发布日期：2019-10-09 01:50阅读：142来源：国知局

本发明涉及数据处理技术领域，尤其涉及一种基于图像的动作特征处理方法、装置、终端及存储介质。

背景技术：

随着智能终端(例如智能手机、平板电脑等)的普及，应用于智能终端上的各种应用程序(application，app)应运而生。一方面，安装于智能终端上的应用程序可以给人们的生活、学习和工作带来极大的便利，例如地图应用程序、购物应用程序等；另一方面，安装于智能终端上的应用程序还可以带给人们丰富的多媒体功能，例如音乐社交应用程序、视频社交应用程序等。目前，为了提高娱乐性，以及辅助用户更好的掌握歌曲的演唱，音乐社交应用程序通常会提供k歌功能。但对于视频社交应用程序，目前还不具备pk功能。

技术实现要素：

本发明实施例提供了一种基于图像的动作特征处理方法、装置、终端及存储介质，可以自动确定出不同视频中的对象所执行的动作的相似度，以基于动作相似度实现关于动作的pk功能。

一方面，本发明实施例提供了一种基于图像的动作特征处理方法，所述方法包括：

获取参考视频和目标视频；

获取所述目标视频中第一目标图像的待分析对象的待分析骨骼点集合，并根据所述待分析骨骼点集合确定所述第一目标图像中待分析对象的待分析动作姿态信息；

获取所述参考视频中与所述第一目标图像匹配的第二目标图像，并获取所述第二目标图像中参考对象的参考骨骼点集合，根据所述参考骨骼点集合确定所述第二目标图像中参考对象的参考动作姿态信息；

根据所述待分析动作姿态信息和所述参考动作姿态信息，确定所述目标视频中待分析对象所执行的动作与所述参考视频中参考对象所执行的动作之间的相似度。

另一方面，本发明实施例提供了一种基于图像的动作特征处理装置，所述装置包括：

获取模块，用于获取参考视频和目标视频；

第一处理模块，用于获取所述目标视频中第一目标图像的待分析对象的待分析骨骼点集合，并根据所述待分析骨骼点集合确定所述第一目标图像中待分析对象的待分析动作姿态信息；

所述第一处理模块，还用于获取所述参考视频中与所述第一目标图像匹配的第二目标图像，并获取所述第二目标图像中参考对象的参考骨骼点集合，根据所述参考骨骼点集合确定所述第二目标图像中参考对象的参考动作姿态信息；

第二处理模块，用于根据所述待分析动作姿态信息和所述参考动作姿态信息，确定所述目标视频中待分析对象所执行的动作与所述参考视频中参考对象所执行的动作之间的相似度。

再一方面，本发明实施例提供了一种终端，包括：处理器和存储器，所述存储器存储有可执行程序代码，所述处理器用于调用所述可执行程序代码，执行上述基于图像的动作特征处理方法。

相应地，本发明实施例提供了一种存储介质，所述存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述基于图像的动作特征处理方法。

本发明实施例通过根据目标视频中待分析对象的待分析骨骼点集合定待分析动作姿态信息，根据参考视频中参考对象的参考骨骼点集合确定参考动作姿态信息，并根据待分析动作姿态信息和参考动作姿态信息，确定目标视频中待分析对象所执行的动作与参考视频中参考对象所执行的动作之间的相似度，从而可以自动确定出不同视频中的对象所执行的动作的相似度，以基于动作相似度实现关于动作的pk功能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于图像的动作特征处理方法的流程示意图；

图2是本发明实施例提供的一种操作选择界面示意图；

图3是本发明实施例提供的一种动作图像的示意图；

图4是本发明实施例提供的另一种动作图像的示意图；

图5是本发明实施例提供的一种比较结果显示界面的示意图；

图6是本发明实施例提供的又一种动作图像的示意图；

图7是本发明实施例提供的又一种动作图像的示意图；

图8是本发明实施例提供的另一种基于图像的动作特征处理方法的流程示意图；

图9是本发明实施例提供的一种基于图像的动作特征处理装置的结构示意图；

图10是本发明实施例提供的一种终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明实施例中，终端可以是智能手机(如android手机等)、平板电脑、移动互联网设备(mobileinternetdevices，mid)、计算机等。终端上配置显示装置和视频拍摄装置等。终端先根据用户针对视频数据库中的视频的选择操作，确定出参考视频；并获取目标视频，目标视频是针对待分析对象根据参考视频中参考对象的动作执行动作的过程进行拍摄得到的视频。目标视频可以是利用终端配置的视频拍摄装置拍摄得到的，也可以是利用其他设备上的视频拍摄装置事先拍摄得到的。进一步地，终端获取目标视频中第一目标图像的待分析对象的待分析骨骼点集合，并根据待分析骨骼点集合确定第一目标图像中待分析对象的待分析动作姿态信息。其中，待分析骨骼点集合中包括构成待分析对象骨架的多个关键骨骼点；待分析动作姿态信息用于指示待分析骨骼点集合中的多个骨骼点之间形成的角度，和/或用于指示待分析骨骼点集合中各个骨骼点的方位信息。获取参考视频中与第一目标图像匹配的第二目标图像，并获取第二目标图像中参考对象的参考骨骼点集合，根据参考骨骼点集合确定第二目标图像中参考对象的参考动作姿态信息。其中，参考骨骼点集合中包括构成参考对象骨架的多个关键骨骼点；参考动作姿态信息用于指示参考骨骼点集合中的多个骨骼点之间形成的角度，和/或用于指示参考骨骼点集合中各个骨骼点的方位信息。进一步地，终端根据该待分析动作姿态信息和该参考动作姿态信息，确定目标视频中待分析对象所执行的动作与参考视频中参考对象所执行的动作之间的相似度。采用上述方式，可以自动确定出不同视频中的对象所执行的动作的相似度，以基于动作相似度实现关于动作的pk功能，以下进行详细说明。

请参阅图1，图1为本发明实施例提供的一种基于图像的动作特征处理方法的流程示意图。本发明实施例中所描述的基于图像的动作特征处理方法包括：

s101、终端获取参考视频和目标视频。

本发明实施例中，参考视频为视频数据库中的视频，参考视频中参考对象执行了一个或者多个动作，参考视频中参考对象执行的动作用作后续对比过程中的参考动作。目标视频是针对待分析对象根据参考视频中参考对象的动作执行动作的过程进行拍摄得到的视频，目标视频中待分析对象执行的动作用作后续对比过程中与参考动作进行对比的待分析动作。参考视频中的参考对象可以是一个或者多个，目标视频中的待分析对象也可以是一个或者多个。其中，参考视频中参考对象所执行的动作和目标视频中待分析对象所执行的动作可以是舞蹈动作。在另一实施例中，参考视频中参考对象所执行的动作和目标视频中待分析对象所执行的动作可以是执行某项运动的动作，例如武术动作、体操动作、跳水动作、踢足球的动作、打篮球的动作等。需要说明的是，参考视频中参考对象所执行的动作和目标视频中待分析对象所执行的动作还可以是其他类型的一系列规范或者不规范动作。

在一实施例中，终端根据用户的选择操作从视频数据库的视频中确定出参考视频之后，在其视频播放界面播放该参考视频。在播放该参考视频的过程中，终端若检测到针对其视频播放界面的触发操作，则输出操作选择界面；该操作选择界面中包括学习选项和挑战选项，该触发操作可以是单击、多击或者长按操作等。

进一步地，终端若检测到针对该操作选择界面中的挑战选项输入的选择指令，则启动其配置的视频拍摄装置，并跳转到该视频拍摄装置关联的拍摄应用界面；然后控制该视频拍摄装置针对待分析对象根据参考视频中的参考对象的动作执行动作的过程进行拍摄，得到目标视频。其中，终端在控制该视频拍摄装置拍摄目标视频的过程中，在该拍摄应用界面中播放该参考视频以及视频拍摄装置拍摄得到的视频。通过在拍摄应用界面中播放该参考视频可以让待分析对象及时了解到自己当前或者下一步需要执行的动作，减少待分析对象动作上的失误。通过在拍摄应用界面中播放视频拍摄装置拍摄得到的视频可以让待分析对象及时了解到自己执行的动作是否到位。需要说明的是，该拍摄装置可以是终端本身预置的，也可以是终端外接的。

在另一实施例中，终端若检测到针对该操作选择界面中的挑战选项输入的选择指令，则跳转到视频选择界面，以便于用户选择并上传事先录制的目标视频。在又一实施例中，终端若检测到针对该操作选择界面中的学习选项输入的选择指令，则在该视频播放界面中按照预设倍数慢放该参考视频，以便于待分析对象更好的学习参考视频中参考对象所执行的动作。

s102、所述终端获取所述目标视频中第一目标图像的待分析对象的待分析骨骼点集合，并根据所述待分析骨骼点集合确定所述第一目标图像中待分析对象的待分析动作姿态信息。

本发明实施例中，第一目标图像可以是目标视频中的任意一张图像，第一目标图像也可以是终端从目标视频中确定出的目标图像集合中的任意一张，该目标图像集合是终端针对目标视频中待分析对象所执行的至少一个动作分别选取的至少一张图像组成的。第一目标图像还可以是指目标视频中满足预设条件的任意一张图像。满足预设条件可以是指：第一目标图像中待分析对象所执行的动作为待分析对象执行某一动作完成时的动作，而不是待分析对象执行某一动作过程中的动作。可以根据与第一目标图像相邻的多张图像中待分析对象所执行的动作来判断第一目标图像是否满足预设条件。

终端确定出目标视频中的各个第一目标图像之后，获取各个第一目标图像中待分析对象的待分析骨骼点集合，待分析骨骼点集合中包括构成待分析对象骨架的多个关键骨骼点；然后根据待分析骨骼点集合确定出各个第一目标图像中待分析对象的待分析动作姿态信息，具体可以是根据待分析骨骼点集合中各个骨骼点在第一目标图像中的位置信息，确定出第一目标图像中待分析对象的待分析动作姿态信息。其中，待分析动作姿态信息用于指示待分析骨骼点集合中的多个骨骼点之间形成的角度，和/或用于指示待分析骨骼点集合中各个骨骼点的方位信息；该方位信息可以用于指示骨骼点在图像中的位置信息以及相对待分析对象其他骨骼点的方向信息。

s103、所述终端获取所述参考视频中与所述第一目标图像匹配的第二目标图像，并获取所述第二目标图像中参考对象的参考骨骼点集合，根据所述参考骨骼点集合确定所述第二目标图像中参考对象的参考动作姿态信息。

本发明实施例中，第二目标图像与第一目标图像相匹配可以是指：第二目标图像中参考对象所执行的动作与第一目标图像中待分析对象所执行的动作相匹配，动作相匹配可以是指动作比较相似。第二目标图像可以是参考视频中参考对象所执行的动作与第一目标图像中待分析对象所执行的动作相似度较高的多张图像中的任意一张。第二目标图像也可以是参考视频中参考对象所执行的动作与第一目标图像中待分析对象所执行的动作相似度较高的多张图像中满足预设条件的一张图像。满足预设条件可以是指：第二目标图像中参考对象所执行的动作，为参考对象执行第一目标图像中待分析对象所执行的动作完成时的动作，而不是待分析对象执行第一目标图像中待分析对象所执行的动作过程中的动作。在另一实施例中，终端将该参考视频和该目标视频进行校准，以使校准后的参考视频中参考对象所执行的动作与校准后的目标视频中待分析对象所执行的动作，在同一播放时间点的相应图像中具有较好的同步性。此时，第二目标图像与第一目标图像相匹配可以是指：第二目标图像在校准后的参考视频中对应的播放时间点，与第一目标图像在校准后的目标视频中对应的播放时间点一致。其中，终端可以是自动对该参考视频和该目标视频进行校准，也可以是根据用户的操作指令对该参考视频和该目标视频进行校准。

终端从参考视频中获取到与第一目标图像匹配的各个第二目标图像之后，获取各个第二目标图像中参考对象的参考骨骼点集合，参考骨骼点集合中包括构成参考对象骨架的多个关键骨骼点；然后根据参考骨骼点集合确定出各个第二目标图像中参考对象的参考动作姿态信息，具体可以是根据参考骨骼点集合中各个骨骼点在第二目标图像中的位置信息，确定出第二目标图像中参考对象的待分析动作姿态信息。其中，参考动作姿态信息用于指示参考骨骼点集合中的多个骨骼点之间形成的角度，和/或用于指示参考骨骼点集合中各个骨骼点的方位信息；该方位信息可以用于指示骨骼点在图像中的位置信息以及相对参考对象其他骨骼点的方向信息。

s104、所述终端根据所述待分析动作姿态信息和所述参考动作姿态信息，确定所述目标视频中待分析对象所执行的动作与所述参考视频中参考对象所执行的动作之间的相似度。

本发明实施例中，终端将各个第一目标图像中待分析对象的待分析动作姿态信息，与相应第二目标图像中参考对象的参考动作姿态信息进行比较，得到每一个第一目标图像的待分析动作姿态信息所指示的动作姿态，分别与相应第二目标图像的参考动作姿态信息所指示的动作姿态之间的目标相似度。进一步地，终端根据比较得到的多个目标相似度，确定出目标视频中待分析对象所执行的动作与参考视频中参考对象所执行的动作之间的相似度。在一实施例中，终端可以是将比较得到的多个目标相似度的平均值，作为目标视频中待分析对象所执行的动作与参考视频中参考对象所执行的动作之间的相似度。

在一实施例中，终端确定出目标视频中待分析对象所执行的动作与参考视频中参考对象所执行的动作之间的相似度之后，根据该相似度计算目标视频中待分析对象所执行的动作与参考视频中参考对象所执行的动作之间的比分。具体地，终端根据相似度与比分之间的映射关系，确定目标视频中待分析对象所执行的动作与参考视频中参考对象所执行的动作之间的比分。其中，该映射关系中可以是一个相似度对应一个比分，例如相似度90％对应的比分为90分；该映射关系中也可以是每一个相似度区间对应一个比分，例如相似度区间(85％，90％]对应的比分为90分。进一步地，终端在其比较结果显示界面中的第一显示区域显示上述比分，以使终端用户可以直观了解到动作pk结果，以及直观了解到与参考对象之间的差距。采用本发明实施例中的基于图像的动作特征处理方法，不但可以自动确定出不同视频中的对象所执行的动作的相似度，还可以基于动作相似度实现关于动作的pk功能。

在另一实施例中，终端获取目标视频中待分析对象所执行的动作相对参考视频中参考对象所执行的动作的完成度。完成度可以是指目标视频中待分析对象完成的动作数与参考视频中参考对象所执行的动作总数的比例。进一步地，终端根据上述相似度以及上述完成度，计算目标视频中待分析对象所执行的动作与参考视频中参考对象所执行的动作之间的比分。可以是先根据该相似度确定出第一比分，然后将该第一比分乘以该完成度，得到目标视频中待分析对象所执行的动作与参考视频中参考对象所执行的动作之间的比分。进一步地，终端在其比较结果显示界面中的第一显示区域显示上述比分，以使终端用户可以直观了解到动作pk结果。

在一实施例中，上述比较结果显示界面中除第一显示区域之外，还包括第二显示区域和第三显示区域。终端在比较结果显示界面中的第一显示区域显示该比分的同时，在比较结果显示界面中的第二显示区域播放该参考视频，并在比较结果显示界面中的第三显示区域播放该目标视频。或者，终端在比较结果显示界面中的第一显示区域显示该比分的同时，在比较结果显示界面中的第二显示区域显示该参考视频的缩略图，并在比较结果显示界面中的第三显示区域显示该目标视频的缩略图。缩略图可以是视频中的一张图像，也可以是视频的动态图。

在另一实施例中，终端获取目标视频中的第一图像集合和参考视频中的第二图像集合，其中，第一图像集合中的图像的待分析对象所执行的动作，与第二图像集合中的相应图像中参考对象所执行的动作之间的相似度小于相似度阈值。该相似度阈值例如是50％。然后在比较结果显示界面中的第二显示区域显示该第二图像集合中的图像，并在比较结果显示界面中的第三显示区域显示该第一图像集合中与该第二显示区域所显示的图像相匹配的图像，以提示用户和待分析对象哪些动作需要改进。

为更好的理解本发明实施例提供的基于图像的动作特征处理方法，下面结合附图举例进行说明。终端先根据用户针对视频数据库中的视频的选择操作，确定出参考视频。然后在视频播放界面播放参考视频的过程中，终端若检测到针对其视频播放界面的双击操作，则输出如图2所示的操作选择界面201；操作选择界面201中包括学习选项和挑战选项。终端若检测到针对该学习选项输入的选择指令，则在其视频播放界面中以0.2倍正常播放速度慢放该参考视频，以便于待分析对象学习参考视频中参考对象所执行的动作。终端若检测到针对该挑战选项输入的选择指令，则控制其配置的视频拍摄装置针对待分析对象根据参考视频中的参考对象的动作执行动作的过程进行拍摄，得到目标视频。

进一步地，终端获取到参考视频和目标视频之后，获取目标视频中第一目标图像的待分析对象的待分析骨骼点集合。请一并参见图3，图3为本发明实施例提供的一种动作图像的示意图，假设图3所示图像为目标视频中的第一目标图像，则对图3所示图像中的待分析对象进行骨骼点检测，可以检测到待分析对象的待分析骨骼点集合包括301～314共14个骨骼点，301～314共14个骨骼点构成了待分析对象的骨架，每一个骨骼点对应待分析对象的一个关节，例如骨骼点303为右肩关节对应的骨骼点、306为左肩关节对应的骨骼点、307为左肘关节对应的骨骼点、308为左腕关节对应的骨骼点、309为左髋关节对应的骨骼点、313为右膝关节对应的骨骼点、314为踝关节对应的骨骼点。需要说明的是，由于图3所示图像中骨骼点303是被遮住的，可以根据骨骼点306在图像中的位置预估骨骼点303所在的位置。进一步地，根据该14个骨骼点中各个骨骼点分别在图像中的位置，确定该14个骨骼点之间形成的角度。如图3所示的骨骼点之间的连接关系，骨骼点之间形成的角度包括骨骼点301、302和303形成的角度、骨骼点302、306、307形成的角度、骨骼点303、304和305形成的角度、骨骼点302、309和310形成的角度、骨骼点312、313和314形成的角度等。

进一步地，终端获取参考视频中与第一目标图像匹配的第二目标图像，并获取第二目标图像中参考对象的参考骨骼点集合；请一并参见图4，图4为本发明实施例提供的另一种动作图像的示意图，假设图4所示图像为参考视频中的图像，并且将图4和图3进行对比，可以发现图4所示图像中参考对象所执行的动作与图3所示图像中待分析对象所执行的动作很相似，则可以将图4所示图像作为参考视频中与图3所示第一目标图像匹配的第二目标图像。在对图4所示图像中的参考对象进行骨骼点检测时，可以检测到参考对象的待分析骨骼点集合包括401～414共14个骨骼点，401～414共14个骨骼点构成了参考对象的骨架，每一个骨骼点对应参考对象的一个关节，例如405为右腕关节对应的骨骼点、409为左髋关节对应的骨骼点、413为右膝关节对应的骨骼点。进一步地，根据该14个骨骼点中各个骨骼点分别在图像中的位置，确定该14个骨骼点之间形成的角度。其中，图4所示的骨骼点之间的连接关系，与图3所示的骨骼点之间的连接关系一致，例如都为左肘关节对应的骨骼点分别与左肩关节对应的骨骼点和左腕关节对应的骨骼点连接，右膝关节对应的骨骼点分别于右髋关节对应的骨骼点和右踝关节对应的骨骼点连接。如图4所示的骨骼点之间的连接关系，骨骼点之间形成的角度包括骨骼点412、413和414形成的角度等。其中，图4中骨骼点412、413和414形成的角c与图3中骨骼点312、313和314形成的角a对应，图4中骨骼点402、412和413形成的角d与图3中骨骼点302、312和313形成的角b对应；图3和图4中其他角之间的对应关系以此类推，此处不再赘述。

进一步地，终端将图3中骨骼点之间形成的角度，与图4中骨骼点之间形成的相应角度进行对比，得到图3中骨骼点之间形成的各个角度分别与图4中骨骼点之间形成的相应角度之间的偏差比例。例如，根据公式|∠a-∠c|/∠c，得到图3中骨骼点312、313和314形成的角度与图4中骨骼点412、413和414形成的角度之间的偏差比例。然后根据图3中骨骼点之间形成的各个角度分别与图4中骨骼点之间形成的相应角度之间的偏差比例，得到图3所示图像中待分析对象的动作姿态，与图4所示图像中参考对象的动作姿态之间的目标相似度。例如，计算图3中骨骼点之间形成的各个角度分别与图4中骨骼点之间形成的相应角度之间的偏差比例的均值，并根据该均值确定图像中动作姿态之间的目标相似度。假设该均值为10％，则可以确定图3所示图像中待分析对象的动作姿态，与图4所示图像中参考对象的动作姿态之间的目标相似度为90％。进一步地，终端采用上述方式分别确定出目标图像中每一个第一目标图像中待分析对象的动作姿态，与参考视频中相应第二目标图像中参考对象的动作姿态之间的目标相似度之后，将得到的多个目标相似度的平均值，作为目标视频中待分析对象所执行的动作与参考视频中参考对象所执行的动作之间的相似度。

在一实施例中，终端确定出目标视频中待分析对象所执行的动作与参考视频中参考对象所执行的动作之间的相似度之后，可以进一步根据该相似度，确定目标视频中待分析对象所执行的动作与参考视频中参考对象所执行的动作之间的比分。例如，假设该相似度为90％，则可以确定该比分为90分。进一步地，终端可以在其比较结果显示界面中的第一显示区域显示上述比分，并在其比较结果显示界面中的第二显示区域播放该参考视频或者显示该参考视频的缩略图，在其比较结果显示界面中的第三显示区域播放该目标视频或者显示该目标视频的缩略图。

在另一实施例中，终端获取目标视频中的第一图像集合和参考视频中的第二图像集合，其中，第一图像集合中的图像的待分析对象所执行的动作，与第二图像集合中的相应图像中参考对象所执行的动作之间的相似度小于相似度阈值。从图3和图4可以看出，图3中骨骼点302、312和313形成的角b和图4中骨骼点402、412和413形成的角d之间有明显偏差，图3中骨骼点312、313和314形成的角a和图4中骨骼点412、413和414形成的角c之间也有明显偏差。如果检测到图3所示图像中待分析对象所执行的动作，与图4所示图像中参考对象所执行的动作之间的相似度小于相似度阈值，则将图3所示的图像作为第一图像集合中的图像，将图4所示的图像作为第二图像集合中的图像。进一步地，终端在确定出目标视频中待分析对象所执行的动作与参考视频中参考对象所执行的动作之间的比分之后，在其比较结果显示界面中显示比较结果。

请一并参见图5，图5为本发明实施例提供的一种比较结果显示界面的示意图。如图5所示，比较结果显示界面500中包括第一显示区域501、第二显示区域502和第三显示区域503。终端可以在第一显示区域501中显示上述比分，可以在第二显示区域502中显示该第二图像集合中的图像，第二显示区域502中显示的图像以图4所示的图像为例；可以在第三显示区域503中显示该第一图像集合中与该第二显示区域所显示的图像相匹配的图像，当第二显示区域502中显示的是图4所示的图像时，则在第三显示区域503中显示图3所示的图像。其中，当第一集合和第二集合中分别包括多个多张图像时，可以在第二显示区域502和第三显示区域503中分别滚动显示第一集合和第二集合中的多张图像。采用上述方式，可以提示用户和待分析对象哪些动作需要改进，并给出参考视频中参考对象的较标准动作。

在另一实施例中，请一并参见图6和图7，图6和图7为本发明实施例提供的两种动作图像的示意图。假设图6所示图像为目标视频中的第一目标图像，图7所示图像为参考视频中与图6所示第一目标图像匹配的第二目标图像。如图所示，图6所示图像中包括601、602和603三个待分析对象；图7所示图像中包括701、702和703三个参考对象。针对上述情况，终端针对图6所示图像进行c(center，中心)位检测，然后根据c位检测结果，确定图6所示图像中各个待分析对象相对c位待分析对象所在的位置。如图6所示的站位情况，可以确定出待分析对象601位于c位位置，待分析对象602位于c位位置的左后侧，待分析对象603位于c位位置的右后侧。同理，如图7所示的站位情况，可以确定出参考对象701位于c位位置，参考对象702位于c位位置的左后侧，参考对象703位于c位位置的右后侧。

进一步地，终端分别将图6所示图像和图7所示图像中相同站位的对象的动作姿态进行比较，得到多个参考相似度。也即是说，将图6所示图像中待分析对象601的动作姿态与图7所示图像中参考对象701的动作姿态进行比较，得到第一参考相似度；将图6所示图像中待分析对象602的动作姿态与图7所示图像中参考对象702的动作姿态进行比较，得到第二参考相似度；将图6所示图像中待分析对象603的动作姿态与图7所示图像中参考对象703的动作姿态进行比较，得到第三参考相似度。其中，计算图像中各个待分析对象的动作姿态和相应参考对象的动作姿态之间的相似度的方式可参考前文描述，此处不再赘述。

进一步地，终端根据比较得到的多个参考相似度，计算得到图6所示图像中待分析对象的动作姿态与图7所示图像中参考对象的动作姿态之间的目标相似度。例如将第一参考相似度、第二参考相似度和第三参考相似度的均值，作为图6所示图像中待分析对象的动作姿态与图7所示图像中参考对象的动作姿态之间的目标相似度。需要说明的是，也可以根据对象的站位，对相应相似度赋予权重后再求均值。例如第一参考相似度为图像中c位对象的动作姿态之间的相似度，则可以将第一相似度乘以权重1.1后，再求均值。进一步地，终端采用上述方式分别确定出目标视频中每一个第一目标图像中待分析对象的动作姿态，与参考视频中相应第二目标图像中参考对象的动作姿态之间的目标相似度之后，将得到的多个目标相似度的平均值，作为目标视频中待分析对象所执行的动作与参考视频中参考对象所执行的动作之间的相似度。

在另一实施例中，请一并参见图8，图8为本发明实施例提供的另一种基于图像的动作特征处理方法的流程示意图。如图8所示，该方法包括以下步骤：终端首先获取参考视频和目标视频，然后针对目标视频中的多帧第一图像进行基于卷积神经网络cnn的实时多人姿态估计，以获取各帧第一图像中每一个待分析对象的骨架；针对参考视频中的多帧第二图像进行基于卷积神经网络cnn的实时多人姿态估计，以获取各帧第二图像中每一个参考对象的骨架。其中，多人姿态估计的主要方式为：获取图像中所有骨骼点的位置信息，然后获取图像中所有骨骼点间的连接关系，并采用最小生成树方法获取图像中每个对象的骨架。

进一步地，终端基于目标视频中待分析对象骨骼点的位置进行中心位检测以及中心位踪定，以基于中心位检测以及中心位踪定结果确定每帧第一图像中各个待分析对象之间的位置关系；基于参考视频中参考对象骨骼点的位置信息进行中心位检测以及中心位踪定，以基于中心位检测以及中心位踪定结果确定每帧第二图像中各个参考对象之间的位置关系。其中，中心位检测以及踪定的主要方式为：输入图像帧中每个对象的姿态信息，该姿态信息可以包括位置信息和尺度信息，计算离中心最近的对象位置为初始c位；并输入该图像帧的上一帧图像中对象的位置信息和尺度信息，以及输入位置模型和尺度模型；得到估计的目标位置和尺度，以及更新的位置模型和尺度模型。其中，位置评估可以是指：参照对象在前一帧图像中的位置，在当前帧中按照前一图像帧中对象尺度的预设倍数(例如2倍)大小提取一个样本；然后基于提取的样本计算得到对象新的位置。尺度评估可以是指：以对象当前的新位置为中心，提取预设数量(例如33)种不同尺度的样本，然后基于提取的样本计算得到对象准确的尺度，尺度可以是指对象做的动作的尺度大小。模型更新是指：基于上述提取到的样本更新位置模型和尺度模型。

进一步地，终端针对每帧第一图像中的各个待分析对象进行角度特征提取，针对每帧第二图像中的各个参考对象进行角度特征提取。角度特征可以用于指示对象的多个骨骼点之间形成的角度信息。进一步地，终端进行图像帧计算，以从目标视频中确定出第一目标图像，从参考视频中确定出与该第一目标图像匹配的第二目标图像，确定第一目标图像和第二目标图像的方式可参考前文描述，此处不再赘述。其中，终端进行图像帧计算还可以同时完成完成度计算，终端将目标视频中各帧第一图像中待分析对象所执行的动作，与参考视频中各帧第二图像中参考对象所执行的动作进行对比，得到目标视频中待分析对象所执行的动作相对参考视频中参考对象所执行的动作的完成度。进一步地，终端进行相似度计算，终端将第一目标图像对应的待分析对象的角度特征和第二目标图像对应的参考对象的角度特征进行对比，得到第一目标图像中待分析对象所执行的动作与第二目标图像中参考对象所执行的动作之间的相似度，然后基于目标视频中每一帧第一目标图像中待分析对象所执行的动作，与相应第二目标图像中参考对象所执行的动作之间的相似度，确定出目标视频中待分析对象所执行的动作与参考视频中参考对象所执行的动作之间的相似度。最后，终端计算比分结果，终端基于相似度计算得到的目标视频中待分析对象所执行的动作与参考视频中参考对象所执行的动作之间的相似度，以及完成度计算得到的目标视频中待分析对象所执行的动作相对参考视频中参考对象所执行的动作的完成度，确定目标视频中待分析对象所执行的动作与参考视频中参考对象所执行的动作之间的比分，具体计算方式可参考前文描述，此处不再赘述。

请参阅图9，图9为本发明实施例提供的一种基于图像的动作特征处理装置的结构示意图。本发明实施例中所描述的基于图像的动作特征处理装置，对应于前文所述的终端，所述装置包括：

获取模块901，用于获取参考视频和目标视频；

第一处理模块902，用于获取所述目标视频中第一目标图像的待分析对象的待分析骨骼点集合，并根据所述待分析骨骼点集合确定所述第一目标图像中待分析对象的待分析动作姿态信息；

所述第一处理模块902，还用于获取所述参考视频中与所述第一目标图像匹配的第二目标图像，并获取所述第二目标图像中参考对象的参考骨骼点集合，根据所述参考骨骼点集合确定所述第二目标图像中参考对象的参考动作姿态信息；

第二处理模块903，用于根据所述待分析动作姿态信息和所述参考动作姿态信息，确定所述目标视频中待分析对象所执行的动作与所述参考视频中参考对象所执行的动作之间的相似度。

在一实施例中，所述待分析动作姿态信息用于指示所述待分析骨骼点集合中的多个骨骼点之间形成的角度，和/或所述待分析骨骼点集合中各个骨骼点的方位，所述参考动作姿态信息用于指示所述参考骨骼点集合中的多个骨骼点之间形成的角度，和/或所述参考骨骼点集合中各个骨骼点的方位。

在一实施例中，所述第二处理模块903，还用于根据所述相似度计算所述目标视频中待分析对象所执行的动作与所述参考视频中参考对象所执行的动作之间的比分；

所述装置还包括显示模块904，用于在比较结果显示界面中的第一显示区域显示所述比分。

在一实施例中，所述获取模块901，还用于获取所述目标视频中待分析对象所执行的动作相对所述参考视频中参考对象所执行的动作的完成度；

所述第二处理模块903，还用于根据所述相似度和所述完成度，计算所述目标视频中待分析对象所执行的动作与所述参考视频中参考对象所执行的动作之间的比分；

所述显示模块904，还用于在比较结果显示界面中的第一显示区域显示所述比分。

在一实施例中，所述比较结果显示界面还包括第二显示区域和第三显示区域，所述显示模块904还用于：

在所述第二显示区域播放所述参考视频，并在所述第三显示区域播放所述目标视频；或者，在所述第二显示区域显示所述参考视频的缩略图，并在所述第三显示区域显示所述目标视频的缩略图。

在一实施例中，所述比较结果显示界面还包括第二显示区域和第三显示区域，所述获取模块901，还用于获取所述目标视频中的第一图像集合和所述参考视频中的第二图像集合，其中，所述第一图像集合中的图像的待分析对象所执行的动作，与所述第二图像集合中的相应图像中参考对象所执行的动作之间的相似度小于相似度阈值；

所述显示模块904，还用于在所述第二显示区域显示所述第二图像集合中的图像，并在所述第三显示区域显示所述第一图像集合中与所述第二显示区域所显示的图像相匹配的图像。

在一实施例中，所述第二处理模块903，还用于在视频播放界面播放参考视频的过程中，若检测到针对所述视频播放界面的触发操作，则触发所述显示模块904输出操作选择界面；

所述第二处理模块903，还用于若检测到针对所述操作选择界面中的学习选项输入的选择指令，则触发所述显示模块904在所述视频播放界面中按照预设倍数慢放所述参考视频。

在一实施例中，所述第二处理模块903还用于：

若检测到针对所述操作选择界面中的挑战选项输入的选择指令，则启动视频拍摄装置，并跳转到所述视频拍摄装置关联的拍摄应用界面；控制所述视频拍摄装置针对待分析对象根据所述参考视频中的参考对象的动作执行动作的过程进行拍摄，得到目标视频；其中，在拍摄所述目标视频的过程中，在所述拍摄应用界面中播放所述参考视频以及所述视频拍摄装置拍摄得到的视频。

可以理解的是，本发明实施例的基于图像的动作特征处理装置的各功能单元的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

请参阅图10，图10为本发明实施例提供的一种终端的结构示意图。本发明实施例中所描述的终端包括：处理器1001、用户接口1002、通信接口1003及存储器1004。其中，处理器1001、用户接口1002、通信接口1003及存储器1004可通过总线或其他方式连接，本发明实施例以通过总线连接为例。

其中，处理器1001(或称cpu(centralprocessingunit，中央处理器))是终端的计算核心以及控制核心，其可以解析终端内的各类指令以及处理终端的各类数据，例如：cpu可以用于解析用户向终端所发送的开关机指令，并控制终端进行开关机操作；再如：cpu可以在终端内部结构之间传输各类交互数据，等等。用户接口1002是实现用户与终端进行交互和信息交换的媒介，其具体体现可以包括用于输出的显示屏(display)、用于输入或者输出的触控屏、用于输入的拍摄装置以及用于输入的键盘(keyboard)等等，需要说明的是，此处的键盘既可以为实体键盘，也可以为触屏虚拟键盘，还可以为实体与触屏虚拟相结合的键盘。通信接口1003可选的可以包括标准的有线接口、无线接口(如wi-fi、移动通信接口等)，受处理器1001的控制用于收发数据。存储器1004(memory)是终端中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器1004既可以包括终端的内置存储器，当然也可以包括终端所支持的扩展存储器。存储器1004提供存储空间，该存储空间存储了终端的操作系统，可包括但不限于：android系统、ios系统、windowsphone系统等等，本发明对此并不作限定。

在本发明实施例中，处理器1001通过运行存储器1004中的可执行程序代码，执行如下操作：

获取参考视频和目标视频；获取所述目标视频中第一目标图像的待分析对象的待分析骨骼点集合，并根据所述待分析骨骼点集合确定所述第一目标图像中待分析对象的待分析动作姿态信息；获取所述参考视频中与所述第一目标图像匹配的第二目标图像，并获取所述第二目标图像中参考对象的参考骨骼点集合，根据所述参考骨骼点集合确定所述第二目标图像中参考对象的参考动作姿态信息；根据所述待分析动作姿态信息和所述参考动作姿态信息，确定所述目标视频中待分析对象所执行的动作与所述参考视频中参考对象所执行的动作之间的相似度。

在一实施例中，所述处理器1001还用于：根据所述相似度计算所述目标视频中待分析对象所执行的动作与所述参考视频中参考对象所执行的动作之间的比分；通过所述用户接口1002在比较结果显示界面中的第一显示区域显示所述比分。

在一实施例中，所述处理器1001还用于：获取所述目标视频中待分析对象所执行的动作相对所述参考视频中参考对象所执行的动作的完成度；根据所述相似度和所述完成度，计算所述目标视频中待分析对象所执行的动作与所述参考视频中参考对象所执行的动作之间的比分；通过所述用户接口1002在比较结果显示界面中的第一显示区域显示所述比分。

在一实施例中，所述比较结果显示界面还包括第二显示区域和第三显示区域，所述处理器1001还用于：

通过所述用户接口1002在所述第二显示区域播放所述参考视频，并在所述第三显示区域播放所述目标视频；或者，通过所述用户接口1002在所述第二显示区域显示所述参考视频的缩略图，并在所述第三显示区域显示所述目标视频的缩略图。

在一实施例中，所述比较结果显示界面还包括第二显示区域和第三显示区域，所述处理器1001还用于：获取所述目标视频中的第一图像集合和所述参考视频中的第二图像集合，其中，所述第一图像集合中的图像的待分析对象所执行的动作，与所述第二图像集合中的相应图像中参考对象所执行的动作之间的相似度小于相似度阈值；通过所述用户接口1002在所述第二显示区域显示所述第二图像集合中的图像，并在所述第三显示区域显示所述第一图像集合中与所述第二显示区域所显示的图像相匹配的图像。

在一实施例中，所述处理器1001获取参考视频和目标视频之前，所述处理器1001还用于：在视频播放界面播放参考视频的过程中，若检测到针对所述视频播放界面的触发操作，则通过所述用户接口1002输出操作选择界面；若检测到针对所述操作选择界面中的学习选项输入的选择指令，则通过所述用户接口1002在所述视频播放界面中按照预设倍数慢放所述参考视频。

在一实施例中，所述处理器1001还用于：若检测到针对所述操作选择界面中的挑战选项输入的选择指令，则启动视频拍摄装置，并跳转到所述视频拍摄装置关联的拍摄应用界面；控制所述视频拍摄装置针对待分析对象根据所述参考视频中的参考对象的动作执行动作的过程进行拍摄，得到目标视频；其中，在拍摄所述目标视频的过程中，通过所述用户接口1002在所述拍摄应用界面中播放所述参考视频以及所述视频拍摄装置拍摄得到的视频。

具体实现中，本发明实施例中所描述的处理器1001、用户接口1002、通信接口1003及存储器1004可执行本发明实施例提供的一种基于图像的动作特征处理方法中所描述的终端的实现方式，也可执行本发明实施例提供的一种基于图像的动作特征处理装置中所描述的实现方式，在此不再赘述。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行如本发明实施例所述的基于图像的动作特征处理方法。

本发明实施例还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如本发明实施例所述的基于图像的动作特征处理方法。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-onlymemory，rom)、随机存取器(randomaccessmemory，ram)、磁盘或光盘等。

以上所揭露的仅为本发明部分实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：田元
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。