挥手检测方法及装置与流程

文档序号:34324171发布日期:2023-06-01 02:39阅读:97来源:国知局
挥手检测方法及装置与流程

本发明涉及挥手检测,尤其涉及一种挥手检测方法及装置。


背景技术:

1、挥手是人们日常生活中广泛使用的一种交流方式,具有很强的表意功能。随着计算机技术的发展,挥手检测以其操作自然、便捷、非接触等特点逐步被应用于家电控制、互动展示、游戏控制、家用及商用摄像机的拨号、报警以及无人机搜救等场景。

2、图1为一种挥手检测方法的流程图。参阅图1,视频流序列在视频处理器中被处理为一系列按时间顺序排列的单帧图片,每帧图片按时间顺序依次送入行人检测装置进行行人检测。行人检测装置通过选择方向梯度直方图特征提取方法对正负样本进行特征提取,而后使用svm分类器进行训练。送入行人检测装置的图片被统一归一化为相同的图像大小(例如大小为108×36像素)进行检测,检测完成的图片按照检测框置信度进行排序,得分大于0.7的检测框作为行人检测框(若图中有多个候选的行人检测框,则取置信度最高的行人检测框作为初次挥手检测的对象)。确定完行人检测框后,在所述行人检测窗的左上方设置一个挥手检测窗口(大小为36×36像素),且所述挥手检测窗和所述行人检测窗的左顶点分别在x、y轴上相差12个像素。将图片中位于所述挥手检测窗外的区域内的所有像素值均置为0。从第n帧图像开始(n≥2),采用3帧差分进行第n帧图像的运动检测,计算公式如下。

3、dn(x,y)=pn-1(x,y)-2pn(x,y)+pn+1(x,y); (1)

4、其中,dn(x,y)表示第n帧图像对应的差分信息,pn-1(x,y)、pn(x,y)和pn+1(x,y)分别表示第n帧图像、第n-1帧图像和第n+1帧图像的图像信息。

5、随后,使用大律法将dn(x,y)二值化,获取所述图像的二值运动信息an(x,y);接着,定义运动历史图像hn(x,y),并利用sobel算子计算所述图像的角度矩阵(即所述图像中像素点的梯度方向);对所述角度矩阵进行遍历,统计梯度直方图,并将所述梯度直方图中最大值所对应的角度作为所述图像的运动主方向。若所述运动主方向在第一阈值(例如为46度至134度)之间,则判断为右挥手,若所述运动主方向在第二阈值(例如为226度至314度)之间,则判断为左挥手。当前n幅图像中判断为左挥手或右挥手的数量达到n/2个时,则判定存在挥手运动,否则,判定为没有挥手运动。若置信度最高的行人检测框未判断出挥手,则取置信度第二高的行人检测框再次进行上述流程的挥手判断,如此循环,直至判断出挥手或者遍历所有的行人检测框。

6、然而,上述挥手判断方法是基于历史图像序列进行的,无法对实时视频进行挥手检测。且现有的挥手检测方法仅仅是单纯的进行挥手判断,挥手检测的灵敏度较低且存在误检的风险。微软kinect体感游戏的挥手检测方法中,采用3d模型作为关键点模型,使预测的关键点更为精准和稳定,存在跳动的情况较少,从而提高了挥手检测的灵敏度。然而3d模型的参数量较大,不适用于硬件端的模型部署。

7、鉴于此,需要一种方法在实时视频序列中持续性地进行多人挥手检测,并在提高检测灵敏度的同时降低误检率。


技术实现思路

1、本发明的目的在于提供一种挥手检测方法及装置,在实时视频序列中持续性地进行多人挥手检测,提高了检测灵敏度,降低了误检率。

2、为了达到上述目的,本发明提供了一种挥手检测方法,包括:

3、获取实时视频序列,所述实时视频序列包括连续的多帧待测图像;

4、逐帧对所述待测图像进行处理,用人形检测框将所述待测图像中的若干个人像分别框选出来;

5、将前后帧待测图像中的人形检测框进行匹配,使前后帧待测图像中用于表示相同人像的人形检测框相互对应;

6、获取所述人形检测框中的多个人体关键点,所述人体关键点用于表征人像的姿态;以及,

7、在连续的设定帧数内的所述待测图像中,根据所选取的人形检测框中人体关键点的位置变化情况判断相应的人像是否存在挥手运动。

8、可选的,采用简化vgg网络模型逐帧对所述待测图像进行处理,处理过程包括:

9、经过两层64×3×3的卷积核卷积两次,再经过relu激活和最大池化层,使图像的输出尺寸变化为224×224×64;

10、经过三层128×3×3的卷积核卷积三次,再经过relu激活和最大池化层,使图像的输出尺寸变化为112×112×128;以及,

11、经过三层512×3×3的卷积核卷积三次,再经过relu激活和最大池化层,使图像的输出尺寸变化为56×56×512。

12、可选的,所述简化vgg网络模型的损失函数包括分类损失函数和定位损失函数,其中,所述分类损失函数为:

13、

14、其中,n代表输入所述简化vgg网络模型的训练样本的个数,yi代表第i个训练样本的标签,此处为二分类问题,正类为1,负类为0,pi表示第i个样本被预测为正类的概率;

15、所述定位损失函数为:

16、

17、其中,x为一个行向量,x=[δx,δy,δw,δh],δx和δy分别代表所述简化vgg网络模型的训练集中实际的人形检测框的位置坐标和模型预测的人形检测框的位置坐标在不同方向上的差值,δw代表所述训练集中实际的人形检测框的宽度和模型预测的人形检测框的宽度的差值,δh代表所述训练集中实际的人形检测框的高度和模型预测的人形检测框的高度的差值。

18、可选的,根据所述简化vgg网络模型输出的人形检测框的位置与所述人形检测框的实际位置之间的交并比判断所述人形检测框的位置是否准确。

19、可选的,将前后帧待测图像中的人形检测框进行匹配,使前后帧待测图像中用于表示相同人像的人形检测框相互对应的过程包括:

20、在当前帧待测图像中选取一人形检测框,根据所选取的所述人形检测框的位置获取下一帧待测图像中所选取的人形检测框的预测位置;

21、分别获取下一帧待测图像中所有待匹配的人形检测框的实际位置与所述预测位置的交并比,若所有的交并比均小于一关联阈值,则所选取的人形检测框在下一帧待测图像中没有对应的人形检测框,否则,则所述交并比中最大值对应的待匹配的人形检测框与所选取的人形检测框对应同一个人像。

22、可选的,所述人体关键点包括手肘关键点、手腕关键点、脖子关键点、左肩膀关键点、右肩膀关键点、臀部关键点、膝盖关键点和脚踝关键点中的一种或多种。

23、可选的,采用改进vovnet网络模型获取所述人形检测框中的多个人体关键点,具体过程包括:

24、经过两层3×3×64的卷积核卷积两次和一层3×3×128的卷积核卷积两次,再经过最大池化层进行降采样,使图像的输出尺寸变化为112×112×128;

25、经过五层3×3×64的卷积核卷积五次,每次卷积的结果按照最后一个维度进行拼接,再经过一层1×1×128的卷积核卷积和步长为2的最大池化层输出,使图像的输出尺寸变化为56×56×128;

26、经过五层3×3×80的卷积核卷积五次,每次卷积的结果按照最后一个维度进行拼接,再经过一层1×1×256的卷积核卷积和步长为2的最大池化层输出,使图像的输出尺寸变化为28×28×256;

27、经过五层3×3×96的卷积核卷积五次,每次卷积的结果按照最后一个维度进行拼接,再经过一层1×1×384的卷积核卷积和步长为2的最大池化层输出,使图像的输出尺寸变化为14×14×384;

28、经过五层3×3×112的卷积核卷积五次,每次卷积的结果按照最后一个维度进行拼接,再经过一层1×1×512的卷积核卷积和步长为2的最大池化层输出,使图像的输出尺寸变化为7×7×512;以及,

29、经过7×7×26的卷积核和7×7×13的卷积核输出所述人体关键点的位置坐标和可见性。

30、可选的,所述改进vovnet网络模型的损失函数为:

31、

32、其中,x为一个行向量,包括所述改进vovnet网络模型中所有的所述人体关键点的实际位置坐标与模型预测的位置坐标在不同方向上的差值。

33、可选的,所述改进vovnet网络模型的预测指标为:

34、

35、其中,p表示所述待测图像的人形检测框的序号,pi表示所述待测图像中第p个人形检测框中的人体关键点的序号,vpi表示所述待测图像中第p个人形检测框中的第i个人体关键点的可见性,表示第p个人形检测框的面积大小,σi表示第i个人体关键点的归一化因子。

36、可选的,在连续的设定帧数内的所述待测图像中,根据所选取的人形检测框中人体关键点的位置变化情况判断相应的人像是否存在挥手运动的判断条件包括三个,其中,第一个判断条件为所述手腕关键点在竖直方向上是否持续性地高于所述手肘关键点;第二个判断条件为所述手腕关键点、所述手肘关键点以及所述左肩膀关键点(或所述右肩膀关键点)所形成的靠近人像身体内测的夹角是否在设定角度阈值内;第三个判断条件为所述手肘关键点和所述手腕关键点在水平方向上的位置是否随着时间的变化呈周期性运动;若三个所述判断条件均为是,则连续的设定帧数内的所述待测图像中存在挥手运动。

37、可选的,在采用所述判断条件进行判断之前,还包括,根据所选取的人形检测框中包含的人体关键点的种类和数量判断相对应的人像与摄像头的距离,并根据所述人像与摄像头的距离设置所述设定角度阈值。

38、相应地,本发明还提供一种挥手检测装置,采用所述挥手检测方法进行检测,包括:

39、人形检测模块,用于在输入的待测图像中的人形上设置人形检测框;

40、人形跟踪模块,包括运动估计单元、数据关联单元和跟踪目标的建立与销毁单元,其中,所述运动估计单元用于根据当前帧待测图像中所选取的人形检测框位置获取下一帧待测图像中所选取的人形检测框的预测位置,所述数据关联单元用于将所述预测位置与下一帧待测图像中所有待匹配的人形检测框的实际位置进行匹配,使前后帧待测图像中用于表示相同人像的人形检测框相互对应,所述跟踪目标的建立与销毁单元用于对出现在待测图像中的人像进行标记,以及将离开所述待测图像中的人像对应的标记销毁;

41、关键点检测模块,用于获取所述人形检测框中的人体关键点的位置坐标和可见性;

42、挥手检测模块,用于根据所选取的人形检测框中人体关键点的位置变化情况判断相应的人像是否存在挥手运动。

43、综上所述,本发明提供一种挥手检测方法及装置,对包含连续多帧待测图像的实时视频序列进行逐帧处理,用人形检测框将所述待测图像中的若干个人像分别框选出来;将前后帧待测图像中的人形检测框进行匹配,使前后帧待测图像中用于表示相同人像的人形检测框相互对应;获取所述人形检测框中的多个人体关键点,所述人体关键点用于表征人像的姿态;以及,在连续的设定帧数内的所述待测图像中,根据所选取的人形检测框中人体关键点的位置变化情况判断相应的人像是否存在挥手运动。本发明通过将同一人像在连续多帧待测图像中对应的多个人形检测框对应起来,实现了实时视频序列中持续性地多人挥手检测,提高了检测灵敏度,同时降低了误检率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1