手势检测方法及系统的制作方法

文档序号：6375156阅读：147来源：国知局

专利名称：手势检测方法及系统的制作方法
技术领域：
本发明涉及基于视觉和图像的目标检测和识别及人机交互领域，尤其涉及ー种适用于电视嵌入平台的手势检测方法及系统。
背景技术：
基于手势识别的体感控制技木，已经成为目前ー种重要的人机交互手段。其通过普通摄像头采集用户的动作画面，通过模式识别算法，对图像中的手部特征进行检测和定位，并识别出手部的形状，将这种识别信息转化为操作信号，反馈给智能电视等終端，并触发相应的操作命令，如电视节目的切換，音量的调节，简单的游戏互动等。手势识别技术基于智能終端所配备的摄像头，在終端安装相应的识别软件，即可完成以上操作，因而在硬件成本和操作方式上都具有极大的优势，因而该技术正在逐渐成为智能电视的标配模块。根据手势识别的研究和应用的发展过程，大致可以划分为以下几种技术手段(I)基于数据手套或佩戴物通过用户佩戴特制的手套或者标识物，通过摄像头来进行识别，手套本身是特殊设计的，具有明显的特征，因而可以降低检测和识别算法的复杂性，但是这种佩戴式的操作方式，显然难以满足自然的人机交互的需要，因而该方法始終未得到广泛的应用；(2)基于3D深度相机代表技术为微软的KINECT产品，其通过三维扫描设备，获取操作者的动态三维模型，因为其工作在3D空间，因而避免了 2D空间中存在的顔色干扰、图像分割等大量的难题。但是3D扫描设备体积较大，硬件成本较高，所需的运算能力更高，因而难以集成并应用到大众化的智能終端如电视、手机等设备上；(3)基于普通摄像头2D图像识别的技术由于这种技术是基于普通摄像头来实现的，因而也是最具有大規模应用潜力的技木，但是该技术的缺点也非常明显a)对于单纯基于肤色特征的手势检测技术而言，环境的光照很容易改变手部的顔色特征，使得检测变得困难山)对于基于形状特征的手势检测而言，复杂背景中存在的类似目标物体很容易造成误检；c)对于融合多种特征的手势检测算法而言，虽然其在检测精度方面有所提升，但还是不能从根本上解决光照及背景的影响问题，更重要的，随着算法复杂度的提升，其运算量急剧增加，显然难以满足现有的智能电视等终端的需要。综上，目前的手势识别算法由于其本身的复杂性以及所需的大量的视频处理，在现有的智能終端如智能电视的嵌入式平台上很难得到流畅的运行。因而如何开发简单快速而稳定的手势识别算法，使其可以在低运算能力的嵌入式平台上得以应用已成为目前急需解决的问题，而对于所有的手势交互系统而言，手势的检测是至关重要的第一歩。

发明内容
为了克服上述技术问题，本发明提供一种适用于电视嵌入平台的手势检测方法及系统，所述手势检测方法，包括如下步骤检测ー种预定义的运动方式，用于确定检测感兴趣区域；在所述感兴趣区域内对预定义手势进行多尺度滑动窗ロ检测；从每个窗ロ图像的肤色隶属度图像中提取局部均值特征；用Ada-Boost分类器对所述局部均值特征来做手势-背景的分类，若被分类为手势，则相应窗ロ作为候选目标窗ロ；对所述候选目标窗ロ，基于窗ロ图像的灰度图像提取点对特征；使用随机森林分类器对所述点对特征做分类，得到相应于各类手势的目标窗ロ；对所述各类手势的目标窗ロ进行聚类处理；输出成功检测到的手势类别及其所在的准确位置。优选地，所述预定运动方式为往返性挥手运动。优选地，所述挥手动作的检测是通过肤色隶属度图像的绝对差分图像的积分图来来实现的。优选地，其特征在于，通过字典法来实现所述肤色隶属度图像的快速计算。优选地，通过更新率来计算肤色运动积分图像，其步骤包括对当前帧视频，先使用字典法计算肤色隶属度图；与上一帧的肤色隶属度图像做差分，得到绝对差分图；所述差分图结合上一帧状态的积分图像，使用更新率，计算当前帧状态的肤色运动积分图像。优选地，所述多尺度滑动窗ロ检测的步骤，包括基于所述字典法计算感兴趣区域的肤色隶属度图像；基于肤色的进行窗ロ滤波；基于点对特征和随机森林分类器进行决策阶段。优选地，所述窗ロ滤波的执行步骤，包括基于窗ロ图像的肤色隶属度图像提取局部均值特征；使用预先训练的AdaBoost分类器对局部均值特征做分类，从而实现基于肤色的窗ロ过滤，最后形成一系列候选目标窗ロ。优选地，所述对各类手势的目标窗ロ进行聚类的步骤，还包括对聚类后形成的窗ロ簇进行置信度分析；置信度小于阈值者被过滤；置信度大于等于阈值的窗ロ簇的代表窗ロ用于确定所述手势的位置。此外，本发明提供ー种手势检测系统，包括运动检测模块、肤色滤波模块、决策模块以及输出模块。运动检测模块，通过肤色运动积分图像来检测ー种规律性的挥手行为，根据所述挥手行为的发生区域，确定感兴趣区域；肤色滤波模块，计算所述感兴趣区域的肤色隶属度图像，使用多尺度滑动窗ロ的方法，从每个窗ロ图像对应的隶属度图像中提取若干局部均值特征，使用Ada-Boost分类器对局部均值特征做分类，以此排除部分背景窗ロ；决策模块，提取点对特征，使用预先训练得到的随机森林分类器做手势-背景以及手势-手势分类得到各个手势所对应的目标图像窗ロ；输出模块，对各类手势的目标窗ロ进行聚类等后处理，输出成功检测到的手势类别及其所在的准确位置。本发明的优势体现在1)通过简单自然的挥手动作，可以稳定地定位到目标操作手所在的大致区域，避免了背景顔色及无关操作手部目标的干扰；2)考虑到操作者手部运动范围不会太大，因而将后续的手势检测和手形的识别限定在某ー个较小的图像范围内，从而大大降低了系统的处理数据量；3)采用运算量较低的算法，如运动检测，肤色窗ロ滤波，点对描述和随机森林分类，来提高运算效率，尤其大量減少了浮点运算量；通过以上几点，使得该算法可以在低运算能力的嵌入式平台上稳定、流畅的运行。

图I是本发明手势检测系统的结构示意图。图2是本发明手势检测系统的流程示意图。图3是本发明中CbCr空间肤色模型图。图4是本发明中通过“挥手”检测确定检测感兴趣区域的流程图。图5是本发明中通过肤色运动积分图像检测手势感兴趣区域的示意图。图6是本发明中肤色隶属度图、局部均值、以及通过学习选择出来的局部特征的示意图。图7是本发明中随机森林分类器的示意图。图8是本发明中手势分类结果的示例。
具体实施例方式如图I所示，为本发明ー种手势检测系统10的结构示意图。手势检测系统应用于智能电视平台系统等，该类智能电视平台系统至少包括用于捕捉用户手势的视频图像的摄像头以及用于存储各类设定的存储装置。手势检测系统10，包括运动检测模块11、肤色滤波模块12、决策模块13以及输出模块14。运动检测模块11，通过肤色运动积分图像来检测ー种规律性的挥手行为，一旦检测到，就可以根据该行为的发生区域，来确定ー个手势检测的感兴趣区域，后续的手势检测都在该感兴趣区域内进行。在本实施方式中，通过这种自然而有特定运动规律的动作，准确地判断出手部的大致区域，从而设定检测感兴趣区域，考虑到用户操作习惯，其手部运动范围不会太大，因而后续的处理将只在该区域内进行，从而大大减少了所需处理的图像数据量。在其他实施方式中，“挥手”的动作也可以设置为其他容易执行且容易识别的动作。肤色滤波模块12，计算感兴趣区域的肤色隶属度图像，使用多尺度滑动窗ロ办法，从每个窗ロ图像对应的隶属度图像中提取若干局部均值特征，然后使用Ada-Boost分类器来分类。据此，可以过滤掉大部分的非肤色背景窗ロ，大大提高处理效率。在本实施方式中，Ada-Boost分类器是通过对诸多的局部均值特征进行Boosting选择获得的，最終只有少量有效的特征被保留下来应用于该Ada-Boost分类器，训练以所有预定义手势样本为正样本，以背景样本的截图为负样本。在本实施方式中，AdaBoost分类器即为本实施方式中所采用的肤色滤波器。在其他实施方式中，肤色滤波模块可以根据环境的状況，决定是否需要关闭，例如，在有色光源条件下无法确定肤色时可以关闭。在本实施方式中，局部均值特征提取的源图像是肤色隶属度图。特征提取是通过计算窗ロ图像肤色隶属度图中小矩形区域的亮度均值来实现的，特征向量的元素是非负的实数。局部均值特征的计算如图6所示首先计算感兴趣区域的肤色隶属度图像；对感兴趣区域内的每ー个滑动窗ロ，根据AdaBoost分类器所用的相关特征，获得滑动窗ロ内的一系列子窗ロ；对每ー个子窗ロ，计算相关肤色隶属度图的平均亮度，即其中像素值之和除以子窗ロ面积；最终窗口内的局部均值特征形成特征向量作为AdaBoost分类器的输入。其中AdaBoost分类器是通过训练获得的，训练过程事实上是也是获取有效子窗ロ的过程对标准窗ロ图像，使用多尺度的、多长宽比例的窗ロ在其中滑动，滑动经过的窗ロ按照时间先后顺序生成一个子窗ロ序列；训练过程中，根据子窗ロ序列在正负样本中提取局部均值特征；经过AdaBoost训练过程，只有少量特征被用到，即只有少量子窗ロ被应用到；这些子窗ロ在上述的(分类过程中所应用到的)局部均值特征提取中被应用到。采用局部均值特征，一方面因为使用的是均值信息，比较稳定；另一方面因为使用了积分图像协助计算，计算速度比较快。决策模块13，在感兴趣区域内对通过肤色滤波的窗ロ图像，提取点对特征，使用预先训练得到的随机森林分类器做手势-背景以及手势-手势分类，得到所有的预定义手势的图像窗ロ，以及窗ロ图像所对应的手势类别。在本实施方式中，点对特征是从窗ロ图像的灰度图像中获取的，根据随机森林所用的特征，确定一个点对序，据此序列计算每一个特征向量首先根据窗ロ图像尺寸调整序列中点对的坐标，对调整后的每ー个点对，比较前后两个点的亮度，若前者亮度大，则相应元素取值为1，反正为O ;这样特征向量中的每个元素都取离散值，O或者I。随机森林分类器的学习过程事实上也是点对的选择过程，训练时候所用的点对可以通过随机选取获得，点对数目非常庞大，但是通过学习，最終只有少量被保存下来，这些保存下来的都是区分能力相对比较强的；在实际检测应用中，只有被保留下来的点对才会被应用于特征提取。点对特征对于光照变化不敏感，因此描述方法稳定，并且特征提取和基于随机森林的分类基本上都是整数操作，有利于在嵌入式平台的实现。在本实施方式中，随机森林分类器，是给定特征集合(具体到本专利中是指从样本中提取到的点对特征)及其所对应的标签之后，依据于随机森林学习算法(有监瞀机器学习方法的ー种)，学习得到的分类器，它由若干棵随机树组成，每棵随机树事实上都是ー棵决策树。输出模块14对各类手势的目标窗ロ进行聚类等后处理，输出成功检测到的手势类别，及其所在的准确位置。发明所提出的手势检测系统，简而言之，大致可分为以下几个步骤执行(I)先进行“挥手”动作的检测；(2)在感兴趣区域内，进行滑动窗ロ检测，从窗ロ图像的隶属度图像中提取若干局部均值，并使用预先训练的Ada-Boost分类器，对局部均值进行分类，并通过分类，过滤大部分背景窗ロ；(3)在过滤后的候选手势区域窗口中，对每个窗ロ提取点对特征描述；(4)使用随机森林分类器进行分类；(5)对各类手势的目标窗ロ进行聚类等处理，输出成功检测到的手势类别，及其所在的准确位置。图I的具体执行方式如图2所示，为本发明ー种手势检测方法的流程图。在步骤S201中，运动检测模块11检测预定义的运动方式，用于确定检测感兴趣的区域。在本实施方式中，该预定义运动方式为挥手。一方面这种规律性的挥手运动符合用户操作习惯，另一方面，由于优先采用肤色隶属度图像，该方法不仅利用了肤色，还利用了时间轴上的运动信息，比单纯使用肤色或者单纯使用单帧的运动信息，更加稳定更加有效；在肤色失效的情况下(比如有色光源)，可以使用灰度图像代替肤色隶属度图像，虽然成效有一定的打折，但是还算是比较有效的。也就是说，可以根据环境状况来确定使用何种源图像来计算运动积分图像。在步骤S202中，肤色滤波模块12获取ー帧视频图像。在步骤S203中，在感兴趣区域内进行多尺度滑动窗ロ手势检测，对每个窗ロ图像首先从隶属度图像中提取若干局部均值特征，并基于局部均值特征做窗ロ滤波，过滤掉大部分背景窗ロ。在步骤S204中，决策模块13对于通过肤色滤波器的窗ロ，从窗ロ图像中提取点对特征。在步骤S205中，决策模块13利用随机森林对点对特征进行分类，从而确定被分类窗ロ是未被过滤掉的背景还是预定义手势中的某ー类。在步骤S206中，输出模块对各类手势的目标窗ロ进行聚类等后处理，输出成功检测到的手势类别，及其所在的准确位置。在本实施方式中，后处理不仅包括对窗ロ簇的聚类，还包括对窗ロ簇的置信度分析，对窗ロ簇选取代表窗ロ等操作。在本实施方式中，被分类为手势的，根据分类结果可以知道究竟是属于哪ー类手势。比如共有L类手势，每ー类有若干个目标图像窗ロ，对每类的窗ロ进行聚类得到若干个窗ロ簇。在本实施方式中，聚类是指将同一类别手势的窗ロ放在一起进行分析，可參照图8的示例，显示了部分聚类后的結果。置信度是指窗ロ簇的可信任程度，用于去除干扰信息。在本实施方式中，通过设定置信度阈值，保留置信度大于等于阈值的窗ロ簇，计算这些被保留簇的代表窗ロ，用以确定所述手势的位置。在本实施方式中，代表窗ロ可以选择为窗ロ簇的均值窗ロ。在步骤S207中，判断是否检测到某类预定义手势。其中，若检测到某类预定义手势，则执行步骤S208 ;否则，若没有检测到任何预定义手势则执行步骤S209。在步骤S209中，判断当前时刻距离感兴趣区域被初始化是否超过一定时间。若超吋，则返回步骤S201重新做挥手动作检测；若未超吋，则返回步骤S202，重新获取ー帧视频图像进行检测。在本实施方式中，初始化是指上一次挥手检测确定感兴趣区域的时间，由于确定感兴趣的区域后，对于以后的视频图像就不再做运动检测了，而是在这个区域内做手势检测；但是时间久了，这个区域可能就失效了，比人操作者移动位置了；所以需要重新做挥手检测，再确定ー个新的感兴趣区域。本发明中的“挥手”行为检测和手势检测是交替进行的，而非同时进行。在系统“空闲”期，对“挥手”动作的检测会一直在执行，当检测到“挥手”动作后，会认为用户要进行手势操作，从而开启检测模块，在“挥手”所产生的感兴趣区域内进行详细检测，此时系统进入“忙碌”期，期间不再进行“挥手”行为检測。如果在一定时期内不曾检测到手势，或者用户手放下达到一定时间，则已有的感兴趣区域将会失效，此时系统重新进入“空闲”期，开启“挥手”检测模块。以下将针对算法实现中所涉及到的具体细节进行详细阐述，分为(一)肤色隶属度图像计算方法；(ニ)挥手动作检测；(三)基于肤色的窗ロ滤波；(四)随机森林分类；(五)对滑动窗ロ分类结果的后处理，共五个部分。
(一 )肤色隶属度图像的计算方法请參照图3，肤色在Cb和Cr分量子空间中呈现如图3所示的椭圆形分布，即肤色的像素值主要集中于如下所示的集合Ω当中
权利要求
1.ー种手势检测方法，其特征在于，包括如下步骤检测ー种预定义的运动方式，用于确定检测感兴趣区域；在所述感兴趣区域内对预定义手势进行多尺度滑动窗ロ检测；从每个窗ロ图像的肤色隶属度图像中提取局部均值特征；用Ada-Boost分类器对所述局部均值特征来做手势-背景的分类，若被分类为手势，则相应窗ロ作为候选目标窗ロ；对所述候选目标窗ロ，基于窗ロ图像的灰度图像提取点对特征；使用随机森林分类器对所述点对特征做分类，得到相应于各类手势的目标窗ロ；对所述各类手势的目标窗ロ进行聚类处理；输出成功检测到的手势类别及其所在的准确位置。
2.如权利要求I所述的手势检测方法，其特征在于，所述预定运动方式为往返性挥手运动。
3.如权利要求2所述的手势检测方法，其特征在于，所述挥手动作的检测是通过肤色隶属度图像的绝对差分图像的积分图来来实现的。
4.如权利要求3所述的手势检测方法，其特征在干，通过字典法来实现所述肤色隶属度图像的快速计算。
5.如权利要求4所述的手势检测方法，其特征在干，通过更新率来计算肤色运动积分图像，其步骤包括对当前帧视频，先使用字典法计算肤色隶属度图；与上一帧的肤色隶属度图像做差分，得到绝对差分图；所述差分图结合上一帧状态的积分图像，使用更新率，计算当前帧状态的肤色运动积分图像。
6.如权利要求4所述的手势检测方法，其特征在于，所述多尺度滑动窗ロ检测的步骤，包括基于所述字典法计算感兴趣区域的肤色隶属度图像；基于肤色的进行窗ロ滤波；基于点对特征和随机森林分类器进行决策阶段。
7.如权利要求6所述的手势检测方法，其特征在于，所述窗ロ滤波的执行步骤，包括基于窗ロ图像的肤色隶属度图像提取局部均值特征；使用预先训练的AdaBoost分类器对局部均值特征做分类，从而实现基于肤色的窗ロ过滤，最后形成一系列候选目标窗ロ。
8.如权利要求I所述的手势检测方法，其特征在于，所述对各类手势的目标窗ロ进行聚类的步骤，还包括对聚类后形成的窗ロ簇进行置信度分析；置信度小于阈值者被过滤；置信度大于等于阈值的窗ロ簇的代表窗ロ用于确定所述手势的位置。
9.ー种手势检测系统，其特征在于，包括运动检测模块，通过肤色运动积分图像来检测ー种规律性的挥手行为，根据所述挥手行为的发生区域，确定感兴趣区域；肤色滤波模块，计算所述感兴趣区域的肤色隶属度图像，使用多尺度滑动窗ロ的方法，从每个窗ロ图像对应的隶属度图像中提取若干局部均值特征，使用Ada-Boost分类器对局部均值特征做分类，以此排除部分背景窗ロ；决策模块，提取点对特征，使用预先训练得到的随机森林分类器做手势-背景以及手势-手势分类得到各个手势所对应的目标图像窗ロ；以及输出模块，对各类手势的目标窗ロ进行聚类等后处理，输出成功检测到的手势类别及其所在的准确位置。
全文摘要
本发明提供一种手势检测方法，包括如下步骤检测一种预定义的运动方式，用于确定检测感兴趣区域；在所述的感兴趣区域内，依据多尺度滑动窗口方案做检测，首先基于窗口图像的肤色隶属度图像提取局部均值特征，使用预先训练的Ada-Boost分类器做分类，对于通过Ada-Boost分类器的窗口图像，进一步基于其灰度图提取点对特征，并使用随机森林分类器对其分类；对各个类别的目标手势窗口进行聚类，输出手势所在的准确位置及手势形状。本发明还提供一种手势检测系统。本发明中的手势检测方法及系统，实施简单、快速、稳定，且具有实时性、抗干扰、识别精度高等优势。
文档编号G06K9/62GK102831404SQ201210290338
公开日2012年12月19日申请日期2012年8月15日优先权日2012年8月15日
发明者宋展, 赵颜果, 聂磊, 杨卫, 郑锋申请人:深圳先进技术研究院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋展;赵颜果;聂磊;杨卫;郑锋
技术所有人：深圳先进技术研究院
我是此专利的发明人

上一篇：一种基于图形处理单元的非确定有限自动机的匹配方法及装置的制作方法
上一篇：手势跟踪方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。