一种人机交互系统及其实时手势跟踪处理方法

文档序号:6437364阅读:193来源:国知局
专利名称:一种人机交互系统及其实时手势跟踪处理方法
技术领域
本发明涉及人机交互技术领域,尤其涉及的是一种人机交互系统及其实时手势跟踪处理方法。
背景技术
人机交互技术是目前用户界面研究中发展最快的领域之一,对此,各国都十分重视。美国在国家关键技术中,将人机界面列为信息技术中与软件和计算机并列的六项关键技术之一。在美国国防关键技术中,人机界面不仅是软件技术中的重要内容之一,而且是与计算机和软件技术并列的11项关键技术之一。欧共体的欧洲信息技术研究与发展战略计划(ESPRIT)还专门设立了用户界面技术项目,其中包括多通道人机交互界面 (Multi-Modal Interface for Man-Machine Interface)。保持在这一领域中的领先,对整个智能计算机系统是至关重要的。人体所获得的信息80%来自视觉,因此,从自知心理学的角度研究基于机器视觉的人机交互方式是解决人机交互的重要手段。手势是人机交互过程中一个非常自然、直观的交互通道,因此研究手势检测跟踪识别技术不仅有助于实现自然的人机交互,而且有助于机器人通过模仿用户的示范动作习得技能。由于手势本身具有的多样性、多义性以及时间和空间上的差异性等特点,加之人手是复杂变形体以及视觉本身的不适定性,因此基于视觉的手势识别是一个多学科交叉的、富有挑战性的研究课题。目前的基于手势的人机交互主要有三种方式,一是麻省理工大学为代表的,利用数据手套、数据服装等装置,对手和身体的运动进行跟踪,完成人机交互;第二种是以微软为代表的体感游戏,它采用深度摄像头和RGB摄像头来实现手和身体的位置跟踪。前面两种方式都具有高成本的特点,不宜于企业,特别是竞争激烈的家电企业的广泛应用;第三种就是业内众所周知的HandVu,它以普通摄像头为研究的对象,具有成本低、实时性能好等优点,但在跟踪过程中由外界环境影响较大,不能很好地解决由于光照和背景复杂而带来的跟踪失败问题。2010年微软推出的Kinect体感游戏,因其自然直观的人机交互功能,而使其深受广大消费者青睐。该系统采用了双摄像头(深度摄像头和RGB摄像头)有利于多传感器的信息融合,因此具有较高的手势检测和跟踪精度,但其成本高。相反,基于普通单摄像头的实时手势检测跟踪器在这方面具有很强的优势,但其对手的跟踪和检测的准备度和精度都存在一定的不足,究其原因主要有(1)手本身不是刚体,在运动过程中可能存在不同程度的形变;(2)光照条件的影响和变化;(3)对目标跟踪没有一个可信度度量标准,因此,当系统跟踪了其他目标而导致的跟踪失败问题难以解决。因此,现有技术还有待于改进和发展
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种人机交互系统及其实时手势跟踪处理方法,本发明可解决手等非钢体目标在普通单摄像头下的跟踪与检测不准确的问题,并可解决由于光照和背景复杂而带来的跟踪失败问题,利用计算机视觉与图像处理技术实现了自动的人手检测、跟踪与手势识别,实时、鲁棒、易于实现和操作, 能使计算机用户通过手部姿态与计算机进行更自然、更直观、更智能的交互。本发明解决技术问题所采用的技术方案如下
一种人机交互系统的实时手势跟踪处理方法,其中,包括步骤
A、获取用户侧的图像信息并进行相应的图像降噪和增强处理;
B、对经过处理的图像信息通过手势检测单元进行人手检测,完成手势与背景的分离, 并通过视觉算法在图像信息中自动确定包围人手的一个较小矩形框为感兴趣区域;
C、通过手势跟踪单元,在所述图像信息中的感兴趣区域完成手势特征点的亚像素级跟踪,在视频序列中计算出每帧的人手轮廓状态;
D、根据计算出的人手轮廓状态进行人手动作的有效性检测,并进行手势识别以对用户完成某个预定义手势的轨迹进行分类,确定用户完成的手势动作;
E、根据确定的手势动作生成相应的手势动作控制指令,并将该手势动作控制指令发送至三维用户界面;
F、三维用户界面根据所述手势动作控制指令做出相应反馈。所述的人机交互系统的实时手势跟踪处理方法,其中,所述步骤A之前还包括,a、 立体影像显示单元显示三维立体影像及三维用户图形界面。 所述的人机交互系统的实时手势跟踪处理方法,其中,所述步骤A具体包括 Al、视频图像获取单元获取用户所在环境深度图像信息;
A2、通过图像处理单元对视频图像获取单元获取的图像信息进行去噪与目标增强处理。所述的人机交互系统的实时手势跟踪处理方法,其中,所述步骤C中的人手轮廓状态包括位置、旋转角、放缩量以及各个手指的长度和角度。所述的人机交互系统的实时手势跟踪处理方法,其中,所述步骤D还包括手势动作是否开始的判断依据是在连续20帧的人手检测结果里,有超过12帧检测到人手处于同一个位置。所述的人机交互系统的实时手势跟踪处理方法,其中,所述步骤D中的手势动作包括左移、右移、上移、下移。所述的人机交互系统的实时手势跟踪处理方法,其中,所述步骤E中的根据确定的手势动作生成相应的手势动作控制指令包括
E1、通过手势位置的不动,来识别出该动作为点击命令,生成相应的点击控制指令; E2、通过手势位置的快速左移、右移、上移、下移来识别出左、右、上、下四个命令,生成相应的左移、右移、上移、下移控制指令;
E3、通过手势位置的挥手来识别出关闭动作,生成相应的关闭控制指令。一种人机交互系统,其中,包括
视频图像获取单元,用于获取用户所在环境深度图像信息;
图像处理单元,用于对视频图像获取单元获取的图像信息进行去噪与目标增强处理;手势检测单元,用于对经过处理的图像信息进行人手检测,完成手势与背景的分离,并通过视觉算法在图像信息中自动确定包围人手的一个较小矩形框为感兴趣区域;
手势跟踪单元,用于在所述图像信息中的感兴趣区域完成手势特征点的亚像素级跟踪,在视频序列中计算出每帧的人手轮廓状态;
手势效性检测与手势动作确认单元,根据计算出的人手轮廓状态进行人手动作的有效性检测,并进行手势识别以对用户完成某个预定义手势的轨迹进行分类,确定用户完成的手势动作;
手势指令控制命令生成单元,根据确定的手势动作生成相应的手势动作控制指令,并将该手势动作控制指令发送至三维用户界面;
立体影像显示单元,用于显示三维立体影像及三维用户图形界面,以及用于根据所述手势动作控制指令做出相应反馈。所述的人机交互系统,其中,所述视频图像获取单元为摄像头。所述的人机交互系统,其中,所述人手轮廓状态包括位置、旋转角、放缩量以及各个手指的长度和角度;
手势指令控制命令生成单元进一步包括
第一生成模块,用于通过手势位置的不动,来识别出该动作为点击命令,生成相应的点击控制指令;
第二生成模块,用于通过手势位置的快速左移、右移、上移、下移来识别出左、右、上、下四个命令,生成相应的左移、右移、上移、下移控制指令;
第三生成模块,用于通过手势位置的挥手来识别出关闭动作,生成相应的关闭控制指令。本发明所提供的一种人机交互系统及其实时手势跟踪处理方法,本发明通过在三维立体影像显示设备上的图像传感和处理单元,感应用户的全部或部分手势动作,完成手势的准确跟踪,从而为有效的基于普通视觉传感器的手势人机界面接口提供了实时手势跟踪的解决方案,本发明利用计算机视觉与图像处理技术实现了自动的人手检测、跟踪与手势识别,实时、鲁棒、易于实现和操作,能使计算机用户通过手部姿态与计算机进行更自然、 更直观、更智能的交互;可用于智能家电、人机交互和虚拟现实平台等应用领域。应用于智能电视和其他智能家电产品的人机交互、各种体感游戏、和各种有关虚拟现实平台产品中, 因此本发明也具有重大的经济价值和应用价值。


图1是本发明实施例的人机交互系统的实时手势跟踪处理方法流程图。图2是本发明实施例的人手分类器级连结构图。图3是本发明实施例的人机交互系统功能原理框图。图4是本发明实施例的人机交互系统硬件结构示意图。
具体实施例方式本发明提供的一种人机交互系统及其实时手势跟踪处理方法,为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明实施例中需要的硬件设备如图4所示,为计算机300和视频图像采集设备 400,本发明实施例提供的一种人机交互系统的实时手势跟踪处理方法,如图1所示,包括步骤
步骤S110、立体影像显示单元显示三维立体影像及三维用户图形界面。例如,在人机交互系统的计算机300的显示屏上显示可实现人机交互的三维立体影像及三维用户图形界面。步骤S120、获取用户侧的图像信息并进行相应的图像降噪和增强处理。譬如,当需进行人机交互时,可以通过视频图像获取单元(如摄像头等)获取用户 (如图4所示的500)所在环境深度图像信息;并通过图像处理单元对视频图像获取单元获取的图像信息进行去噪与目标增强处理,为下一步的手势检测和跟踪提供有效保障。然后进入步骤S130。步骤S130、对经过处理的图像信息通过手势检测单元进行人手检测,完成手势与背景的分离,并通过视觉算法在图像信息中自动确定包围人手的一个较小矩形框为感兴趣区域。该步骤中完成手势与背景的分离,为目标的跟踪中的特征点提取提供方便,并设定感兴趣区域,为系统的实时性需求提供保证。本发明实施例中所述的人手检测是采用方向梯度直方图(HOG)特征,通过基于 Adaboost的统计学习方法来实现的。用于学习人手模式的统计学习方法是Adaboost算法。Adaboost算法是在人脸检测中应用极其广泛的一种成熟算法,它通过调用弱学习器不断学习训练样本中难学习的样本,从而达到较高的泛化精度。Adaboost算法的主要过程是首先给定训练样本集合,然后对该样本集合进行循环操作,每次循环用所选特征训练得到一个弱分类器,然后计算该假设的错误率,根据该错误率改变每个例子的权重进入下一个循环,若干个弱分类级联组成一个强分类器。最终的分类器由一系列相似的强分类器级联而成,分类器的分类能力随着级联结构中强分类器的数目增加而增加,如图2所示其中1、2_M为级联起来的各个强分类器,T表示候选区域被某个强分类器接受(即认为是人手区蜮),F表示候选区域被强分类器拒绝,是被排除了的候选区域,即认为是非人手区域。只有候选区域被所有强分类器接受才认为它是真正的人手区域,只要某一个强分类器拒绝,即认为它是非人手区域。步骤S140、通过手势跟踪单元,在所述图像信息中的感兴趣区域完成手势特征点的亚像素级跟踪,在视频序列中计算出每帧的人手轮廓状态;
手势的跟踪是为下一步的手势分析提供信息,其中,所述人手轮廓状态包括位置、旋转角、放缩量以及各个手指的长度和角度。所述亚像素解释为在面阵摄像机的成像面以像素为最小单位。例如某CMOS摄像芯片,其像素间距为5. 2微米。摄像机拍摄时,将物理世界中连续的图像进行了离散化处理。到成像面上每一个像素点只代表其附近的颜色。至于“附近”到什么程度?就很困难解释。两个像素之间有5. 2微米的距离,在宏观上可以看作是连在一起的。但是在微观上, 它们之间还有无限的更小的东西存在。这个更小的东西我们称它为“亚像素”。实际上“亚像素”应该是存在的,只是硬件上没有个细微的传感器把它检测出来。于是软件上把它近似地计算出来。步骤S150、根据计算出的人手轮廓状态进行人手动作的有效性检测,并进行手势识别以对用户完成某个预定义手势的轨迹进行分类,确定用户完成的手势动作;本实施例中,所述手势动作包括左移、右移、上移、下移。而其中手势动作是否开始的判断依据是在连续20帧的人手检测结果里,有超过12帧检测到人手处于同一个位置。本发明实施中所述的手势识别通过隐马尔科夫模型实现, 本发明所述手势识别的步骤包括
步骤151 对从轮廓跟踪获得的手势轨迹进行预处理去除密集点,获得预处理轨迹 步骤152 对预处理后的轨迹提取方向编码特征,对特征归一化; 步骤153 采用前向递推算法计算步骤152得到的特征对应各类手势模型的概率,取概率最大者为识别结果。本发明所述人手轮廓跟踪采用条件概率密度传播和启发式扫描技术相结合的方法实现,所述轮廓跟踪算法的步骤如下
步骤51 采用条件概率密度传播(Condensation)算法跟踪轮廓的平移、旋转和放缩运动分量,得到若干候选轮廓,这些候选轮廓关于手指的状态分量还未确定;
步骤52 对每个确定了平移、旋转及放缩运动分量的候选轮廓,逐步调整每个手指的长度和角度,得到各个轮廓的手指运动状态分量,从而产生所有状态分量都确定的最终的候选轮廓;
步骤53 从最终的所有候选轮廓中产生一个轮廓作为跟踪结果。步骤S160、根据确定的手势动作生成相应的手势动作控制指令,并将该手势动作控制指令发送至三维用户界面;
其中,该步骤中的根据确定的手势动作生成相应的手势动作控制指令包括 E1、通过手势位置的不动,来识别出该动作为点击命令,生成相应的点击控制指令; E2、通过手势位置的快速左移、右移、上移、下移来识别出左、右、上、下四个命令,生成相应的左移、右移、上移、下移控制指令;
E3、通过手势位置的挥手来识别出关闭动作,生成相应的关闭控制指令。步骤S170、三维用户界面根据所述手势动作控制指令做出相应反馈。譬如,根据用户的手势动作控制,立体影像显示单元显示的三维用户界面进行相应的动作显示等。由上可见,本明实施例,通过感应用户的全部或部分手势动作,完成手势的准确跟踪,从而为有效的基于普通视觉传感器的手势人机界面接口提供了实时鲁棒的解决方案
基于上述实施例,本发明实施例还提供了一种人机交互系统,如图3所示,主要包括 视频图像获取单元210,用于获取用户所在环境深度图像信息;具体如上述步骤S120 所述。其中,所述视频图像获取单元为摄像头。图像处理单元220,用于对视频图像获取单元获取的图像信息进行去噪与目标增强处理;具体如上述步骤S120所述。手势检测单元230,用于对经过处理的图像信息进行人手检测,完成手势与背景的分离,并通过视觉算法在图像信息中自动确定包围人手的一个较小矩形框为感兴趣区域; 具体如上述步骤S130所述。手势跟踪单元M0,用于在所述图像信息中的感兴趣区域完成手势特征点的亚像素级跟踪,在视频序列中计算出每帧的人手轮廓状态;具体如上述步骤S140所述。其中,所述人手轮廓状态包括位置、旋转角、放缩量以及各个手指的长度和角度。手势效性检测与手势动作确认单元250,根据计算出的人手轮廓状态进行人手动作的有效性检测,并进行手势识别以对用户完成某个预定义手势的轨迹进行分类,确定用户完成的手势动作;具体如上述步骤S150所述。手势指令控制命令生成单元沈0,根据确定的手势动作生成相应的手势动作控制指令,并将该手势动作控制指令发送至三维用户界面;具体如上述步骤S160所述。立体影像显示单元270,用于显示三维立体影像及三维用户图形界面,以及用于根据所述手势动作控制指令做出相应反馈;具体如上述步骤S170所述。其中,所述手势指令控制命令生成单元进一步包括
第一生成模块,用于通过手势位置的不动,来识别出该动作为点击命令,生成相应的点击控制指令;
第二生成模块,用于通过手势位置的快速左移、右移、上移、下移来识别出左、右、上、下四个命令,生成相应的左移、右移、上移、下移控制指令;
第三生成模块,用于通过手势位置的挥手来识别出关闭动作,生成相应的关闭控制指令。综上所述,本发明所提供的一种人机交互系统及其实时手势跟踪处理方法,本发明通过在三维立体影像显示设备上的图像传感和处理单元,感应用户的全部或部分手势动作,完成手势的准确跟踪,从而为有效的基于普通视觉传感器的手势人机界面接口提供了实时手势跟踪的解决方案,本发明利用计算机视觉与图像处理技术实现了自动的人手检测、跟踪与手势识别,实时、鲁棒、易于实现和操作,能使计算机用户通过手部姿态与计算机进行更自然、更直观、更智能的交互;可用于智能家电、人机交互和虚拟现实平台等应用领域。应用于智能电视和其他智能家电产品的人机交互、各种体感游戏、和各种有关虚拟现实平台产品中,因此本发明也具有重大的经济价值和应用价值。应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
权利要求
1.一种人机交互系统的实时手势跟踪处理方法,其特征在于,包括步骤A、获取用户侧的图像信息并进行相应的图像降噪和增强处理;B、对经过处理的图像信息通过手势检测单元进行人手检测,完成手势与背景的分离, 并通过视觉算法在图像信息中自动确定包围人手的一个较小矩形框为感兴趣区域;C、通过手势跟踪单元,在所述图像信息中的感兴趣区域完成手势特征点的亚像素级跟踪,在视频序列中计算出每帧的人手轮廓状态;D、根据计算出的人手轮廓状态进行人手动作的有效性检测,并进行手势识别以对用户完成某个预定义手势的轨迹进行分类,确定用户完成的手势动作;E、根据确定的手势动作生成相应的手势动作控制指令,并将该手势动作控制指令发送至三维用户界面;F、三维用户界面根据所述手势动作控制指令做出相应反馈。
2.根据权利要求1所述的人机交互系统的实时手势跟踪处理方法,其特征在于,所述步骤A之前还包括,a、立体影像显示单元显示三维立体影像及三维用户图形界面。
3.根据权利要求1所述的人机交互系统的实时手势跟踪处理方法,其特征在于,所述步骤A具体包括Al、视频图像获取单元获取用户所在环境深度图像信息;A2、通过图像处理单元对视频图像获取单元获取的图像信息进行去噪与目标增强处理。
4.根据权利要求1所述的人机交互系统的实时手势跟踪处理方法,其特征在于,所述步骤C中的人手轮廓状态包括位置、旋转角、放缩量以及各个手指的长度和角度。
5.根据权利要求1所述的人机交互系统的实时手势跟踪处理方法,其特征在于,所述步骤D还包括手势动作是否开始的判断依据是在连续20帧的人手检测结果里,有超过 12帧检测到人手处于同一个位置。
6.根据权利要求1所述的人机交互系统的实时手势跟踪处理方法,其特征在于,所述步骤D中的手势动作包括左移、右移、上移、下移。
7.根据权利要求1所述的人机交互系统的实时手势跟踪处理方法,其特征在于,所述步骤E中的根据确定的手势动作生成相应的手势动作控制指令包括E1、通过手势位置的不动,来识别出该动作为点击命令,生成相应的点击控制指令;E2、通过手势位置的快速左移、右移、上移、下移来识别出左、右、上、下四个命令,生成相应的左移、右移、上移、下移控制指令;E3、通过手势位置的挥手来识别出关闭动作,生成相应的关闭控制指令。
8.—种人机交互系统,其特征在于,包括视频图像获取单元,用于获取用户所在环境深度图像信息;图像处理单元,用于对视频图像获取单元获取的图像信息进行去噪与目标增强处理;手势检测单元,用于对经过处理的图像信息进行人手检测,完成手势与背景的分离,并通过视觉算法在图像信息中自动确定包围人手的一个较小矩形框为感兴趣区域;手势跟踪单元,用于在所述图像信息中的感兴趣区域完成手势特征点的亚像素级跟踪,在视频序列中计算出每帧的人手轮廓状态;手势效性检测与手势动作确认单元,根据计算出的人手轮廓状态进行人手动作的有效性检测,并进行手势识别以对用户完成某个预定义手势的轨迹进行分类,确定用户完成的手势动作;手势指令控制命令生成单元,根据确定的手势动作生成相应的手势动作控制指令,并将该手势动作控制指令发送至三维用户界面;立体影像显示单元,用于显示三维立体影像及三维用户图形界面,以及用于根据所述手势动作控制指令做出相应反馈。
9.根据权利要求8所述的人机交互系统,其特征在于,所述视频图像获取单元为摄像头。
10.根据权利要求8所述的人机交互系统,其特征在于,所述人手轮廓状态包括位置、 旋转角、放缩量以及各个手指的长度和角度;手势指令控制命令生成单元进一步包括第一生成模块,用于通过手势位置的不动,来识别出该动作为点击命令,生成相应的点击控制指令;第二生成模块,用于通过手势位置的快速左移、右移、上移、下移来识别出左、右、上、下四个命令,生成相应的左移、右移、上移、下移控制指令;第三生成模块,用于通过手势位置的挥手来识别出关闭动作,生成相应的关闭控制指令。
全文摘要
本发明公开了一种人机交互系统及其实时手势跟踪处理方法,所述方法包括获取用户侧的图像信息,通过手势检测单元进行人手检测,完成手势与背景的分离,并通过视觉算法在图像信息中自动确定包围人手的一个较小矩形框为感兴趣区域;通过手势跟踪单元在视频序列中计算出每帧的人手轮廓状态;根据计算出的人手轮廓状态进行人手动作的有效性检测,确定用户完成的手势动作;根据确定的手势动作生成相应的手势动作控制指令,三维用户界面根据所述手势动作控制指令做出相应反馈。本发明通过感应用户的全部或部分手势动作,完成手势的准确跟踪,从而为有效的基于普通视觉传感器的手势人机界面接口提供了实时鲁棒的解决方案。
文档编号G06F3/01GK102426480SQ20111034297
公开日2012年4月25日 申请日期2011年11月3日 优先权日2011年11月3日
发明者刘远民, 陈大炜 申请人:康佳集团股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1