一种基于手写输入和指尖鼠标的电视人机交互方法

文档序号:6425143阅读:238来源:国知局
专利名称:一种基于手写输入和指尖鼠标的电视人机交互方法
技术领域
本发明涉及电视遥控技术,具体涉及一种基于手写输入和指尖鼠标的电视人机交
互方法。
背景技术
目前,随着三网融合的推进,智能电视的发展对电视的交互式操作提出了更多的要求。电视人机交互需要文字输入和鼠标点击功能。传统的按键式遥控器无法满足电视发展带来的新的交互需求。电视的发展和电视的特点,对电视的人机交互提出了三个要求第一个要求自然、便利的文字输入、网页的浏览、选取和频道选择。第二个要求是实时性。第三个要求是电视机的人机交互必须在远距离(3 5米)、复杂背景下完成,而计算机和手持设备的距离大概30公分以内。这也是目前电视的人机交互落后于计算机和手持设备的原因。基于视觉的电视人机交互成为一个主流技术,目前主要是手势控制,满足了电视人机交互的部分需求,但还无法满足文字输入和精确鼠标控制的需求。同时,目前的手势检测、指尖定位等图像处理技术大部分是基于近距离、简单背景的,还有一部分是特殊应用场景的。适用于电视交互的远距离、复杂背景的手势分割、检测等图像处理技术还有待研究。 由于电视行业对新型人机交互方式的迫切需求,目前出现了多种电视人机交互技术。其中, 基于视觉的非接触人机交互是目前的主流之一。国外已经有实验室和公司进行新型电视人机交互研究,并且结合电视、游戏机等产品推出了一些概念产品,而国内电视厂商也推出了部分手势控制概念产品。目前推出的基于视觉电视交互技术把图像处理技术应用到了电视交互方面,使交互更加人性化,更加自然。不过还存在一些不足,交互方式基本通过手势控制电视,这种模糊的控制,还无法满足文字输入、鼠标控制的精确控制功能。在频道选择功能上,也颇不方便。日立、松下和东芝等日本企业已经推出了基于手势控制的电视样机。日立在2010年发布了一款手势电视的样机,通过挥动手臂就能开关电视、换台、浏览并选择多媒体视频窗口,而无需遥控器。松下已经开发出EZ Touch手势遥控技术,透过量测光的“飞行时间”(近红外光源发出的光线反射到CCD影像感测器所需要的时间)来感测手势。英国剑桥东芝实验室的科学家开发出了一种被称作“互动影像”新技术,仅仅依靠手势即可对电视频道进行切换和调控。微软推行的Natal计划,其中一部分就包含了用于电视的基于视觉的动作操作方式。谷歌推出的 Google TV在设计上也考虑了新型操作方式的问题。Kinect技术利用深度摄像头,可以测出目标的深度信息,从而在复杂背景中分割人体,目前已经在微软的Xbox游戏设备中使用。 2011年1月,海信集团在美国CES消费电子展上展示了最新智能感应触控电视Hi-Touch。 Hi-Touch具有通过手势控制电视换台、浏览等功能。2010年的11月,康佳发布了多功能人机交互电视的一款概念机型,采用计算机视觉技术,通过手势控制电视。随着人机交互技术和电视的发展,已经发展了很多新的电视人机交互技术。特别是基于视觉的人机交互技术成为电视人机交互技术的一个主流。目前发展的电视人机交互技术突破了传统的按键式方法,更加自然。不过,尚无法满足文字输入的要求;鼠标控制方面也还存在缺陷;同时,通过手势控制频道也不是很方便,目前电视存在几十上百个频道, 通过手势控制频道是一个比较繁琐的事情。因此,提供一种基于手写输入和指尖鼠标的电视人机交互方法,可以较好的解决这些问题。

发明内容
本发明的目的在于克服现有技术存在的上述缺陷,提供一种基于手写输入和指尖鼠标的电视人机交互方法,其核心是基于双摄像头的远距离实时手势分割和检测以及指尖定位。基于图像的交互方法是一种自然的交互方式。本发明可以减少手势检测和指尖定位的运算量,降低电视屏幕光线变化对指尖定位的影响,采用在线的方式对食指分割的阈值进行动态调整,满足电视人机交互操作实时性的要求,具体技术方案如下。—种基于手写输入和指尖鼠标的电视人机交互方法,具体包括以下步骤
步骤一图像采集,将两个相同型号的摄像头固定在一个装置上或者安装在电视机内, 期间需要保证两个摄像头之间没有相对位移,双目摄像头同步采集视频数据流。步骤二 图像三维重建,图像重建是利用双目立体视觉技术来实现,包括摄像头标定和重建两个步骤。标定的目的是为了获得摄像头的内部参数和外部参数,且采用基于人工标定的视觉方法来实现。步骤三前景分割,人手位于摄像头特定的距离内,这样人手前景就可以和人的身体以及其它背景分离开来,这种基于深度信息的前景分割不受人体肤色和光照的影响,具有较高的鲁棒性。步骤四手势图像检测,该检测方法是基于手势拳头图像的纹理特征,采用离线训练的方式获得手势拳头图像的纹理特征值,最后通过遍历搜索特定区域的方式对手势拳头图像进行检测。由于步骤三利用图像的深度信息对手势前景分割可以排除大量背景,获得手势区域的大致范围,从而得到手势图像的特定区域,这样可以缩小检测的范围,减少遍历搜索的次数。步骤五食指轮廓提取,食指分割是在步骤三的前景分割基础上完成的,由于步骤三的前景分割仍然不能实现精确的分割结果,但是该步骤排除了大量的背景区域,对降低系统后续处理的运算量是很有帮助的。步骤五的食指分割是基于步骤四检测到的拳头区域与食指具有一致的肤色直方图的分布特征,根据统计结果设定阈值,继而对拳头上方的食指区域的像素进行阈值分割,根据阈值处理后剩下的像素总个数来判断是否存在食指,若剩下的像素总个数没有达到预先设定的阈值,则认为食指不存在,同时返回步骤一,若剩下的像素总个数达到了预先设定的阈值,则认为食指存在;由于该方法是一种在线的方式对食指分割的阈值进行动态调整,因此该方法可以降低光照的影响。最终,对分割的结 果进行二值化处理等步骤就可以提取出食指的轮廓。步骤六指尖定位,考虑到手指之间的轮廓可以认为由两段曲线组成,其中一段是单调上升,另一段是单调下降的,两段曲线在顶点处形成一个“交点”,该交点在轮廓曲线中的切线斜率具有最小的绝对值,这样通过寻找最小斜率切线的切点实现指尖点的定位,同时获得指尖点的坐标值。步骤七执行操作指令,指尖点坐标的滑动来完成手写输入和指尖鼠标的功能。电视内的交互式菜单界面会通过指尖鼠标和手写输入产生的操作指令完成交互式操作。与现有技术相比,本发明具有如下优点和技术效果本发明的交互方法可以方便的完成文字输入和鼠标功能。针对远距离带来的数据量和运算量大的问题,提出利用双 摄像头确定深度信息用于手势前景分割,减少手势检测和指尖定位的运算量。该方案采用 FPGA实现,利用FPGA高速的并行处理能力实现图像处理步骤。本发明提通过重构三维图像,利用图像的深度信息对手势进行分割,从而降低了图像分割受光照变化和肤色各异的影响。通过对手势图像的前景分割减少了手势检测的遍历范围,可以满足电视人机交互操作实时性的要求。为了降低电视屏幕光线变化对指尖定位的影响,本发明采用在线的方式对食指分割的阈值进行动态调整。最终通过食指的滑动产生执行操作指令。这种电视人机交互方法对智能电视的发展具有推动作用。


图1为用户用于电视人机交互的手势示意图。图2为用于摄像头标定的8X8的棋盘格。图3为手写输入和指尖鼠标交互方法的数据处理流程图。
具体实施例方式以下结合附图对本发明的具体实施作进一步说明,但本发明的实施方式和保护方法不限于此。图1为用户用于电视人机交互的手势示意图,指尖点对应的位置用黑点进行了标示;Sl区域对应手势拳头区域,Sl区域上方的S2区域对应食指区域,通过基于LBP特征 AdaBoost算法检测到拳头图像,然后记录下拳头外围矩形框的坐标值,图中的虚线矩形框是拳头检测完成后图像处理的区域,由于该区域只占用了整幅图像的一部分,因此可以节省后续处理的运算量。图中的两条直线Li,L2为食指轮廓的两条切线,通过比较切线斜率绝对值的大小来定位指尖点的位置。图2本实施方式中用于图像三维重建的8X8的棋盘格。三维重建最重要的步骤就是双目摄像头的标定,标定的目的是分别确定两个摄像头的图像坐标系与手势区域所在平面坐标系之间的映射关系。假如手势图像平面内任意一点(X,y),其在电视屏幕上的对应一点为(X,Y),则映射关系可以用射影变换公式表示如下
y as Η ν
1 J [l
其中,3 X 3矩阵H的独立参数有八个,最少需要四组对应点即可确定该矩阵。//参数是通过棋盘格(如图2)标定的方法来求取的。利用角点检测算法提取棋盘格的内角点作为对应点,这样就可以获得多种对应点,从而得到标定结果。图3为手写输入和指尖鼠标交互方法与系统的数据处理流程图,具体包括如下步骤
步骤一,图像采集,电视机内置或者分立的双目摄像头同步采集图像; 步骤二,图像三维重建,结合双摄像头采集的同步图像重建出具有深度信息的三维图像。
步骤三,前景分割,利用上述三维图像的深度信息实现前景分割,从而完成手势图像与前景的分离。手势前景分割结合了图像的深度信息,使得手和身体及其它背景图像实现了分离。由于用户在遥控电视的时候,人手会存在深度的变化,这样对手势前景分割会引入误差,但是上述步骤对于手势的大致范围的确定是很有帮助的。拳头检测正是在这个范围内进行遍历搜索,这对于缩小搜索范围,降低系统的运算量是很有帮助的。步骤四,手势图像检测,采用模板匹配的方法对手势拳头图像进行检测,拳头的特征值通过离线训练的方式得到,若成功检测到拳头图像,则用矩形框标记检测到的图像区域,同时记录矩形框的坐标,若遍历特定区域的图像仍未检测到拳头图像,则返回步骤一。 拳头图像检测是采用模板匹配的方式来实现,采用灰度范围内的纹理描述方式,即局部二值模式(LBP)作为拳头检测的特征,它具有旋转不变性和灰度不变性等特点。采用离线的方式对LBP特征进行训练,最终筛选出具有明显纹理特征、能够区别拳头与背景的LBP特征值。训练的具体过程包括首先建立正样本和负样本图像库,然后将建立的样本库作为训练的原始材料,最终通过采用AdaBoost算法分离出有效的LBP特征值,作为拳头检测的特征。 用于检测的遍历搜索框中存放的是通过训练得到的LBP特征值,搜索框通过平移、放缩的遍历方式对特定图像区域进行检测,采用AdaBoost算法进行目标图像匹配。若被检测的图像特征与搜索框的特征匹配,即能通过AdaBoost算法,则表示所检测的图像为拳头目标。步骤五,食指轮廓提取,利用拳头与食指的肤色一致特征,结合步骤四检测的结果,对食指图像进行分割,继而对食指图像进行轮廓提取。利用人的肤色在YCrCb颜色空间或者HSV颜色空间的聚类特性进行食指分割。基于肤色特征的检测算法优点是速度快,食指可以发生各种尺度变换(比如偏转,移动)也可以分割出食指,缺点是易受光照影响,而且在背景中不能出现于肤色颜色相近的物体,否则会被当成食指前景分割出来。为了解决肤色检测不稳定的问题,采用在线调整肤色分割的阈值。由于检测出的拳头肤色与食指肤色具有一致性,因此可以通过统计拳头区域的YCrCb颜色空间或者HSV颜色空间的色彩直方图分布特征来自动设置食指分割的阈值,继而对拳头上方的食指区域的像素进行阈值分害!],根据阈值处理后剩下的像素总个数来判断是否存在食指,若剩下的像素总个数没有达到预先设定的阈值,则认为食指不存在,同时返回步骤一,若剩下的像素总个数达到了预先设定的阈值,则认为食指存在;由于受光照等因素的影响,拳头区域统计的色彩分布一旦发生变化就会动态的调整食指分割的阈值,这样可以降低光照对食指分割的影响。食指的分割只在Sl区域的正上方S2区域进行,S2区域只占整幅图像的很小比例,因此从食指分割到指尖定位处理的数据量比传统的方法要少。步骤六,指尖定位,求取食指轮廓曲线的切线斜率,斜率绝对值最小的切点即为指尖点,同时记录指尖点的坐标值。食指分割完后,对S2区域执行二值化操作,这样就可以得到食指的轮廓。考虑到轮廓的外观特征,求取轮廓切线的斜率,斜率绝对值最小值对应的切点就可以判为指尖点,将其标记并获得该点的坐标值交给步骤七处理。步骤七,执行操作指令,电视机内的指令执行模块根据指尖点的坐标变化对手势指令进行判断,并执行相对应的应用程序。本发明考虑到图像处理数据量大,使用通用处理器难以达到实时电视人机交互的要求,利用FPGA对步骤二至步骤六进行硬件加速处理。利用上述技术手段,借助电视内的遥控操作系统,就可以实现基于手写输入 和指尖鼠标的电视人机交互。
权利要求
1.一种基于手写输入和指尖鼠标的电视人机交互方法,其特征在于包括以下步骤步骤一,电视机内置或者分立的双目摄像头同步采集图像;步骤二,利用双摄像头同步采集的两幅图像重建出具有深度信息的三维图像;步骤三,利用上述三维图像的深度信息实现前景分割,从而完成手势图像与前景的分罔;步骤四,采用模板匹配的方法对手势拳头图像进行检测,拳头的特征值通过离线训练的方式得到,若成功检测到拳头图像,则用矩形框标记检测到的图像区域,同时记录矩形框的坐标,若遍历特定区域的图像仍未检测到拳头图像,则返回步骤一;步骤五,利用拳头与食指的肤色一致特征,结合步骤四检测的结果,对食指图像进行分害I],继而对食指图像进行轮廓提取;步骤六,求取食指轮廓曲线的切线斜率,斜率绝对值最小的切点即为指尖点,同时记录指尖点的坐标值;步骤七,电视机内的指令执行模块根据指尖点的坐标变化对手势指令进行判断,并执行相对应的应用程序。
2.根据权利要求1所述的一种基于手写输入和指尖鼠标的电视人机交互方法,其特征是步骤一中的双目摄像头为同一型号,所有光学参数都一致,且其摄像头都为普通的网络摄像头。
3.根据权利要求1所述的一种基于手写输入和指尖鼠标的电视人机交互方法,其特征是步骤二的三维图像重建方法是利用双目立体视觉技术来实现。
4.根据权利要求1所述的一种基于手写输入和指尖鼠标的电视人机交互方法,其特征是步骤四的手势拳头图像检测是基于手势拳头图像的纹理特征,采用离线训练的方式获得手势图像的纹理特征值,最后通过遍历搜索特定图像区域的方式对手势拳头图像进行检测。
5.根据权利要求1所述的一种基于手写输入和指尖鼠标的电视人机交互方法,其特征是步骤五的食指分割是基于步骤四检测到的拳头区域与食指具有一致的肤色特征,统计拳头区域肤色的直方图分布特征,根据统计结果设定阈值,继而对拳头上方的食指区域的像素进行阈值分割,根据阈值处理后剩下的像素总个数来判断是否存在食指,若剩下的像素总个数没有达到预先设定的阈值,则认为食指不存在,同时返回步骤一,若剩下的像素总个数达到了预先设定的阈值,则认为食指存在;最终,对分割的结果进行二值化处理得到食指的轮廓。
6.根据权利要求1所述的一种基于手写输入和指尖鼠标的电视人机交互方法,其特征是步骤七利用指尖点坐标的滑动来完成手写输入和指尖鼠标的功能,电视内的交互式菜单界面会通过指尖鼠标和手写输入产生的操作指令完成对应的操作。
7.根据权利要求广6任一项所述的一种基于手写输入和指尖鼠标的电视人机交互方法,其特征是步骤二至步骤六都通过FPGA来实现。
全文摘要
本发明公开一种基于手写输入和指尖鼠标的电视人机交互方法。包括以下步骤通过电视机内置或分立的双目摄像头采集图像,继而对同步采集的两幅图像进行图像三维重建,利用重建获取的深度信息对手势图像进行前景分割,对分割的图像进行手势检测,结合手势检测的结果对食指轮廓进行提取并获得指尖点的坐标,最终电视机内的人机交互程序利用指尖点坐标的变化实现手写输入和指尖鼠标的电视交互操作。本发明可以减少手势检测和指尖定位的运算量,降低电视屏幕光线变化对指尖定位的影响,采用在线的方式对食指分割的阈值进行动态调整,满足电视人机交互操作实时性的要求,利用上述方法可以实现人与电视的交互,对智能电视的发展具有推动作用。
文档编号G06K9/00GK102184021SQ20111014143
公开日2011年9月14日 申请日期2011年5月27日 优先权日2011年5月27日
发明者姜小波, 石任重 申请人:华南理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1