改进型用户接口的制作方法

文档序号:6455967阅读:140来源:国知局

专利名称::改进型用户接口的制作方法
技术领域
:本发明涉及一种用于将姿势(gesture)映射到通信终端的特定功能的方法。具体地,本发明涉及一种响应于登记和解释对象的预定动作或模式而调用通信终端的:^作的方法。此外,本发明还涉及被安排来实现所述方法的计算枳4呈序。背景絲在与电子设备(例如计算机终端、照相机、移动电话和电视机)进行交互时,人们已经习惯通过键盘、触敏显示器等来输入信息和操纵这些电子设备。随着手持设备的逐渐普及以及这些设备的小型化,由于这些设备的输入装置的尺寸的缩小而引起的使用性问题变得明显。因此,正在寻找一种向电子设备(特别是手持电子设备)提供输入的可选方案。此外,另一目标是找到在人类和计算设备之间更加自然的交互。经过试验的各种输入技术包括与计算设备连接的辅助传感器模态(modality),例如用于获取特定姿势的动作传感器、表面肌肉或神经传感器等。然而,由于使用这样的传感器需要大量的计算能力这一缺陷,因而与此相关的是相当大的成本。因此,期望开发出一种输入技术,其能够解决由于输入设备的小型化而带来的使用性问题。
发明内容在下文中,提供了一种基于从一个或多个照相机捕获的手势的自然UI交互系统。利用在移动设备中集成的系统,其将有效地解决小型化硬件和最大化软件输入的冲突,同时,通过手势的交互将大大增强移动设备的使用性。本发明的一个目的在于提供一种通信终端,其能够通过检测和识别用于控制所述通信终端的预定动作来建立与外部对象的交互。本发明的目的还在于提供一种具有接近度检测(proximitydetection)的通信终端,其针对对于预定动作的检测和识别,用于激活与外部对象的交互。根据本发明的第一方面通过一种方法来实现以上目的之一,所述方法用于响应于登记和解释对象的预定动作或模式而调用通信终端的操作。因此,实现了一种用于对通信终端(例如移动电话)实现命令输入的方便的解决方案。作为其它优点,提供了一种针对设备小型化和使用性的冲突的直接解决方案。交互更加自然,并且输入不受到设备硬件的小型化的限制。术语"调用"还可解释为关联。有利地,例如可以通过捕获对象的图像来在视觉上登记和解释动作或模式。有利地,通过例如在通信终端中集成的照相机,容易提供图像输入。根据一个实施例,所述对象包括手,并且所述预定动作或模式包括手势。作为优点,可以通过使用对于设备的用户接口进行命令输入和导航的手势,实现在人类与计算设备之间的自然交互。此外,用户可以根据预定模式来移动手,所述预定模式可以在先前时刻已经由用户设置,由此调用移动电话的不同操作,例如呼叫消息的发送方,到达下一消息,等等。根据各个实施例,措辞"登记"可理解为捕获图像数据,并且措辞"解释"可理解为将对象识别为手,以及识别手的姿势并将其与参考姿势关联。根据本发明的一个实施例,措辞"解释"可理解为包括以下步骤标识对象,识别所述对象,确定其定向,识别对象并将其与手势关联。可以通过终端的软件来进行解释。此外,根据本发明的方法的另一实施例,所述操作涉及使用手势向通信终端提供命令输入,并且所述方法包括-捕获手势的图^象数据201;-在所述图像数据中标识对象202;-将对象识别为手203;-识别所述手的所述对象的特征,并将其与来自一组预定参考姿势中的第一参考姿势关联205;-提供与所述参考姿势关联的命令输入206。措辞"捕获图像数据"可理解为利用图像捕获设备(例如像移动电话的照相机)简单地拍照。通过措辞"在所述图像数据中标识对象,,,其可理解为在图片中找到对象。根据一个实施例,所述标识涉及对肤色分类。作为优点,可以从图像识别出诸如手这样的类似人类的对象。根据另一实施例,肤色分类包括实现高斯混合建模(Gaussianmixturemodelling)。因此,模拟5虽度语(intensityspectra)和人类肤色的混合特性,并且作为优点,增加在图像中识别包括人类皮肤的对象的精确度。有利地,可以采取各种技术来改进从姿势的期望区域分离噪声区域的过程。例如,根据一个实施例,颜色分类可以涉及颜色空间分析和/或概率分析。此外,根据另一实施例,所述颜色空间分析可以涉及将图像数据转换成色度平面(CbCr)颜色空间图像数据。根据又一实施例,所述对象识别可以涉及使用连通分量(connectedcomponent)提取来消除视觉噪声。根据一个实施例,所述连通分量提取可以包括以下内容中的任何一个画确定对象的纵横比(aspectratio);-确定与图像大小相比的对象大小;-确定与输入图像的边界相连的区域;并且其中,在满足以下要求的情况下消除所迷噪声-所述纵横比在10以内;-所述对象大小大于关于输入图像大小所设置的预定值;以及7-存在与所述输入图像的边界相连的仅一个区域,或者存在不满足其它要求的多个区域。根据一个实施例,所述关联可以涉及确定所述手的定向的步骤,以及涉及-确定所述对象的Karhunen-Loe6(KL)轴定向;-确定所述对象的第一几何中心点;以及-确定所述对象的凸多边形的第二几何中心点,并且其中,使用所述KL轴的定向来确定所述第一和第二中心点的位置关系。因此,第一几何中心点表示被分割的手区域的几何中心,即手区域的重心。第二几何中心点表示(优选地通过凸多边形来表示的)手区域轮廓的几何中心。通常,第一几何中心点不包括手形的信息。然而,第二几何中心点的位置反映了区域的凸度。因此,通过确定手区域的KL轴,可以确定第一和第二几何中心点相对于彼此的位置关系。已知在两个中心点(或中心)之间的相对位置,可以确定手的位置并识别姿势。根据另一实施例,所述定向的确定得出以下之一-如果所述KL轴沿第一方向延伸,并且所述第一和第二中心点在基本沿所述第一方向的第一移置(displacement)方向上相对于彼此被移置,则进行笫一操作,即,例如UP(向上);-如果所述KL轴沿所述第一方向延伸,并且所述第一和第二中心点在基本沿所述第一方向的所述移置方向上相对于彼此,H向移置,则进行第二操作,即,例如DOWN(向下);-如果所述KL轴沿基本垂直于所述第一方向的第二方向延伸,并且所述第一和第二中心点在基本沿所述第二方向的第二移置方向上相对于彼此被移置,则进行第三操作,即,例如RIGHT(向右);画如果所述KL轴沿所述第二方向延伸,并且所述第一和第二中心点在基本沿所述第二方向的所述移置方向上相对于彼此被反向移置,则进4亍第四操作,即,例如LEFT(向左);画如果所述中心点基本重合,并且所述姿势的所迷对象的第一面积小于先前所识别姿势的先前所确定对象的第二面积的至少一半,则进行第五操作,即,例如OPEN(打开);-如果所述中心点基本重合,并且所述姿势的所述对象的第一面积大于先前所识别姿势的先前所确定对象的第二面积的至少两倍,并且所述姿势对应于所述先前所识别姿势,则进行第六操作,即,例如CLOSE(关闭);-如果所述中心点基本重合,并且所述姿势的所述对象的第一面积大于先前所识别姿势的先前所确定对象的第二面积的至少两倍,并且所述姿势不对应于所述先前所识别姿势,则进行第七操作,即,例如STOP(停止)。根据优选实施例,在共同、一般的参考帧中,所述第一、第二、第三、和第四操作分别对应于向上、向下、向左和向右移动焦点,并且所述第五、第六和第七操作分别对应于打开项目(例如文件、文件夹或图像)、关闭文件夹或图像,以及停止焦点动作。措辞"焦点"涉及项目(例如图像、文件、联系人、细节条目、电话号码等)的焦点。此外,根据本发明的一个优选实施例,第一KL轴方向垂直向上,并且第二KL轴方向水平向左。在基本重合的情况下,可以理解为两个中心点彼此邻近并且不必要完全重合。根据本发明的一个实施例,可以使用所述通信终端所包括的照相机来实现所述登记。根据本发明的另一实施例,所述通信终端可以包括移动电话。在该上下文中,措辞"姿势"应当理解为利用手所产生的姿势的单个形式或形状,例如闭合的拳头、张开的手、闭合的手而拇指伸开并且指着一方向。措辞"姿势"还可理解为一组包括一连串在彼此之后的单个姿势,此外还可理解为包括移动的手的姿势,例如用手指在空中打勾(ticking-in-the-air)。措辞"图像数据"可理解为静态图像或一系列静态图像,例如视频序列。根据本发明的又一实施例,所述方法还包括步骤通过接近度检测来进行激活。因此,通过配备有接近度传感器(其检测达到附近对象的范围),可以通过接近度检测来激活用于登记动作的装置,导致其足够使终端接近对象,而不需要令它们进行机械接触。可用的接近度开关可以包括电感类型、电容类型、电磁辐射或超声波类型。检测电磁辐射包括根据从例如用户的手发出的热来检测的光学传感和红外辐射。根据本发明的第二方面,通过一种具有计算机可执行组件的计算机可读介质来获得上述目的、优点和特征以及将从以下详细描述中变得明显的各种其他目的、优点和特征,所述计算机可读介质适于响应于登记和解释对象的预定动作或模式,调用通信终端的操作。特别地,根据一个实施例,所述计算机可读介质还可适于-接收输入;-捕获所述对象的图像数据;-在所述图像数据中标识所述对象;-将所述对象识别为手;-将所述对象的特征识别为所迷手的姿势,并将其与来自一组预定参考姿势中的笫一参考姿势关联;-提供与所述参考对象关联的命令输入。因此,作为优点,本发明的这些特征可在具有下栽和运行这样的计算机程序的能力的任何移动通信装置中实现。换句话说,本发明提供了一种方法,用于通过识别对象的预定动作来控制通信终端的不同操作。在将例如用户的手用作对象的情况下,预定动作可以包括将手闭合成拳头、抓握、挥手、用一个或多个手指进行指点,或者就像沖莫式(例如包括一系列动作)。因此,预定动作可以与通信终端执行的行为、命令或任务相结合或成对。在该上下文中,措辞"控制,,还可理解为调用或执行移动通信终端的不同操作。预定动作可以被识别以便控制打开和/或关闭媒体内容的项目、访问10在项目列表或堆栈中的媒体内容的上一项目或下一项目、删,体内容的项目、滚动通过媒体内容的项目的内容、应答输入语音呼叫;在从项目列表中选择的项目上采取措施,呼叫SMS的发送方或结束投影。输入通信可以包括消息,例如SMS或MMS。而媒体内容或消息可以包括文本、图像、视频或其任意组合。尽管这些消息传递服务是如今最常用的,然而本发明还旨在与其它类型的文本或多媒体消息一起使用。所述方法还包括步骤沿着投影光锥(projectedconeoflight)将对象从投影仪移开,直到获得图像的优选大小。通过实际上将信息保持在手中,用户感觉到在控制呈递(presentation),且仅对他或她自身显露数据。姿势的特性对于用户来说是直观上获得这样的印象和感觉,即,在通信终端外部用手取得图像,并且在已经回顾了信息之后,将其再次放回终端。所述方法还可以包括以下步骤将对象移回到设备和/或检测笫二锥(secondtap)以便结束对所述图像的投影。因此,以直观的方式,用户将仅以相反的顺序来实现与当启动该过程时相同的步骤。所提及的对象可以是例如通信终端的用户的手。使用手的优点尤其是直接有可能略微将手合拢便将图像从环境中挡住(shieldoff)。可以使用的其他对象包括才艮纸、铅笔或者甚至是伞。预定动作可以通过使用图像获取装置来检测和识别。图像获取装置可以是例如任何类型的数字照相机,例如CMOS照相机。措辞"解释,,还可解释为识别。可以通过使用对于设备的用户接口进行导航和命令输入的手势来实现在人类与计算设备之间的自然交互。特别地,利用移动照相机设备的可用性,并且通过照相机输入经由手势来实现命令输入的模式识别技术以及强大的图像/视频内容分析是一种便捷的解决方案,期望得到终端用户的高度赞许。换句话说,通过文中所公开的本发明,输入技术能够提供一种针对设备小型化和使用性的冲突的直接解决方案。交互更加自然。输入不受到设备硬件的小型化的限制。因此,通过本发明所提供的交互方式,提供了一种具有诸多优点的有利的、手部自由的(handsfree)解决方案,特别用于手持式通信i殳备。参照附图,通过以下说明性和非限制性的对本发明优选实施例的具体描述,本发明的上述以及其他目的、特征和优点将被更好地理解,其中图1示意性地示出了根据本发明的姿势识别过程的流程图;图2示意性地示出了根据本发明的方法的框图;图3示出了多个手势的示意性例子(从a)至f)部分);以及图4示意性地示出了根据本发明用于手势识别的几何方法的各个定向(从a)至f)部分)。蔣实施方式在对各个实施例的以下描述中,参照形成各个实施例的一部分的附图,解,在不背离本发明的范围的情况下,可以利用其它实施例并且可以进行结构和功能的^"改。图1示意性地示出了在其中实现本发明的通信终端101。终端101能够经由空中接口103与无线电通信网络105(例如/>知的系统CDMA2000、D-AMPS、GSM、UMTS、EDGE等)进行通信。该终端包括处理器107、存储器109,以及作为扩音器lll、扬声器113、显示器115和键盘117的形式的输入/输出单元。通过无线电电路119和天线121实现无线电通信。连接至无线电通信网络105的是控制器123。关于这些单元如何通信的细节对于本领域的技术人员来说是已知的,并且因此不再进一步讨论。终端101还包括用于捕获图像数据的成像单元124。在图2中,描绘了用于使用手势来向通信终端提供命令输入的方法的流程图。特别地,其示出了根据本发明的姿势识别过程。在所示方法的第一步201,利用图像获取装置(优选地,利用移动电话的数字照相机)来捕获手势的图像数据。图像获取装置可以是例如任何类型的数字照相机,如用于图像记录的基于CCD(电荷耦合器件)或CMOS(互补金属氧化物半导体)的照相机。在该方法的第二步202中,从图像数据中标识一个或多个对象。关于如何实现对象标识的其它细节分别在以下用于肤色划分以及连通分量标记和合并(mergence)208的步骤207和208中进行了概括。在该方法的第三步203中,检查是否有任何对象对应于手。为此,必须满足多个手势要求,下面结合用于噪声区域消除的步骤209给出了其中的细节。在该方法的第四步204中,确定手的定向。这是在使用Karhunen-LoW定向的基于定向的几何方法中实现的,将在下面结合步骤210对其进行进一步详细描述。在该方法的第五步205中,识别手的姿势,并将其与一组预定姿势中的一个相关联。下面结合步骤211至217进一步详细描述了该步骤的过程。在该方法的第六步206中,提供与所识别的姿势对应的输入。下面结合步骤218至224较为详细地描述了各种输入备选方案。关于图2中所示的方法的步骤202,对象标识的过程涉及肤色划分步骤207,用于标识图像中具有肤色的区域。肤色划分或肤色分类的技术可以净皮描述为将各个图像像素分成皮肤种类和非皮肤种类。为此,使用颜色空间分析。在皮肤划分中已使用了各种各样的颜色空间,例如RGB、HSV和YCbCr等。RGB颜色空间是用于处理和存储彩色图像数据的最广泛使用的颜色空间之一,但是由于在色度和亮度数据的混合与通道之间的高度相关性,因此其通常不适合用于颜色分析和基于颜色的识别。基于色调-饱和度(Hue-saturation)的颜色空间(如HSV、HSI、HSL)是这样的模型,即该模型符合人类的直观感知并且类似于艺术家实际如何混合颜色。特别地,色调具有对白光源和环境光以;M^面定向的不变特性。YCbCr是面向硬件的模型。在该颜色空间中,亮度从色度数据中分离。通过从RGB的红和蓝分量减去亮度来形成Cb和Cr值。亮度和色度分量的转换简单性和明显的分离使得这种颜色空间适合于肤色建模[Hsu等人,2002]。为了选择基于色调的颜色空间或YCbCr空间来使得肤色检测对于亮度不变,利用一组肤色训练数据来分别评估YCbCr和HSV,所述数据包括从各个静态图像和视频帧中提取的550个肤色样本,覆盖大范围的肤色外观(在皮肤样本数据中总共超过2000万个肤色像素)。在图5中,分别在YCbCr空间a)部分和HSV空间b)部分中绘制了肤色样本500。清楚可见的是,在YCbCr和HSV两个颜色空间中,肤色样本形成单个且紧密的群集501和502。在YCbCr颜色空间中,观察到强度值Y对于CbCr平面上的分布具有很小的影响,并且在CbCr平面中,样本肤色形成更小的和更紧密的群集。因此,在本发明中,将色度平面(CbCr)直接用于肤色分类,而不考虑强度值。因而,图5的比较"i兌明了为何可优选地选棒YCrCb空间用于肤色区域划分。此外,还可以采用该数据来训练用于手区域划分的肤色模型。为了对肤色划分建模,使用高斯混合模型和期望值最大化(EM)估计。高斯密度函数以及高斯混合常被用于对肤色进行建模Yang等人,20021。通常使用最大似然来估计在单峰高斯分布中的参数。使用高斯混合的动机是基于以下观察对于具有不同种族背景的人类皮肤的颜色柱状图没有形成单峰分布,但却形成多峰分布。利用单峰高斯,通过参数化的函数形式来近似计算肤色的类条件(class-conditional)概率分布函数(PDF)[Yang,Waiblel996j。P(xIW")=,C,)=(2;rmC」—'"exp{—"-m》rC;'-)}(工)其中,^是特征向量的维度,附,是均值向量,c;是皮肤类别的协方差矩阵。在多峰分布的情况下,通过GMM(高斯混合模型)来近似计算肤色分布。14'=1(2)通常,使用期望值最大化(EM)算法[Bilmes1998得到高斯混合的参数(即,权重o,均值附,协方差C)。当数据不完整或具有遗漏的值时,EM算法是从给定数据集得到基本分布的参数的最大似然估计的通用方法。混合密度参数估计问题是EM算法的最广泛4吏用的应用之一[Xu,Jordan1996。在本发明中,使用YCbCr颜色空间和GMM来实现肤色分类。为了构建GMM模型,使用K-均值[Duda,Hart2001算法来设置群集中心,并且然后利用EM算法来估计每个高斯分量的参数。在这种情况下,用于肤色分类的GMM模型包括20个高斯分量。每个分量是2-元素(Cb和Cr元素)高斯分布。20个高斯分量的参数列出如下。编号权重中心协方差10.0702(109.8462,151.5873)(5.2380,6.2722)20.0657(99.9267,159.2890)(2.6080,6.9135)30.0861(112.8403,144.3406)(9.1854,16.0524)40.0737(107.4903,157.2522)(6.6948,5.4418)0.0393(96.5935,152,4062)(31,4322,44.6357)60.0128(82.6950,157.0569)(25.4192,25.2871)70.0351(94.6656,170.6002)(4.7205,16.8803)80.0626(116.0954,146.3582)(8.8988,15.1916)90.0645(95.1594,160.7084)(3.7062,15.6597)100.0203(79.6508,170.3406)(31.2517,39.3632)110.0552(120.2977,138.1978)(9.4732,15.4720)120.0623(102.9900,157.9256)(0,8807,4.7835)130.0184(84.0346,181.6167)(100.3211,52.0002)15<table>tableseeoriginaldocumentpage16</column></row><table>在肤色分类之后,需要后处理一连通分量提取Gonzalez,Woods2002],用于噪声区域移除。在"连通分量标记和合并"的步骤208中,合并应当属于一个对象的相邻区域或分量,并计算区域的大小。基于标记对象的大小信息,实现"噪声区域消除,,的步骤209,以便移除那些类似噪声的小区域以及具有规则形状(人为对象)的那些区域。因此,在划分之后,原始图像变成黑/白图像,其中白色区域代表对象,而黑色区域4戈表背景。然而,此时白色区域的大小和形状未知。利用连通分量标记,计算对象区域的大小和形状,并且根据一些给定的先验准则,合并属于相同对象的相邻对象区域。在标记和合并的步骤之后,实现噪声区域移除的步骤,以便移除那些小区域以及具有规则形状(人为对象)的那些区域。根据本发明,在任何的输入姿势图像中应当存在唯一的手区域。在基于颜色皮肤的划分之后,有时候,不仅可以划分手区域,还可以划分其它噪声区域。因而,其中将对象识别为手的步骤203涉及噪声消除的步骤209。因此,如果存在被提取的任何噪声区域,则根据以下规则对其进行移除-手区,当具有IO以内的纵横比(步骤210);-与输入图像大小相比,手区域应当具有足够的大小(步骤211)。可以4吏用形态上开方文的操作(morphologicalopenoperation)来移除那些小的孤立区域。-与输入图像的边界相连的所有区域都可以看作噪声区域,除非仅存在一个满足以上两个规则的被分割的区域(步骤212)。在噪声区域移除之后,剩余的区域是手区域。姿势定向分析作为将对象与预定对象关联的步骤204的一部分,在步骤210中确定手的定向,以便确定Karhunen-Loe^(KL)定向。这种用于手势识别的基于定向的几何方法包括确定Karhunen-Loe^(KL)定向,以及确定手区域及其凸包(convexhull)的质心(centroid)。KL定向图4示出了如a)至f)部分中所示的KL定向[Pratt2001]以及在各个定向上手区域的质心。下面进一步给出图4的详细描述。如下导出KL定向假设在输入姿势图像的肤色像素集A中每个像素坐标是(&,,那么《=[;^凡,=(义、.,,乂,)7"'=1...^狄色像素的坐标。尸,的均值是s二[^j;]7,其中5=1:乇/^,K-Zx/w。对应的协方差矩阵定义为从协方差矩阵Cs可容易地计算出特征值£,=[ej和对应的特征向f^t=[ev9l,2]。因此,与较大的特征值e、,相对应的特征向量,,确定了在图像坐标平面中的KL定向,参见图4中的短划线407至412。手区域及其凸包的质心在图4的d)部分中所示的被分割的手区域的情况下,可以分别计算手区域及其凸多边形的质心-6;"乂)和(:2(^义)。<formula>formulaseeoriginaldocumentpage17</formula>=1...W是手区域中的第《个肤色像素。导出C2(X2,^)为<formula>formulaseeoriginaldocumentpage18</formula>(S-皮肤面积,A-皮肤面积元素)基于格林定理,工油=-1办,={x*办,丄-/er!Vw"e/"o//o(ygow(£-多边形的周长)对于作为一系列线段的多边形,这正好可以;故简化成求和,x=_-_■:''—--------■■■'■■■'十力"l十凡,义,十l)(Xw—^,)j少232(O,,+工,,+1)O,w-y"))通过"简化(shortcutting)"连接手区域的边缘来创建第二质心C2的形状。因而,效果是涂抹(smear)手区域的轮廓(conture),以便使得拇指与手的主体接合(coalesce),并且图像对象的"重心"被移置(displace)。关于图2中所示的方法的第五步205,以下概括了用于识别以及将手势与一组预定姿势之一进行关联的过程。还包括在以下概括内容中的是如何将姿势映射到各个输入备选方案,如以上步骤206所示,以便提供与所识别的姿势对应的输入。如果已经计算了手区域的KL定向以及该区域及其凸包的质心,那么可以参照手区域的KL定向,通过这两个质心的位置关系来估计手形状的定向。根据这里概括的本发明实施例,可用的输入备选方案是UP(向上)、DOWN(向下)、RIGHT(向右)、LEFT(向左)、OPEN(打开)、CLOSE(关闭)和STOP(停止)。然而,可以采用其它的输入备选方案。此外,还可以具有能够与所提供的姿势匹配的其它预定姿势。用户可以例如向系统所识别的一组预定姿势提供各个姿势。因此,提供了一种学习系统,能够根据每个用户的选择和偏好对其进行个性化。下面可以描述将输入姿势与参考姿势对象进行匹配的原理通过消除不太可能的备选方案,从预定数目的可用参考对象中选择参考姿势对象,从而选择剩余的最后一个。也就是,例如,已知存在六个不同的备选方案来从中进行选择,那么选择具有最佳对应性的一个。参照图2,对于步骤211中分离的质心和中心点以及步骤212中接近垂直的KL定向的情况,如果在步骤213中质心第一中心点在质心第二中心点以上,则姿势对应于操作DOWN218,而如果在步骤213中质心第一中心点在质心第二中心点以下,则姿势对应于操作UP219。此外,对于步骤211中分离的质心和中心点而在步骤212中却具有接近水平的KL定向的情况,如果在步骤214中质心第一中心点在质心第二中心点的左边,则姿势对应于操作RIGHT220,而如果在步骤214中质心第一中心点在质心第二中心点的右边,则姿势对应于操作LEFT221。为了优化有限数目的姿势的使用,可以将各种输入与单个姿势关联。因此,根据该例,操作CLOSE和STOP都可以与闭合的拳头关联。取决于先前的行为或操作,在步骤217中闭合的拳头的姿势导致不同的操作,例如,如果上一输入是STOP并且上一姿势是张开的手,则导致CLOSE,如步骤223中所示。否则,得到的操作是步骤224所示的STOP.在姿势的凸包的面积是先前姿势的面积的至少两倍(如步骤215所示)并且先前操作是STOP(如步骤216所示)的情况下,那么当前操作是步骤222所示的OPEN。在前一例子中,当最后的操作不是OPEN的情况下,当前操作完全是NO(否)操作,如步骤216所示。5S^隞不同地,如果手区域的KL定向接近水平并且两个质心彼此分离,则姿势意味着LEFT或RIGHT。而在接近垂直的KL定向的情况下,姿势意味着UP或DOWN。然后使用两个质心的位置关系来确定姿势含义。容易理解,两个质心的差别受到伸开的拇指的影响。如果拇指向左伸开,则凸包的质心位于手区域的质心的左边。对于姿势RIGHT、UP和DOWN,19两个质心的位置关系类似于LEFT。另一方面,如果存在手的突出拇指,则凸包的质心将会处于与手区域的质心不同的位置。根据本发明的另一实施例,应用以下规范-使用与UP、DOWN、LEFT和RIGHT相关的姿势来将焦点从一个项目移至另一项目。隱使用OPEN姿势来打开项目,而使用CLOSE姿势来关闭打开的项目。-从姿势顺序的观点来看,CLOSE姿势应当在OPEN姿势之后。然而,如果存在一个或多个其它姿势,例如在UP/DOWN/LEFT/RIGHT之间,则这些姿势被禁用,并且系统将仅接受OPEN/CLOSE姿势。画使用STOP姿势来使得焦点停止在项目上。-STOP姿势和CLOSE姿势具有相同的手势。-如果系统检测到OPEN姿势,则会登记姿势信息,例如手区域大小、手势(OPEN)。直到系统检测到CLOSE姿势,将不接受其它姿势。-对于STOP/CLOSE姿势和OPEN姿势,手区域及其凸包的中心点不必完全地重合,但却几乎重合。-对于CLOSE姿势,手的大小近似小于OPEN姿势的手的大小的两倍。-如果不存在被登记的OPEN姿势,并且如果系统检测到拳头状姿势,则系统将认为它是STOP姿势,而不是CLOSE姿势。项目可以包括文档、文件夹、联系人、收件人、多媒体内容(例如图像、音频或视频序列)、提醒、多媒体消息等。图4将用作说明性例子400,其在a)至f)部分中描述了各个KL定向以及手区域及其凸包的质心。例如,如果手区域的KL定向接近水平407,如图4的a)部分中所示,其中拇指401指向左,并且凸包的质心C2413位于手区域的质心C,414的左边时,那么姿势对应于LEFT符号。在b)部分中,在拇指指向右的情况下,其两个质心4"和416的位置颠倒。如果手区域的KL定向接近垂直409,如图4的c)部分中所示,其中拇指训S指向上,而C2"位于C"18之上时,那么姿势对应于UP符号。在d)部分中,在拇指指向下的情况下,其两个质心419和420的位置颠倒。如果手区域的两个质心d和C2(421和422)几乎重叠,如e)部分中以张开的手405并且基本垂直的KL轴411所描绘的,以及如图4的f)部分中以闭合的拳头406并且基本水平的KL轴412所描绘的,将姿势分别识别为OPEN和STOP。为了区分是将姿势识别为OPEN还是STOP,头的姿势的面积的两倍大小。用于进行区分的;它启发式方^包括在STOP之后应当实现OPEN,而CLOSE应当在OPEN之后,等等。图3描绘了一组预定的固定参考手势300。图3的a)至d)部分示出了拇指指向以下方向的闭合的手a)指向右301,用于指示向右运动;b)指向左302,用于指示向左运动;c)指向上303,用于指示向上运动;d)指向下304,用于指示向下运动。图3的e)部分示出了闭合的手305,用于指示停止或关闭。图3的f)部分示出了张开的手306,用于指示打开或接受。对于运动的指示可以指的是菜单中的操纵、在项目(例如消息、图像、联系人细节、Web页面、文件等)之间的切换,或者滚动通过项目。其它手势(未示出)包括移动手势,例如用食指在空中画勾,用于指示选择;用食指在空中画叉,用于指示对活动对象(例如消息、图像、高亮区域等)的删除。可以将终端分发给终端用户(包括一组预定手势)用户还可以根据需要和个人选择来定义个人手势,或者配置手势与关联行为之间的映射。换句话说,通过提供某些被定义的手势,能够实现用户接口交互。因此,可以将手势用于命令输入以及对字母和数字的录入等。根据一个应用,即媒体库导航,其中使用"Up"来向上移动焦点,使用"Down"来向下移动焦点,使用"Left"来向左移动焦点,使用"Right"来向右移动焦点,"Stop"意味着停止焦点移动,使用"Open"来打开焦点所在的图片,以及^f吏用"Close"来关闭在库中打开的图片。手势还可以用于在图形用户接口上控制对象的移动,例如,在已知的贪吃虫游戏中控制虫子的移动。根据本发明的一个实施方案,通信终端净皮配置以便登记和解释对象的动作(优选地,利用内置式照相机并结合用于登记和分析在其前面的动作/模式的软件)。然后,该终端被配置以便响应于用户的手的预定动作或模式,例如选择和执行一些行为(例如打开和/或关闭媒体内容的项目,访问在项目列表或堆栈中的媒体内容的上一项目或下一项目,删,体内容的项目,滚动通过媒体内容的项目的内容,应答输入语音呼叫),在从项目列表中选择的项目上采取措施,呼叫SMS的发送方,或者结合输入通信(例如SMS(短消息服务)或MMS(多媒体消息传递服务))来采取一些措施。在最后两种所讨论的情况下,先前所提及的动作或模式可以包括可由通信终端解释成删除消息的闭合的拳头,可使用手的斜置(tilting)来到达消息文件夹或列表中的下一消息,向上斜置可指示在列表中前进,并且向下斜置可指示在列表中后退。通过使得手旋转、斜置、绕圏或者来回或上下简单移动,可以将多个行为与不同模式关联。模式还可以包括一系列或一连串的动作。通信终端可^t配置以使z汰别多个预i殳动作。然而,对于用户来说,也可以配置各个动作,或者调节动作以便更好地匹配现有模式。因此,使用接近度检测,利用对象的靠近终端的姿势可以触发终端激活投影仪来呈递输入通信的信息。接近度传感器检测何时有物体接近。在检测到有物体接近时给予开关输出的这样的传感器称为接近度开关。最后,上述发明提供了一种向通信终端提供输入的方便和直观的方式。其很好地适用于结合缩小尺寸的设备来进行提供。特别地,在人的手暴露于液体或其它物质的情形和环境中,其也是方〗更的,从而不需要与终端的直接物理接触。2权利要求1.一种方法,用于响应于登记和解释对象的预定动作或模式,调用通信终端的操作。2.根据权利要求1的方法,其中所述对象包括手,并且所述预定动作或模式包括手势。3.根据权利要求1的方法,其中通过所述终端的軟件来实现对动作或模式的所述解释。4.根据权利要求1的方法,其中所述操作涉及使用手势来向所述通信终端提供命令输入,并且所迷方法包括-捕获所述手势的图像数据201;-在所述图像数据中标识对象202;-将对象识别为手203;-将所述对象的特征识别为所述手的姿势,并将其与来自一组预定参考姿势中的第一参考姿势关联205;-提供与所述参考姿势关联的命令输入206。5.根据权利要求4的方法,其中所述标识涉及对肤色进行分类。6.根据权利要求5的方法,其中所述肤色的分类包括进行高斯混合建模。7.根据权利要求5的方法,其中所述肤色的分类涉及颜色空间分析和/或概率分析。8.根据权利要求7的方法,其中所述颜色空间分析涉及将图像数据转换成色度平面(CbCr)颜色空间图像数据。9.根据权利要求4的方法,其中所述对象识别涉及使用连通分量提取来消除视觉噪声。10.根据权利要求9的方法,其中所述连通分量提取包括以下中的任何一个-确定所述对象的纵横比;-确定与图像大小相比的对象大小;-确定与输入图像的边界相连的区域;并且其中,在满足以下要求的情况下消除所述噪声-所述纵横比在10以内;-所述对象大小大于关于输入图像大小所设置的预定值;以及-存在与所述输入图像的边界相连的仅一个区域,或者存在不满足其它要求的多个区域。11.根据权利要求4的方法,其进一步包括确定所迷手的定向204,以及涉及-确定所iW象的Karhunen-Lo"(KL)轴定向;一确定所i^j"象的第一几何中心点;以及-确定所述对象的凸多边形的第二几何中心点,并且其中,使用所述KL轴的定向来确定所述第一和第二中心点的位置关系。12.根据权利要求11的方法,其中所述定向的确定得出以下之一-如果所述KL轴沿第一方向延伸,并且所述第一和第二中心点在基本沿所述第一方向的第一移置方向上相对于彼此被移置,则进行第一操作;-如果所迷KL轴沿所述第一方向延伸,并且所述第一和笫二中心点在基本沿所述第一方向的所述移置方向上相对于彼此乱良向移置,则进行第二操作;-如果所述KL轴沿基本垂直于所述第一方向的笫二方向延伸,并且所迷第一和第二中心点在基本沿所述第二方向的第二移置方向上相对于彼此被移置,则进行第三操作;-如果所述KL轴沿所述第二方向延伸,并且所述第一和第二中心点在基本沿所述第二方向的所述移置方向上相对于彼此净it良向移置,则进行第四操作;-如果所述中心点基本重合,并且所述姿势的所述对象的第一面积小于先前所识别姿势的先前所确定对象的第二面积的至少一半,则进行第五搮作;-如果所述中心点基本重合,所述姿势的所迷对象的笫一面积大于先前所识别姿势的先前所确定对象的第二面积的至少两倍,并且所述姿势对应于所述先前所识别姿势,则进行第六操作;-如果所述中心点基本重合,所述姿势的所述对象的笫一面积大于先前所识别姿势的先前所确定对象的第二面积的至少两倍,并且所述姿势不对应于所述先前的姿势,则进行第七操作。13.根据权利要求12的方法,其中所述第一、第二、第三和第四操作分别对应于向上、向下、向左和向右移动焦点,所述第五、第六和第七操作分别对应于打开项目、关闭项目和停止焦点动作。14.根据权利要求1的方法,其中使用所述通信终端的照相机来实现所述登记。15.根据4又利要求1的方法,其中所述通信终端是移动电话。16.根据权利要求l的方法,其进一步包括步骤通过接近度检测来进行激活。17.—种具有计算机可执行组件的计算机可读介质,其包括所述计算机可读介质适于响应于登记和解释对象的预定动作或模式,调用通信终端的操作。18.根据权利要求17的计算机可读介质,其进一步适于-接收输入;-捕获所述对象的图像数据;-在所述图像数据中标识所述对象;-将所迷对象识别为手;-将所述对象的特征识别为所述手的姿势,并将其与来自一组预定参考姿势中的第一参考姿势关联;-提供与所述参考对象关联的命令输入。全文摘要本发明涉及一种方法,其用于响应于登记和解释对象的预定动作或模式,调用通信终端的操作。其进一步涉及在其中实现本发明的计算机可读介质。文档编号G06F3/01GK101517515SQ200780035358公开日2009年8月26日申请日期2007年9月24日优先权日2006年9月28日发明者H·鲁,Q·刘,R·塔卡拉,Y·方,汪孔桥申请人:诺基亚公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1