用于语音和视频通信的增强接口的制作方法

文档序号：8004814阅读：234来源：国知局

用于语音和视频通信的增强接口的制作方法【专利摘要】本发明涉及用于语音和视频通信的增强接口。一种用于语音和视频通信的增强的接口，其中，从一系列相机图像中识别用户的姿态，并且提供包含控件和所述用户的表示的用户接口。所述过程还包括基于所识别的姿态使所述表示与所述控件交互作用，并基于所述交互作用控制电信会话。【专利说明】用于语音和视频通信的增强接口[0001]分案申请的相关信息[0002]本申请为发明名称为“用于语音和视频通信的增强接口”的原中国发明专利申请的分案申请。原申请的申请号为200880117393.7;原申请的申请日为2008年9月23日；原发明专利申请案的优先权日:为2007年9月24日。[0003]相关申请的交叉引用[0004]本申请要求2007年9月24日提交的N0.60/974,774号美国临时专利申请的优先权，并通过引用将其包含于此。【
技术领域：
】[0005]本公开涉及用户输入机制，并且至少一种具体配置涉及用户输入机制，该用户输入机制被配置成使用户能够控制语音和视频通信。【
背景技术：
】[0006]各种基于语音的电子控制系统可以允许用户和计算机应用程序或者其他的语音或者视频应用程序交互作用(interact)。但是，这些系统仅勉强适用于输入文本、数字，或者适用于从大量选项中进行选择。【
发明内容】[0007]根据一个一般性实施方式，用户可以通过执行各种规定的姿态控制通信会话，例如电话会议会话。通过在各种时间访问用户的图像，姿态被自动识别并映射到控件输入(controlinput)，例如用于开始或者终止电信会话的输入，或者用于将会话置于各种状态的输入。在其他的特征中，接口(interface)可以显示最初环绕所识别的用户的表示(representation)(例如,化身)的定制图标，通过用户身体的直率、直观和自然的运动来实现对人物(characters)命令的轻松选择。[0008]根据另一个一般性实施方式，一种计算机实施的过程包括从一系列相机图像中识别用户的姿态，并提供包括控件(control)和用户的表示的用户接口。所述过程还包括基于所识别的姿态使所述表示与控件交互作用，并基于所述交互作用控制电信会话。[0009]实施方式可以包括下列特征中的一个或多个。例如，控制电信会话还可以包括把电信会话从第一状态改变到不同的第二状态(aseconddifferentstate),并且第一或第二状态可以包括待机状态、通知状态、呼出(outgoing)呼叫状态、连接状态、静音状态、菜单状态、连接选项状态、直接拨号状态、重新拨号状态、搜索状态、浏览状态、消息菜单状态、消息回放状态，或者配置状态。电信会话还可以包括语音和视频电信会话。[0010]在额外的示例性实施方式中，控制电信会话还可以包括基于识别出接合姿态(engagementgesture)而把电信会话从待机状态改变到呼叫或者菜单状态。所述过程还可以包括确定用户的身份，并且基于所确定的身份使能(enabling)控件。所述过程可以包括只有所确定的用户身份和预期的(intended)呼叫接收者匹配才把电信会话从连接状态改变到呼叫状态。所述过程可以包括确定图像内的用户的身份，并基于所确定身份中的至少一个使能或者禁止(disabling)控件。[0011]在进一步的示例性实施方式中，控制电信会话可以包括基于识别出解除接合姿态(disengagementgesture)而把电信会话改变到待机状态。所述过程可以包括把相机图像之一聚焦在用户上，其中聚焦相机图像之一可以包括使相机焦点保持在正在移动的用户上，或者使相机图像之一以用户为中心。所述过程可以包括定位(localizing)音频以聚焦在用户上。识别用户的姿态可以包括识别在第一用户已经执行了第一接合姿态以后第二用户已经执行了第二接合姿态，并且控制电信会话可以包括基于识别出第二用户已经执行了第二接合姿态而把焦点改变到第二用户。[0012]在其他的示例性实施方式中，所述过程可以包括确定第一用户是否已经放弃(relinquished)焦点,只有第一用户已经放弃焦点，所述焦点才可以被改变。确定第一用户是否已经放弃焦点可以包括确定第一用户是否已经结束讲话，或者确定第一用户是否已经执行了放弃姿态。所述过程可以包括确定用户的身份，其中，控制电信会话还包括在浏览状态中显示与所确定的身份相关联的联系人集合(asetofcontacts),或者把所确定的用户身份传送到由用户设定的(placed)呼叫接收者。[0013]根据另一个一般性实施方式，一种设备包括被配置成从一系列相机图像中识别用户的姿态、并提供包括控件和用户的表示的用户接口的处理器。所述处理器还被配置成基于所识别的姿态使所述表示与控件交互作用，并基于所述交互作用控制电信会话。[0014]根据另一个一般性实施方式，一种计算机可读介质用计算机程序编码。所述计算机程序包括当被执行时，操作以使计算机执行操作的指令，所述操作包括从一系列相机图像中识别用户的姿态，并提供包括控件和用户的表示的用户接口。所述操作还包括基于所识别的姿态使所述表示与控件交互作用，并基于所述交互作用控制电信会话。[0015]根据另一个一般性实施方式，一种系统包括一个或多个计算机和耦合到所述一个或多个计算机的计算机可读介质。所述计算机可读介质具有存储于其上的指令，所述指令在被所述一个或多个计算机执行时使所述一个或多个计算机执行操作，所述操作包括从一系列相机图像中识别用户的姿态，并提供包括控件和用户的表示的用户接口。所述操作还包括基于所识别的姿态使所述表示与控件交互作用，并基于所述交互作用控制电信会话。[0016]下面在附图和描述中阐述了一个或多个实施方式的细节。从所述描述、附图和权利要求，本公开的其他潜在特征和优点将会清楚。【专利附图】【附图说明】[0017]图1是示出了增强的基于相机的输入的概念图。[0018]图2是用来实施增强的基于相机的输入的设备的框图。[0019]图3示出了设备的部件的配置。[0020]图4示出了使用增强的基于相机的输入的示范性过程。[0021]图5到图7示出了包括用户的表示的接口的例子。[0022]图8和图9示出了触摸图形的用户的表示的例子。[0023]图10示出了用于选择项目的接口的例子。[0024]图11到图29示出了沿着引导线对齐的项目的示范性选择。[0025]图30是示出了系统的状态的流程图。[0026]图31描绘了通知用户接口的例子。[0027]图32示出了包括执行接合手姿态的用户的相机图像的例子。[0028]图33示出了包括执行解除接合手姿态的用户的相机图像的例子。[0029]图34示出了包括多个坐在会议桌旁的人的相机图像的例子。[0030]图35到图36示出了通过剪裁和缩放相机图像聚焦在用户上的例子。[0031]图37示出了把焦点从第一用户改变到第二用户的相机图像的例子。[0032]图38示出了菜单状态用户接口的例子。[0033]图39示出了直接拨号状态用户接口的例子。[0034]图40到图41示出了重新拨号状态用户接口的例子。[0035]图42示出了连接选项和信息状态用户接口的例子。[0036]图43示出了消息回放状态中的用户接口的例子。[0037]图44示出了根据另一个一般性实施方式的示范性计算机处理系统的部件。【具体实施方式】[0038]使用这里描述的增强的方法，用户可以通过执行各种规定的姿态来控制通信会话，例如电话会议会话。通过在各种时间访问用户的图像，姿态被自动识别并映射到控件输入，例如用于开始或者终止电信会话的输入，或者用于将会话置于各种状态的输入。在其他的特征中，接口可以显示最初环绕所识别的用户的表示(例如，化身)的定制图标，通过用户身体的直率、直观和自然的运动来实现对人物命令的轻松选择。[0039]因此，描述了允许用户使用相机追踪(tracking)来控制语音和视频通信的方法。例如，这种方法可以在会议室环境(setting)中使用，其中，通信系统在物理上可以在用户所及之外，或者在用户可能希望显得如同在商业环境中那样的另一位置。例如，这种方法也可以在起居室环境中使用，其中，坐在沙发上的用户可以和包括在电视或者其他显示设备上显示的接口的通信系统交互作用。[0040]所述方法可以从一系列相机图像中识别用户的姿态，并提供包括控件和用户的表示的用户接口。基于所识别的姿态，系统可以使所述表示与控件交互作用，然后基于所述交互作用控制电信会话。[0041]例如，系统可以包括手姿态(handgesture)识别过程，该手姿态识别过程被配置成检测用户的手姿态，并基于所检测的手姿态执行功能。例如，用户可能通过执行手、上臂或者身体“接合”姿态来应答呼入(incoming)呼叫。在多个用户参与呼叫的实施方式中，用户可以通过执行相同或者不同的姿态来获取或者改变焦点，例如“解除接合”姿态、“改变焦点”姿态或者“释放控制”姿态。[0042]图1是示出增强的基于相机的输入的上下文说明图。图1包括起居室102的视图。用户104(即，“BOB”)不正式地着装，并且正坐在起居室102中的沙发上，和孩子106相邻。用户104和孩子106正坐在显示器108(例如，电视屏幕)的前面，并且在接到呼叫之前可能正在观看节目或者在玩视频游戏。[0043]显示器108连接到媒体集线器110。媒体集线器110被配置成接受呼入电话或者视频会议呼叫。媒体集线器Iio连接到相机112(例如，网络摄像头)，或者另外包括相机112。在这个实施方式中，显不器108包括扬声器113。在其他的实施方式中，扬声器113被包括在媒体集线器中，或者在媒体集线器和显示器108外部(例如，电视扬声器)。媒体集线器110还包括或者另外连接到用于接收和数字化环境声音的麦克风。[0044]在这个例子中，媒体集线器110检测呼入呼叫并通过音频和/或视频消息警告用户104。在这个例子中，当扬声器113输出指示“呼入呼叫:董事会”的音频时，用户104被警告呼入呼叫来自该用户公司的董事会。例如，通过将文本转语音(text-to-speech)能力施加于呼叫者ID系统，或者通过其他机制，可以产生这样的警告。当进行正式的电话会议时，虽然BOB的非正式着装和周边环境本可能让他担心，但是这里描述的增强的方法通过产生隐藏他的非正式着装和周边环境的视觉化身(visualavatar)解决了这些问题,或者以更适当的可视化来代替。[0045]响应于检测到呼入呼叫，用户接口120可以被示出在显示器108上，可以替换、或者部分或完全地覆盖用户104在接收到呼叫之前正在显示器108上观看的视频内容。用户接口120包括用户表示121。在这个例子中，用户表示121是一种化身，其显示了被相机112在相机视场的区(region)124中捕获的用户104的面部122。[0046]尽管用户104未穿着工作装，但是在用户接口120中用户表示121被示出为穿着正装和领带。用户表示121的外观(appearance)(例如,化身的外观)可以被基于呼叫者的身份、一天中的时间、用户喜好、或者其他因素而改变。例如，根据用户设置，用户表示可以被配置成看起来更像用户104或者不像用户104。在更极端的例子中，用户表示121可以穿着燕尾服，或者比用户104实际上穿着的更不正式的服装(S卩，游泳衣)。此外，用户的面部122或者其他身体部分也可以被改变，例如显得更瘦，具有不同的发型和风格，去除附属物(即，手饰)，或者具有完全不同的样子(即，怪兽、外星人、卡通人物、另一个人的样子，或者任何其他外表)。[0047]用户接口120包括项目126-132的表示。项目126-132可以沿着引导线134对齐(aligned)。引导线134可以显示或者不显示。[0048]响应于用户104的运动或者姿态而控制用户表示121。例如，当用户104抬起其左上臂136时，用户表示121的左上臂138被以对应的方式抬起。在其他的例子中，用户的运动和用户表示的运动可以被镜像(miriOred)。用户104可以移动其上臂136以使用户表示121的手140移动靠近或者覆盖项目126-132之一。例如,手140可以覆盖“接受呼叫”项目130，导致与该项目130的交互作用。作为与“接受呼叫”项目130交互作用的结果，呼入呼叫被接受。[0049]图1包括会议室150的视图。呼叫者152(即，“JANE”)正和其他人一起站在会议室150中，其中，呼叫者152正使用类似的系统执行类似的姿态以调用呼叫。作为用户104接受来自呼叫者152的呼入呼叫的结果，用户表示121的图像154现实在安装在会议室150中的显示器156上。图像154以用户104为中心(centeredaround),而不显示起居室102中的其他人(即，孩子106)。显示器156以及相机158和麦克风可以连接到位于会议室150中的媒体集线器。[0050]在显示器108上示出被相机158捕获的呼叫者152的表示160。在扬声器113上播放由会议室中的麦克风捕获的呼叫者152的语音的音频(即，“嗨，Β0Β，我是JANE”)。显示器108的插页(inset)162显示用户接口120，允许用户进一步控制通信，例如切断呼叫或者使呼叫静音。[0051]用户接口120还包括菜单按钮170、用户设置按钮172、擦除(erase)按钮174、自动完成按钮176、处于禁止状态的按钮178、拨号按钮180和文本区域(area)182。可以选择菜单按钮170以显示额外的特征。可以选择用户设置按钮172来配置特定于用户104的设置。例如，面部检测和识别过程可能已经识别了用户104。[0052]用户104可以把电话号码或者联系人姓名或者文本消息输入文本区域182。例如，沿着引导线134可以显示字母的表示，并且被选择的字母可以显示在文本区域182中。用户可以选择拨号按钮180来把呼叫连接到在文本区域182中显示的电话号码或者联系人。可以选择自动完成按钮176来接受先前拨号的号码或者与文本区域182中显示的文本部分地匹配的联系人姓名。用户可以选择擦除按钮174以便从文本区域182擦除字符。[0053]用户104可以选择语音邮件项目126以便导航到语音邮件特征。可以选择忽略项目128以忽略呼入呼叫。例如，可以选择转移到办公室项目132以便把呼入呼叫转移到办公室分机。[0054]按钮178可能因检测到存在孩子106或者出于另外的原因而处于禁止状态。例如，如果在相机112的视场内检测到孩子，则快速拨号或者长途拨号功能或者对面向成人的内容的访问可以被禁止。在另一个例子中，和按钮178相关联的功能可以被通信提供商禁止，例如，在文本消息服务正在维修的情况下或者服务被暂停的情况下。[0055]图2是用来实施增强的基于相机的输入的设备200的框图。简单地说，除了其他事物，设备200至少包括用户接口201、存储介质202、相机204、处理器205、麦克风206、一个或多个扬声器207和网络接口208。某些元件或者它们的相关功能可以被组合。[0056]在图3中示出了设备200的部件的示例性物理配置，其中，相机301和麦克风302被连接到处理器303并放在显示器104上方。扬声器305附着于显示器304，并且处理器303连接到网络306。[0057]往回参考图2，处理器205可以被包括在PC(个人计算机)、有线电视接收机、视频游戏控制台、电话或者其他类型的设备中。处理器205可以被包括在任何类型的电子设备中，并且可以和多个处理器结合操作。相机204捕获或者另外产生可被传送到处理器205的相机图像。处理器205可以使用贯穿本公开描述的技术来处理相机图像。[0058]麦克风206可以是全方向的或者单方向的，并接受过滤和未过滤的可听(audible)输入，并且可以产生被传送到处理器205的声音数据。处理器205可以产生用于在用户接口201上呈现(rendering)的用户界面，并且处理器205也可以产生被传送到扬声器207并由其转换为声音的音频数据。[0059]使用设备200，增强的基于相机的输入可以用来帮助与用户接口的控件进行交互作用，例如以允许由用户选择项目。和控件的交互作用不要求用户在手中持有例如逆向反射器、陀螺设备的任何专用(specialized)对象或者遥控器，而是直观地把上臂或者手运动映射到光标或者其他输入。基于系统的具体的期望配置，可以使用专用对象。[0060]用户接口201是用于允许用户和设备或者该设备调用的应用程序交互作用的机制。用户接口201可以实现输入和输出，允许用户操纵设备或者使设备产生用户操纵的效果。设备200可以利用任何类型的用户接口201，例如图形用户接口(GUI)、语音用户接口或者触摸或触觉用户接口。[0061]用户接口201可以被配置成呈现视觉显示图像。例如，用户接口201可以是监视器、电视、液晶显示器(LCD)、等离子体显示设备、具有投影仪屏幕的投影仪、自动立体显示器、阴极射线管(CRT)显示器、数字光处理(digitallightprocessing,DLP)显示器,或者任何其他类型的被配置成呈现显示图像的显示设备。用户接口201可以包括一个或多个显示设备。在某些配置中，用户接口201可以被配置成显示和应用程序相关联的图像，例如由应用程序产生的显示图像，包括控件和例如化身的对象。存储介质202存储和记录信息或者数据，并且可以是光学存储介质、磁性存储介质、快闪存储器，或者任何其他存储介质类型。[0062]相机204是用来捕获图像的设备，所述图像或者作为静态照片，或者作为一系列运动图像。相机204可以使用可见频谱的光或者具有电磁频谱的其他部分，例如红外线。例如，相机204可以是数码相机、数码摄像机，或者被配置成捕获图像的任何其他类型的设备。相机204可以包括一个或多个相机。在某些例子中，相机204可以被配置成捕获和应用程序交互作用的用户或者对象的图像。例如，相机204可以被配置成在相机204的视场内在身体上与应用程序交互作用的人或者用户的图像。[0063]相机204可以是立体相机、飞行时间(time-of-flight)相机，或者任何其他相机。例如，相机204可以是能够采样背景图像以便检测用户的运动和类似地检测用户的姿态的图像检测器。相机204可以产生灰度图像、彩色图像，或者距离图像，例如能够产生距离图像的立体相机或者飞行时间相机。立体相机可以包括两个在略微不同的视点获取图像的图像传感器，其中，处理器比较从不同的视点获取的图像以计算图像的部分的距离。飞行时间相机可以包括产生光脉冲的发射器，所述光可以是红外光，其中，测量光脉冲从发射器传播到目标并回到传感器的时间以计算图像的部分的距离。[0064]设备200通过有线或者无线路径被电连接到相机204和用户接口201，并被配置成控制处理器205的操作，以提供基于相机的输入。在一种配置中，设备200使用处理器205或者其他的控制电路来执行提供给增强的基于相机的输入的应用程序。具体来说，设备从相机204接收输入，并处理所接收的输入以计算用户接口201中的用户的表示的位置和移动，并基于这些移动与控件交互作用。[0065]在一个示例实施方式中，通过使用相机检测执行姿态的用户的图像而产生输入。例如，移动电话可以被放在桌子上，并且可操作以产生使用面朝前方相机(face-forwardcamera)的用户的图像。或者，使用相机204可以检测或者识别姿态，例如通过使用光流(opticalflow)或者某种其他方法检测“向左倾斜”姿态，并使用这个检测的姿态把用户的表示向左移动并选择被布置在控件左侧的项目，或者通过检测“向右前倾斜”姿态以便把用户的表示向中间(neutral)位置的上和右移动，以选择被布置在控件右上侧的项目。[0066]因此，相机204还可以包括某个其他类型的能够检测设备200的角位置的输入设备或者模块，例如陀螺仪、加速度计或者光流追踪器，或者被它们代替。在这个方面，相机可以用倾斜传感器输入补充或者代替，以执行用户期望的功能或者命令。因此，用户姿态的检测可以不使用相机来进行。通过例如在用户接口上对控制可视化的、以相同种类的比划图案(strokepattern)移动所述设备，使用户能够以直率、直观和视觉愉悦和刺激的方式控制相同的接口或者应用程序。[0067]麦克风206可以包括多个可操作以便在空间上定位声音的传感器。麦克风206可以包括过滤过程，所述过程可操作以便抑制背景噪声并取消回声。麦克风206可以是用户接口201的一部分，例如计算机监视器包括搭载的(on-board)麦克风的情况，或者，可以与用户接口201分离，例如具有内置(built-1n)麦克风的网络摄像头被连接到计算机监视器上的USB端口的情况。音频扬声器207可操作以产生声音。和麦克风206类似，音频扬声器207可以是用户接口201的一部分，或者可以与用户接口201分离。[0068]处理器205可以在网络接口208上连接一个或多个网络。处理器205可以连接到能够把音频或视频通信传送到其他系统的计算机、电话或者视频网络(例如，因特网、网际协议语音(VoiceoverInternetProtocol,VOIP)、公共交换电话网络(publicswitchedtelephonenetwork,PSTN)、电话会议服务,或者有线电视服务)。网络可以包括例如以下中的一个或多个:因特网、广域网(WAN)、局域网(LAN)、模拟或者数字的有线和无线电话网络(例如，PSTN、综合业务数字网络(IntegratedServicesDigitalNetwork,ISDN)和数字订户线(DigitalSubscriberLine,xDSL))、广播、电视、有线电视、卫星,和/或任何其他的用于携带数据或者VOIP服务的传递或者隧道机制。[0069]网络还可以包括电路交换语音网络、分组交换数据网络，或者任何其他能够携带语音通信的网络。例如，电路交换语音网络可以包括PSTN，并且分组交换数据网络可以包括基于网际协议(IP)、X.25或者帧中继或者其他相当的(comparable)技术的网络，并且可以使用例如VOIP或者其他相当的用于语音数据通信的协议支持语音。网络可以包括多个网络或者子网络，它们中的每一个均包括例如有线或者无线数据路径(pathway)。[0070]数据200可以实施协助语音和视频通信的过程。例如，处理器205可以执行与语音和视频通信相关的应用程序，并在用户接口201上呈现允许用户与和语音和视频通信相关的应用程序交互作用的界面。[0071]设备200可以实施音频数据解压缩过程。来自远程用户的语音可以在网络上作为压缩数据传送，所述压缩数据在被扬声器207转换为声音之前被解压缩。音频数据解压缩过程可以利用音频压缩方法，例如码激励线性预测(CodeExcitedLinearPrediction,CELP)、先进音频编码(AdvancedAudioCoding,AAC),或者其他方法。[0072]设备200可以实施视频数据解压缩过程。远程用户的视频可以在网络上作为压缩数据传送，所述压缩数据在被用户接口201显示之前被解压缩。视频解压缩过程可以利用视频压缩方法，例如国际电信联盟(InternationalTelecommunicationsUnion,ITU)Η.323、Η.264、运动画面专家组(MovingPictureExpertsGroup)MPEG-2、MPEG-4,或者其他方法。[0073]设备200可以实施音频回声取消过程。回声取消(echocancellation)可以包括声学回声取消。当扬声器207产生的声音被麦克风206感测到(sensed)时，可能出现声学回声。因此，来自远程用户的在网络上传送并通过扬声器207播放的语音可能被麦克风206感测，并在网络上传送回远程用户。这是不期望的。声学回声可能受到扬声器207、麦克风206和环境(例如房间的混响或声学性质)的特性的影响。[0074]声学回声取消过程可以包括:采样参考音频信号、使用扬声器从参考音频信号中产生声音、使用麦克风感测由扬声器产生的声音，并采样由麦克风感测的声音作为第二音频信号。补偿扬声器、麦克风和环境的特性的影响的预测参考音频信号可以被产生并与第二音频信号进行比较。可以从第二音频信号去除(remove)预测参考音频信号以产生回声被抑制或者消除(eliminate)的第三音频信号。本公开并不局限于特定的回声取消过程，也可以使用其他回声取消技术。[0075]设备200可以实施音频数据压缩过程。来自本地用户的由麦克风感测并被回声取消过程处理过的语音可以被压缩，并在网络上作为压缩数据传送到远程用户。音频数据压缩过程可以利用音频压缩方法，例如码激励线性预测(CodeExcitedLinearPrediction,CELP)、先进音频编码(AdvancedAudioCoding,AAC),或者其他方法。[0076]系统可以实施视频数据压缩过程。本地用户的由相机捕获的视频可以被压缩，并在网络上作为压缩数据传送到远程用户。视频压缩过程可以利用视频压缩方法，例如国际电信联盟(InternationalTelecommunicationsUnion,ITU)H.323、H.264、运动画面专家组(MovingPictureExpertsGroup)MPEG_2、MPEG-4,或者其他方法。[0077]处理器205可操作以执行几个相机追踪过程，包括手姿态识别过程、面部检测过程、面部识别过程、用户位置过程、产生用户的表示的过程，以及把用户位置与应用程序产生的项目比较的过程。这些过程中的一些是可选的，或者可以被组合。系统不局限于这些过程，并且可以执行其他过程来实施贯穿本公开描述的技术。[0078]在某些实施方式中，处理器205可操作以执行几个语音和视频通信过程，包括音频解压缩过程、视频解压缩过程、音频回声取消过程、音频压缩过程和视频压缩过程。用于协助语音和视频通信的一些或者全部过程可以由处理器205执行。或者，处理器205可以和执行通信操作的外部设备进行通信。[0079]尽管设备200已经被描述为个人计算机(PC)或者机顶盒，但是仅仅是为了简洁的目的才做出这样的描述，并且其他的实施方式或者表现形式也是可以预期的。例如，设备200可以被实施为电视、音乐播放器、数码相框、超移动个人计算机(ultra-mobilepersonalcomputer,UMPC)、移动因特网设备(mobileinternetdevice,MID)、数码相框(digitalpictureframe,DPF)、便携式媒体播放器(portablemediaplayer,PMP)、通用或者专用计算机(例如台式计算机、工作站或者膝上型计算机)、服务器、游戏设备或者控制台，或者任何其他类型的包括处理器或者其他被配置成执行指令的控制电路的电子设备，或者任何其他的包括用户接口的装置。[0080]图4示出了用于控制电信会话的示范性过程400。简单地说，过程400包括:从一系列相机图像中识别用户的姿态、提供包括控件和用户的表示的用户接口、基于所识别的姿态使所述表示与控件交互作用，并基于所述交互作用控制电信会话。也可以使用其他的过程，并且过程400可以按不同于所示的顺序发生，或者可以包括更少或者更多的操作。[0081]更详细地，当过程400开始时(S401)，从一系列相机图像中识别用户的姿态(S402)。例如，可以监控一个或多个相机图像以识别手姿态或者利用其他对象或者身体部分做出的姿态。例如，相机可以捕获与在显示设备上显示的接口交互作用的用户的一个或多个图像。处理器可以访问被相机捕获的图像，并通过处理图像识别手姿态。[0082]如这里通篇所使用的，“姿态”(gesture)意指利用整个或者部分人体或者多个人体做出的非语言通信的形式，并且和例如讲话的语言通信相反。例如，姿态可以由第一位置、姿势(pose)或者表情和第二姿势、位置或者表情之间的移动、变化或者变形来定义。示例的姿态包括例如“空中引号”姿态、鞠躬姿态、屈膝礼、吻脸颊、手指或者手运动、屈膝、摇头或者移动、庆祝成功的击掌、点头、悲伤面孔、举起的拳头、敬礼、猛击或者挥舞运动、竖大拇指运动、手画圆圈或者挥手姿态，或者手指指向姿态。[0083]因此，从一系列图像，可以导出定义用户的主意、见解、情绪、沟通、命令、演示或者表情的姿态。例如，用户的姿态可以是单个或者多个手指姿态、单个手姿态、单个手和上臂姿态、单个手和上臂和身体姿态、双手姿态、头姿势或者体位(posture)的变化、眼睛位置的变化、面部表情的变化、身体姿势或者体位的变化，或者任何其他有表现力的身体状态的变形。[0084]为了简洁，用来执行相关姿态的身体部分一般被称为“控制对象”。例如，用户可以使用其整个身体或者利用其他物理对象表达命令，在这种情况下，其他们的整个身体或者其他的物理对象可以是控制对象。用户可以通过眨他们的眼睛、通过张开其鼻孔，或者通过摆动手指来更巧妙地表达命令，在这种情况下，眼皮、鼻子或者手指可以是控制对象。单个图像或者两个图像之间的用户姿态可以表达使能或者“接合”姿态。控制对象也可以是物理设备，例如红外手指灯、逆向反射器、或者遥控器。[0085]识别手姿态的过程可以包括分析运动。分析运动可以包括:从一系列相机图像中计算光流图、聚类(clustering)具有类似方向和大小的运动的流图(flowmap)的区,和在一个时间段内聚类的(clustered)运动和统计模型(例如隐式马可夫模型)进行比较，以便把运动分类为姿态。运动是外观和位置不变的，因此，可以在红外相机图像序列上被检测到(例如其不取决于皮肤颜色)。在其中在红外相机图像序列中检测运动的实施方式中，可以在低环境光中检测姿态。当用于能够测量距离的相机时(例如立体相机或者飞行时间相机)，运动分析可以使用二维运动或三维运动。[0086]识别手姿态的过程可以包括分析颜色。分析颜色可以包括把相机图像和颜色模型进行比较，识别相机图像的具有符合人类皮肤的颜色的部分，聚类相机图像的具有符合人类皮肤的颜色的那些部分，并且如果聚类满足一组尺寸和形状标准，则把其分类为手。分析颜色还可以包括把聚类形状和一组手姿势(handpose)标准进行比较，以便把手姿势分类为手姿态。另外，分析颜色可以包括在一个时间段内产生手聚类位置的路径(path)，并把所述路径和统计模型进行比较以便把运动分类为姿态。[0087]识别手姿态的过程可以包括分析特征。分析特征可以包括识别相机图像内的基本形状特征(例如边缘)，并识别可能对应于手的特征集合。特征的空间结构可以被和统计模型进行比较，以便把手姿势或者手移动分类为姿态。[0088]识别手姿态的过程还可以包括把手位置和面部(或者身体)位置进行比较，并使用相对手位置。面部位置可以通过面部检测过程来确定，并且可以使用相对于所检测的面部的手位置来检测姿态或者其他输入命令。[0089]识别手姿态的过程可以包括运动、颜色和形状技术的组合。本公开并不局限于特定的手姿态检测过程，也可以使用其他用于检测手姿态或者其他的输入命令的技术。[0090]系统可以实施检测一个或多个相机图像内的面部的过程。面部检测过程可以确定一个或多个相机图像内的人面部的位置、尺寸，或者其他的物理特性。[0091]检测相机图像内的面部的过程可以包括分析颜色。分析颜色可以包括把相机图像和颜色模型进行比较，识别相机图像的具有符合人类皮肤的颜色和面部特征的部分，聚类相机图像的具有符合人类皮肤的颜色和面部特征的那些部分，并且如果聚类满足一组尺寸和形状标准，则把其分类为面部。[0092]检测相机图像内的面部的过程可以包括分析特征。分析特征可以包括识别一个或多个相机图像内的特征(例如边缘或者梯度)，并识别可以对应于面部的特征集合。本公开并不局限于特定的面部检测过程，也可以使用用于检测面部的其他技术。[0093]所述系统可以实施在一个或多个相机图像内识别面部以识别特定用户的过程。例如，处理器103可以分析由相机101捕获的图像以检测位于相机101前面的用户的面部。在检测面部之后，处理器103可以分析所检测的面部来确定所检测的面部是否属于可识别或者已知的用户。[0094]在相机图像内识别面部的过程可以包括选择图像的检测到面部的部分，并且把图像的该部分和模板进行比较。所述系统可以包括用户的模板。可以在配置状态中使用下面更详细地描述的技术产生所述模板。[0095]在使用了测程相机(例如立体相机或者飞行时间相机)的情况下，识别相机图像内的面部的过程可以包括使用三维面部识别过程。三维面部识别过程可以包括选择图像的检测到面部的部分(例如使用面部检测过程的结果)，产生所检测的面部的三维模型(例如网格数据)和纹理模型，并把所述三维模型和纹理模型和用户的模板进行比较。在配置状态中可以使用在下面更详细地描述的技术产生所述模板。[0096]在相机图像内识别面部的过程可以包括使用本征图像(eigenimage)过程。本征图像面部识别过程可以包括选择图像的检测到面部的部分(例如使用面部检测过程的结果)，计算协方差矩阵，计算所述协方差矩阵的本征向量(eigenvector)和本征值(eigenvalue),执行主(principal)成分分析以选择主成分并减少本征向量和本征值的维度，把作为结果的本征图像数据和预先定义的本征图像数据集合进行比较以产生在所检测的面部和预先定义的本征图像数据集合中的面部之间的相似性测量集合，并执行统计分析来把本征图像分类为特定用户的面部。统计分析可以利用在训练过程期间产生的数据，在配置状态中可以使用在下面更详细地描述的技术执行所述训练过程。本公开并不局限于特定的面部识别过程，也可以使用用于识别面部的其他技术。[0097]所述系统可以实施识别相机图像的与用户相关联的部分的过程。用户位置可以包括一个或多个用户的手的位置。或者，用户位置可以包括用户的身体或者用户的面部的位置。用户位置可以包括用户的形状的描述(例如剪影或者轮廓)。用户位置可以包括分割数据(segmentationdata),所述分割数据对于相机图像的每一个像素,把像素分类为前景(例如用户的一部分)或者背景，并且用户位置过程可以包括产生被分割的相机图像的过程。[0098]被分割的相机图像可以是色度键控(chromakeyed)相机图像。可以获取正站在彩色背景前面的用户的色度键控相机图像。在某些实施方式中，色度键控过程识别相机图像的颜色与背景的颜色匹配的部分，并把那些部分分类为背景。相机图像的颜色偏离背景的颜色的部分有可能是用户的部分，并且被分类为前景。[0099]色度键控过程可以包括产生背景的颜色模型。颜色模型可以定义代表背景的颜色的范围。色度键控过程可以包括把图像和颜色模型进行比较，并且如果每一个像素的颜色值落入由颜色模型指示的颜色范围内，则把所述像素分类为背景，否则分类为前景。[0100]色度键控过程还可以包括过滤过程，以减少噪声并改变较小的孤立聚类(smallisolatedcluster)的分类(例如，去除背景中可能被分类为前景的孤立部分，并填充前景中的孔洞)。过滤过程可以包括卷积核(convolutionkernel)。[0101]被分割的相机图像可以是深度键控相机图像。深度键控相机图像通常由能够确定距离的相机(例如立体相机或飞行时间相机)获取。飞行时间相机的例子包括由Canesta生产的飞行时间相机，其中红外发射器发射红外光脉冲，并且光学传感器测量光传播到目标并回到相机所花费的时间。飞行时间相机基于测得的时间来计算目标的距离。[0102]立体相机的例子包括由Tyzx生产的立体相机，其中，立体相机包括从多个视点捕获场景的图像的多个光学传感器，并且比较所述多个图像以确定在多个视点之间目标位置上的差距。立体相机基于所确定的差距来计算目标的距离。[0103]基于在图像的部分中包括的目标的距离，可以把图像的部分分类为前景和背景。分类过程可以包括把距离和阈值进行比较，藉此，如果距离比阈值短，则把该部分分类为前景，并且如果距离比阈值长，则把该部分分类为背景。例如，分类过程可以包括把距离和背景模型进行比较，其中背景模型代表没有用户的场景部分(例如地板和家具)的深度。在这个例子中，如果距离比模型的对应部分短，则分类过程可以把部分分类为前景，并且如果距离等于模型的对应部分或者比模型的对应部分长，则把部分分类为背景。[0104]深度键控过程还可以包括过滤过程，以减少噪声和改变较小的孤立聚类的分类(例如，去除背景的可能被分类为前景的孤立部分，并填充前景中的孔洞)。过滤过程可以包括卷积核。[0105]被分割的相机图像可以使用背景模型来分割。可以获取正站在任意静态背景前面的用户的色度键控相机图像。相机图像可以和代表背景的预期外观的背景模型进行比较。对于背景的每一个部分(例如像素)，背景模型可以包括代表背景的颜色范围。可以通过存储没有用户的场景的图像来获取背景颜色模型。如果相机图像的部分的颜色和背景颜色模型的对应部分的颜色类似，则该部分可以被分类为背景。如果相机图像的部分的颜色和背景颜色模型的对应部分的颜色不类似，则该部分可以被分类为前景。[0106]背景分割过程还可以包括过滤过程，以减小噪声和改变较小的孤立聚类的分类(例如，去除背景的可能被分类为前景的孤立部分，并填充前景中的孔洞)。过滤过程可以包括卷积核。背景分割过程还可以包括学习过程，用于更新背景模型以补偿背景中的变化或者环境光变化。[0107]被分割的相机图像可以被使用皮肤颜色模型来分割。相机图像可以被和代表用户的皮肤的预期外观的皮肤颜色模型进行比较。皮肤颜色模型可以被预先定义，并基于在大量人的图像中被采样的皮肤颜色。在某些实施方式中，如果相机图像的部分和皮肤颜色模型内的颜色类似，则该部分被分类为前景，并且，如果相机图像的部分的颜色和皮肤颜色模型中出现的任何颜色都不类似，则该部分被分类为背景。[0108]被分割的相机图像可以是运动图像，藉此，图像的包括运动的部分被分类为前景，并且图像的表现为静态的部分被分类为背景。按运动分割相机图像的过程可以包括:获取一系列相机图像，计算连续图像之间的差异，并把所述差异和阈值进行比较。运动分割过程还可以包括过滤过程，以减小噪声和改变较小的孤立聚类的分类(例如，去除背景的可能被分类为前景的孤立部分，并填充前景中的孔洞)。过滤过程可以包括卷积核。[0109]运动分割过程还可以包括运动历史过程。在某个例子中，运动历史过程存储对应于每一个像素的最近发生运动的时间的表示。如果运动历史揭示对于每一个像素在一个时间阈值内运动已经发生，则运动历史过程可以把像素分类为前景，否则把像素分类为背景。[0110]把代表分割数据的用户位置细化(refine)为对应于用户的手的用户位置的过程可以包括分析被分割的相机图像的前景部分的形状。例如，过程可以识别最上面的(top-most)前景部分(例如像素)，并计算用户位置为最上面的前景部分的位置。或者，分析被分割的相机图像的前景部分的形状可以包括产生前景部分的轮廓的过程，识别所述轮廓的形状特征的过程，以及将形状特征识别为手的过程。用户位置可以被计算为手位置。[0111]确定对应于用户的手的用户位置的过程可以包括分析相机图像以识别用户的手，并确定手的位置。识别相机图像内的手位置的示范性方法把相机图像的部分和代表用户皮肤的预期外观的皮肤颜色模型进行比较。如果相机图像的部分的颜色和皮肤颜色模型内的颜色类似，则该部分可以被分类为皮肤。被分类为皮肤的部分可以被聚类到部分的聚类中，并且总体位置和尺寸满足一个或多个标准的部分的聚类被分类为手。本公开并不局限于特定的识别相机图像内的手位置的方法，也可以采用其他的手追踪方法。[0112]参考图4，当姿态被识别时，提供包括控件和用户的表示的用户接口(S404)。可以显示用户的表示以最小化与接口交互作用所要求的训练和技能。用户的表示可以协助用户轻松地识别相对于屏幕上项目位置的其手位置，并轻松地移动其手位置以便和项目位置重合(coincident)。用户的表示可以是例如化身或者鼠标光标。[0113]当提供了用户接口时，基于所识别的姿态使所述表示与控件交互作用(S406)。例如,可以选择邻近用户表示(例如邻近鼠标光标，或者邻近化身的手)的按钮或者项目。[0114]基于所述表示和用户.接口控件的交互作用，电信会话被控制(S408)，从而结束过程400(S410)。例如，仅举几例，可以接受或者拒绝呼入呼叫，可以播放语音邮件消息，或者可以拨号电话号码或者联系人。[0115]图5示出了示例用户接口500。用户接口500包括用户表示501。用户接口500可以包括一组前景图形，例如项目502、文本503和按钮504、505、506和507的表示，它们中的一些可以被呈现在用户表示501的上面(over),部分地挡住(occluding)用户表示501。[0116]显示用户接口500可以包括把相机图像和第二图像混和(blending)。第二图像可以包括由应用程序产生的图像、视频游戏图像、电视图像，等等。对于用户接口的每一个像素，混和相机图像可以包括把相机图像像素值和第二图像像素值组合(combining)。如下所示，等式(I)可以用于把相机图像与第二图像混和，其中D表示结果，C表示相机图像，S表示第二图像，X和y参照图像内的像素位置，并且α表示范围O到I的混和比例:[0117]D(x,y)=α.C(x,y)+(1-α).S(x,y)(I)[0118]图6示出了包括用户表示601的用户接口600的另一个例子。显示用户的表示的实施方式可以包括显示分割的图像，其中所述图像被分割为前景和背景部分。在某些实施方式中，有可能是用户表示的一部分的图像的部分(例如像素、区域、块、点或者区)被分类为前景，并且不可能是用户表示的一部分的部分被分类为背景。[0119]显示被分割的图像可以包括只呈现被分类为前景的部分。只呈现被分类为前景的部分的实施方式可以包括产生表示不透明度的阿尔法通道(alphachannel)，其中前景部分被定义为不透明的，并且背景部分被定义为透明的。在这个实施方式中，用户表示601可以被使用阿尔法通道和一组背景图形组合，以使用户表示601挡住(例如在区域602中)背景图形603。包括项目604的表示、文本606和按钮608、610、612和614的一组前景图形可以被呈现在组合的用户表示601和背景图形的上面，部分地挡住用户表示601和背景图像。额外的前景和背景图形可以由应用程序产生。[0120]图7示出了包括用户表示701的用户接口700的又一个例子。显示用户的表示的实施方式可以包括显示计算机产生的图像，例如计算机鼠标光标或者手的图形表示。如图7中所示，计算机产生的图像701的位置可以对应于用户位置702，并且可以是用户的表示。[0121]显示用户的表示的实施方式可以包括显示呼出的视频的预览(例如在视频会议呼叫中)。可以显示其他的用户表示以帮助用户和接口交互作用。可以显示用户的运动的表示(例如过去的运动或者运动历史)来帮助用户和接口交互作用。[0122]所述系统可以实施检测用户何时触摸例如按钮的前景图形的过程。当用户的表示、或者所述表示的一部分占用、指向或者邻近用户接口内和被前景图形占用的位置重合的位置时，用户可以触摸前景图形。[0123]图8示出了触摸图形的用户的表示的例子。确定用户触摸的过程可以包括分析被分割的相机图形，其中相机图形被分割为前景和背景部分。参考图8，图像的可能表示用户的部分(例如像素)可以被分类为前景803，并且不可能表示用户的部分(例如像素)可以被分类为背景。可以定义区801以使区801表示例如按钮802的交互作用前景图形的尺寸和位置。所述过程可以确定被分割的相机图像在区内(例如在区801内)的部分(例如像素)，如阴影区域804所示。使用被分割的相机图像确定触摸的过程可以包括对区801内的前景部分(例如像素)的数量计数，把计数和阈值进行比较，并且如果所述计数大于阈值，则把该区分类为被触摸。[0124]在某些实施方式中，使用被分割的相机图像确定用户位置的过程可以包括在一个时间段内累积对区801内前景部分(例如像素)的数量的计数。对于每一个视频帧，可以从累积的计数去除预先定义的数量，到最小值零，并且当前计数可以被添加到累积计数器，到最大值阈值。当累积计数达到阈值时，所述区可以被分类为被触摸。前景图形可以包括相对于阈值的累积计数的表示，以便向用户提供视觉反馈。例如，图形可以包括条形图或者饼形图805，或者可以用取决于累积计数的颜色或者尺寸来呈现。[0125]图9示出了触摸图形的用户的表示的另一个例子。确定用户触摸的过程可以包括把用户位置和区进行比较。参考图9，可以定义区901以使区901代表例如按钮902的交互作用前景图形的尺寸和位置。使用用户位置确定触摸的过程可以包括如果用户位置903在区901内，则把区901分类为被触摸。[0126]在某些实施方式中，使用被分割的相机图像确定用户位置的过程可以包括对视频帧的数量或者用户位置处于区内的时间量进行计数。对于每一个视频帧，如果确定用户位置处于区内，则计数可以被增大(到最大值阈值)，并且如果用户位置不在区内，则计数可以被减小(到最小值零)。当累积计数达到阈值时，所述区可以被分类为被触摸。前景图形可以包括相对于阈值累积计数的表示，以便向用户提供视觉反馈。例如，图形可以包括条形图或者饼形图905，或者可以用取决于累积计数的颜色或者尺寸来呈现。[0127]所述系统可以实施协助用户选择项目的增强的用户接口过程。项目可以包括文本和数字，藉此，增强的用户接口过程协助输入文本和数字。[0128]图10示出了包括对象1002和控件1005的用户接口1001，对象1002例如图标或者化身(描绘为虚线圆)，控件1005还可以包括引导线1004。尽管在图10中引导线1004示出为虚线，但是在其他的示例实施方式中，引导线1004被描绘为实线，或者根本不被描O[0129]控件1005允许直观选择或者输出例如字母1006的项目，同时允许在邻近、靠近、部分或者完全被引导线1004限制或者包围或者限定的区中显示对象1002的一部分或者整体。当确定项目要被输出或者选择时，例如当用户选择调用文本数据的录入的输入字段时，控件1005被定位在用户接口1001中允许显示项目1006和对象1002的位置，因而被相对于、关于、基于或者针对于对象1002定义。换句话说，对象1002的位置可以表示锚定位置，引导线1004和控件1005的其他元素可以关于所述锚定位置来取向或者对准，或者，其他元素可以对于该锚定位置来定位。[0130]为了确定这个锚定位置，确定定义引导线1004的对象和该对象的位置。在某些情况下，可以预先确定或者预先定义对象，例如控件1005被结合化身、用户图形、把手、图标、列表、数据表、数据图、文本录入字段、另一个控件或者部件，或者用户接口1001的已知空白区输出的情况，或者控件1005包括它们的情况。在其他情况下，对象在控件1005要被输出时被动态地确定，例如用户跳转到(tabsto)文本字段并且该文本字段被用作对象的情况，用户接口1001的空白区被基于用户1001的当前状态定位的情况，屏幕上最大的、突出的、最绚丽的(colorful)或最不绚丽的对象被动态地确定为所述对象的情况，或者聚焦的(infocus)元素、区或者窗口被动态确定为所述对象的情况。[0131]在这些和其他情况下，检测对象1002的尺寸、形状、位置、边界或者其他上下文，并且引导线1004被以与这些检测的上下文的关系来定义。例如，引导线1004可以被定义成和对象或者对象的一部分具有覆盖(overlapping)或者非覆盖关系、二等分关系、分开关系、空间约束或者受限关系，或者任何其他关系，例如基于对象1002的尺寸、形状、比例或者解剖模型的关系。[0132]总之，并且除此之外，用户接口1001包括可以是用户的表示的对象1002和构成项目集合的项目1006。可以以动态方式`显示项目1006，以使项目1006被用允许用户方便并且可靠地选择每一个项目的尺寸和位置显示。由于本不可能把项目1006中的每一个均以大尺寸安排在用户接口1001内或者和引导线1004对准，可以以该大尺寸呈现项目1006的子集。[0133]图11到图15示出了示范性的从沿着引导线对齐的项目集合中选择特定项目。在图11中，项目集合1101被沿着引导线1102对齐。被映射到并描绘为化身的手的光标1104向着关注的项目IlOlr移动。[0134]在图12中，光标1204的位置和引导线1202交叉。引导线1202的交叉可以启动进一步的检测过程，该检测过程基于每一个项目和光标1204之间的距离选择或者识别项目1201的子集1201a。在相机图形中检测到光标1204时，基于用户的手在用户身体周围空间中的位置来确定光标1204的位置。[0135]项目1201的子集1201a被以更大的字体尺寸或者比例显示，以协助用户更容易或者更直观的选择。选择项目1201的子集1201a和放大项目1201的子集1201a的显示可以响应于检测到光标1204已经和引导线1202交叉而发生，或者可以和光标1204相对于引导线1202的位置无关地发生。在检测到光标1204在基位置(baseposition)1206和引导线1202交叉或者检测到项目已被选择时，可以产生用户反馈，包括例如声音、影像、闪光，和/或例如振动的触觉输出。[0136]在图13中，用户选择关注的项目1301r。突出显示(highlight)项目的子集1301允许用户选择包含关注的项目1301r的一般区域，在该区域内对项目“放大”，并且可靠和方便地选择关注的表示字母“R”的项目1301r。选择可以使用鼠标事件、键盘或者小键盘敲击、姿态识别、基于相机的输入或者通过很多其他的方法发生。[0137]可以以很多方式检测代表光标1304已经和引导线1302交叉的位置的基位置1306的位置。例如，如图14中所示，基位置1406的位置可以被确定为在引导线1401上方(above)检测到光标1404后的一个时间所观察到的、引导线1401上最靠近光标1404,或者最靠近被突出显示的例如项目1401r的项目的位置。[0138]也可以使用其他方法检测基位置。例如，可以在光标1404和引导线1401交叉时检测基位置1406的位置，或者使用在和引导线1401交叉之前或者之后时的光标1404的位置。例如，图15示出了表示在和引导线1502交叉之前观察到的光标位置的端点(endpoint)1508和表示在和引导线1502交叉以后时观察到的光标位置的端点1510。基位置1506可以被确定为由端点1508和端点1510限定的线段1504和引导线1501的交叉点。[0139]回到图12，突出显示项目1201的子集1201a可以包括沿着引导线1202确定对应于构成子集1201a的项目的位置。在某些实施方式中，位于基位置1206附近的项目被选择为要突出显示的项目1201的子集1201a的一部分(例如被以大尺寸显示)，以使靠近基位置1206的项目保持在或者靠近其原始的、非突出显示的位置，并且更远离基位置1206的项目朝外移动以容纳项目1201的子集1201a的尺寸上的增加。[0140]下面的等式⑵可以用来确定在子集1201a已被突出显示以后不在子集1201a内的项目的位置。[0141]【权利要求】1.一种计算机实施的方法，包含:从一系列相机图像中识别用户的姿态；提供包含控件和所述用户的表示的用户接口；基于所识别的姿态使所述表示与所述控件交互作用；和基于所述交互作用控制电信会话。2.如权利要求1所述的方法，其中:控制所述电信会话还包含把所述电信会话从第一状态改变到不同的第二状态，并且第一或第二状态包含待机状态、通知状态、呼出呼叫状态、连接状态、静音状态、菜单状态、连接选项状态、直接拨号状态、重新拨号状态、搜索状态、浏览状态、消息菜单状态、消息回放状态，或者配置状态。3.如权利要求1所述的方法，其中，所述电信会话还包含语音和视频电信会话。4.如权利要求1所述的方法，其中，控制所述电信会话还包含基于识别出接合姿态而把所述电信会话从待机状态改变到呼叫或者菜单状态。5.如权利要求1所述的方法，还包含:确定所述用户的身份；和基于所确定的身份使能所述控件。6.如权利要求5所述的方法，还包含只有所确定的用户身份和呼叫的预期接收者匹配时才把所述电信会话从连接状态改变到呼叫状态。.7.如权利要求1所述的方法，还包含:确定所述图像内的用户的身份；和基于所确定身份中的至少一个使能或者禁止所述控件。8.如权利要求1所述的方法，其中，控制所述电信会话还包含基于识别出解除接合姿态而把所述电信会话改变到待机状态。9.如权利要求1所述的方法，还包含把所述相机图像之一聚焦在用户上。10.如权利要求9所述的方法，其中，聚焦所述相机图像之一还包含把相机焦点保持在正在移动的用户上。11.如权利要求9所述的方法，其中，聚焦所述相机图像之一还包含使所述相机图像之一以所述用户为中心。12.如权利要求1所述的方法，还包含定位音频以聚焦在所述用户上。13.如权利要求1所述的方法，其中:识别所述用户的姿态还包含识别在第一用户已经执行了第一接合姿态以后第二用户已经执行了第二接合姿态，控制所述电信会话还包含基于识别出第二用户已经执行了第二接合姿态而把焦点改变到第二用户。14.如权利要求13所述的方法，还包含:确定第一用户是否已经放弃焦点，其中，只有第一用户已经放弃焦点，所述焦点才被改变。15.如权利要求14所述的方法，其中，确定第一用户是否已经放弃所述焦点还包含确定第一用户是否已经结束讲话。16.如权利要求14所述的方法，其中，确定第一用户是否已经放弃所述焦点还包含确定第一用户是否已经执行了放弃姿态。17.如权利要求1所述的方法，还包含:确定所述用户的身份，其中，控制所述电信会话还包含在浏览状态中显示与所确定的身份相关联的联系人集入口ο18.如权利要求1所述的方法，还包含:基于面部识别确定所述用户的身份，其中，控制所述电信会话还包含把所确定的所述用户身份传送到由所述用户设定的呼叫接收者。19.一种包含处理器的设备，该处理器被配置成:从一系列相机图像中识别用户的姿态，提供包括控件和所述用户的表示的用户接口，基于所识别的姿态使·所述表示与所述控件交互作用，和基于所述交互作用控制电信会话。20.一种用计算机程序编码的计算机可读介质，所述计算机程序包含当被执行时，操作以使计算机执行操作的指令，所述操作包含:从一系列相机图像中识别用户的姿态；提供包括控件和所述用户的表示的用户接口；基于所识别的姿态使所述表示与所述控件交互作用；和基于所述交互作用控制电信会话。【文档编号】H04M3/42GK103442201SQ201310364747【公开日】2013年12月11日申请日期:2008年9月23日优先权日:2007年9月24日【发明者】埃文·希尔德雷思申请人:高通股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：埃文·希尔德雷思
技术所有人：高通股份有限公司
我是此专利的发明人

上一篇：遥控器及其控制方法
上一篇：声音处理的方法及开放式播音装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。