使用动作及语音命令的主机应用程序的高级远程控制的制作方法

文档序号:6362063阅读:153来源:国知局

专利名称::使用动作及语音命令的主机应用程序的高级远程控制的制作方法使用动作及语音命令的主机应用程序的高级远程控制相关申请的交叉引用本申请要求于2010年9月20日提交的美国临时申请号61/384,586的权益。通过引用将以上一项或多项申请的全部教导结合在此。
背景技术
:本申请涉及人类/计算机接口,更具体地涉及一种接受语音命令并跟踪手势和/或头部运动的设备,以向如在本地或在远程主计算机上执行的软件提供输入。能够存储和显示大量高分辨率计算机图形信息甚至视频内容的小型便携式电子设备继续越来越受欢迎。这些智能电话设备(如AppleiPhone和GoogleAndroid电话)代表了移动电话、便携式计算机和数字媒体播放器之间的融合的显著趋势。(iPhone是California的Cupertino的AppleComputer,Inc.的商标;Android是California的MountainView的Google,Inc.的商标。)虽然这些设备通常包括显示屏,但是由于它们的物理尺寸的限制,高分辨率大幅面的显示器的视觉体验无法在此类设备中轻易地复制。因此,消费者现在追求一种高品质、便携式、彩色显示器来加强他们的手持设备。一种此类设备是头戴式眼镜设备,其佩戴在用户的脸部或头部周围,类似一副眼镜或耳机。这些设备包括小型高分辨率微型显示器和放大图像的镜头。无线接口为此类设备提供了极大的便利性和移动性。该微型显示器可以提供超级视频图形阵列(SVGA)(800X600)分辨率,或者甚至扩展图形阵列(XGA)(1024X768)或更高的分辨率。如需有关此类显示器的更多信息,请参阅于2009年I月5日提交的美国申请第12/348,648号的标题为“用于控制其他系统和设备的移动无线显不软件平台(MobileWirelessDisplaySoftwarePlatformforControllingOtherSystemsandDevices)”以及于2009年3月27日提交的PCT国际申请第PCT/US09/38601号的标题为“具有适合用作移动互联网设备的高分辨率显示器的手持无线显不设备(HandheldWirelessDisplayDevicesHavingHighResolutionDisplaySuitableforUseasMobileInternetDevice)”的共同未决的专利申请,其中每个文件的全部内容通过引用结合于此。
发明内容便携式个人计算机有微型显示器、输入设备(如头部跟踪加速计)、一个或多个陀螺仪或检测运动(如头部运动、手部动作和/或姿势)的摄像机、多个检测语音命令的音频处理电路。这些组合的输入提供对在该设备本身上和/或在远程主处理器上运行的一个或多个操作系统和/或一个或多个应用程序的控制。头戴式显示器(HMD)设备包括微型显示器。在一个实施例中,用于显示从本地处理器接收到的视觉信息。动作检测器检测用户的头部和/或身体部分的物理运动,以提供动作或姿势输入。麦克风提供音频信号,该音频信号被该本地处理器解释为语音命令。该本地处理器将文字、图形或其他用户提示叠加到该微型显示器上以指示将要激活某些命令的动作/姿势/语音输入。该处理器将这些语音、动作或姿势输入或其组合转换成用户命令。该用户命令然后由操作系统或应用程序解释,以改变显示在该微型显示器上的信息的多个方面。这可以包括该本地处理器已经处理了该用户命令的视觉或音频确认。根据示例实施例的以下更具体的说明,上述内容将是清楚的,如在这些附图中展示的,其中贯穿这些不同的视图,相同的附图标记是指相同的部分。这些图不一定是按比例绘出,而是着重展示实施例。图1是高层次图,示出了头戴式显示器(HMD)设备,以及使用手势和/或头部运动控制本地或远程计算机的行动的人。图2A是使用头部条带的实施例。图2B示出了可选的摄像机元件。图3是该设备及到主机的可选连接的高层次方框图,展示了语音、手势和头部动作跟踪命令是如何被翻译的。图4是该HMD设备的组件的更详细的图。图5是到如MicrosoftWindows桌面上的示例软件叠加,以向该用户指示可用的头部运动和语首命令。图6是一组由一个或多个操作系统业务执行的功能。图7是这个或这些业务保持的示例表。图8是示例滚动列表。图9示出了用户用头部动作和语音输入从多个桌面做出选择。具体实施例方式下面是对示例实施例的说明。图1示出了无线计算头戴式耳机设备(HMD)100(也称为视频眼镜设备100),其结合了高分辨率(VGA或更好)微型显示器元件和下面描述的其他特征。HMD设备100通常包括许多不同类型的集成电路,包括微型计算机(单核或多核)、一个或多个无线接口、相关联的存储器或其他存储设备、一个或多个摄像机(光学传感器)和/或各种传感器。这些传感器可以包括音频输入和/或输出设备(如一个或多个麦克风输入和一个或多个输出扬声器),这些传感器可以包括地理位置传感的3轴至9轴自由度的定向传感器(如数字磁强计)、大气传感器、健康状况传感器、GPS、数字罗盘、压力传感器、环境传感器、能量传感器、加速度传感器、位置传感器、姿态传感器、动作传感器、速度传感器或光学传感器、摄像机(可见光、红外线等)。进一步的电路(如额外的无线电波、辅助照明、测距仪等等)和/或传感器阵列可以嵌入在和/或附装到该设备中。如“热靴”(图1中未示出)的一个或多个外围底座也通常位于HMD100内,用于安装如摄像机或额外传感器的可选附件。这个或这些摄像机、这个或这些动作传感器和/或这个或这些传感器用于在至少第一轴111(水平)但也优选在第二轴(垂直)112、第三轴(深度)113、第四轴(斜角)114、第五轴(坡角)115及第六轴(偏航角)116跟踪该用户的头部、手部和/或身体的动作和/或位置。设备100可以以各种方式使用。它可以用作完全包含的头戴式全功能便携式个人计算机/智能电话,通过短和/或长距离无线链路150(如蓝牙、WiF1、蜂窝、LTE、WiMAX或其他无线电波)与外部计算机和网络完全连接。设备100还可以用作由远程主计算机200提供的视频流信号的远程显示器。主机200可以是例如笔记本计算机、手机、Blackberry、iPhone或具有比视频眼镜设备100本身更小或更大的计算复杂度的其他计算设备。然后,主机200向设备100提供将要显示的信息。设备100与主机200通过如由蓝牙、WiF1、蜂窝、LTE、WiMax或其他无线电波链路150提供的一个或多个合适的无线连接进行连接。主机200本身可以进一步连接到其他网络,如通过有线或无线连接连接到互联网210。设备100还可以用作主机200的遥控器。包含在HMD100中的各种音频输入设备和动作传感器和/或一个或多个摄像机可以允许用户在虚拟显示器400所定义的更大的区域内选择视野300,该虚拟显示器由设备100本地的处理器和/或由主机200内部的处理器提供。例如,该用户通常可以使用头部运动或手部运动或身体姿势或以其他方式(如用语音输入)控制该更大的虚拟显示区域400的视野300的位置、范围(例如X-Y或3D范围)和/或放大率。因此,无线计算耳机设备100可以对来自这些外设的输入做出响应,并将其处理以例如平移、缩放改变视野300,并控制虚拟显示器400的其他方面,如视野300的位置、范围(例如X-Y或3D范围)和/或放大率。如将在下面更详细说明的,语音、动作和姿势输入还可以控制该微型显示器上信息呈现的进一步的方面,或者甚至显示哪些信息。虽然图1中所示的内容是单眼微型显示器,展示出用悬臂式吊杆将单一的固定显示元件支撑在该用户的脸部,但是应该理解的是,各种视频眼镜设备100的其他机械配置也是可能的。图2是透视图,示出了HMD设备100的更多细节。设备100通常包括框架1000、条带1002、背部1004、扬声器1006、悬臂或臂1008以及微型显示器子组件1010。在设备100相对悬臂1008的一侧上是外围端口1020。外围端口1020提供了到一个或多个外围设备的相应连接,这样用户就可以将各种附件可移除地附装到设备100。示例端口1020提供了机械和电气配件底座,如热靴。接线将电信号从端口1020穿过例如背部1004传递到安置在其中的电路。热靴1020可以很像摄像机上的热靴一样操作,自动提供连接从而为该配件供电并且传递来自设备100外围扬声器1031的其余部分的信号并向其传递信号。因此可以与端口1020—起使用各种类型的配件以向该系统提供手部运动、头部运动和/或语音输入,例如但并不限于麦克风、位置、定向及其他先前描述的传感器、摄像机等等。图2B是戴在用户头部的HMD设备100的视图,其中配件1060已经放置在热靴端口1020中。此配件1060是自包含的摄像机(或其他动作传感器)组件。摄像机1060可以在类似“子弹凸轮”的程序包中包括音频和视频传感和记录两个能力。它可以通过背部1004中的内置接线连接到设备100中的其余组件(如在前面描述的扬声器的情况),或者可以通过Bluetooth或WiFi连接进行无线连接。摄像机1060可以不一定是视频摄像机,还可以检测红外线、紫外线或其他波长。摄像机1060还可以包括用户可调节的辅助光源。使用该光源,摄像机1060还可以根据需要用作手电筒,而无需激活该摄像机部分。该摄像机、到设备100的动作跟踪和音频输入被以各种方式解释为用户命令,以控制该本地处理器、微型显示器或外部主机200的操作。头部运动跟踪和/或语音命令还可以由用户1050提供以操纵摄像机1060的设置。例如,用户语音命令(如“缩放”或“平移”)可以由该本地处理器识别并导致摄像机1060拉近或长焦。摄像机1060还可以通过利用该3轴直到9轴自由度的位置传感器具有内置的图像稳定化系统和/或运动跟踪解决方案,以便设备100中的软件或附装的外围设备可以通过检测到的运动校正传入视频馈送中的微弱振动的头部运动或微弱的摄像机运动,尤其是当摄像机图像被放大时。在此配置中,设备100还可以比单独由摄像机1060实际上捕获的更高的帧速率操作。此类摄像机1060外设存在众多应用。例如,它可以放置在老年人的头部,然后设备100可以识别和校正由于通常随着年龄增加的人类自然稳定性颤动而导致的他们头部运动中的振动。这可以有助于当该用户正在设备100上查看该微型显示器时光标移动的准确性,或校正当在粗糙的表面上、在恶劣天气中或在恶劣的环境中(如土路)乘坐移动车辆或运输工具时使用设备100时的动作,从而校正显示器1010上的视图的振动,并再次提供对光标移动的更好的控制。图3是方框图,示出了HMD100、可选主机200及它们之间行进的数据的更多细节。HMD100通过麦克风接收音频信号输入,通过位置和定向传感器、摄像机或一个或多个光学传感器接收手部运动或身体姿势,并通过头部跟踪电路(如3轴至9轴自由度定向传感器)接收头部运动输入。这些内容由设备100本地的处理器中的软件翻译成键盘和/或鼠标命令。然后,这些命令可由HMD100内部的处理器解释,以控制该微型显示器上的信息呈现的多个方面。这些命令还可以通过蓝牙或其他无线接口150被发送到主机200。然后,主机200按照其自己的操作系统/应用软件解释这些已翻译的命令以执行各种功能和/或向设备100返回信息。在这些可以在该本地处理器和/或远程主机200上执行的命令中有用于在该虚拟显示器内选择视野300的命令。因此,应当理解的是,非常大幅面的虚拟显示区域可能与HMD100或主机200上运行的操作系统或应用软件相关联。然而,只有视野300内的该大虚拟显示区域的一部分被返回并实际由远程控制显示设备100显示,如语音、手势或头部动作命令所选择的。例如,该虚拟显示区域可以包括美国的详细地图。用户可能在该微型显示器上首先看到整个美国区域,尽管以降低的分辨率。视野最初可能以低放大率集中在中心位置,如在Kansas的Lawrence。然后,该用户移动他的头部或做出手势以查看特别感兴趣的区域(如Seattle、Washington)的更多细节。该手势可以是斜扫动作。该头部运动可以是向左然后向上或者可以是直线斜向运动到新的感兴趣的区域。用相应的语音命令(如“放大”),所展示的虚拟显示区域然后被放大以在该微型显示器上看到Seattle周围地区的更多细节。图4是HMD系统100的非限制性示例实施例的简化的高层次方框图。系统电子元件可以放在该框架上或该框架中的适当位置(如背部1004),并且包括开放式媒体应用平台(OMAP)作为本地处理器4110、电源/音频同伴芯片(companionchip)4102、显示器驱动器4104、头部跟踪器电路板4106以及无线LAN/蓝牙接口4108。该壳体中还设置有电源,例如锂离子电池4200。HMD设备100还可以包括眼容器(eyepod)组件4000,其包括上述微型显示器4010(例如,图2A的微型显示器1010和吊杆1008),及一个或多个麦克风4020。一个或多个扬声器4030被放置在靠近用户耳朵的HMD壳体听筒中(图2A中的项目1006)。头部跟踪器电路4106可以包括使用霍尔效应传感器、MIM二极管、加速计、陀螺仪和/或变频器或其他上述传感器确定由设备100中的传感器检测到的头部运动和姿势的电路,如沿着或绕着X轴、Y轴和Z轴的横向运动及旋转姿势。HMD系统100还可以接收来自外部输入设备(如无线鼠标、轨迹球或可以通过蓝牙接口4108无线连接的键盘)的输入。WLAN/BT前端4108、OMAP4100和/或主机200中的软件可以用于解释该摄像机或其他传感器检测到的手势。摄像机板4060同样可以任选地提供视频输入。OMAP处理器4100可包括中央处理单元,以及可能包括非易失性存储器和/或只读存储器(ROM)的片上存储器,如随机存取存储器(RAM)。该OMAP可以是由TexasInstruments,Inc.销售并使用多媒体处理器的TexasInstruments型号OMAP3530的处理器或更新版本。OMAP4100通常可以执行嵌入式系统,如操作MicrosoftWindows的特定版本。OMAP4100通常是比WLAN/BT接口4108更强大、更耗电的处理器。在此示例中,也是从TexasInstruments可得的TPS65950电源/音频同伴芯片向该系统提供了音频、USB、键盘控制和电池充电功能。WLAN/BT接口4108可以是型号LBEE1W8的NEC接口电路、从UnitedKingdom的Cambridge的CDRLtd.可得的蓝牙电路或其他具有类似或更强功能的无线电模块。该显不器驱动器可以是从Massachusetts的Westborough的KopinCorporation可得的型号K⑶-A910的显不器驱动器。也是从Kopin可得的微型显示器4010可以包括型号113LV、152LV、230LV、WQVGA或其他制造商可接受的微型显示器。NCS模块4400处理接收到的麦克风信号,以提供语音识别功能并向音频同伴芯片4102产生音频信号并从此处发送到OMAP处理器4100。在实施例中,OMAP处理器4100被设计成以“左眼”或“右眼”定向运行。如果标准配置是运行“右眼”,则当使用左眼运行时,该软件必须考虑到该显示屏现在物理上旋转了180度。这意味着该软件必须还能够“倒置”运行。该屏幕可能能够用口头命令或鼠标点击被手动“翻转”倒置。可替代地,可以产生硬件信号以允许该处理器检测屏幕翻转,并且由此在软件(即硬件陀螺仪、加速计或开关等)中导致相同结果。图5展示了实现为HMD100的一部分的一个特征。此处,该HMD设备将软件叠加器强加于该用户的信息呈现上。该叠加器添加了与口头命令、手势或头部运动相关联的图形图像和/或文本,该口头命令、手势或头部运动是在该屏幕上启动由图标、按钮、滑动条、下拉列表或其他物体指示的行动所需的。这些叠加器由用户的Windows桌面上的图标旁边的方框中的文本示出。在此示例中,该叠加器向该用户指示口头命令(如“Excel”或“Word”)将因此激活相应的MicrosoftOffice程序。手部摆动的姿势将激活AdobeAerobat程序。并且头部向上倾斜并摆动的姿势的组合将打开“新建”文件夹。应当理解的是,图5仅是示例,并且这些叠加器可以应用到各种应用程序、菜单、对话框、滚动列表、操作系统桌面/命令或其他该系统要捕获用户键盘或鼠标姿势或命令的地方中。成功识别命令时,HMD设备100可以播放音频样本(蜂鸣声)以向该用户指示成功识别。设备100还可以在很短的持续时间(I秒)内在该屏幕的中心显示所识别的单词,以再次向该用户反馈HMD设备100正确识别了所说的内容。现在结合图6和图7描述这些叠加特征的示例实现方式。该软件叠加器可被实现为用户界面业务或在例如OMAP处理器4100上执行的MicrosoftWindows嵌入式操作系统下运行的业务。这些业务提供了许多功能,如在图6中列出的。第一步6100是询问用户桌面的状态,以确定所显示的任何图标。接着,在6102,与所显示的图标相关联的叠加文本然后被确定。作为此状态6102的一部分,可查阅如在图7中所示的表。该表将图标(如在最左边的栏中所示)与叠加文本相关联。对于定位的任何叠加文本,在状态6104下在与每个相关联的图标相邻的桌面上生成图标置加。在状态6106下,这个或这些业务然后等待检测任何语音、姿势或动作输入。然后在6108,再次在该表中找到这些检测到的输入。接着在6110,然后激活与该检测到的输入相关联的行动或采取其他行动。例如,如果在桌面上检测到标有“新建文件夹”的文件夹,在此类图标旁边显示了该叠加文本“倾斜加摆动”。然后,这个或这些业务等待检测该头部跟踪器的动作与该姿势检测器检测到的手部摆动动作的组合。一旦发生这种现象,则采取行动打开该新文件夹,即在该桌面上激活该图标。应当理解的是,不管叠加文本和/或图标与该桌面是否相关联,都可以采取行动。如图7的表中所示,作为示例,可以检测到口头“关闭窗口”的命令,引起关闭活动窗口的行动。在另一个示例中,该头部跟踪器检测到的头部向上的动作可以引起滚动条在向上的方向上滚动。另一个行动(如手部滑动)可以引起一系列桌面中的下一个桌面的选择。用采取的类似行动和图7的表的编程,可以实现其他特征。一个特征是在完成菜单命令后协助该用户。该用户通过头部动作、手势和/或口头语言输入了菜单命令后,该叠加菜单然后可能消失,允许再次查看相关信息。可替代地,这些“弹出”窗口元素都可以有自动关闭特征。这意味着,如果该用户尚未在该窗口中选择任何命令,所有此类窗口都将在特定的持续时间后(即10秒等)关闭自己。以此方式,(其中用户否则一般用鼠标在对话框上单击“关闭”、“确定”或“取消”),消除了进一步输入的需要。用鼠标或语音输入说出“关闭”、“确认”等来手动关闭窗口仍然是可用的。在一些实施例中,要帮助该用户,这些自动关闭窗口可以显示定时器倒计时以指示该窗口还要多长时间就会自动关闭。这些头部动作跟踪和手势输入还可以控制其他特征,如滚动列表。许多用户界面元素利用滚动列表的概念,即大于该屏幕或用户界面元素本身的可选项目的列表。此类滚动列表的示例是如图8中所示,其中该用户被要求从数据库应用程序中选择特定的字段进行编辑。然而,有很多其他示例,如下拉菜单、媒体播放列表(如Apple的iTunes)及此特征可以帮助的类似物。这些项目列表通常是向上和向下(或左/右)滚动的,使用滚动条、鼠标移动或在典型笔记本电脑中的触摸板或触摸屏的“滑动”姿势。然而,此处人们可以使用HMD设备100的头部跟踪输入来操作这些用户界面元素:例如,左/右或上/下的头部移动可以导致滚动该列表或选择其他列表。这些运动可以与以下口头命令相结合,以在该列表中选择项目(例如,“点击”或“选择”)。图9展示了另一种实现方式,用于说明这些头部跟踪和/或语音输入如何可以用来操作多个桌面和/或运行的应用程序。此处,可以在OMAP4100或主机200上执行的操作系统内配置多个桌面屏幕,并使用头部运动和/或语音命令导航。每个桌面都可被配置成在同一时间运行不同的应用程序。例如,可以使用第一桌面运行占用整个屏幕的图片查看应用程序。要看电影,该用户可以发出“新桌面”口头命令,并且然后从该新桌面中选择观看电影的应用程序。这则允许在该当前窗口中观看电影。然而,该图片查看应用程序仍然在运行但不可见。该用户可以通过发出切换可视桌面(“去桌面I”)的适当命令来切换到该图片查看应用程序,或通过向左、右、上或下移动头部在打开的桌面间四处移动。因此,该用户能够快速浏览所有打开的桌面及其正在运行的应用程序。应当理解的是,由HMD设备100执行的功能中的一个或多个还可以以其他形状因素实现,如其他类型的手提外壳。在此引用的所有专利、公开申请以及参考文献的教导都通过引用以其全部内容结合在此。虽然已经参考其示例实施例具体地展示和说明了本发明,但是本领域普通技术人员应当理解的是,在不偏离由所附权利要求所包括的本发明的范围的情况下,其中可以在形式和细节方面进行多种改变。权利要求1.一种手提设备,包括:微型显示器,用于显示从本地处理器接收到的视觉信息;动作检测器,用于检测用户的身体部分的物理运动,并且提供动作或姿势输入;以及位于所述手提设备中的所述本地处理器,并且进一步包括:收发器,用于接收所述动作或姿势输入;翻译器,用于将所述动作或姿势输入翻译成用户命令;叠加器,用于生成依赖于一个或多个可能的动作或姿势输入的信息叠加;显示器控制器,用于转发将要在所述微型显示器上包括在所述信息叠加处显示的信肩、O2.根据权利要求1所述的设备,其中所述手提设备是头戴式显示器(HMD)设备。3.根据权利要求1所述的设备,其中所述将要显示的信息进一步包括所述本地处理器已经处理了所述用户命令的视觉或音频确认。4.根据权利要求1所述的设备,进一步包括:无线通信接口,用于向主处理器转发所述用户命令,并且用于从所述主处理器接收应答。全文摘要一种头戴式微型显示器(HMD)设备,该设备使用手部、身体、头部运动或姿势及语音命令来控制与本地处理器或主计算机的相互作用。该本地处理器将信息叠加到诸如操作系统桌面或应用程序菜单上,该信息指示激活相关联行动所需的动作、姿势和/或语音输入。文档编号G06F3/01GK103180800SQ201180050790公开日2013年6月26日申请日期2011年9月19日优先权日2010年9月20日发明者J·J·雅各布森,C·帕金森,S·A·波姆博申请人:寇平公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1