视线触发语音识别的制作方法

文档序号:9825955阅读:465来源:国知局
视线触发语音识别的制作方法
【专利说明】
【背景技术】
[0001]随着智能数字个人助理的产生,(例如,SIR1、S Voice,GOOGLE N0W、C0RTANA以及HIDI)使用语音命令来控制电子设备已经变得非常普遍。SIRI是苹果公司在美国和其他国家的注册商标。S VOICE是三星电子公司在美国和其他国家的注册商标。GOOGLE是谷歌公司在美国和其他国家的注册商标。C0RTANA是微软在美国和其他国家的申请中的待决商标。通常,用户通过使用自然语言与例如包含在个人助理中的语音输入模块进行交互。这种类型的接口使得设备能够从用户接收语音输入,例如,语音命令(例如,“明天天气怎样”,“给Dan打电话”),通过自身执行任务或将用户的请求委托给期望的应用来处理这些请求并且执行用户所期望的动作。
[0002]因为自然语言是人感到舒服的交流的主要方法,使用语音命令的能力提供了自然和高效的方式来利用设备的操作系统或应用的无论多简单或多复杂的功能。然而,利用个人助理时的主要的问题之一是确定用户的语音的什么部分意在被接收为语音命令。在可用水平的误报(即,助理对不相关的语音进行响应)和漏报(即,助理忽略用户命令)的情况下,持续地听用户已经证明是太难完成的任务。此外,个人助理可能是高能耗应用,因此,使个人助理在后台不断地运行可能对电池寿命具有显著的影响。为了克服这个问题,现在的大多数语音控制助理利用一些形式的触发来启动语音识别处理。这种触发假定紧接在触发之后的任何语音都是指向助理的命令。一些常见的触发是物理按钮按下(例如,SIRI激活)和在任何指向系统的命令之前说的特定的关键短语(例如,OKay G00GLE)。

【发明内容】

[0003]总体上,一方面提供了一种方法,包括:在电子设备处检测用户视线的位置;基于用户视线的位置来激活语音输入模块;在电子设备处检测语音输入;使用语音输入模块来评估语音输入;以及基于对语音输入的评估来执行至少一个动作。
[0004]另一方面提供了一种信息处理设备,包括:处理器;至少一个传感器,至少一个传感器工作上耦接至处理器;以及存储器,该存储器存储指令,所述指令能够由处理器执行以:检测用户视线的位置;基于用户视线的位置来激活语音输入模块;使用至少一个传感器来检测语音输入;使用语音输入模块来评估语音输入;以及基于对语音输入的评估来执行至少一个动作。
[0005]又一方面提供了一种电子设备,包括:用于基于所述用户视线的所述位置来激活语音输入模块的激活单元;用于检测语音输入的语音输入单元;用于使用所述语音输入模块来评估所述语音输入的评估单元;用于基于对所述语音输入的评估来执行至少一个动作的执行单元
[0006]前述是总结性的并且因此可能包含细节的简化、概括及省略;因此,本技术领域的普通技术人员要理解,该总结仅是说明性的并且不意在以任何方式的限制。
[0007]为了更好地理解实施例连同实施例的其他的和进一步的特征和优点,参考以下的结合附图的描述。本发明的范围将在所附权利要求中指出。
【附图说明】
[0008]图1示出了信息处理设备电路系统的示例。
[0009]图2示出了信息处理设备电路系统的另一示例。
[0010]图3示出了视线触发识别的示例方法。
[0011]图4示出了视线触发识别的另一示例方法。
【具体实施方式】
[0012]将容易理解的是,可以用除所描述的示例实施例之外的多种不同的配置来布置和设计在本文附图中一般地描述并示出的实施例的部件。从而,以下如在附图中示出的、示例实施例的更详细的描述,不意在限制所要求保护的实施例的范围,而只是示例实施例的代表。
[0013]本说明书全文中,对“一个(one)实施例”或“一种(an)实施例”(等)的引用意味着结合实施例所描述的特定特征、结构或特性包含在至少一个实施例中。因此,在本说明书全文的各处所出现的短语“在一个实施例中”或“在一种实施例中”等未必都指同一实施例。
[0014]而且,在一个或多个实施例中,所描述的特征、结构或特性可以以任何适当的方式进行组合。在下面的描述中,提供了许多具体的细节以给出对实施例的透彻的理解。然而,相关领域的技术人员将认识到,可以在没有一个或多个具体细节的情况下,使用其他的方法、部件、材料等来实施各种实施例。在其他示例中,不再详细地示出或描述公知的结构、材料或操作以避免混淆。
[0015]实施例使得用户能够通过跟踪用户的视线并且使用用户视线的位置作为触发机制来与电子设备进行交互。例如,实施例可以在用户的视线固定在智能电话屏幕的右上方和拐角上时主动地听音频输入。因此,实施例方便并且容易地解决了需要手动地触发电子设备以接收音频输入例如语音命令的问题。
[0016]—些当前可利用的商业系统使用需要按下特定的按钮的触发(例如,按下并且保持主页按钮以激活SIRI,或按下并且保持搜索按钮以激活C0RTANA)。当前可利用的可替选方法是使用关键短语(例如,当运行1S 8或之后版本的设备接通时说“Hey SIRI”,或者当运行ANDROID 4.3的设备醒着时说“Okay GOOGLE”)。ANDROID是谷歌公司在美国和其他国家的注册商标。当用户说关键短语时,设备被触发来听在关键短语之后的语音命令。
[0017]激活触发的当前的方法的主要问题是这些方法往往中断用户当前涉及的无论什么任务(例如,当激活个人助理时退出应用)。特别地,如果用户涉及执行需要在设备上的键盘输入、鼠标输入或触摸输入的任务(例如,编辑邮件、编辑文档、浏览图片或观看社交网络),则用户将必须中断该任务或者可能甚至必须关闭其当前的应用以点击、触摸或进入独立的区域以访问个人助理。
[0018]对触觉输入的要求的一个现有的解决方案是使用关键短语。目前,大多数关键短语仅能在第三方应用的外部使用,或者要求你处于设备的操作系统的特定菜单中或特定屏幕中(例如,在说“Okay GOOGLE”之前处于GOOGLE now应用中)。因此,关键短语触发可以没有和按键方法一样的限制性,关键短语触发可以使用户重新放置他们的手或使用双手来按键。然而,使用关键短语的方法也有缺点。即使关键短语可以在第三方应用中使用,关键短语触发也必须在由用户给出的每个语音命令之前说出。这个不变并且重复的动作给用户增加了负担并且降低了智能助理的作为其主要特性之一的自然语言方面的优点。
[0019]因此,实施例通过利用视线跟踪来解决这些限制,这使得用户能够通过简单地看向设备的显示器上的指定区域来触发语音识别。实施例使用对用户视线的位置进行检测的传感器设备。然后,实施例激活语音输入模块例如智能助理,语音输入模块检测来自用户的任何语音命令。可以通过用户将其视线固定在设备屏幕的特定的拐角上或通过看向由用户设定的预定位置来激活触发。此外,实
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1