具有多个同时语音识别器的系统的制作方法

文档序号:9732148阅读:463来源:国知局
具有多个同时语音识别器的系统的制作方法
【专利说明】具有多个同时语音识别器的系统
[0001 ] 背景
[0002]包括一个或多个计算设备的系统可理解用户语音,用户语音可包括用以执行特定计算任务的指令。计算设备中所包括的话筒可接收用户语音并且可由多个用户访问。
[0003]—些系统依靠按键通话按钮来发起对用户语音的解释。另一些系统只可识别关于系统的特定指令,而其它系统只可识别涉及特定应用的指令。
[0004]概述
[0005]本技术包括解释诸如操作系统命令等全局命令以及针对一个或多个应用的由一个或多个用户对开放式话筒说出的命令的启用语音的系统。在该系统中,用户能够容易地在任何时间对焦点应用或操作系统说话,而不管操作系统的状态或者哪一个应用在前台。
[0006]两个语音识别器可以在系统中同时操作以支持对操作系统命令和应用命令的解释。这两个语音识别器可被存储在第一处理器可读存储器中并且由处理器在计算设备上同时执行。或者,第一语音识别器可被存储在第一处理器可读存储器中且由第一处理器在第一计算设备上执行,而第二语音识别器可被存储在第二处理器可读存储器中且由第二处理器在远程(诸如在云或因特网中)的第二计算设备上执行。在一实施例中,第二语音识别器包括用以解释来自用户的自然语言或语音的自然语言软件组件。
[0007]在各实施例中,操作系统命令至少包括:1)启动或关闭应用;2)多任务命令,诸如在正在运行的应用之间切换;3)社交命令,诸如评级、共享、邀请等;4)在处于焦点的当前应用内或者跨整个系统搜索;5)控制应用设置;6)控制系统设置;7)操纵后台任务的命令,诸如暂停后台音乐或控制语音呼叫或者播放与处于焦点的主应用同时运行的语音聊天。
[0008]除了操作系统命令之外,用户还可说出涉及焦点应用的命令。可用的局部或应用命令的集合取决于焦点应用且由应用预定。例如,交互式电子游戏应用中的应用命令可包括玩游戏动作或者游戏菜单系统内的导航。类似地,媒体应用中的命令可包括走带控制(例如,快进)或者用于浏览应用的可用内容的命令。
[0009]在各实施例中,操作系统和应用两者都可使用不受限的语音语法并且可随时间修改并改进这些语法。在各实施例中,语音命令被假定为涉及焦点应用,且系统保留的词或词组可被用来标识之后的操作系统命令。或者,用户的串连或更改的节奏也可被用来标识操作系统命令和/或应用命令。例如,说出的保留词以及一个和或多个操作系统命令后的长暂停指示用户已完成说出操作系统命令,并且系统可以默认返回到假定下一语音命令是应用命令(除非另一保留词被说出)。在一实施例中,串连允许使用单个保留词。在一替代实施例中,系统可默认接受操作系统命令。
[0010]在一实施例中,包括诸如数字电子智能代理等智能代理以使得用户可具有多轮对话或谈话。操作系统保留词或词组可以是代理的名称,或另选地可使用词组,诸如“show methe shortcuts(向我显示快捷方式)”或“system(系统)”。操作系统语音识别器与同一个或多个应用相关联的一个或多个应用语音识别器并行地持续监听保留词或词组。一旦用户已经针对操作系统,一个或多个应用就不再接收语音输入,直到用户与智能代理(或操作系统)的对话完成。结果,与智能代理的交互可涉及多轮谈话。
[0011]一旦交互完成一因为用户明确解散智能代理、因为谈话自然地完成(S卩,执行所请求的命令无需来自用户的附加信息)、或者由于非活动超时一输入焦点就自动返回到焦点应用。
[0012]操作计算设备的方法实施例包括由第一语音识别器接收表示来自话筒的全局命令的信息。表示来自话筒的应用命令的信息可由第二语音识别器接收。第二语音识别器与第一语音识别器同时操作。计算设备响应于表示全局命令的信息和表示应用命令的信息之一来执行计算操作。
[0013]—装置实施例包括用于接收至少第一和第二音频信号的至少一个话筒以及至少一个处理器。该装置还包括至少一个处理器可读存储器,该至少一个处理器可读存储器存储具有包括第一语音识别器和第二语音识别器的处理器可读指令的操作系统以及具有处理器可读指令的应用。该至少一个处理器执行操作系统的处理器可读指令以便:1)响应于第一语音识别器接收到第一音频信号而从第一语音识别器提供对操作系统的第一命令以及2)响应于第二语音识别器接收到第二音频信号而从第二语音识别器提供对应用的第二命令。
[0014]在另一实施例中,一个或多个处理器可读存储器包括在被执行时使得一个或多个处理器执行一种用于处理语音的方法的指令。该方法包括接收音频信号以及确定音频信号是否表示对操作系统的指令。该方法还在确定音频信号是否表示对操作系统的指令时同时确定音频信号是否表示对应用的指令。操作系统命令响应于确定音频信号表示对操作系统的指令而输出。应用命令响应于确定音频信号表示对应用的指令而输出。
[0015]提供本概述以便以简化形式介绍将在以下详细描述中进一步描述的一些概念。该概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在被用来帮助确定所要求保护的主题的范围。
[0016]附图简述
[0017]图1是示例性系统架构的高级框图。
[0018]图2是在至少两个语音识别器处操作的软件架构的高级框图。
[0019]图3A是具有两个语音识别器的示例性操作系统的高级框图。
[0020]图3B是具有两个语音识别器的示例性操作系统和交互式电子游戏操作系统的高级框图。
[0021]图3C是具有两个语音识别器的系统的高级框图,这些语音识别器中的至少一个位于远程计算设备上。
[0022]图4-5A-C是识别应用命令和操作系统命令的示例性方法的流程图。
[0023]图6是示例性游戏和媒体系统的立体图。
[0024]图7是图7中所示的游戏和媒体系统的组件的示例性功能框图。
[0025]图8是示例性计算设备。
[0026]详细描述
[0027]在系统、计算设备、方法和处理器可读存储器中包括解释诸如操作系统命令等说出的全局命令以及应用命令两者的语音识别。一个或多个用户可以向计算设备的开放式话筒说出可由同时操作的至少两个语音识别器解释的命令。第一语音识别器解释操作系统命令,而第二语音识别器解释应用命令。系统命令可至少包括打开和关闭应用,而应用命令可至少包括游戏命令或菜单内导航。可使用保留词来标识命令是针对操作系统还是应用的。用户的节奏也可指示语音是全局命令还是应用命令。语音识别器可包括解释来自用户的自然语言或语音的自然语言软件组件。在一实施例中,具有自然语言软件组件的语音识别器位于远程计算设备中,在所谓的云中。
[0028]以用户友好的方式实现这一系统出于至少多个原因而是有挑战性的。操作系统命令和应用命令可能完全互相冲突(例如,应用和操作系统两者都可包括语音命令“go home(去往主页)”,但具有不同的含义)。
[0029]而且,对操作系统命令和应用命令的解释可能互相冲突,特别是在一个或这两个语音识别器支持自然语言理解(例如,自然语言词组(如“please continUe(请继续)”)可以在这两个上下文中都具有含义)时。
[0030]甚至当操作系统命令和应用命令本身不冲突时,每一上下文中的不同命令之间也可能存在音素相似性,这导致识别出的事件中的歧义(例如,“accept this one(接受这个)”和 “except this one(排除这个)”)。
[0031]只要出现冲突就在用户接口(UI)处显示消歧使系统感觉上是缓慢且麻烦的,特别是在此类冲突频繁地出现时。
[0032]当操作系统和应用使用不兼容的语音技术(并因此系统中没有一部分理解这两个语法的语义)时,在UI处显示消歧甚至可能在技术上是不可能的。
[0033]图1是具有同时操作的多个语音识别器102a_c的系统或装置100的高级框图。在一实施例中,计算设备107包括同时操作的语音识别器102a-b。语音识别器102a用于解释诸如操作系统命令之类的由用户向话筒111说出的全局命令。语音识别器102b用于解释由用户向话筒111说出的焦点应用命令,如在本文详细描述的。在一替代实施例中,可以使用多个话筒。在另一实施例中,计算设备101包括由计算设备107通过网络105访问的语音识别器102c(也可以与语音识别器102a和/或102b同时操作)。
[0034]在各实施例中,诸如操作系统命令等全局命令至少包括:1)启动或关闭应用;2)多任务命令,诸如在正在运行的应用之间切换;3)社交命令,诸如评级、共享、邀请等;4)在处于焦点的当前应用内或者跨整个系统搜索;5)控制应用设置;6)控制系统设置;7)操纵后台任务的命令,诸如暂停后台音乐或控制语音呼叫或者播放与处于焦点的主应用同时运行的语音聊天。
[0035]除了操作系统命令之外,用户还可说出涉及焦点应用的命令。可用的应用命令的集合取决于焦点应用且由应用确定。例如,交互式电子游戏应用中的命令可包括玩游戏动作或者游戏菜单系统内的导航。类似地,媒体应用中的命令可包括走带控制(例如,快进)或者浏览应用的可用内容的命令。
[0036]在一实施例中,用户说出的所有单词或词组被假定为默认涉及焦点应用。保留词或词组可用于指示之后说出的单词或词组涉及操作系统(例如,“shortcuts(快捷方式)”、“system(系统)”、“computer(计算机)”)。用户的节奏(或串连)也可用于标识涉及操作系统和/或应用的单词或词组,如本文详细描述的。
[0037]在一替代实施例中,操作系统可以是默认的,其中用户说出的所有单词或词组都被假定为默认涉及操作系统。类似地,在默认使用焦点应用时,可使用保留词(或用户的节奏)来针对应用而不是默认的操作系统。
[0038]在另一实施例中,全局命令(或操作系统命令)可将焦点切换到作为该全局命令的副作用的应用,而不依靠单独的保留词或节奏区分。例如,全局命令“Computer go to webbrowser (计算机去往web浏览器)”可启动web浏览器应用并且还自动地将输入焦点定向到web浏览器应用以用于后续语音命令。
[0039]在一实施例中,计算设备107包括可以与用户通信的智能代理210,如图2所示。在一实施例中,智能代理是数字电子智能代理。在一实施例中,保留词或词组可是智能代理210的名称。语音识别器102a与
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1