具有多个同时语音识别器的系统的制作方法_3

文档序号:9732148阅读:来源:国知局
比较。在一实施例中,词典包含大约150000个单词。语言模型快速决定用户说出了哪些单词。
[0072]在一实施例中,语言模型中的三元语法被用来分析上下文并在发音相同的单词(诸如“there”、“their”和“they’re”)之间进行区分。在许多情况下,语音识别引擎301b可通过查看一单词之前的两个单词来识别该单词。例如,当用户说例如“let’s go there”时,“let ’ s go”帮助软件决定使用“there”而不是“their”。
[0073]应用SR302具有与系统SR 301类似的组件。应用SR 302接收音频流313并将音频流313解释或转换为文本并且然后搜索最接近地匹配该音频流的文本。应用SR 302然后向应用304输出所推荐的应用命令文本或置信水平或置信百分比来作为结果315。
[0074]在一实施例中,应用SR 302包括应用编程接口(API)302a、语音识别引擎302b和声学模型302c。
[0075]API 302a是指定软件组件如何彼此交互的应用编程接口。在一实施例中,API302a是通常包括用于例程、数据结构、对象类和变量的规范的库。在一实施例中,API 302a包括允许使用用于SR 302内的语音识别和语音合成的语音API。
[0076]具有声学模型302c的语音识别引擎302b分析用户语音的声音并将其转换成音素,如本文描述的。
[0077]在一实施例中,声学模型302c移除噪声和不需要的信息,诸如音量变化。然后,使用数学计算,声学模型302c将音频数据精简为频谱(声音的音调),分析音频数据,并将单词转换成音素的数字表示。
[0078]在一实施例中,语音识别引擎302b包括如本文描述的语言模型。
[0079]系统UI303确定系统命令是否已被说出并输出相关联的系统命令。在一实施例中,系统UI 303包括API 303a、共享命令中介303b和系统命令303c。
[0080]在一实施例中,API303a是如本文描述的应用编程接口。
[0081 ]共享命令中介303b将结果314中的所推荐的操作系统命令与系统命令303c中的多个保留词和预定操作系统命令或其列表进行比较。当所推荐的操作系统命令中的保留词匹配系统命令303c中的保留词时,共享命令中介303b尝试将该保留词之后的一个或多个所推荐的操作系统命令与系统命令303c中的操作系统命令进行匹配。当出现匹配时,在各实施例中系统UI 303提供相关联的操作系统命令作为cmnd 316和318。
[0082]在一实施例中,共享命令中介303b还负责确定应用SR302何时脱离和再结合。例如,当操作系统命令由计算设备提供和处理时,应用SR 302脱离直到操作系统命令已被处理。共享命令中介303b还负责确定用户语音的节奏或者单词或词组之间的时间段(或静默),以使得可以串连一系列操作系统命令,如本文描述的。
[0083]语音304包括API 304a、应用代码304b和应用命令304c JPI 304a是如本文描述的应用程序接口。应用代码304b是用于执行诸如交互式电子游戏等应用的处理器可读指令。应用命令304c包括多个预定应用命令或其列表。
[0084]在一实施例中,应用代码304b将被输出为结果315的应用文本与应用命令304c中的应用命令进行比较。当标识出有效的应用命令时,应用304(具体而言是应用代码304b)执行该应用命令。在一实施例中,应用304还可向其它软件组件输出应用命令,诸如向如图3A-C所示的应用SR 302输出的命令(cmnd)317。
[0085]图3B是具有两个语音识别器的示例性操作系统和交互式电子游戏操作系统的高级框图。在图3B所示的实施例中,OS 300如本文描述且在图3A中示出的那样类似地操作。在图3B所示的实施例中,应用304在诸如交互式电子游戏操作系统等应用OS 350内执行。
[0086]图3C是具有两个语音识别器的系统的高级框图,这些语音识别器中的至少一个位于远程计算设备101上(在所谓的云中)。图3C类似于图3A,具有缓冲器305-306、系统SR301、应用SR 302、系统UI 302和应用304。另外,0S 300包括与NL SR服务460通信的自然语言单元(NLU)客户机461和主页462。在一实施例中,NL SR服务460包括存储在计算设备107上并在该计算设备上执行的处理器可读指令。在一实施例中,NL SR服务460包括用于解释来自用户的自然语言语音的语音识别器,该语音识别器至少在至少系统SR 301操作以解释来自用户的操作系统命令的时间中的一部分处执行。
[0087]在一实施例中,应用SR 302将表示用户语音的音频流313传递至NLU客户机461。在一实施例中,用户语音可以是自然语言的形式,诸如查询“Find funny movies(查找有趣的电影)”。在一实施例中,NL SR服务460将在搜索后返回有趣电影的列表并且在来自音频语音输出的文本版本和/或朗读版本中提供有趣电影的列表。NL SR服务460可包括诸如对话(代理)460d等将允许用户与智能代理进行多轮谈话的数字电子智能代理。例如,智能代理可响应于该查询来询问:“During what time per1d are you interested?90s?(您对在什么时间段期间感兴趣?90年代?)”。在一替代实施例中,数字电子智能代理可以是主页462中的代理462c。
[0088]在一实施例中,NLU客户机461担当NL SR服务460的客户机。NLU客户机461包括API461a、音频终点指向461b、编码461c和上传/下载(Up/Dn)461d。
[0089]API 461a是如本文描述的应用可编程接口。
[0090]音频终点指向461b负责标识音频流313的终点,诸如问题的终点。
[0091]编码461c对从音频终点指向461 b输出的音频流31 (诸如问题)的一部分进行编码,并且上传/下载使得音频流313的这部分准备好被发送到主页462并最终发送到NL SR服务460。
[0092]主页462包括API 462a、上下文中介462b、代理462c以及搜索462d。家庭462负责与NL SR服务460通信。
[0093]API 462a是如本文描述的应用程序接口。
[0094]内容中介462b负责将音频流313的这部分的上下文信息提供给NLSR服务460,如音频/上下文471所示。在一实施例中,音频/上下文471包括音频流313的一部分、音频流313的这部分的上下文以及查看请求。在一实施例中,查看请求指示用户是否想要来自NL SR月艮务460的输出472被显示为朗读输出。
[0095]在一实施例中,代理462c是使用户能够具有多轮自然语言谈话的数字电子智能代理。
[0096]搜索462d负责在诸如远程计算设备110等远程计算设备处完成搜索。例如,当用户询问“Find funny movies”并且NL SR服务460的输出472包括结果的朗读版本(有趣电影的朗读列表)以及所显示的文本(有趣电影的文本列表)时,搜索462d可以向在远程计算设备处的数据库搜索所得电影以使得名称或电影可被提供给具有查询的用户。
[0097]NL SR服务460是具有存储在处理器可读存储器中的处理器可读指令的自然语言软件组件,这些指令由处理器在计算设备101上执行以使得音频流服务的自然语言解释被提供给客户机,诸如主页462和NL客户机461。响应于从客户机接收到音频/上下文471,NLSR服务460提供包括查看结果和语音输出的输出472。
[0098]NL SR服务460包括API 460a、语音识别引擎460b、声学模型460c、对话(代理)460d和语音输出460e。
[0099]API 460是如本文描述的应用可编程接口。
[0100]在一实施例中,语音识别引擎460b是自然语言语音识别引擎。
[0101]声学模型460c是与语音识别引擎460b联用的声学模型。
[0102]对话(代理)460d负责向用户提供对话。在一实施例中,对话(代理)460d是向用户提供多轮谈话的数字电子智能代理。
[0103]语音输出460c响应于接收到音频、上下文和查看请求音频/上下文471而提供包括查看结果和语音输出的输出472。例如,语音输出460e响应于用户说出查询:“Find funnymovies”而以文本和朗读版本两者提供有趣电影的列表作为输出472。
[0104]图4-5C是示出在至少两个语音识别器处操作以解释包括操作系统命令和应用命令的用户语音的示例性方法的流程图。在各实施例中,图4-5C中所示的步骤表示硬件(例如,处理器、存储器、电路)、软件(例如,0S、应用、驱动器、机器/处理器可执行指令)或用户的操作个体或其组合。如本领域普通技术人员将理解的,各实施例可以包括比示出的更多或更少的步骤。
[0105]图5A是识别用户说出的应用命令和全局命令的示例性方法500的流程图。在一实施例中,方法500由图1所示的计算设备107(具体而言由语音识别器102a-b)执行。
[0106]步骤501示出由诸如语音识别器102a等第一语音识别器接收表示来自诸如图1所示的话筒111等话筒的全局命令的信息。在一实施例中,全局命令可以是操作系统命令。在一实施例中,该信息包括表示用户的全局命令的音频信号。
[0107]步骤502示出由诸如语音识别器102b等语音识别器接收表示来自诸如话筒111等话筒的应用命令的信息。第二语音识别器与第一语音识别器同时操作。在一实施例中,第二语音识别器可位于远程计算设备处,诸如图1所示的计算设备101中的语音识别器102c。远程计算设备可被认为处在所谓的云中。例如,语音识别器102c可包括自然语言软件组件,该组件解释来自用户的自然语言并通过自然输出或语音来通信。
[0108]步骤503示出由诸如计算设备107等计算设备响应于表示全局命令的信息和表示应用命令的信息之一来执行操作。应用命令和全局命令(诸如操作系统命令)至少包括本文描述的命令。在各实施例中,应用可以在系统操作系统或应用操作系统中运行或执行,如图3A-B所示ο
[0109]在其它实施例中,步骤501-503由至少图2-3C和6-8所示的示例性软
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1