混合模型语音识别的制作方法

文档序号:8227617阅读:403来源:国知局
混合模型语音识别的制作方法
【专利说明】混合模型语音识别
[0001]相关申请的交叉引用
[0002]本申请要求于2013年3月15日提交的美国申请第13/838,379号和于2012年6月26日提交的美国申请第61/664,324号的权益,其通过参考被合并。
【背景技术】
[0003]本说明书涉及语音识别。
[0004]移动设备的用户可以通过例如在键盘上打字或者向麦克风中讲话来输入文本。在话音输入的情境中,自动搜索识别(ASR)引擎可以被用来处理语音形式的输入。

【发明内容】

[0005]一般而言,本说明书中所描述的主题的一个创新性方面可以用如下方法来实现,该方法包括用于提供声音转录的计算机实现的方法。该方法包括:访问由计算设备基于来自用户的音频输入所生成的音频数据,该音频数据对一个或多个用户话语进行编码。该方法还包括:通过使用第一语音识别器对该音频数据执行语音识别来生成该话语的第一转录,其中该第一语音识别器采用基于用户特定数据的语言模型。该方法还包括:通过使用第二语音识别器对该音频数据执行语音识别来生成该话语的第二转录,其中该第二语音识别器采用独立于用户特定数据的语言模型。该方法还包括:确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语。该方法还包括:基于确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语,提供该话语的第一转录的输出。
[0006]这些和其他实现可以各自可选地包括以下特征中的一个或多个特征。该一个或多个术语的集合可以与要由计算设备执行的一个或多个动作关联。该第一语音识别器可以采用基于语法的语言模型。该基于语法的语言模型可以包括情境自由语法。该第二语音识别器可以采用基于统计的语言模型。该用户特定数据可以包括该用户的联系人列表、在计算设备上安装的应用的应用列表、或者在计算设备上存储的媒体的媒体列表。该第一语音识别器可以在计算设备上被实现并且该第二语音识别器可以在一个或多个服务器设备上被实现。
[0007]一般而言,本说明书中所描述的主题的另一创新性方面可以用如下系统来实现,该系统包括用于提供声音转录的系统。该系统包括一个或多个计算机以及存储指令的一个或多个存储设备,该指令在由一个或多个计算机执行时可操作以使得该一个或多个计算机执行操作,该操作包括:访问由计算设备基于来自用户的音频输入所生成的音频数据,该音频数据对一个或多个用户话语进行编码;通过使用第一语音识别器对该音频数据执行语音识别来生成该话语的第一转录,其中该第一语音识别器采用基于用户特定数据的语言模型;通过使用第二语音识别器对该音频数据执行语音识别来生成该话语的第二转录,其中该第二语音识别器采用独立于用户特定数据的语言模型;确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语;以及基于确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语,提供该话语的第一转录的输出。
[0008]这些和其他实现可以各自可选地包括以下特征中的一个或多个特征。该一个或多个术语的集合可以与要由计算设备执行的一个或多个动作关联。该第一语音识别器可以采用基于语法的语言模型。该基于语法的语言模型可以包括情境自由语法。该第二语音识别器可以采用基于统计的语言模型。该用户特定数据可以包括该用户的联系人列表、在计算设备上安装的应用的应用列表、或者在计算设备上存储的媒体的媒体列表。该第一语音识别器可以在计算设备上被实现并且该第二语音识别器可以在一个或多个服务器设备上被实现。
[0009]一般而言,本说明书中所描述的主题的另一创新性方面可以用如下计算机可读介质来实现,该计算机可读介质包括存储软件的计算机可读介质,该软件包括由一个或多个计算机可执行的指令,该指令在这样执行时使得一个或多个计算机执行操作。该操作包括:访问由计算设备基于来自用户的音频输入所生成的音频数据,该音频数据对一个或多个用户话语进行编码;通过使用第一语音识别器对该音频数据执行语音识别来确定该话语的第一转录,其中该第一语音识别器采用基于用户特定数据而被开发的语言模型;通过使用第二语音识别器对该音频数据执行语音识别来确定该话语的第二转录,其中该第二语音识别器采用独立于用户特定数据而被开发的语言模型;确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语;以及基于确定该话语的第二转录包括来自预定的一个或多个术语的集合的术语,提供该话语的第一转录的输出。
[0010]这些和其他实现可以各自可选地包括以下特征中的一个或多个特征。该一个或多个术语的集合可以与要由计算设备执行的一个或多个动作关联。该第一语音识别器可以采用基于语法的语言模型。该第二语音识别器可以采用基于统计的语言模型。该用户特定数据可以包括该用户的联系人列表、在计算设备上安装的应用的应用列表、或者在计算设备上存储的媒体的媒体列表。该第一语音识别器可以在计算设备上被实现并且该第二语音识别器可以在一个或多个服务器设备上被实现。
[0011]本说明书中所描述的主题的一个或多个实现的细节在下面的说明书和附图中阐述。该主题的其他潜在特征、方面和优点根据说明书、附图和权利要求将变得清楚。
【附图说明】
[0012]图1是采用不同能力的两个语音识别器的系统的示例的图。
[0013]图2是示出用于执行语音识别的过程的示例的流程图。
[0014]图3是示出用于执行语音识别的另一过程的示例的流程图。
[0015]图4是示出在执行语音识别时的通信和操作的示例的泳道图。
[0016]图5是示出屏幕截图的示例的图。
[0017]图6不出了通用计算设备和通用移动计算设备的不例。
[0018]在各个附图中,相似的附图标记指代相似的元件。
【具体实施方式】
[0019]图1是采用不同能力的两个语音识别器以例如增强语音识别精度的系统100的示例的图。图1还图示在状态(a)至状态(i)期间系统100内的数据流、以及在状态(i)期间在系统100的移动设备102上显示的用户界面101。简而言之,系统100在客户端侧语音识别器和服务器侧语音识别器二者上处理用户话语,这可以帮助解决由话语中的用户特定词语或名称造成的歧义。例如,客户端侧语音识别器可以使用通过使用用户特定数据诸如用户的联系人列表中的联系人姓名而被开发的有限语言模型,而服务器侧语音识别器可以使用独立于这样的用户特定数据而被开发的大型词汇语言模型。在这种情况下,对这两种语音识别器的结果的比较或组合可以被用来在话语涉及用户特定术语时增加精度。
[0020]更具体地,该系统100包括移动设备102,该移动设备102通过一个或多个网络106与服务器104和ASR引擎105进行通信。ASR引擎105可以在服务器104上被实现或者在单独的计算设备上被实现并且通过一个或多个网络106与服务器104和移动设备102进行通信。服务器104可以是搜索引擎、口述引擎、对话系统、或者使用转录语音或调用使用转录语音的软件应用以执行某些动作的任何其他引擎或系统。一般而言,以下描述使用用于服务器104的搜索引擎的示例。该网络106可以包括无线蜂窝网络、无线局域网(WLAN)或W1-Fi网络、第三代(3G)或第四代(4G)移动电信网络、专用网络诸如内联网、公共网络诸如因特网、或者上述各项的任何适当组合。状态(a)至状态(i)描绘在系统100执行示例过程时发生的数据流。状态(a)至状态(i)可以是时间顺序的状态,或者其可以按照与图示的顺序不同的顺序发生。
[0021]移动设备102可以是例如蜂窝电话、智能电话、平板计算机或者个人数字助理(PDA)。该移动设备102实现包括基于客户端的语音识别器126的本地ASR引擎114。此夕卜,该基于客户端的语音识别器126使用移动设备102上保存的用户特定数据128来开发其语言模型127。该用户特定数据128可以包括例如联系人列表、电话号码、地址、应用、数字照片、音频媒体或视频媒体。以下描述使用联系人列表作为用户特定数据128的示例。
[0022]通过将用户特定数据128合并到语言模型127中,基于客户端的语音识别器126可以能够更精确地区分描述数据的唯一词语和名称,诸如朋友的姓名“Alex Gruenstein"或者最喜欢的艺术家的姓名“Lynyrd Skynyrd”。在一个示例中,该语言模型可以是可以支持简单话音动作并且包含与特定动作有关的用户特定数据的情境自由语法。
[0023]ASR引擎105包含使用语言模型125的基于服务器的语音识别器124。该语言模型125可以是能够转录复杂用户口述并且可以被设计成处理大量用户的转录的大型词汇统计语言模型。然而,在一些情况下,语言模型124可能不能访问用户特定数据并且因此可能不执行与这样的数据有关的语音识别以及ASR引擎114。该语言模型124可能不能访问用户特定数据例如是因为隐私关注或者在存储与上百万的用户关联的数据时系统的数据和带宽限制。为了确定ASR引擎105转录,基于服务器的语音识别器124可以生成与在音频数据112中被编码的话语匹配的一个或多个候选转录、以及该候选转录的语音识别置信度。具有最高置信度的转录可以被选作ASR引擎105转录。可以使用其他技术来选择将哪个候选转录用作服务器转录。
[0024]其他实现可以包含在同一计算设备上的ASR引擎105和ASR引擎114 二者。这样的计算设备可以是一个或多个服务器、台式计算机、膝上型计算机、平板计算机、移动电话或者智能电话。一些实现可以将ASR引擎105和114组合成具有大型统计语言模型和情境自由语法二者的单个ASR引擎,该情境自由语法包含用户特定数据128。另外,由所描述的ASR引擎中的每个ASR引擎所进行的语音识别过程可以同时、在基本上相同的时间、或者以并联方式执行。
[0025]在一些实现中,系统100采用语音识别来确定语音输入为话音命令还是话音搜索查询,并且然后进行相应地动作。话音命令可以被认为是由语音识别设备所接收的并且使得该设备执行任务的用户话语。该话音命令可以通过在话语中包括描述由设备可执行的动作的词语或短语、例如“呼叫”来识别。在一些情况下,该话音动作可以由这样动作的多个变型来描述。例如,包含用户数据的动作
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1