利用快速语音识别搜索过程的采样音频内容的处理的制作方法

文档序号：2830601阅读：353来源：国知局

专利名称：利用快速语音识别搜索过程的采样音频内容的处理的制作方法
技术领域：
本发明一般涉及一种语音识别过程，并且更具体地涉及语音识别搜索过程。
背景技术：
语音识别包括努力的已知领域。某些语音识别过程利用语音识别搜索处理诸如但不限于所谓的基于隐马尔可夫模型的语音识别过程。这通常包括统计模型的使用，该统计模型输出符号或数量的序列，其中语音实质上被视为关于统称为状态的随机过程的马尔可夫模型。示
例性隐马尔可夫模型可能输出，例如，39-维实值向量的序列，大约每IO毫秒输出这些向量中的一个。
这样的向量可能包括，例如，通过采取采样语音的短时窗的傅立叶变换和使用余弦变换对频谱进行解相关而获得的倒谱系数，然后为这些目的而取第一 (最重要的)系数。对于每个状态，隐马尔可夫模型方法倾向于具有被称为对角线或充分协方差高斯混合的统计分布，该统计分布将表征每个被观察的向量的相应似然性。
在许多现有技术方法中，常规的语音识别搜索需要在单词、子词和上述的状态之间的边界应当在一定规则基础上(通常采样音频内容的每一帧)被搜索。尽管实际上是最佳和最有力的方法，但是这种逐帧方法来搜索单词、子词和状态边界也需要相当大的计算资源。这只需要增加所支持词汇的深度和丰富度。结果，使用语音识别搜索过程的语音识别过程可能需要庞大的计算资源。
例如，考虑其中每个帧仅表示大约IO毫秒的音频内容的应用装置。对于支持识别例如50,000单词的语音识别过程，然后必须针对每个这样的帧搜索并比较与这50,000单词的每个相对应的识别数据。单独这个就需要相当大的计算量。这些需求只有当考虑这样的过程也需要针对带有每个这样的帧的子词进行相应的搜索时才渐渐变得更严重。
结果，这样的方法，虽然常常成功的执行最佳的语音识别，但是也常常计算上太过于贫乏而不能在这样的计算开销完全不可用的应用装置中工作好。例如，诸如蜂窝电话等的小型便携式无线通信设备代表这样的应用装置。可用的计算能力以及相应的功率容量限制都可能严重限制这样的方法的实际使用。

特别当结合附图研究时，通过提供涉及使用下面详述中描述的语音识别搜索过程的采样音频内容处理的方法和装置至少部分地满足了以上需要，在附图中-
图1包括如依照本发明的各种实施例配置的流程图；图2包括如依照本发明的各种实施例配置的流程图；图3包括如依照本发明的各种实施例配置的示意状态表示图；以
及
图4包括如依照本发明的各种实施例配置的框图。
本领域的技术人员将理解，图中的元素出于简单和清楚的目的而被图示并且不一定按比例绘制。例如，图中一些元素的尺寸和/或相对位置相对于其它要素可能被放大以帮助提髙对本发明的各种实施例的理解。而且，为了使本发明的这些不同实施例便于更顺利地査看，常常并不图示在商业上可行的实施例中有用或必需的常见但公知的元素。将进一步理解，某些动作和/或步骤可以以发生的特定顺序来描述或图示，而本领域的技术人员将理解关于序列这样的特异性实际上并不是必需的。还将理解，除了在这里另外阐述特定含义之外，在这里使用的术语和表达具有与这样的术语和表达关于它们查询和研究的相应的各自领域相一致的通常含义。
具体实施例方式
一般说来，按照这些不同实施例，一个实施例提供了采样音频内容的多个帧，并且然后使用语音识别搜索过程来处理所述多个帧，语音识别搜索过程包括至少部分地确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界。这与现有实践对比鲜明，当然，因为现有技术通常需要系统地搜索针对子词边界的每个帧，而没有考虑实际上是
否应当进行这样的搜索。这些教导还将容易地提供(accommodate)确定是否在逐帧基础上搜索包含在每个帧中的每个单词边界。
这些教导很容易结合针对每个这样的帧的子词隐马尔可夫模型状态信息的使用来应用。通过一个方法，该过程可以包括在逐帧基础上提供针对潜在的子词隐马尔可夫模型的每个状态的似然值并且选择这些值中的最大值。接着，可以作为带有结果值的预定波束宽度值的函数来处理该最大值，然后，将结果值和与该潜在的子词隐马尔可夫模型的退出状态相对应的似然值相比较。接下来我们可以至少部分地作为该比较结果的函数来确定是否搜索包含在特定帧里的每个子词边界(或，如果需要，每个单词边界)。
如此配置，当使用这样的语音识别搜索过程而同时避免大量的计算行为时，这些教导如我们通常所期待地允许相对精确和高质量的语音识别处理。特别地，在很多情况下按照以上教导处理的给定帧看起来将不太可能事实上包含所感兴趣的边界，在这种情况下，这样的帧在这点上可以简单跳过。也就是说，语音识别搜索过程可以简单跳过这样的帧并且不搜索如包含在该帧中的每个子词边界(和/或单词边界)。这进而允许仅仅具有适度的容量和/或能力的给定处理平台仍常常成功地执行具有成功结果的语音识别搜索过程。
在对下面的详细描述进行透彻回顾和研究之后，这些和其它益处可以变得更清楚。现在参考附图，并且特别参考图1，与这些教导相一
致的示例性方法100首先提供101采样音频内容的多个帧，并且然后提供用于使用语音识别搜索过程处理102那些帧，该语音识别搜索过程至少部分地包括确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界。有各种已知的过程，通过这些过程可以捕获和提供这样的帧，并且在这点上其他过程在未来有可能被开发。因为这些教导在这点上对于任何特定方法的选择不是过度敏感，为简洁和保持叙述重点起见，将不提供关于这样的帧的提供的进一步细节，在这里保存以注意这样的帧通常只对应于相对短的时间段，诸如但不限于IO毫秒。
上面提到的语音识别搜索过程可以包括诸如可以适合于满足给定的应用装置的需要的过程。为了提供说明性示例并且通过限制的方式的目的，这里将假定该语音识别搜索过程包括基于隐马尔可夫模型的语音识别过程。因此，所描述的确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界的步骤将包括至少部分地作为每个帧的隐马尔可夫模型状态信息的函数来确定是否在逐帧基础上搜索每个子词边界。这样的隐马尔可夫模型状态信息可以包括，例如，每个帧的潜在的隐马尔可夫模型的多个状态中的每个状态的似然信息。
这里存在可以满足这样的步骤的各种方法。如在这点上只是一个说明性示例而不是通过限制的方式，图2表示过程200，过程200提供用于提供201潜在隐马尔科夫模型的多个状态中的每个状态的似然值，并且然后选择202状态似然值的最大值以提供合成的选择的似然值。然后，作为预定波束宽度值的函数来处理203该选择的似然值(例如，通过从所选择的似然值减去预定波束宽度值)以提供己处理的似然值，然后将己处理的似然值和与该潜在隐马尔可夫模型的特定状态(诸如退出状态)相对应的似然值相比较204，从而提供合成比较结果。然后，过程200提供用于至少部分地作为该比较结果的函数来确定205是否搜索包含在该帧中的每个子词边界。现在参考图3，现在将提供一些具体的说明性示例。在该示例中，如对应于采样音频内容的给定的这样的帧，在时间T有三个可能的状态300。这三个可能的状态这里被表示为开始状态C 301、退出状态A303和中间状态B 302。每个这样的状态300具有相应的似然值(例如，状态A 303具有似然值X，而状态C301具有似然值Z)。存在各种已知方法来确定这样的似然值；因此，在这点上在这里将不提供另外的细节。为了这些示例的目的，将假定预定的波束宽度3。如可能表征给定应用装置，当然可以采用其它值以适合各种需要和/或机会。
示例1
在该示例中，状态A 303值为1，状态B 302值为2，并且状态C301值为6。依照这些教导，选择了最大状态值(在该示例中，它是6)，并且然后，从中减去预定的波束宽度值。在这种情况下，这将包括从6减去3，留下3作为已处理的似然值。然后，将该已处理的似然值与潜在的状态300中的特定一个相比较；在这种情况下，在该示例中，退出状态A 303值为1。在该示例中，该比较包括确定特定潜在状态的值是否小于已处理的似然值。在该示例中，然后，查询变成确定1小于3。当然，后者实际上表示真命题。因此，针对这个帧很可能可以得出结论子词转换不太可能发生，并且可以合理地跳过针对该帧的子词边界的搜索。如果单词边界发生在该子词边界处，则随后可以跳过单词边界的搜索。这进而将导致大大减少计算需求。
示例2
在该示例中，三个状态300中的每个值为4。因此，最大似然值是4并且减去预定波束宽度值3以产生已处理的似然值l。因此，在该示例中的比较表明，退出状态A 303的似然值(在该示例中，值为4)大于已处理的似然值l。因此，可以得出合理的结论子词转换实际上可能发生。这进而导致确定搜索包含在该特定帧中的每个子词边界。如果单词边界发生在该子词边界，则随后可以进行单词边界的搜索。本领域技术人员将认识并理解，这些教导因此提供了一种高效、简单的方法以关于给定帧是否值得在为了评估感兴趣的子词边界的包括方面消耗计算资源作出合理的确定。支持这样的决策过程的开销计算需求相对适度并且通过这些过程的使用和实施来实现的可观的节余更重要。
这些相同的教导也可以结合确定是否在逐帧基础上(代替或结合诸如针对子词边界所描述的确定)搜索在每个帧中的每个单词边界(如相对于每个子词边界)而应用。
本领域技术人员将理解，使用任何各种各样的可用和/或容易配置的平台很容易实现上述过程，包括如本领域已知的部分或完全可编程的平台或如可以期望用于某些应用的专用平台。现在参考图4，现在将提供这样的平台的说明性方法。
在该示例中，实现装置400包括可操作的耦合到处理器402的输入401。输入401可以被配置和布置成提供采样音频内容的多个帧。再次，存在本领域技术人员将容易地知道并且可用的可以完成这个任务的各种已知途径。处理器402进而可以包括专用或者部分或完全可编程的平台，该平台被配置和布置成(经由，例如，相应的编程)实现在此已阐述的选择的教导。特别地，该处理器402可以被配置和布置成使用音频识别搜索过程来处理输入的多个帧，该音频识别搜索过程至少部分地包含前述关于是否在逐帧基础上搜索包含在多个帧的每个帧中每个子词边界的确定。
语音识别搜索过程可以包括处理器402的整体部分，或者，如果需要，可以包括例如存储在可用存储器等上的软件程序403。在任何情况下，如上所述，如果需要，该语音识别搜索过程都可以容易地包括基于隐马尔可夫模型的语音识别过程。本领域技术人员将认识并理解，这样的装置400可以包括由图4所示的图示建议的多个物理上不同的元件。然而，也可以查看包括逻辑视图的该图示，其中一个或多个这些元件可以经由共享平台被启用和实现。还将理解，这样的共享平台可以包括如本领域已知的完整或至少部分可编程的平台。
如此配置，仅具有适度的处理能力的实现平台(诸如蜂窝电话等)仍可以通过做出这些关于是否测试和采样音频内容的哪个帧测试子词和/或单词边界的这些选择性确定来进行强大的语音识别搜索过程的高度杠杆使用。描述的方法相对容易实现并且用以通常已经可用的高度杠杆信息(例如，每个帧的各种可能状态的似然值)。这些教导也容易縮放以满足与给定应用装置相对应的需要和/或机会。例如，这些教导可以很容易应用于与提供超过三个可能状态的语音识别搜索过程配套的使用中。
本领域熟练技术人员将认识到，在不背离被发明的精神和范围的情况下，可以对上述实施例做出各种修改、变化以及组合，并且这样的修改、替代和组合应当被视为处于发明概念的范围内。
权利要求
1.一种方法，包括提供采样音频内容的多个帧；使用语音识别搜索过程来处理所述多个帧，所述语音识别搜索过程至少部分地包括确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界。
2. 根据权利要求l所述的方法，其中，使用语音识别搜索过程包括使用基于隐马尔可夫模型的语音识别过程。
3. 根据权利要求2所述的方法，其中，确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界包括至少部分地作为针对每个帧的隐马尔可夫模型状态信息的函数，确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界。
4. 根据权利要求3所述的方法，其中，所述隐马尔可夫模型状态信息包括针对每个帧的潜在隐马尔可夫模型的多个状态中的每个状态的似然信息。
5. 根据权利要求4所述的方法，其中，至少部分地作为针对每个帧的隐马尔可夫模型状态信息的函数来确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界包括至少部分地并且针对每个帧针对潜在隐马尔可夫模型的多个状态中的每个状态提供似然值；选择所述似然值中的最大似然值，以提供选择的似然值；作为预定波束宽度值的函数来处理所选择的似然值，以提供已处理的似然值；将已处理的似然值和与所述潜在隐马尔可夫模型的特定状态相对应的似然值相比较，以提供比较结果；至少部分地作为所述比较结果的函数，确定是否搜索包含在该帧中的每个子词边界。
6. 根据权利要求5所述的方法，其中，作为预定波束宽度值的函数来处理所选择的似然值以提供已处理的似然值包括从所选择的似然值减去所述预定波束宽度值以提供所述已处理的似然值。
7. 根据权利要求l所述的方法，其中，使用语音识别搜索过程来处理所述多个帧进一步至少部分地包括基于是否已经搜索了包括给定单词的最后的子词的相应子词边界的知识，确定是否在逐帧基础上搜索包含在每个帧中的每个单词边界。
8. —种装置，包括输入，所述输入被配置和布置成接收采样音频内容的多个帧；处理器装置，所述处理器装置可操作地耦合到所述输入，用于使用语音识别搜索过程来处理所述多个帧，所述语音识别搜索过程至少部分地包括确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界。
9. 根据权利要求8所述的装置，其中，所述处理器装置通过使用基于隐马尔可夫模型的语音识别过程来使用语音识别搜索过程。
10. 根据权利要求9所述的装置，其中，通过至少部分地作为针对每个帧的隐马尔可夫模型状态信息的函数来确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界，所述处理器装置确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界。
11. 根据权利要求IO所述的装置，其中，所述隐马尔可夫模型状态信息包括针对每个帧的潜在隐马尔可夫模型的多个状态中的每个状态的似然信息。
12. 根据权利要求ll所述的装置，其中，所述处理器装置通过至少部分地并且针对每个帧的以下操作至少部分地作为针对每个帧的隐马尔可夫模型状态信息的函数来确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界针对潜在隐马尔可夫模型的多个状态中的每个状态提供似然值；选择所述似然值中的最大似然值，以提供选择的似然值；作为预定波束宽度值的函数来处理所选择的似然值，以提供已处理的似然值；将所述已处理的似然值和与所述潜在隐马尔可夫模型的特定状态相对应的似然值相比较，以提供比较结果；至少部分地作为所述比较结果的函数，确定是否搜索包含在该帧中的每个子词边界。
13. 根据权利要求12所述的装置，其中，作为预定波束宽度值的函数来处理所选择的似然值以提供已处理的似然值包括从所选择的似然值减去所述预定波束宽度值以提供所述已处理的似然值。
14. 一种装置，包括输入，所述输入被配置和布置成提供采样音频内容的多个帧；处理器，所述处理器可操作地耦合到所述输入并且被配置和布置成使用语音识别搜索过程来处理所述多个帧，所述语音识别搜索过程至少部分地包括确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界。
15. 根据权利要求14所述的装置，其中，所述处理器进一步被配置和布置成通过使用基于隐马尔可夫模型的语音识别过程来使用语音识别搜索过程。
16. 根据权利要求15所述的装置，其中，所述处理器进一步被配置和布置成通过至少部分地作为针对每个帧的隐马尔可夫模型状态信息的函数来确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界，确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界。
17. 根据权利要求16所述的装置，其中，所述隐马尔可夫模型状态信息包括针对每个帧的潜在隐马尔可夫模型的多个状态中的每个状态的似然信息。
18. 根据权利要求17所述的装置，其中，所述处理器进一步被配置和布置成通过至少部分地并且针对每个帧的以下操作至少部分地作为针对每个帧的隐马尔可夫模型状态信息的函数来确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界针对潜在隐马尔可夫模型的多个状态中的每个状态提供似然值；选择所述似然值中的最大似然值，以提供选择的似然值；作为预定波束宽度值的函数来处理所选择的似然值，以提供已处理的似然值；将所述已处理的似然值和与所述潜在隐马尔可夫模型的特定状态相对应的似然值相比较，以提供比较结果；至少部分地作为所述比较结果的函数，确定是否搜索包含在该帧中的每个子词边界。
19. 根据权利要求18所述的装置，其中，作为预定波束宽度值的函数来处理所选择的似然值以提供已处理的似然值包括从所选择的似然值减去所述预定波束宽度值以提供所述已处理的似然值。
20. 根据权利要求14所述的装置，其中，所述处理器进一步被配置和布置成基于是否已经搜索了包括给定单词的最后的子词的相应子词边界的知识，至少部分地通过确定是否在逐帧基础上搜索包含在每个帧中的每个单词边界，使用语音识别搜索过程来处理所述多个帧。
全文摘要
本发明提供(101)了采样音频内容的多个帧，并且然后使用语音识别搜索过程来处理(102)所述多个帧，所述语音识别搜索过程至少部分地包括确定是否在逐帧基础上搜索包含在每个帧中的每个子词边界。这些教导也将很容易提供确定是否在逐帧基础上搜索包含在每个帧中的每个单词边界。
文档编号G10L15/00GK101595522SQ200780048579
公开日2009年12月2日申请日期2007年11月5日优先权日2006年12月29日
发明者程燕鸣申请人:摩托罗拉公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：程燕鸣
技术所有人：摩托罗拉公司
我是此专利的发明人

上一篇：车载用声音识别装置的制作方法
上一篇：利用多分辨率语音识别搜索处理对采样音频内容进行处理的制作方法