利用多分辨率语音识别搜索处理对采样音频内容进行处理的制作方法

文档序号：2830600阅读：259来源：国知局

专利名称：利用多分辨率语音识别搜索处理对采样音频内容进行处理的制作方法
技术领域：
本发明整体上涉及的是语音识别处理，尤其涉及的是语音识别搜索处理。
背景技术：
语音识别包含已知的努力领域。某些语音识别处理利用了语音识别搜索处理，例如，但不限于，所谓的基于隐马尔可夫模型的语音识别处理。这通常包括使用输出一系列符号或数量的统计模型，其中本质上将语音作为用于通常被称为状态的随机过程的马尔可夫模型来处
理。例如，示例性隐马尔可夫模型可能输出一系列39维的实值向量，大约每IO毫秒输出这些中的一个。
这种向量可以包括，例如，倒谱系数(cepstralcefficient)，通过对采样语音进行短时窗傅立叶变换以及利用余弦变换对频谱进行去相关(de-correlating)，然后为此取得第一 (最关键的)系数，来获取该倒谱系数。对于每个状态，隐马尔可夫模型方法将趋向于具有被称为对角混合或全协方差高斯的统计分布，其将表征用于每个观测的向量的对应可能性。
在许多现有技术方法中，常规的语音识别搜索要求采用单级分辨率在规则的基础上(典型地是按照采样音频内容的每个帧)来搜索词、子词以及上述状态之间的边界。虽然确实是最佳和有效的方法，但是这种搜索词、子词以及状态边界的逐帧(或单分辨率)方法还要求相当大的计算资源。该需求仅随着所支持词汇量的深度和广度而增长。结果，采用语音识别搜索处理的语音识别处理可能要求巨大的计算资源。例如，考虑一种应用设置，其中每帧仅表示约io毫秒的音频内容。对于支持假定50， 000个词的识别的语音识别处理，有必要对于每个这种帧进行搜索并比较识别数据-该识别数据对应于50000个词中的每个。单单这个就要求相当大的计算能力。这些需求仅在考虑到这种处理还要求对每个这种帧内的子词进行相应搜索时，增长更严重。
结果，这种方法，虽然通常能够成功地实现最佳语音识别，但是在这种计算开销不能简单获得的应用设置中要很好的工作需要的计算量往往太大。例如，诸如蜂窝电话等小的便携式无线通讯装置代表这种应用设置。可获得的计算能力以及相应的功率容量限制都可能严重地限制这种方法的实际使用。

通过提供与使用语音识别搜索处理对采样音频内容进行处理有关的方法和设备，可以至少部分地满足上述需求，尤其在结合附图进行研究时将该方法和设备描述于以下详细描述中，在附图中图l包括根据本发明各个实施例而配置的流程图；图2包括根据本发明各个实施例而配置的示意图；以及图3包括根据本发明各个实施例而配置的框图表示。
本领域普通技术人员将明白，为了简明而描述附图中的元素，没有必要按照比例绘制所述元素。例如，附图中一些元素的尺度和/或相对位置可以相对于其它元素被放大，以有助于改善对本发明的各个实施例的理解。并且，为了便于对查看本发明的这些不同实施例带来更少的妨碍，通常没有绘出在商业可行实施例中有用的或必要的普通但公知的元素。进一步可以明白的是，可以按照出现的特定顺序描述或描写某些动作和/步骤，但是本领域普通技术人员明白，实际上不要求这种关于顺序的特定性。还将明白，这里所用的术语和表述具有与它们各自相应调査、研究领域中的这种术语和表述相一致的普通含义，这里另外予以说明的特殊含义除外。
具体实施例方式
通常讲，依照这些不同的实施例，提供采样音频内容的多个帧，然后利用语音识别搜索处理对多个帧进行处理，该语音识别搜索处理至少部分包括例如在每个帧内以基本分辨率搜索状态边界中的至少一个；利用不同的搜索分辨率搜索状态边界、子词边界、词边界中的至少两个。当然，这与现有实践形成了鲜明的对比，因为现有实践通常要求系统地对每个帧(或以单一分辨率)搜索每个状态、子词以及词边界。
根据一种方法，这可以包括当搜索状态边界时利用第一相对精细级别的搜索分辨率(例如每帧)，当搜索子词和词边界时利用较粗级别的分辨率(例如每隔一帧)。作为另一个例子，根据一种方法，这可以包括，当搜索状态边界时，利用第一相对精细级别的搜索分辨率(例如每帧)，当搜索子词边界时利用较粗级别的分辨率(例如每隔一帧)，和当搜索词边界时利用更粗级别的分辨率(例如每隔四帧)。
如此配置，当使用这种语音识别搜索处理时，如通常预期的，这些教导允许相对精确和高质量的语音识别处理，同时还避免了相当大量的计算动作。在这方面，通过跳过一些帧，处理平台可以显著地免除于相应的计算支持。反过来，这允许给定的仅具有适度容量和/或能力的处理平台通常仍可以实现具有成功结果的语音识别搜索处理。
通过对下面的具体描述进行全面浏览和研究，这些和其它好处可以变得更清晰。现在参照附图，尤其参照图1，根据这些教导的示例性处理100首先提供101采样音频内容的多个帧，然后用于利用语音识别搜索处理对这些帧进行处理102，该语音识别搜索处理至少部分包括利用不同的搜索分辨率搜索状态边界、子词边界、词边界中的至少两个。存在可以用来捕获并提供这种帧的各种已知的处理，并且将来可能会开发在这方面的其它处理。由于这些教导并非对选择这方面的任何特定方法过度地敏感，所以为了简短以及保证叙述的集中性，将不提供对有关提供这种帧的进一步详尽的细节，除了要注意的是，这种
帧通常仅对应于相对短暂的时间段，例如，但不限于io毫秒。
上述语音识别搜索处理可以包括可以适用于满足给定应用设置的需求的这种处理。为了提供说明性例子但不作为限制，这里假设，该语音识别搜索处理包括基于隐马尔科夫模型的语音识别处理。
根据一种方法，这个步骤102可以包括分别利用彼此不同的基础分辨率、第二分辨率、第三分辨率来搜索状态边界、子词边界以及词边界中的每一个。例如，这可以包括，对于每个帧搜索状态边界，仅每隔N个帧搜索子词边界(其中N包括大于1的整数)，以及仅每隔 M个帧搜索词边界(其中M包括等于或大于N的整数，并且，更具体地，可以包括为N的倍数的整数)。
为了进行说明，考虑图2所示的示意性表示(其中本领域普通技术将认识并明白，所提供的示例其目的仅仅在于说明，并不是为了包含对于在这方面的所有可能性的穷尽性提供)。在该示例中，语音识别处理包括在每个帧201内搜索状态边界202。然而，仅每隔一帧(即 N=2)搜索子词边界203，以及，仅每隔四帧(即M-4，正如上面建议的，其也包括N的倍数)搜索词边界204。
如此配置，本领域普通技术人员将认识并明白，与子词边界搜索相关的开销需求减半，且与词边界搜索相关的开销需求降低75%。当然，这表示在计算需求方面的相当大的降低，并且使这种语音识别搜索处理可以用于大量增加的平台上，例如包括蜂窝电话等。
本领域普通技术人员将认识到，通过增加被跳过帧的数量实现这方面的更大的节省。然而，这种增加在某点上可能会降低语音识别处理的整体质量。应用于给定情形下的适当设置可以随着应用设置而改变，因为设计者在结果输出的质量和相应的计算需求之间寻求满意的折衷。
本领域普通技术人员将明白，可以利用广泛种类的可用的和/或容易配置的平台中的任何一种，包括本领域所公知的部分地或全部地可编程的平台，或对于某些应用所需的专用平台，来容易地实现上述处理。现在参照图3，现在将提供这种平台的说明性方法。
在该示例中，实施设备300包括可操作地与处理器301耦合的输入302。输入302可以被配置和安排为提供采样音频内容的多个帧。此外，存在可以用来实现这个的各种已知方式，其对于本领域普通技术人员来说是容易已知和可用的。处理器301进而可以包括专用的或部分或全部可编程平台，其被配置和安排(例如通过相应的编程)为实现这里所列的所选择的教导。具体地，该处理器301可以被配置和安排为利用语音识别搜索处理对输入的多个帧进行处理，该语音识别搜索处理至少部分地包括，前述的以少于逐帧的基础来搜索可以包含在每个帧内的子词边界和词边界中的至少一个。
本领域普通技术人员将认识并明白，这种设备300可以包括多个物理上相异的元件，如图3示出的说明所建议的。然而，还可能将这个说明看作是包括逻辑视图，其中可以通过共享的平台来实现和实施这些元件中的一个或多个。还将明白，这种共享平台可以包括全部或至少部分的可编程平台，正如本领域所公知的。
如此配置，通过在搜索可以包含在这种帧内的子词和/或词边界时在规则的基础上有效地跳过一些帧，仅具有适度处理能力的实施平台 (例如蜂窝电话等)却可以充分利用强大的语音识别搜索处理。所描述的方法相对容易实施，并且可以被容易地调整以满足对应于给定应用设置的需求和/或机会。本领域普通技术人员将认识到，在不脱离本发明的精神和范围的情况下，可以对上述实施例做出各种修改、变更以及组合，并且这种修改、变更以及组合被视为在本发明概念的范围内。
权利要求
1.一种方法，包括提供采样音频内容的多个帧；利用语音识别搜索处理对该多个帧进行处理，所述语音识别搜索处理至少部分地包括利用不同的搜索分辨率来搜索状态边界、子词边界以及词边界中的至少两个。
2. 根据权利要求l所述的方法，其中利用语音识别搜索处理包括利用基于隐马尔科夫模型的语音识别处理。
3. 根据权利要求2所述的方法，其中利用至少部分地包括利用不同的搜索分辨率来搜索状态边界、子词边界以及词边界中的至少两个的语音识别搜索处理对该多个帧进行处理，至少部分地包括，利用不同的搜索分辨率来搜索状态边界、子词边界以及词边界中的每个。
4. 根据权利要求3所述的方法，其中利用至少部分地包括利用不同的搜索分辨率来搜索状态边界、子词边界以及词边界中的每个的语音识别搜索处理对该多个帧进行处理包括，利用比在搜索子词边界时所用的搜索分辨率小的搜索分辨率搜索词边界。
5. 根据权利要求l所述的方法，其中利用至少部分地包括利用不同的搜索分辨率来搜索状态边界、子词边界以及词边界中的至少两个的语音识别搜索处理对该多个帧进行处理包括，仅每隔N个帧搜索子词边界，其中N包括大于1的整数。
6. 根据权利要求5所述的方法，其中利用至少部分地包括利用不同的搜索分辨率来搜索状态边界、子词边界以及词边界中的至少两个的语音识别搜索处理对该多个帧进行处理进一步包括，仅每隔M个帧搜索词边界，其中M包括大于N的整数。
7. 根据权利要求6所述的方法，其中M包括的整数包括N的倍数。
8. —种设备，包括输入，被配置和安排为接收采样音频内容的多个帧；处理器装置，可操作地与该输入耦合，用于利用语音识别搜索处理对该多个帧进行处理，所述语音识别搜索处理至少部分地包括利用不同的搜索分辨率来搜索状态边界、子词边界以及词边界中的至少两个。
9. 根据权利要求8所述的设备，其中该处理器装置通过利用基于隐马尔科夫模型的语音识别处理来利用语音识别搜索处理。
10. 根据权利要求9所述的设备，其中该处理器装置进一步用于利用语音识别搜索处理对该多个帧进行处理，所述语音识别搜索处理至少部分地包括利用不同的搜索分辨率来搜索状态边界、子词边界以及词边界中的每一个。
11. 根据权利要求IO所述的设备，其中该处理器装置进一步用于通过利用比在搜索子词边界时所用的搜索分辨率小的搜索分辨率搜索词边界，来利用至少部分地包括利用不同的搜索分辨率来搜索状态边界、子词边界以及词边界中的每一个的语音识别搜索处理对该多个帧进行处理。
12. 根据权利要求8所述的设备，其中该处理器进一步用于通过仅每隔N个帧搜索子词边界，来利用至少部分地包括利用不同的搜索分辨率来搜索状态边界、子词边界以及词边界中的至少两个的语音识别搜索处理对该多个帧进行处理，其中N包括大于1的整数。
13. 根据权利要求12所述的设备，其中该处理器装置进一步用于通过仅每隔M个帧搜索词边界，来利用至少部分地包括利用不同的搜索分辨率来搜索状态边界、子词边界以及词边界中的至少两个的语音识别搜索处理对该多个帧进行处理，其中M包括大于N的整数。
14. 根据权利要求13所述的设备，其中M包括的整数包括N的倍数。
15. —种设备，包括输入，被配置和安排为提供采样音频内容的多个帧；处理器，可操作地与该输入耦合，并且被配置和安排为用于利用语音识别搜索处理对该多个帧进行处理，所述语音识别搜索处理至少部分地包括利用不同的搜索分辨率来搜索状态边界、子词边界以及词边界中的至少两个。
16. 根据权利要求15所述的设备，其中该处理器进一步被配置和安排为通过利用基于隐马尔科夫模型的语音识别处理来利用语音识别搜索处理。
17. 根据权利要求16所述的设备，其中该处理器进一步被配置和安排为通过利用至少部分地包括利用不同的搜索分辨率来处理状态边界、子词边界以及词边界中的每一个的语音识别搜索处理至少部分地对该多个帧进行处理，来利用至少部分地包括利用不同的搜索分辨率来搜索状态边界、子词边界以及词边界中的至少两个的语音识别搜索处理对该多个帧进行处理。
18. 根据权利要求17所述的设备，其中该处理器进一步被配置和安排为通过利用比在搜索子词边界时所用的搜索分辨率小的搜索分辨率搜索词边界，来利用至少部分地包括利用不同的搜索分辨率来搜索状态边界、子词边界以及词边界中的每一个的语音识别搜索处理对该多个帧进行处理。
19. 根据权利要求15所述的设备，其中该处理器进一步被配置和安排为通过仅每隔N个帧搜索子词边界，来利用至少部分地包括利用不同的搜索分辨率来搜索状态边界、子词边界以及词边界中的至少两个的语音识别搜索处理对该多个帧进行处理，其中N包括大于1的整数。
20. 根据权利要求19所述的设备，其中该处理器进一步被配置和安排为通过仅每隔M个帧搜索词边界，来利用至少部分地包括利用不同的搜索分辨率来搜索状态边界、子词边界以及词边界中的至少两个的语音识别搜索处理对该多个帧进行处理，其中M包括大于N的整数。
全文摘要
提供(101)采样音频内容的多个帧，然后利用语音识别搜索处理对该多个帧进行处理(102)，该语音识别搜索处理至少部分地包括利用不同的搜索分辨率来搜索状态边界、子词边界和词边界中的至少两个。
文档编号G10L15/00GK101611439SQ200780048578
公开日2009年12月23日申请日期2007年11月6日优先权日2006年12月29日
发明者程燕鸣申请人:摩托罗拉公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：程燕鸣
技术所有人：摩托罗拉公司
我是此专利的发明人