在处理语音信号中通过把语音作为目标和忽略噪声以降噪的系统及方法

文档序号：2824836阅读：424来源：国知局

专利名称：在处理语音信号中通过把语音作为目标和忽略噪声以降噪的系统及方法
技术领域：
本发明涉及在处理语音信号中的降噪。更具体地说，本发明涉及使用自适应滤波器以从含有噪声的语音信号中提取语音信息。相关技术的描述自动语音识别系统(“ASR”)将含有口头语言的音频信号转换成文本。这种系统的“前端”通过从目标语音信号中提取关键性的识别语音的“特征”来初始化转换过程。当目标语音信号被噪声损坏时，ASR系统的特征提取性能显著地降低。事实上，噪声阻碍了 ASR系统在众多其他实践应用中的广泛使用。任何其他的使用口头语言作为输入信号并为了使该信号被更加清晰地听见或理解的目的而处理该信号的通讯或听觉系统同样如此，例如助听器、头戴耳机、或无线电设备、有线或基于互联网的声音通讯。当前的降噪系统试图通过将噪声建模并将其从信号中减去以降低噪声。这些系统需要准确评估噪声信号。然而，由于噪声信号的不稳定性使准确评估非常困难，并且当噪声不同于所述模型或如果噪声随时间变化时，这些技术失效或限制了其有效性。其他的方法依赖于试图训练ASR系统识别被噪声损坏的语音的训练模型。然而，环境噪声和系统噪声的幅值通常太大或过于动态而不能产生具有必要的可靠性的训练模型。最后，其他的方法试图利用语音的谐波特性来改善语音识别。然而，检测和跟踪语音的谐波结构的先前尝试是不足够的。发明概述本发明涉及一种使用滤波器以从包含人类语音的噪声信号中提取语音信息和忽略所提取资料的不携带语音信息的部分的系统及方法。本发明的某些实施方式涉及集中于被噪声损坏最轻的谐波子集。本发明的某些实施方式涉及忽略具有低信噪比的信号谐波。某些实施方式涉及忽略与语音不一致的振幅调制。本发明的目前优选的实施方式涉及处理信号的系统，所述系统集中于被噪声损坏最轻的谐波子集，忽略具有低信噪比的信号谐波，和忽略与语音不一致的振幅调制。本发明的某些实施方式涉及一种具有处理器的系统，所述处理器包括多个用于执行自动语音提取的处理模块。在目前优选的实施方式中，处理器包括谐波频率识别器、自适应滤波器应用器、调制器、功率比构造器、低功率谐波消除器、和非语音谐波消除器，其中这些模块被配置为以这样的方式处理信号使得集中于被噪声损坏最轻的谐波子集、忽略具有低信噪比的信号谐波、和忽略与语音不一致的振幅调制。
附图
简述图IA是依据本发明的某些实施方式的说话者发出含有存储于音高和其谐波子集中的信息的单词的频率随时间变化的曲线图；图IB是依据本发明的某些实施方式的语音信号谐波随时间变化的振幅调制值的曲线图；图2图示了依据本发明的目前优选的实施方式的自动语音提取的方法；图3A图示了原始声音信号的声谱图；图;3B图示了增加了噪声分量的声音信号的声谱图；图3C图示了依据本发明的某些实施方式的声音信号的语音转换重构的声谱图；图4A图示了依据本发明的某些实施方式的自动语音提取系统；图4B图示了依据本发明的目前优选的实施方式的包括多个用于执行自动语音提取的处理模块的处理引擎；以及图5是在计算机系统的示例性形式中的机器的示意性框图，在计算机系统内部可以编程一套指令以使该机器执行本发明的逻辑步骤。本发明的详细描述如以上解释的，众多建立用于处理计算机可识别的语音的系统的先前尝试都是以建模和消除噪声为中心的，并且当噪声条件不同于其模型时将失败。事实上，由于这个原因等，当前最先进的ASR系统无论何处也不能接近人的技能。其他的使用声音输入的系统同样如此，例如助听器、无线电设备，有线或基于互联网的语音通讯系统。另一方面，人类可以可靠地理解在适量的众多不同类型的噪声中和在时变条件下的语音。人类并非通过消除噪声而是通过忽略噪声并将注意力更强烈地且有选择地集中于语音信息信号的相关方面来低效有噪声的语音信号中的噪声。我们的降噪方法的目标是比最先进的降噪技术更加接近人的技能。语音信号由包含基波频率，即“音高”，和基波频率的整数倍，即“谐波”的谐波结构组成。浊音语音呈现出能量集中于音高和谐波处的谐波结构。这意味着在浊音语音中的能量集中于音高的频率和其整数倍的谐波频率中。本发明是一种检测和跟踪所述谐波结构的系统及方法，其中与语音理解最相关的信号方面被提取。发明人已经注意到，由于相关能量集中存在于谐波中，音高和其谐波具有最高的局部信噪比。这意味着，当噪声电平增大时，谐波是突显于噪声的信号的最后方面。谐波的振幅调制编码用于语音感知的信息。该信息有些冗余地被编码。因此，通过仅依赖于谐波的子集来传达语音信息。由于可以通过选择性注意被噪声损坏最轻的谐波以接收消息，集中于谐波的子集将进一步提高人类理解语音的能力。本发明的目前优选的实施方式将同样具有这种选择性地集中于被噪声损坏最轻的谐波子集的能力。对于本发明的目的，术语“噪声”将指声音信号中的任何不需要的噪音，包括但不局限于环境噪声、信道噪声、以及两者的结合。存在众多允许选择性地集中于被较少损坏的谐波的方法。这些方法可以被单独使用或结合使用以选择性地集中于谐波子集。将在以下更加详细地解释这些方法。
图IA和IB图示了浊音语音的谐波结构和语音信号的谐波的振幅调制，其图示了谐波子集如何传达大部分的语音信息。图IA是说话者发出单词“一”的频率随时间变化的曲线图。如图所示，单词“一” 在时标37开始并进行至时标102。所述浊音语音的谐波结构清晰明显。如以上解释的，语音信号的振幅调制提供了关于哪些谐波携带最多的语音信息的信息。图IB是以上单词“一”的发音的语音信号谐波随时间变化的振幅调制值的曲线图。如在图IB中所示，振幅调制的模式表示了语音。例如，在该单词的结尾处的“η噪音”期间只有最低的谐波具有较大的能量。如以上解释的，由于可以通过选择性注意被噪声损坏最轻的谐波以接收消息，集中于谐波子集将进一步提高人类理解语音的能力。同样地，本发明的目前优选的实施方式涉及从可靠的谐波子集重构语音的系统及方法。当语音产生时，通过声道的不断变化的配置导致了谐波的调制。发明人已经注意至|J，对语音信息进行编码的谐波的振幅调制非常慢大约16ΗΖ。由于观察到大于16Hz的调制速率与语音源不一致，因此可以将其滤除，因地可以忽略比大约16Hz更加快速地调制谐波振幅的噪声。本发明的目前优选的实施方式涉及通过三个独立的机制降噪的系统及方法。首先，忽略所有的非谐波能量。其次，忽略具有低信噪比的信号谐波。最后，忽略与语音不一致的振幅调制。图2图示了依据本发明的目前优选的实施方式的自动语音提取的方法200。所述方法200开始于在自动语音识别系统中传输与接收声音信号201。其次，识别所述声音信号的音高及其谐波频率202。通过处理信号本身的固有特性来识别所述声音信号的音高。在浊音语音期间，表现了强谐波模式。所述谐波是所述音高的整数倍。一套自适应窄带滤波器被用来在整个频谱跟踪局部最强的能量集中。这些滤波器将锁定谐波和其他较强的窄频信号。锁定的频率被检查以选择与谐波系列一致的频率。所述音高被选定作为谐波系列的基频。事实上，不需要滤波器锁定基频以确定所述音高。在传入的语音信号中，所述谐波通过人说话来进行振幅调制。通过孤立谐波及其与语音源一致的振幅调制，我们捕获了许多相关的语音信息同时忽略了许多不相关的噪声。为了重构其大部分噪声被消除的信号，在所述振幅模式在IHz和16Hz之间被带通滤波以消除与语音源不一致的调制之后，我们将利用其自身提取的振幅模式调制每一选定的谐波。一旦所述基频及其谐波被识别，一个或多个过滤器被应用于信号以忽略非谐波能量203。所述自适应窄带滤波器通过其窄带使非谐波能量减弱。所述自适应滤波器使用处理器以从其输出估计瞬时频率和振幅。产生其中心频率等于估计值的窄带滤波器。计算所述瞬时频率和此频率的输出振幅以提供更加精确的估计值。在本发明的某些实施方式中，该精准化过程可以被重复更多的次数直到所述输出稳定。最终的估计值被用作下一步骤中的宽带滤波器的中心频率以跟踪谐波分量。其次，仅调制所述谐波信号204。在目前优选的实施方式中，调制步骤204包括振幅调制。
所述方法200继续，为振幅调制的谐波信号构造信噪比205并忽略其信噪比降至给定的阈值幅值以下的谐波206以集中注意力于被噪声损坏最轻的谐波。如以上解释的，存在众多允许选择性地集中于损坏较轻的谐波的方法。这些方法可以被单独使用或结合使用以选择性地集中于谐波子集。在本发明的某些实施方式中，所述系统通过利用未被损坏的谐波的频谱的信噪比较高的事实忽略被噪声损坏的谐波。这些实施方式涉及定义均以谐波为中心的窄带和宽带。在某些实施方式中，所述宽带从所述音高沿两个方向向外延伸至远离所述音高预定的距离。在某些实施方式中，所述宽带在百分比距离延伸至相邻的较低的谐波和相邻的较高的谐波。优选地，所述宽带从到相邻的较低的谐波频率的实质上的一半处延伸至到相邻的较高的谐波频率的实质上的一半处，其中实质上的一半包括在到最近谐波的距离的40%到 60%之间的距离。在某些其他的实施方式中，所述宽带向相邻的较低的谐波频率延伸恰好一半，和向相邻的较高的谐波频率延伸恰好一半。同样地，优选地通过跟踪滤波器确定所述窄带的带宽；然而，所述带宽将小于所述宽带的带宽。在未被损坏的语音信号中，几乎所有的能量都集中在谐波附近。因此，与谐波附近的信噪比相关的函数可以被计算作为所述窄带中的能量与所述宽带中的能量的比值。因此，忽略其信噪比降至给定的阈值幅值以下的谐波的步骤涉及忽略所述窄带中的能量与所述宽带中的能量的比值高于预定的阈值的谐波。在本发明的某些实施方式中，基于所述系统的期望性能选择所述预定的阈值。在本发明的某些其他的实施方式中，所述系统通过利用每一谐波的所估计的频率受到所述谐波频率附近的噪声分量的影响的观察以忽略被噪声损坏的谐波。所述噪声将 “推进(pull) ”谐波估计。由于谐波系列的频率关系固定，对于任何给定的谐波，参照剩余的谐波可以被用来计算“期望的”谐波频率。谐波估计值与其期望值的偏差是在谐波附近的损坏的量度。因此，本发明的某些实施方式涉及基于所述音高估计出所述谐波的频率，通过分析所述信号确定所观察的谐波的实际频率，确定在所述估计频率和所观察的实际频率之间的偏差值，将所述偏差归因于噪声，并忽略偏差值超出预定值的谐波。最后，在本发明的目前优选的实施方式中，所述方法通过使用窄带中的能量与宽带中的能量的比值和通过使用与期望值的偏差忽略被噪声损坏的谐波，其与选择性地集中于损坏较轻的谐波协调使用。最后，所述方法200选择性地忽略与人类语音不一致的剩余的振幅调制信号207。在某些实施方式中，与人类语音不一致的振幅调制通过将所提取的振幅模式通过具有表征人类语音的范围的带通滤波器被抑制住。优选地，所述带通滤波器具有IHz至16Hz的范围。语音信号识别方法200的最终结果是音频信号不受噪声和被复制以最接近地匹配原始信号的主要分量的非关键的识别信息的影响。用于语音识别及其他的声音信号处理应用的特征提取的现有技术方法不使用所公开的方法200的步骤来将语音信息从噪声中分离。在另一方面，所述方法200演示了在显著的噪声电平下的可靠跟踪。例如，图3A 至图3C图示了显示本发明的益处的信号的声谱图。图3A图示了原始声音信号的声谱图。图:3B图示了增加了噪声分量的声音信号的声谱图。最后，图3C图示了依据本发明的某些实施方式的声音信号的语音转换重构的声谱图。如图所示，所述重构精确地再现了没有噪声分量的语音信号。在本发明的某些实施方式中，自动语音提取系统包括被配置成利用执行自动语音提取的方法200的信号处理器。图4A图示了依据本发明的某些实施方式的自动语音提取的基本系统400。依据图4A，输入信号被发送至与存储器402耦合的处理器401。在本发明的目前优选的实施方式中，处理器401被配置成执行图2中的方法。同样在本发明的目前优选的实施方式中，处理器401包括用于执行各种需要的执行步骤的多个处理模块。图4A中的系统400可以包含在任何自动语音识别系统以及利用受到噪声损坏的言语作为输入的任何其他的系统或设备中，包括，但不局限于助听器，头戴耳机，或通过有线、无线或因特网进行的语音通讯，包括空对空通讯和地空通讯。图4B图示了依据本发明的目前优选的实施方式的包括多个用于执行自动语音提取的处理模块的处理引擎405。依据图4B，处理引擎405包括谐波频率识别器410、自适应滤波器应用器420、调制器430、功率比构造器440、低功率谐波消除器450和非语音谐波消除器460。依据本发明的目前优选的实施方式，处理引擎405被配置为执行方法200。图5是在计算机系统1600的示例性形式中的机器的示意性框图，在计算机系统 1600内部可以编程一套指令以使该机器执行本发明的逻辑步骤。在选择性的实施方式中，所述机器可以包括网络路由器、网络交换机、网桥、个人数字助理(PDA)、移动电话、网络设备或任何能够执行一系列指令的机器，所述指令规定由所述机器采取的动作。计算机系统1600包括处理器1602、主存储器1604和静态存储器1606，其通过总线1608相互通信。计算机系统1600可以还包括显示单元1610，例如，液晶显示器(IXD)或阴极射线管(CRT)。计算机系统1600还包括字母数字输入设备1612，例如，键盘；光标控制设备1614，例如，鼠标；磁盘驱动单元1616，信号发生设备1618，例如，扬声器，和网络接口设备1620。磁盘驱动单元1616包括机器可读介质1624，在机器可读介质上存储有一套可执行的指令，即软件16 ，所述软件包含本文描述的方法的任何一种、或全部。软件16 也被显示为完全或至少部分地驻留在主存储器1604内部和/或处理器1602内部。软件16 可以进一步在网络1628、1630上依靠网络接口设备1620被传输或接收。与以上论述的系统1600形成对比，一个不同的实施方式使用逻辑电路替代计算机执行的指令以实现处理实体。根据应用在速度、支出、工具成本等方面的特定需要，通过构造具有数以千计的微小的集成晶体管的专用集成电路(ASIC)可以实现这种逻辑。这种 ASIC可以使用CMOS (互补金属氧化物半导体)，TTL(晶体管-晶体管逻辑)，VLSI (超大规模系统集成)，或另一合适的结构实现。其他的选择包括数字信号处理芯片(DSP)、分立电路(如电阻器、电容器、二极管、电感器和晶体管)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、可编程逻辑器件(PLD)、以及其他类似物。应该理解，实施方式可以被用来作为或支持在某种形式的处理核(如计算机的 CPU)上执行或以其他方式在机器或计算机可读介质上或其内部实施或实现的软件程序或软件模块。机器可读介质包括用于以机器(例如计算机)可读的形式存储或传输信息的任何机制。例如，机器可读介质包括只读存储器(ROM)；随机访问存储器(RAM)；磁盘存储介质；光学存储介质；闪存设备；电学、光学、声学或其他形式的传播信号，例如，载波、红外信号、数字信号等等；或任何其他类型的适用于存储或传输信息的介质。
熟悉本领域的那些技术人员将理解，本发明可以体现在其他具体的形式中而没有偏离本发明的精神或必要特征。同样地，构件、特征、属性，以及其他方面的特定命名和分类都不是强制的或重要的，以及实施本发明的机制或其特征可以具有不同的名称、分类和/ 或格式。因此，本发明的公开内容意在解释说明本发明的范围，并非意在限制本发明的范围，本发明的范围在以下权利要求中提出。
权利要求
1.一种在自动语音提取系统中把语音作为目标和忽略噪声的方法，包括以下步骤在自动语音提取系统中接收声音信号；识别所述声音信号的基频；识别所述基频的一个或多个谐波；将滤波器应用于所述基频和所述一个或多个谐波，因而形成一个或多个仅有谐波的信号；对所述一个或多个仅有谐波的信号执行振幅调制；为所述一个或多个仅有谐波的信号构造一个或多个信噪比；忽略所述一个或多个仅有谐波的信号中的信噪比落入阈值幅值以下的一个或多个信号；以及忽略所述一个或多个仅有谐波的信号中的振幅调制与人类语音不一致的一个或多个信号；其中输出最终信号。
2.如权利要求1所述的处理声音信号的方法，其中识别所述声音信号的基频的步骤还包括给被配置用于处理所述声音信号的处理器提供数字滤波器。
3.如权利要求2所述的处理声音信号的方法，其中所述数字滤波器包括一个或多个自适应窄带滤波器，所述自适应窄带滤波器被配置成在所述声音信号的整个频谱上跟踪所述声音信号的局部最强的能量集中。
4.如权利要求3所述的处理声音信号的方法，还包括配置所述处理器以用于选择与谐波系列一致的局部最强的能量集中，和选择与所述局部最强的能量集中相关联的频率作为所述基频。
5.如权利要求4所述的处理声音信号的方法，还包括配置所述处理器以用于选择与所述谐波系列一致的一个或多个另外的局部较强的能量集中，和选择与所述谐波系列一致的频率作为所述基频的谐波。
6.如权利要求3所述的处理声音信号的方法，其中配置所述一个或多个自适应窄带滤波器的步骤还包括生成估计的中心频率；使用所述估计的中心频率计算所述声音信号的瞬时频率和振幅，因而提供更加精确的中心频率；以及用所述更加精确的中心频率替换所述估计的中心频率。
7.如权利要求1所述的处理声音信号的方法，其中忽略所述一个或多个仅有谐波的信号中的信噪比落入阈值幅值以下的一个或多个信号的步骤还包括定义至少一个宽带，所述至少一个宽带以所述基频为中心，并从到相邻的较低的谐波频率的实质上的一半处延伸至到相邻的较高的谐波频率的实质上的一半处；定义至少一个以所述基频为中心的窄带，其中所述窄带的带宽小于所述宽带的带宽；计算所述窄带中的能量与所述宽带中的能量的比值；以及忽略所述一个或多个仅有谐波的信号中的在所述窄带中的能量与在所述宽带中的能量的比值高于阈值的一个或多个信号。
8.如权利要求1所述的处理声音信号的方法，其中忽略所述一个或多个仅有谐波的信号中的信噪比落入阈值幅值以下的一个或多个信号的步骤还包括基于所述基频估计一个或多个谐波的频率；确定在识别所述基频的一个或多个谐波的步骤中观察的所述一个或多个谐波的实际频率；确定在所述一个或多个谐波的估计频率和所述一个或多个谐波的实际频率之间的偏差值；以及忽略所述一个或多个仅有谐波的信号中的偏差值超出预定值的一个或多个信号。
9.如权利要求1所述的处理声音信号的方法，其中忽略所述一个或多个仅有谐波的信号中的信噪比落入阈值幅值以下的一个或多个信号的步骤还包括定义至少一个宽带，所述至少一个宽带以所述基频为中心，并从到相邻的较低的谐波频率的实质上的一半处延伸至到相邻的较高的谐波频率的实质上的一半处；定义至少一个以所述基频为中心的窄带，其中所述窄带的带宽小于所述宽带的带宽；计算所述窄带中的能量与所述宽带中的能量的比值；以及忽略所述一个或多个仅有谐波的信号中的在所述窄带中的能量与在所述宽带中的能量的比值高于阈值的一个或多个信号；基于所述基频估计一个或多个谐波的频率；确定在识别所述基频的一个或多个谐波的步骤中观察的所述一个或多个谐波的实际频率；确定在所述一个或多个谐波的估计频率和所述一个或多个谐波的实际频率之间的偏差值；以及忽略所述一个或多个仅有谐波的信号中的偏差值超出预定值的一个或多个信号。
10.如权利要求1所述的处理声音信号的方法，其中忽略所述一个或多个仅有谐波的信号中的振幅调制与人类语音不一致的一个或多个信号的步骤还包括使所述振幅调制通过具有IHz到16Hz的范围的带通滤波器。
11.一种存储有指令的可执行的计算机可读介质，当执行所述指令时，执行权利要求1 的方法。
12.一种用于处理声音信号以进行自动语音提取的装置，所述装置包括声音信号输入设备，其被配置为在自动语音提取系统中接收声音信号；处理器，其可操作地与存储设备和所述声音信号输入设备耦合，其中所述处理器包括多个处理模块，所述多个处理模块包括谐波频率识别器，其被配置为识别所述声音信号的基频；滤波器应用器，其被配置为将滤波器应用于所述基频和所述一个或多个谐波，因而形成一个或多个仅有谐波的信号；调制器，其被配置为对所述一个或多个仅有谐波的信号执行振幅调制；功率比构造器，其被配置为构造所述一个或多个仅有谐波的信号的一个或多个信噪比；低功率谐波消除器，其被配置为忽略所述一个或多个仅有谐波的信号中的信噪比落入阈值幅值以下的一个或多个信号；以及非语音谐波消除器，其被配置为忽略所述一个或多个仅有谐波的信号中的振幅调制与人类语音不一致的一个或多个信号；以及处理过的信号被输出。
13.如权利要求12所述的装置，其中所述滤波器应用器被配置有一个或多个自适应窄带滤波器，所述自适应窄带滤波器被配置成在所述声音信号的整个频谱上跟踪所述声音信号的局部最强的能量集中。
14.如权利要求13所述的装置，其中所述滤波器应用器被配置为选择与谐波系列一致的局部最强的能量集中，和选择与该局部最强的能量集中相关联的频率作为所述基频。
15.如权利要求14所述的装置，其中所述滤波器应用器被配置为选择与所述谐波系列一致的一个或多个另外的局部较强的能量集中，和选择与所述谐波系列一致的频率作为所述基频的谐波。
16.如权利要求12所述的装置，其中所述低功率谐波消除器还被配置为定义至少一个宽带，所述至少一个宽带以所述基频为中心，并从到相邻的较低的谐波频率的实质上的一半处延伸至到相邻的较高的谐波频率的实质上的一半处；定义至少一个以所述基频为中心的窄带，其中所述窄带的带宽小于所述宽带的带宽；计算所述窄带中的能量与所述宽带中的能量的比值；以及忽略所述一个或多个仅有谐波的信号中的在所述窄带中的能量与在所述宽带中的能量的比值高于一阈值的一个或多个信号。
17.如权利要求12所述的装置，其中所述低功率谐波消除器还被配置为基于所述基频估计一个或多个谐波的频率，确定在识别所述基频的一个或多个谐波的步骤中观察的所述一个或多个谐波的实际频率，确定在所述一个或多个谐波的估计频率和所述一个或多个谐波的实际频率之间的偏差值，以及忽略所述一个或多个仅有谐波的信号中的偏差值超出预定值的一个或多个信号。
18.如权利要求12所述的装置，其中所述低功率谐波消除器还被配置为定义至少一个宽带，所述至少一个宽带以所述基频为中心，并从到相邻的较低的谐波频率的实质上的一半处延伸至到相邻的较高的谐波频率的实质上的一半处；定义至少一个以所述基频为中心的窄带，其中所述窄带的带宽小于所述宽带的带宽；计算所述窄带中的能量与所述宽带中的能量的比值；忽略所述一个或多个仅有谐波的信号中的所述窄带中的能量与所述宽带中的能量的比值高于阈值的一个或多个信号；基于所述基频估计一个或多个谐波的频率；确定在识别所述基频的一个或多个谐波的步骤中观察的所述一个或多个谐波的实际频率；确定在所述一个或多个谐波的估计频率和所述一个或多个谐波的实际频率之间的偏差值；以及忽略所述一个或多个仅有谐波的信号中的偏差值超出预定值的一个或多个信号。
19.如权利要求12所述的装置，其中所述非语音谐波消除器被配置为通过使所述振幅调制经过具有IHz至16Hz的范围的带通滤波器以忽视所述一个或多个仅有谐波的信号中的一个或多个信号。
20.一种处理声音信号以进行自动语音提取的方法，所述方法包括以下步骤在自动语音提取系统中接收声音信号；识别所述声音信号的基频；识别所述基频的一个或多个谐波；将滤波器应用于所述基频和所述一个或多个谐波，因而形成一个或多个仅有谐波的信号；对所述一个或多个仅有谐波的信号执行振幅调制；构造所述一个或多个仅有谐波的信号的一个或多个信噪比；忽略所述一个或多个仅有谐波的信号中的信噪比落入阈值幅值以下的一个或多个信号，该步骤还包括定义至少一个宽带，所述至少一个宽带以所述基频为中心，并从到相邻的较低的谐波频率的实质上的一半处延伸至到相邻的较高的谐波频率的实质上的一半处；定义至少一个以所述基频为中心的窄带，其中所述窄带的带宽小于所述宽带的带宽；计算所述窄带中的能量与所述宽带中的能量的比值；以及忽略所述一个或多个仅有谐波的信号中的在所述窄带中的能量与在所述宽带中的能量的比值高于阈值的一个或多个信号；基于所述基频估计一个或多个谐波的频率；确定在识别所述基频的一个或多个谐波的步骤中观察的所述一个或多个谐波的实际频率；确定在所述一个或多个谐波的估计频率和所述一个或多个谐波的实际频率之间的偏差值；以及忽略所述一个或多个仅有谐波的信号中的偏差值超出预定值的一个或多个信号；以及忽略所述一个或多个仅有谐波的信号中的振幅调制与人类语音不一致的一个或多个信号；其中输出最终的信号。
全文摘要
一种用于处理在噪声信道中传递或具有环境噪声的语音信号的系统及方法，所述系统及方法集中于被噪声损坏最轻的谐波子集，忽略具有低信噪比的信号谐波，以及忽略与语音不一致的振幅调制。
文档编号G10L21/02GK102483926SQ201080033092
公开日2012年5月30日申请日期2010年7月27日优先权日2009年7月27日
发明者马克·品森申请人:Scti控股公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马克·品森
技术所有人：SCTI控股公司
我是此专利的发明人

上一篇：用于编码多通道音频信号的参数编码器的制作方法
上一篇：膜片和制造用于超声换能器的膜片的方法