在存在背景噪声的情况下的语音活动检测的制作方法

文档序号：2827102阅读：200来源：国知局

在存在背景噪声的情况下的语音活动检测的制作方法
【专利摘要】在语音处理系统中，在平均信噪比SNR计算中对于背景噪声中的突然改变作出补偿。可单独或结合对所述平均SNR加权而使用SNR离群值滤波。可在计算所述SNR平均之前在每频带的所述SNR上施加自适应权重。所述加权函数可为噪声电平、噪声类型和/或瞬时SNR值的函数。另一加权机制应用零值滤波或离群值滤波，其将特定频带中的权重设定为零。此特定频带可表征为展现比其它频带中的所述SNR高几倍的SNR的频带。
【专利说明】在存在背景噪声的情况下的语音活动检测
[0001] 相关申请案的夺叉参考
[0002] 本申请案依据35U. S. C. § 119 (e)的权益主张2012年1月20日申请的第 61/588, 729号临时专利申请案的优先权。此临时专利申请案全文以引用的方式明确地并入本文中。

【背景技术】
[0003] 对于在噪声环境中发生通信的应用，可能需要使所要语音信号与背景噪声分离。噪声可界定为干扰所要信号或以其它方式使所要信号降级的所有信号的组合。背景噪声可包含在声学环境内产生的许多噪声信号，例如其他人的背景对话，以及从所要信号和/或其它信号的任一者产生的反射和回响。
[0004] 例如语音活动检测器（VAD)等信号活动检测器可用于使电子装置中的不必要处理的量最小化。语音活动检测器可遵循麦克风选择性地控制一个或一个以上信号处理阶段。举例来说，记录装置可实施语音活动检测器以使对噪声信号的处理和记录最小化。语音活动检测器可在无语音活动的周期期间解除激励或以其它方式解除激活信号处理和记录。类似地，例如智能电话、移动电话、个人数字助理（PDA)、膝上型计算机，或任何便携式计算装置等通信装置可实施语音活动检测器以便减少向噪声信号分配的处理功率，且减少发射或以其它方式传送到远程目的地装置的噪声信号。语音活动检测器可在无语音活动的周期期间解除激励或解除激活语音处理和发射。
[0005] 语音活动检测器令人满意地操作的能力可能由于改变噪声条件且噪声条件具有显著噪声能量而被阻止。当将语音活动检测集成于经受动态噪声环境的移动装置中时，语音活动检测器的性能可能进一步复杂化。移动装置可在相对无噪声的环境下操作，或可在相当大噪声条件下操作，其中噪声能量与语音能量近似。动态噪声环境的存在使得语音活动决策变得复杂。
[0006] 常规上，语音活动检测器将输入帧分类为背景噪声或活动语音。活动/不活动分类允许语音译码器利用典型电话对话中通常存在的谈话突峰之间的暂停。在高信噪比 (SNR)(例如，SNR>30dB)下，简单的能量量度适于准确地检测用于在最小位速率下编码的语音不活动片段，借此满足较低位速率要求。然而，在低SNR下，语音活动检测器的性能显著降级。举例来说，在低SNR下，保守VAD可产生增加的错误语音检测，从而导致较高平均编码速率。激进VAD可错过检测活动语音片段，借此导致语音质量的损失。
[0007] 大多数当前VAD技术使用长期SNR来估计用于执行关于输入帧是背景噪声还是活动语音的VAD决策的阈值（称为VAD_THR)。在低SNR下或在快速变化的非静止噪声下，平滑的长期SNR将产生不准确VAD_THR，从而导致错过语音的增加可能性或错误语音检测的增加可能性。并且，一些VAD技术（例如，自适应多速率宽带或AMR-WB)对于例如汽车噪声等静止类型的噪声较好工作，但对于低SNR(例如，SNR< 15dB)下的非静止噪声产生极高语音活动因数（归因于广泛错误检测）。
[0008] 因此，语音活动的错误指示可导致处理和发射噪声信号。对噪声信号的处理和发射可产生不良的用户体验，尤其是在归因于语音活动检测器指示无语音活动，噪声发射周期不时地被不活动周期打断的情况下。相反，不良的语音活动检测可导致语音信号的相当大部分的丢失。语音活动的初始部分的丢失可导致用户需要有规律地重复对话的部分，这是不合需要的情形。

【发明内容】

[0009] 本发明针对补偿平均SNR( S卩，SNRavg)计算中的背景噪声中突然改变。在一实施方案中，带内的SNR值可通过离群值滤波和/或施加权重而选择性调整。SNR离群值滤波可单独或与为平均SNR加权结合使用。还提供子带内的自适应方法。
[0010] 在一实施方案中，VAD可包括在还包含俘获声音的一个或一个以上麦克风的移动电话内或耦合到所述移动电话。所述装置将传入声音信号划分为时间块，或分析帧或部分。时间（或帧）中每一片段的持续时间足够短使得信号的频谱包络保持相对静止。
[0011] 在一实施方案中，为平均SNR加权。自适应权重在计算平均SNR之前施加在每频带SNR上。加权函数可为噪声电平、噪声类型和/或瞬时SNR值的函数。
[0012] 另一加权机制应用零值滤波或离群值滤波，其将特定频带中的权重设定为零。此特定频带可表征为展现比其它频带中的SNR高几倍的SNR的频带。
[0013] 在一实施方案中，执行SNR离群值滤波包括以单调次序将频带中的经修改瞬时 SNR值分类，确定频带中的哪些为离群值频带，以及通过将与离群值频带相关联的权重设定为零而更新自适应加权函数。
[0014] 在一实施方案中，使用子带中的自适应方法。代替于逻辑上组合子带VAD决策，自适应加权子带中的阈值与平均SNR之间的差。确定每一子带中VAD阈值与平均SNR之间的差。将权重施加到每一差值，且将经加权差值相加在一起。可通过将结果与另一阈值（例如，零）比较而确定是否存在语音活动。
[0015] 提供此概述是为了以简化形式介绍下文中在详细描述内容中进一步描述的概念选择。此概述不希望指明所主张标的物的关键特征或本质特征，也不希望用于限制所主张标的物的范围。

【专利附图】

【附图说明】
[0016] 当结合附图阅读时将更好地理解以上概述以及说明性实施例的以下详细描述。出于说明实施例的目的，图式中展示实施例的实例构造；然而，实施例不限于所揭示的特定方法和手段。图中：
[0017] 图1是VAD阈值（VAD_THR)与可在估计VAD阈值时使用的长期SNR(SNR_LT)的映射曲线的实例；
[0018] 图2是说明语音活动检测器的实施方案的框图；
[0019] 图3是对可在检测语音活动时使用的平均SNR加权的方法的实施方案的操作流程；
[0020] 图4是可在检测语音活动时使用的SNR离群值滤波的方法的实施方案的操作流程；
[0021] 图5是错误检测期间每频带经分类SNR的概率分布函数（PDF)的实例；
[0022] 图6是用于检测在存在背景噪声的情况下的语音活动的方法的实施方案的操作流程；
[0023] 图7是可在检测语音活动时使用的方法的实施方案的操作流程；
[0024] 图8是实例移动台的图；以及
[0025] 图9展示示范性计算环境。

【具体实施方式】
[0026] 参考且并入有图式的以下详细描述描述并说明了一个或一个以上特定实施例。展示并充分详细地描述了这些实施例（提供这些实施例并非用以限制而是仅用以示范和教示）以使得所属领域的技术人员能够实践所主张的内容。因此，为简洁起见，所述描述可省略所属领域的技术人员已知的某些信息。
[0027] 在许多语音处理系统中，语音活动检测通常从例如麦克风信号（例如，移动电话的麦克风信号）等音频输入信号估计。语音活动检测是例如声码器和语音辨识装置等许多语音处理装置中的重要功能。语音活动检测分析可在时域或频域中执行。在存在背景噪声的情况下且在低SNR下，频域VAD通常比时域VAD优选。频域VAD具有分析频段的每一者中的SNR的优点。在典型的频域VAD中，首先语音信号分段为帧，例如10到30ms长。接下来，时域语音帧使用N点FFT(快速傅里叶变换）变换到频域。第一半（即，N/2)频段划分为若干频带，例如Μ频带。频谱段到频带的此分组通常模拟人类听觉系统的关键频带结构。作为一实例，对于以每秒16, 000样本取样的宽带语音，假设Ν = 256点FFT且Μ = 20频带。第一频带可含有Ν1频谱段，第二频带可含有Ν2频谱段，等等。
[0028] 第m频带中每频带的平均能量Eeb (m)通过将每一频带内的FFT频段的量值相加而计算。接下来，使用等式（1)计算每频带的SNR:
[0029]

【权利要求】
1. 一种用于检测在存在背景噪声的情况下的语音活动的方法，其包括：在移动台的语音活动检测器处接收声音的一个或一个以上输入帧；确定所述输入帧的每一者的至少一个噪声特性；基于所述噪声特性确定多个频带；基于所述噪声特性确定每频带的信噪比SNR值；确定至少一个离群值频带；基于所述至少一个离群值频带确定加权；在每频带的所述SNR上应用所述加权；以及使用每频带的所述经加权SNR检测语音活动的存在与否。
2. 根据权利要求1所述的方法，其进一步包括执行SNR离群值滤波。
3. 根据权利要求1所述的方法，其中每一噪声特性包括噪声电平变化、噪声类型或瞬时SNR值的至少一者。
4. 根据权利要求3所述的方法，其中基于所述噪声特性确定所述多个频带包括基于所述噪声电平变化或所述噪声类型的至少一者确定所述多个频带。
5. 根据权利要求3所述的方法，其中确定每频带的所述SNR值包括基于所述噪声电平变化或所述噪声类型的至少一者确定每频带的经修改瞬时SNR值。
6. 根据权利要求5所述的方法，其中确定每频带的所述经修改瞬时SNR值包括：使用每频带信号能量的过去估计值基于所述输入帧的至少所述瞬时SNR选择性地使每频带信号能量的当前估计值平滑；使用每频带噪声能量的过去估计值基于至少所述噪声电平变化和所述噪声类型选择性地使每频带噪声能量的当前估计值平滑；以及确定每频带信号能量的经平滑估计值与噪声能量的经平滑估计值的比率。
7. 根据权利要求6所述的方法，其中所述频带的任一者中的经修改瞬时SNR大于所述频带的剩余者中的经修改瞬时SNR的和。
8. 根据权利要求5所述的方法，其中基于所述至少一个离群值频带确定所述加权包括基于所述噪声电平变化、所述噪声类型、所述离群值频带的位置或每频带的所述经修改瞬时SNR值的至少一者确定自适应加权函数。
9. 根据权利要求8所述的方法，其中在每频带的所述SNR上应用所述加权包括在每频带的所述经修改瞬时SNR上应用所述自适应加权函数。
10. 根据权利要求9所述的方法，其进一步包括：通过将所述频带上所述经加权经修改瞬时SNR相加而确定每输入帧的经加权平均 SNR ;以及将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否。
11. 根据权利要求10所述的方法，其中将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否包括：确定每一频带中所述经加权平均SNR与所述阈值之间的差；将权重施加到每一差值；将所述经加权差值相加在一起；以及通过将所述相加的经加权差值与另一阈值比较而确定是否存在语音活动。
12. 根据权利要求11所述的方法，其中所述阈值为零，且如果所述相加的经加权差值大于零，那么确定存在语音活动且否则确定不存在语音活动。
13. 根据权利要求8所述的方法，其进一步包括执行SNR离群值滤波，包括：将所述频带中的所述经修改瞬时SNR值以单调次序分类；确定所述频带中哪些为所述离群值频带；以及通过将与所述离群值频带相关联的权重设定为零而更新所述自适应加权函数。
14. 一种用于检测在存在背景噪声的情况下的语音活动的设备，其包括：用于接收声音的一个或一个以上输入帧的装置；用于确定所述输入帧的每一者的至少一个噪声特性的装置；用于基于所述噪声特性确定多个频带的装置；用于基于所述噪声特性确定每频带的信噪比SNR值的装置；用于确定至少一个离群值频带的装置；用于基于所述至少一个离群值频带确定加权的装置；用于在每频带的所述SNR上应用所述加权的装置；以及用于使用每频带的所述经加权SNR检测语音活动的存在与否的装置。
15. 根据权利要求14所述的设备，其进一步包括用于执行SNR离群值滤波的装置。
16. 根据权利要求14所述的设备，其中每一噪声特性包括噪声电平变化、噪声类型或瞬时SNR值的至少一者。
17. 根据权利要求16所述的设备，其中所述用于基于所述噪声特性确定所述多个频带的装置包括用于基于所述噪声电平变化或所述噪声类型的至少一者确定所述多个频带的装直。
18. 根据权利要求16所述的设备，其中所述用于确定每频带的所述SNR值的装置包括用于基于所述噪声电平变化或所述噪声类型的至少一者确定每频带的经修改瞬时SNR值的装置。
19. 根据权利要求18所述的设备，其中所述用于确定每频带的所述经修改瞬时SNR值的装置包括：用于使用每频带信号能量的过去估计值基于所述输入帧的至少所述瞬时SNR选择性地使每频带信号能量的当前估计值平滑的装置；用于使用每频带噪声能量的过去估计值基于至少所述噪声电平变化和所述噪声类型选择性地使每频带噪声能量的当前估计值平滑的装置；以及用于确定每频带信号能量的经平滑估计值与噪声能量的经平滑估计值的比率的装置。
20. 根据权利要求19所述的设备，其中所述频带的任一者中的经修改瞬时SNR大于所述频带的剩余者中的经修改瞬时SNR的和。
21. 根据权利要求18所述的设备，其中所述用于基于所述至少一个离群值频带确定所述加权的装置包括用于基于所述噪声电平变化、所述噪声类型、所述离群值频带的位置或每频带的所述经修改瞬时SNR值的至少一者确定自适应加权函数。
22. 根据权利要求21所述的设备，其中所述用于在每频带的所述SNR上应用所述加权的装置包括用于在每频带的所述经修改瞬时SNR上应用所述自适应加权函数的装置。
23. 根据权利要求22所述的设备，其进一步包括：用于通过将所述频带上的所述经加权经修改瞬时SNR相加而确定每输入帧的经加权平均SNR的装置；以及用于将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否的装置。
24. 根据权利要求23所述的设备，其中所述用于将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否的装置包括：用于确定每一频带中的所述经加权平均SNR与所述阈值之间的差的装置；用于将权重施加到每一差值的装置；用于将所述经加权差值相加在一起的装置；以及用于通过将所述相加的经加权差值与另一阈值比较而确定是否存在语音活动的装置。
25. 根据权利要求24所述的设备，其中所述阈值为零，且如果所述相加的经加权差值大于零，那么确定存在语音活动且否则确定不存在语音活动。
26. 根据权利要求21所述的设备，其进一步包括用于执行SNR离群值滤波的装置，包括：用于将所述频带中所述经修改瞬时SNR值以单调次序分类的装置；用于确定所述频带中哪些为所述离群值频带的装置；以及用于通过将与所述离群值频带相关联的权重设定为零而更新所述自适应加权函数的装直。
27. -种包括指令的计算机可读媒体，所述指令致使计算机：接收声音的一个或一个以上输入帧；确定所述输入帧的每一者的至少一个噪声特性；基于所述噪声特性确定多个频带；基于所述噪声特性确定每频带的信噪比SNR值；确定至少一个离群值频带；基于所述至少一个离群值频带确定加权；在每频带的所述SNR上应用所述加权；以及使用每频带的所述经加权SNR检测语音活动的存在与否。
28. 根据权利要求27所述的计算机可读媒体，其进一步包括致使所述计算机执行SNR 离群值滤波的计算机可执行指令。
29. 根据权利要求27所述的计算机可读媒体，其中每一噪声特性包括噪声电平变化、噪声类型或瞬时SNR值的至少一者。
30. 根据权利要求29所述的计算机可读媒体，其中所述致使所述计算机基于所述噪声特性确定所述多个频带的指令包括致使所述计算机基于所述噪声电平变化或所述噪声类型的至少一者确定所述多个频带的指令。
31. 根据权利要求29所述的计算机可读媒体，其中所述致使所述计算机确定每频带的所述SNR值的指令包括致使所述计算机基于所述噪声电平变化或所述噪声类型的至少一者确定每频带的经修改瞬时SNR值的指令。
32. 根据权利要求31所述的计算机可读媒体，其中所述致使所述计算机确定每频带的所述经修改瞬时SNR值的指令包括致使所述计算机进行以下操作的指令：使用每频带信号能量的过去估计值基于所述输入帧的至少所述瞬时SNR选择性地使每频带信号能量的当前估计值平滑；使用每频带噪声能量的过去估计值基于至少所述噪声电平变化和所述噪声类型选择性地使每频带噪声能量的当前估计值平滑；以及确定每频带信号能量的经平滑估计值与噪声能量的经平滑估计值的比率。
33. 根据权利要求32所述的计算机可读媒体，其中所述频带的任一者中的经修改瞬时 SNR大于所述频带的剩余者中的经修改瞬时SNR的和。
34. 根据权利要求31所述的计算机可读媒体，其中所述致使所述计算机基于所述至少一个离群值频带确定所述加权的指令包括致使所述计算机基于所述噪声电平变化、所述噪声类型、所述离群值频带的位置或每频带的所述经修改瞬时SNR值的至少一者确定自适应加权函数的指令。
35. 根据权利要求34所述的计算机可读媒体，其中所述致使所述计算机在每频带的所述SNR上应用所述加权的指令包括致使所述计算机在每频带的所述经修改瞬时SNR上应用所述自适应加权函数的指令。
36. 根据权利要求35所述的计算机可读媒体，其进一步包括致使所述计算机进行以下操作的计算机可执行指令：通过将所述频带上的所述经加权经修改瞬时SNR相加而确定每输入帧的经加权平均 SNR ;以及将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否。
37. 根据权利要求36所述的计算机可读媒体，其中所述致使所述计算机将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否的指令包括致使所述计算机进行以下操作的指令：确定每一频带中的所述经加权平均SNR与所述阈值之间的差；将权重施加到每一差值；将所述经加权差值相加在一起；以及通过将所述相加的经加权差值与另一阈值比较而确定是否存在语音活动。
38. 根据权利要求37所述的计算机可读媒体，其中所述阈值为零，且如果所述相加的经加权差值大于零，那么确定存在语音活动且否则确定不存在语音活动。
39. 根据权利要求34所述的计算机可读媒体，其进一步包括致使所述计算机执行SNR 离群值滤波的计算机可执行指令，包括：将所述频带中所述经修改瞬时SNR值以单调次序分类；确定所述频带中哪些为所述离群值频带；以及通过将与所述离群值频带相关联的权重设定为零而更新所述自适应加权函数。
40. -种用于检测在存在背景噪声的情况下的语音活动的语音活动检测器，其包括：接收器，其接收声音的一个或一个以上输入帧；处理器，其确定所述输入帧的每一者的至少一个噪声特性，且基于所述噪声特性确定多个频带；信噪比SNR模块，其基于所述噪声特性确定每频带的SNR值；离群值滤波器，其确定至少一个离群值频带；加权模块，其基于所述至少一个离群值频带确定加权，且在每频带的所述SNR上应用所述加权；以及决策模块，其使用每频带的所述经加权SNR检测语音活动的存在与否。
41. 根据权利要求40所述的语音活动检测器，其中所述离群值滤波器执行SNR离群值滤波。
42. 根据权利要求40所述的语音活动检测器，其中每一噪声特性包括噪声电平变化、噪声类型或瞬时SNR值的至少一者。
43. 根据权利要求42所述的语音活动检测器，其中所述处理器基于所述噪声电平变化或所述噪声类型的至少一者确定所述多个频带。
44. 根据权利要求42所述的语音活动检测器，其中所述SNR计算模块基于所述噪声电平变化或所述噪声类型的至少一者确定每频带的经修改瞬时SNR值。
45. 根据权利要求44所述的语音活动检测器，其中所述SNR计算模块：使用每频带信号能量的过去估计值基于所述输入帧的至少所述瞬时SNR选择性地使每频带信号能量的当前估计值平滑；使用每频带噪声能量的过去估计值基于至少所述噪声电平变化和所述噪声类型选择性地使每频带噪声能量的当前估计值平滑；以及确定每频带信号能量的经平滑估计值与噪声能量的经平滑估计值的比率。
46. 根据权利要求45所述的语音活动检测器，其中所述频带的任一者中的经修改瞬时 SNR大于所述频带的剩余者中的经修改瞬时SNR的和。
47. 根据权利要求44所述的语音活动检测器，其中所述加权模块基于所述噪声电平变化、所述噪声类型、所述离群值频带的位置或每频带的所述经修改瞬时SNR值的至少一者确定自适应加权函数。
48. 根据权利要求47所述的语音活动检测器，其中所述加权模块在每频带的所述经修改瞬时SNR上应用所述自适应加权函数。
49. 根据权利要求48所述的语音活动检测器，其中所述SNR计算模块通过将所述频带上所述经加权经修改瞬时SNR相加而确定每输入帧的经加权平均SNR，且所述决策模块将所述经加权平均SNR与阈值比较以检测信号或语音活动存在与否。
50. 根据权利要求49所述的语音活动检测器，其中所述决策模块确定每一频带中的所述经加权平均SNR与所述阈值之间的差，将权重施加到每一差值，将所述经加权差值相加在一起，且通过将所述相加的经加权差值与另一阈值比较而确定是否存在语音活动。
51. 根据权利要求50所述的语音活动检测器，其中所述阈值为零，且如果所述相加的经加权差值大于零，那么所述决策模块确定存在语音活动且否则确定不存在语音活动。
52. 根据权利要求47所述的语音活动检测器，其中所述离群值滤波器将所述频带中所述经修改瞬时SNR值以单调次序分类，确定所述频带中哪些为所述离群值频带，且通过将与所述离群值频带相关联的权重设定为零而更新所述自适应加权函数。
【文档编号】G10L25/84GK104067341SQ201380005605
【公开日】2014年9月24日申请日期:2013年1月8日优先权日:2012年1月20日
【发明者】芬卡特拉曼·斯里尼瓦沙·阿提, 文卡特什·克里希南申请人:高通股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：芬卡特拉曼·斯里尼瓦沙·阿提;文卡特什·克里希南
技术所有人：高通股份有限公司
我是此专利的发明人

上一篇：音频源位置估计的制作方法
上一篇：编码设备及编码方法、解码设备及解码方法以及程序的制作方法