噪声估计的方法和设备的制作方法

文档序号：2823240阅读：150来源：国知局

专利名称：噪声估计的方法和设备的制作方法
技术领域：
本发明一般涉及用于噪声水平/频谱估计和语音活动检测的方法和设备，且更特定来说，涉及用于估计噪声水平和检测语音的存在的概率模型的使用。
背景技术：
通信技术在许多领域中不断演进，从而经常呈现较新的挑战。随着移动电话和无线耳机的出现，现可在非常嘈杂的环境(即，具有低信噪比(SNR)的环境)中进行真正的全双工对话。信号增强和噪声抑制在这些情形中变得关键。所要语音的可理解度通过在将信号发送到另一端的收听者之前抑制非所要的有噪声信号而得以增强。检测语音在有噪声背景内的存在为信号增强和噪声抑制的重要分量。为实现改进的语音检测，一些系统将传入信号划分成多个不同时间/频率帧，且估计语音在每一帧中的存在的概率。
检测语音的存在的最大挑战中的一者为追踪噪声下限，特定来说，使用单一麦克风/感应器的非静态噪声水平。语音活动检测广泛用于现代通信装置中，尤其用于在低信噪比的情况下操作的现代移动装置，例如，手机和无线耳机装置。在这些装置中的大多数中，在将有噪声信号发送到另一端的收听者之前对所述有噪声信号执行信号增强和噪声抑制；进行此操作以改进所要语音的可理解度。在信号增强/噪声抑制中，使用语音或话音活动检测器(VAD)来检测所要语音在混有噪声的信号中的存在。此检测器可产生语音的存在或不存在的二元决策(binary decision)，或还可产生语音存在的概率。
检测语音的存在的一个挑战为确定信号中的背景噪声的水平的上界限和下界限，其还称为噪声“上限”和“下限”。在使用单一麦克风输入的非静态噪声的情况下尤为如此。另外，追踪噪声水平归因于装置或使用所述装置的人员的物理移动的快速变化而更具挑战性。

发明内容
在特定实施例中，揭示一种用于估计音频信号的当前帧中的噪声水平的方法。所述方法包含确定多个音频帧的噪声水平以及计算所述多个音频帧上的所述噪声水平的平均值和标准偏差。使用从所述平均值减去所述标准偏差的值来计算当前帧的噪声水平估计。
在特定实施例中，揭示一种噪声确定系统。所述系统包含经配置以确定多个音频帧的噪声水平的模块；以及经配置以计算所述多个音频帧上的所述噪声水平的平均值和标准偏差的一个或一个以上模块。所述系统还可包括经配置以将所述当前帧的噪声水平估计计算为从所述平均值减去所述标准偏差的值的模块。
在一些实施例中，揭示一种用于估计信号在多个时间-频率频段中的噪声水平的方法，所述方法可在一个或一个以上计算机系统上实施。对于所述信号的每一频段，所述方法确定多个音频帧的噪声水平，估计所述时间-频率频段中的所述噪声水平，确定所述时间-频率频段中的初级噪声水平，从所述初级噪声水平确定所述时间-频率频段中的次级噪声水平，和从所述时间-频率频段中的所述次级噪声水平确定经定界限的噪声水平。
一些实施例揭示一种用于估计音频信号的当前帧中的噪声水平的系统。所述系统可包含用于确定多个音频帧的噪声水平的装置；用于计算所述多个音频帧上的所述噪声水平的平均值和标准偏差的装置；以及用于将所述当前帧的噪声水平估计计算为从所述平均值减去所述标准偏差的值的装置。
在特定实施例中，揭示一种计算机可读媒体，其包含在处理器上执行以执行方法的指令。所述方法包含确定多个音频帧的噪声水平；计算所述多个音频帧上的所述噪声水平的平均值和标准偏差；以及将当前帧的噪声水平估计计算为从所述平均值减去所述标准偏差的值。

各种配置在附图中以实例方式而非以限制方式进行说明。
图1为根据本发明的原理的VAD的简化方框图；图2为说明频域VAD的频率选择性加权向量的曲线图；图3为说明所提议的时域VAD在粉红噪声环境下的性能的曲线图；图4为说明所提议的时域VAD在串音噪声环境下的性能的曲线图；图5为说明所提议的时域VAD在交通噪声环境下的性能的曲线图；以及图6为说明所提议的时域VAD在聚会噪声环境下的性能的曲线图。
具体实施例方式本发明的实施例包含用于确定信号中的噪声水平且在一些例子中随后检测语音的方法和系统。这些实施例包含优于现有技术的多个显著进步。一项改进涉及基于来自先前和当前音频帧的背景噪声的平均值执行对语音信号中的背景噪声的估计。此不同于基于来自较早和目前音频帧的最小噪声值来计算语音的帧的目前背景噪声水平的其它系统。传统上，研究者已着眼于先前噪声值的最小值来估计目前噪声水平。然而，在一个实施例中，从若干过去的帧计算所估计的噪声信号电平，计算此整体的平均值，而非最小值，且从所述整体中减去经缩放的标准偏差。所得值与通常使用整体最小值所提供的值相比有利地提供对当前音频帧的噪声水平的更准确的估计。
此外，可基于传入信号电平对此所估计的噪声水平动态地定界限，以便维持对噪声的较准确的估计。所估计的噪声水平可另外用先前值进行“平滑”或“平均化”，以使不连续性最小化。所估计的噪声水平可接着用以识别具有高于噪声水平的能级的帧中的语音。此可通过计算后验信噪比(SNR)来确定，所述后验SNR又可由非线性S形启动函数 (sigmoidal activation function)用来产生语音的存在的经校正概率。
参看图1，传统的话音活动检测(VAD)系统100接收传入信号101，所述传入信号 101包含具有背景噪声的区段，和具有背景噪声和语音两者的区段。VAD系统100将时间信号101分成若干帧103a到103d。这些帧103a到103d中的每一者接着被传递到分类模块 104，所述分类模块104确定将给定帧置于何类别(噪声或语音)中。
分类模块104计算给定信号的能量，且将所述能量与对应于噪声下限的估计的时变阈值进行比较。那个噪声下限估计可由每一传入帧进行更新。在一些实施例中，所述帧在帧信号的所估计的能级比特定帧内的经测量的噪声下限高的情况下被分类为语音活动。由此，在此模块中，噪声频谱估计为语音辨识和(如果需要)后续增强的基本分量。所述系统的稳健性(特定来说，在低SNR和非静态噪声环境下)最主要受到可靠地追踪噪声统计中的快速变化的能力影响。
基于VAD的常规噪声估计方法将对噪声估计的更新限于不存在语音的周期。然而，这些VAD的可靠性对于弱的语音分量和低输入SNR来说严重恶化。基于功率谱密度直方图的其它技术在计算上较昂贵，需要大量存储器资源，在低SNR条件下表现不好，且因此不适用于手机和蓝牙耳机应用。最小值统计为用于噪声频谱估计的另一种方法，其通过将多个过去帧的最小值取为噪声估计而操作。遗憾的是，此方法对于静态噪声起到良好作用，但当应对非静态环境时表现较差。
一个实施例包含噪声频谱估计系统和方法，其在追踪许多类型的非所要的音频信号(包括例如“聚会噪声”或“串音噪声”的高度非静态噪声环境)中非常有效。所述系统甚至在无益于所述估计的环境中还产生准确的噪声下限。此所估计的噪声下限用于计算后验SNR，所述后验SNR又用于S形函数“逻辑函数”中以确定语音的存在的概率。在一些实施例中，语音确定模块用于此功能。
使x[n]和d[n]分别表示所要语音和不相关的加性噪声信号。观察到的信号或受污染信号y[n]简单地为以上两者的相加，其由下式给出 y[n] = x[n]+d[n](1) 两个假设Hjn]和&[11]分别指示第η个时间帧中的语音不存在和存在。在一些实施例中，可在语音不存在的周期期间递归地平均化噪声测量的过去能级值。相比而言，在语音存在期间估计可保持恒定。特定来说， H0 [η]:λ [η] = adAd[n-l] + {l-ad) G2y [η] Ηχ[η\:λ [η\ = λ [η-\]
η , ,2 其中σ γ |外]|为有噪声信号在时间帧η处的能量，且ad表示与1之间
/= -100
的平滑参数。然而，由于并不始终清楚何时存在语音，因此，可能并不清楚何时应用方法Htl 或氏中的每一者。可替代地使用“有条件的语音存在概率”，其通过随时间更新平滑因子a s 来估计递归平均值 Xd[n] = as[η]λ [η-1] + (l-as[η])σ][η] (4) 其中 a s[n] = a d+(l-a d)prob [n] (5) 以此方式，当不知晓语音的存在时，可具有更准确的估计。
他人先前已考虑基于最小值统计的方法以用于噪声水平估计。举例来说，可着眼于(比如)过去100个帧的所估计的有噪声信号电平Xd，计算整体的最小值，且将其宣告为所估计的噪声水平，即
权利要求
1.一种用于估计音频信号的当前帧中的噪声水平的方法，其包含确定多个音频帧的所述噪声水平；计算所述多个音频帧上的所述噪声水平的平均值和标准偏差；以及将所述当前帧的噪声水平估计计算为从所述平均值中减去所述标准偏差的值。
2.根据权利要求1所述的方法，其进一步包含在从所述平均值中减去之前缩放所述标准偏差。
3.根据权利要求1所述的方法，其进一步包含通过确定多个噪声水平估计的最小值来确定所述当前噪声水平估计。
4.根据权利要求1所述的方法，其中所述多个音频帧包含约100个帧。
5.根据权利要求1所述的方法，其中计算所述噪声水平估计包含使用平滑因子。
6.根据权利要求5所述的方法，其中在语音活动的周期期间保持所述噪声水平估计恒定。
7.根据权利要求5所述的方法，其中通过使用第二平滑因子在语音在所述当前帧中的一概率与1之间进行内插来递归地平均化所述平滑因子。
8.根据权利要求1所述的方法，其中所述噪声水平估计包含多个先前所确定的噪声水平的最小值。
9.根据权利要求1所述的方法，其中通过用目前噪声水平内插所述噪声水平的先前所计算的平均值来估计所述噪声水平的所述平均值。
10.根据权利要求1所述的方法，其进一步包含将所述所计算的噪声水平估计定界限为比所要信号电平低12到MdB之间。
11.根据权利要求1所述的方法，其进一步包含通过将所述当前帧识别为具有无噪声区段来检测语音活动。
12.根据权利要求11所述的方法，其中当对于所有τe ^).2，1]，语音的所述概率> τ时，宣告语音活动。
13.—种噪声确定系统，其包含第一模块，其经配置以确定多个音频帧的噪声水平；第二模块，其经配置以计算所述多个音频帧上的所述噪声水平的平均值和标准偏差；以及第三模块，其经配置以将当前帧的噪声水平估计计算为从所述平均值中减去所述标准偏差的值。
14.根据权利要求13所述的噪声确定系统，其中所述第三模块经配置以在从所述平均值中减去之前缩放所述标准偏差。
15.根据权利要求13所述的噪声确定系统，其中计算所述噪声水平估计包含使用平滑因子。
16.根据权利要求15所述的噪声确定系统，其中所述噪声水平估计在语音活动的周期期间保持恒定。
17.根据权利要求15所述的噪声确定系统，其中所述平滑因子是通过使用第二平滑因子在语音在所述当前帧中的一概率与值1之间进行内插而被递归地平均化。
18.一种用于估计信号在所述信号的多个时间-频率频段中的噪声水平的方法，其包含，对于所述信号的所述频段中的每一者确定多个音频帧的所述噪声水平；估计所述时间-频率频段中的所述噪声水平；确定所述时间-频率频段中的初级噪声水平；从所述初级噪声水平确定所述时间-频率频段中的次级噪声水平；以及从所述时间-频率频段中的所述次级噪声水平确定经定界限的噪声水平。
19.根据权利要求18所述的方法，其中确定所述经定界限的噪声水平包含将所述所估计的噪声水平定界限为比有效的所要信号电平低12到MdB之间。
20.根据权利要求18所述的方法，其进一步包含通过取得每一频率的语音在当前帧中的概率的经加权和来计算语音在所述当前帧中的所述概率。
21.根据权利要求20所述的方法，其中向600Hz到1550Hz范围内的权重给予至少0.02 的值。
22.一种用于估计音频信号的当前帧中的噪声水平的系统，其包含用于确定多个音频帧的所述噪声水平的装置；用于计算所述多个音频帧上的所述噪声水平的平均值和标准偏差的装置；以及用于将所述当前帧的噪声水平估计计算为从所述平均值中减去所述标准偏差的值的装置。
23.根据权利要求22所述的噪声确定系统，其中所述用于计算所述当前帧的噪声水平估计的装置在从所述平均值中减去之前缩放所述标准偏差。
24.根据权利要求22所述的系统，其中所述用于确定所述噪声水平的装置包含经配置以确定信号的能级的模块。
25.根据权利要求22所述的系统，其中所述用于计算所述噪声水平的所述平均值和所述标准偏差的装置包含经配置以执行数学运算的模块。
26.根据权利要求22所述的系统，其中所述用于计算噪声水平估计的装置包含经配置以执行数学运算的模块。
27.一种计算机可读媒体，其包含当在处理器上执行时执行方法的指令，所述方法包含确定多个音频帧的噪声水平；计算所述多个音频帧上的所述噪声水平的平均值和标准偏差；以及将当前帧的噪声水平估计计算为从所述平均值中减去所述标准偏差的值。
28.根据权利要求27所述的方法，其进一步包含在从所述平均值中减去之前缩放所述标准偏差。
29.—种处理器，其经编程以执行方法，所述方法包含确定多个音频帧的噪声水平；计算所述多个音频帧上的所述噪声水平的平均值和标准偏差；以及将当前帧的噪声水平估计计算为从所述平均值中减去所述标准偏差的值。
30.根据权利要求四所述的方法，其进一步包含在从所述平均值中减去之前缩放所述标准偏差。
全文摘要
本发明揭示一种用于噪声水平/频谱估计和语音活动检测的系统和方法。一些实施例包括用以估计噪声水平并随后检测语音的存在的概率模型。这些实施例胜过标准的话音活动检测器(VAD)，从而在多种有噪声环境中产生改进的检测。
文档编号G10L11/02GK102187388SQ200980141212
公开日2011年9月14日申请日期2009年10月15日优先权日2008年10月15日
发明者阿西夫·I·穆罕默德, 迪内希·拉马克里希南申请人:高通股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：阿西夫·Ｉ·穆罕默德
技术所有人：高通股份有限公司
我是此专利的发明人