使用最小最大值跟随器估计噪声的方法和音频噪声抑制器与流程

文档序号:18457982发布日期:2019-08-17 01:46阅读:400来源:国知局
使用最小最大值跟随器估计噪声的方法和音频噪声抑制器与流程

本发明涉及音频处理技术领域,并特别地涉及使用最小最大值跟随器估计噪声的方法和音频噪声抑制器。



背景技术:

许多通信信道是有噪声的;此信道噪声被添加至期望信号并被发送至接收器。此外,包括手机的许多通信设备用于有噪声的环境中,例如人群、车辆、商店或存在背景音乐或噪声的其他场所;背景噪声通常被麦克风拾取并被有效地添加至期望声音信号,并且除非在发送设备处被抑制,其被发送至接收器。

当信道噪声或背景噪声或两者到达接收器时,此噪声可以损害期望声音信号的清晰度,除非使用噪声抑制器。

其中可以使用音频噪声抑制器的典型的通信系统200示于图2。来自人类说话者202和背景噪声源204的音频被麦克风206拾取,来自麦克风206的音频可以在被发送器210发送至信道212之前被噪声抑制器208处理。信道噪声可以被信道噪声源214注入至信道212中,其中信道噪声可以被添加至发送的信号并由接收器216接收以提供可以在驱动扬声器220并被呈现给收听者222之前由噪声抑制器218处理的有噪信号。

可用作信道212的发送器端的噪声抑制器208或用作信道212的接收器端的噪声抑制器218的常规的噪声抑制器100(图1)接收音频输入102进入频域转换单元104。频域信号被带提取器106划分为分离信号108,每个分离信号108表示多个频带的一个频带;这些分离频带信号被提供至语音检测器110,语音检测器110从分离频带信号确定进入的音频中是否存在语音。每个频带信号还被具有噪声估计器114和信噪比估计器116的分离的每带单元112处理,信噪比估计器116将估计的信噪比118提供给增益计算器120。增益计算器120将带特定增益122提供至可变增益单元124,可变增益单元124对表示该频带的分离信号108应用带特定增益122以提供带特定增益调整的信号126。带特定增益调整的信号126被重新组合器128收集并被模拟域或时域转换器130转换为模拟域或数字时域音频输出信号132。

从图1的基础抑制器得出抑制器的许多变体。这些变体噪声抑制器通常在snr估计器116和增益计算器120子系统中不同。例如,可以在增益计算器120输出处添加滤波或平滑以通过稳定可变增益单元124的增益来减少伪象。

使用根据图1的噪声抑制器和根据图2的系统中的相关噪声抑制器的噪声抑制的质量取决于噪声估计器114中噪声电平估计的质量,原因是噪声的不正确估计损坏snr估计器116中的snr,并因此损坏该频带的确定的增益122。

有噪音频中通常发现两种类型的噪声。第一类型的噪声是“静态”噪声,如连续的信道噪声或来自位于恒定距离的不断运行的风扇、流水或车辆引擎的背景噪声,其中噪声倾向于具有相当恒定的频率和振幅分布。第二类型的噪声是“非静态”、可变的噪声,例如由交通中多个移动的汽车产生的、几个人在人群中移动时讲话产生的、吠叫的狗产生的、电视机和无线广播产生的、急躁的司机按压喇叭按钮产生的和其他非恒定源产生的背景噪声。来自音频噪声源204的由麦克风206拾取的这样的背景噪声是非静态的。

典型的噪声抑制器对静态噪声比对非静态噪声的表现好得多,部分原因是噪声估计器114中噪声电平的估计对非静态噪声更难。



技术实现要素:

在第一方面,提供用于噪声抑制器的噪声电平估计器,包括:功率平滑器,用作低通滤波器并提供时间片中的平滑输入功率估计;最小值跟随器,服从于泄露因子,提供最近的时间片中的最低平滑输入功率的表示;最大值跟随器,服从于泄露因子,提供最近的时间片中的最高平滑输入功率的表示;语音概率检测器,耦合以接收功率平滑器的输出和最小值跟随器的输出;非静态噪声检测器,耦合以接收最小值跟随器的输出和最大值跟随器的输出;以及总噪声估计器,耦合以接收非静态噪声检测器、功率平滑器和语音概率检测器的输出。

在第二方面,提供噪声抑制器,包括:带提取器,适用于以频带分离频域输入;至少一个每带单元,进一步包括:第一方面所述的噪声电平估计器,耦合以从所述带提取器接收表示频带的输入;增益计算器,耦合以接收噪声电平估计器的输出;以及可变增益单元,由增益计算器的输出控制;以及组合器,耦合以接收每个每带单元的可变增益单元的输出。

在第三方面,提供频域信号的频带中的噪声估计的方法,包括:平滑频带的强度以提供更平滑输出;跟踪更平滑输出的最小值;跟踪更平滑输出的最大值;从更平滑输出的最小值和频带的强度确定语音缺失概率;从跟踪的更平滑输出的最小值和跟踪的更平滑输出的最大值确定非静态噪声测量;确定非静态噪声的存在;以及从语音缺失概率、非静态噪声测量和频带的强度估计总噪声。

在第四方面,提供噪声抑制的方法,包括:以频带将频域输入分离成频带信号;对于每个频带信号,使用根据第三方面的方法估计频带信号的噪声,从估计的噪声和频带信号得出信噪比(snr)以提供当前snr,使用snr以准备原始增益,滤波原始增益以提供滤波后的增益,以及将滤波后的增益应用至频带信号以提供带特定增益调整的信号;以及将带特定增益调整的信号组合成噪声减小的频域信号。

附图说明

图1是现有技术音频噪声抑制器的框图。

图2是可以实施一个或多个音频噪声抑制器的系统的框图。

图3是用于音频噪声抑制器的噪声估计器的实施例的框图。

图4是在噪声估计器内使用的最小值和最大值跟踪器的实施例中的滤波的输入信号功率对跟踪的最小值和最大值的示例。

图5表示提出的从最小最大比至非静态测量γ的非线性映射。

图6是表示用于噪声抑制器的噪声估计的方法的部分的流程图。

具体实施方式

用于改进的噪声抑制器的每个频带k的改进的噪声估计器400跟踪信号的最小值和最大值统计。接收频带的频域输入402并在功率计算器404中计算信号功率,此信号功率在功率平滑器406中被平滑。最小值跟随器408和最大值跟随器410分别跟踪在过去的预定义时间段上的最小信号功率和最大信号功率,并使用跟踪值的差进一步计算噪声估计的速度。在实施例中,基于跟踪的最小信号功率值和当前信号功率值在语音概率检测器412中计算语音存在概率。非静态噪声检测器414估计非静态噪声的概率和振幅,总噪声估计器416使用平滑因子估计最后总估计的噪声功率,其由估计的语音和语音概率和非静态噪声估计的乘积确定。

以yk(n)表示帧n的第k个频带的值,在功率平滑器406中,使用第一阶递归滤波器对来自功率计算器404的信号功率进行滤波:

其中,表示平滑信号功率且αy是常数,αy在一些实施例中位于0.3至0.5的范围内。

然后,平滑信号功率或更平滑输出被馈入最小值跟随器408和最大值跟随器410,用于跟踪平滑信号的最小值和最大值。跟随器和输出分别被计算为:

以及

其中,分别表示信号历史的最小值和最大值;且βmin和βmax是两个预定义常数,βmin和βmax分别大于1和小于1。这相比于“noisepowerspectraldensityestimationbasedonoptimalsmoothingandminimumstatistics”,r.martin,speechandaudioprocessing,ieeetransaction,2001(martin)中用于跟踪信号极小值的常规方法需要更少的内存;注意martin不跟踪信号最大值。此外,martin使用历史缓冲区存储的过去值,且该历史缓冲区中的最小值被每帧搜索。

代替在历史缓冲区中存储过去信号功率若功率小于存储在最小功率寄存器中的功率我们将当前功率存储在最小功率寄存器中,且其中当前功率不小于寄存器中存储的功率时,使用“泄露”因子增加相似地,若功率大于存储在最大功率寄存器中的功率,我们将当前功率存储在最大功率寄存器中作为且其中当前功率不大于寄存器中存储的功率时,使用“泄露”因子以逐帧地降低以便确实跟随信号功率的峰值和谷值。在此,βmin和βmax是设置为分别大于1和小于1的值的预定义的恒定泄露因子。在特定实施例中,其被设置为:

以及

其中,fz、tmin和tmax分别是帧持续时间(秒)、用于最小值跟随器的泄露或松弛时间(秒)和用于最大值跟随器的泄露或松弛时间。在此,我们分别将tmin和tmax设置为1和0.2秒。并且,帧持续时间取决于真实系统实施且在实施例中位于0.01至0.032秒的范围内。

图4示出如由提出的最小最大值跟随器跟踪真实非静态噪声的示例跟踪的最小和最大电平。可以看出,随着最小值和最大值跟随器寄存器分别缓慢地增加和降低,寄存器值如何相对于帧(或时间)数进化。这是因为提供泄露因子βmin和βmax以保证,若当前平滑信号功率大于或小于寄存器值,增加或降低。最终,随着变得越来越大,其越来越可能超过并由其替代。相同的规则适用于提出的最小最大值跟随器不需要用于存储历史值的附加存储器并在实践中工作良好。

非静态测量

一旦被更新,其用于计算非静态测量,定义为:

最小值和最大值跟随器电平的比给出信号功率的概率密度函数多宽的度量。对于静态噪声,例如,高斯白噪声,是自由度为2的卡方分布的最小值和最大值。对于非静态噪声,我们预期γ(n)是大的,原因是噪声平均随时间变化并因此导致更高的最大值、更低的最小值或两者。这告知在当前时间段期间背景噪声变化多迅速,且我们将预期以与其非静态成比例的方式跟踪噪声。我们将γ(n)映射至0至1之间的范围以反映我们必须多快地跟踪噪声,

其中,cγ是预定义常数,在特定实施例中,cγ是6。ξ(n)在0至1之间且相对于γ(n)的增加是单调的。图5示出γ(n)和ξ(n)之间的关系,其中cγ为6且10log10(γ(n))在0至20db的范围内。如图5所示,一旦γ(n)超过10db,我们预期随着ξ(n)接近1,噪声电平将非常快速地被更新。应当指出,不同的频带可以使用不同的cγ。因此,我们应使cγ,k是频率相依的,其中k是频带索引。

语音缺失概率

若当前帧存在语音,噪声功率不被更新,若我们如此做,我们可能将噪声功率错误地适用到语音的功率。因此,语音概率检测器412使用函数将语音缺失概率ρn(n)计算为:

其中,在特定实施例中,cmin是常数4。等式(8)和语音概率检测器412以这样的方式计算语音缺失概率:若当前信号功率不高于最小值跟随器的cmin倍,这断言不存在语音。随着信号功率增加,ρn(n)以连续的温和方式迅速降低至0。我们发现此映射函数在实践中有效。

估计总噪声功率

等式(7)中的非静态测量和等式(8)中的语音缺失概率在总噪声估计器416中被相乘以给出用于噪声估计的平滑因子,为:

αn(n)=ξ(n)ρn(n)(9)

总噪声功率被估计为:

一旦噪声功率被估计,其用于计算当前帧的抑制增益以得到噪声抑制的语音。提出的噪声估计方案可应用于任何种类的抑制增益等式,例如维纳滤波、谱减法等。

在图1的维纳噪声抑制器中,通过调整可变增益电路124的增益应用抑制增益,且来自每个频带的增益调整的输出在重新组合器128中被组合以提供全频域音频输出。全频域音频输出然后被转换单元130重新转换至模拟拟或时域。

方法重申

以上描述的硬件执行可以被总结为如下的方法:

在来自带提取器的频域输入的每个频带内,平滑610频带的强度以提供更平滑输出。

跟踪612更平滑输出的最小值,在特定实施例中,通过若寄存器内容大于更平滑输出,在时间片中将最小值寄存器加载至更平滑输出,以及若寄存器内容小于更平滑输出,以泄露因子增加,参见上面的等式(2)。

实施例中的时间片表示约二十分之一至1毫秒。在特定实施例中,时间片是十分之一毫秒。在实施例中,最近的时间片是在最近的1至10秒内的那些时间片。在特定实施例中,最近的时间片是具有在最后约两秒内接收和处理的样本的那些时间片。

跟踪614更平滑输出的最大值,在特定实施例中,通过若寄存器内容小于更平滑输出,在时间片中将寄存器加载至更平滑输出,以及若寄存器内容大于更平滑输出,以泄露因子降低,参见上面的等式(3)。

从跟踪的更平滑输出的最小值和跟踪的更平滑输出的最大值确定618非静态噪声测量,参见上面的等式(6)和(7)。

使用如上面给出的等式(8),从更平滑输出的最小值和频带的强度确定616语音缺失概率。

从语音缺失概率、非静态噪声测量和频带的强度确定620总噪声,参见上面的等式(9)和(10)。

在类似于图1的噪声抑制器中,方法继续从估计的噪声和频带信号得出信噪比以提供当前snr,snr用于准备可以被滤波为当前增益的原始增益。滤波后的增益被应用至频带的音频以提供带特定增益调整的信号。来自所有频带的这些带特定的增益调整的信号被组合为噪声减少的频域信号。

特征组合

在此公开的特征可以以各种方式组合。预期的特定组合包括:

用于噪声抑制器的噪声电平估计器,a指定的噪声电平估计器包括:提供每个时间片中的平滑输入功率估计的功率平滑器低通滤波器,提供最低平滑输入功率的表示的最小值跟随器,和提供最高平滑输入功率的表示的最大值跟随器,跟随器服从于泄露因子;耦合以接收功率平滑器和最小值跟随器的输出的语音概率检测器;耦合以接收最小值跟随器和最大值跟随器的输出的非静态噪声检测器;以及耦合以接收非静态噪声检测器、功率平滑器和语音概率检测器的输出的总噪声估计器。

aa指定的噪声电平估计器包括a指定的噪声电平估计器,其中最小值跟随器使用寄存器,若寄存器内容大于平滑输入功率估计,在时间片中将寄存器设置为平滑输入功率估计,以及若寄存器内容小于平滑输入功率估计,以泄露因子增加寄存器。

ab指定的噪声电平估计器包括a或aa指定的噪声电平估计器,其中最大值跟随器包括寄存器,若寄存器内容小于平滑输入功率估计,在时间片中将寄存器设置为平滑输入功率估计,以及若寄存器内容大于平滑输入功率估计,以泄露因子降低寄存器。

ac指定的噪声抑制器包括a、aa或ab指定的噪声电平估计器,包括适用于以频带分离频域输入的带提取器;进一步包括从带提取器接收表示频带的输入的噪声电平估计器,耦合以接收噪声电平估计器的输出的增益计算器和由增益计算器的输出控制的可变增益单元的至少一个每带单元。噪声抑制器还包括耦合以接收每个每带单元的可变增益单元的输出的组合器。

ad指定的噪声抑制器包括ac指定的噪声抑制器并还包括耦合以向带提取器提供输入的时间或模拟域至频域转换器;和耦合以接收组合器的输出的频域至时间或模拟域转换器。

b指定的用于噪声抑制的噪声估计的方法包括:平滑频带的强度以提供更平滑输出;跟踪更平滑输出的最小值;跟踪更平滑输出的最大值;从更平滑输出的最小值和频带的强度确定语音缺失概率;从跟踪的更平滑输出的最小值和跟踪的更平滑输出的最大值确定非静态噪声测量;确定非静态噪声的存在;以及从语音缺失概率、非静态噪声测量和频带的强度估计总噪声。

ba指定的噪声估计的方法包括b指定的噪声估计的方法,其中,通过若寄存器内容大于更平滑输出,在时间片中将最小值寄存器加载至更平滑输出,以及若寄存器内容小于更平滑输出,以泄露因子增加寄存器,来执行跟踪更平滑输出的最小值。

bb指定的噪声估计的方法包括b或ba指定的噪声估计的方法,其中通过若寄存器内容小于更平滑输出,在时间片中将寄存器加载至更平滑输出,以及若寄存器内容大于更平滑输出,以泄露因子降低寄存器,来执行跟踪更平滑输出的最大值。

bc指定的噪声抑制的方法包括:以频带将频域输入分离成频带信号,以及对于每个频带信号,使用b、ba或bc指定的方法估计频带信号的噪声,然后从估计的噪声和频带信号得出信噪比以提供当前snr,使用snr准备原始增益,滤波原始增益以提供滤波后的增益,以及将滤波后的增益应用至频带信号以提供带特定增益调整的信号。噪声抑制的方法还包括将带特定增益调整的信号组合成噪声减少的频域信号。

bd指定的方法包括bc指定的噪声抑制方法,还包括执行快速傅里叶变换(fft),离散傅里叶变换(dft)或离散余弦变换(dct)以将输入转化为频域输入。

在不脱离其范围的情况下,可以对上述方法和系统做出改变。因此,应该注意的是,在上述描述中包含的或在附图中示出的方式应该被理解为说明性的且不具有限制意义。所附权利要求旨在覆盖在此描述的所有通用和特定特征,以及本方法和系统的范围的所有声明,作为一种语言现象,应被认为落入其间。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1