处理有噪声的声音信号的方法以及实现该方法的装置的制作方法

文档序号:2829200阅读:495来源:国知局
专利名称:处理有噪声的声音信号的方法以及实现该方法的装置的制作方法
技术领域
本发明涉及对有噪声的声音信号的处理,尤其涉及降低上述信号中存在的噪声。
背景技术
降低一个声音信号中的噪声,即干扰信号的技术是已知的。该技术的目标在于考虑声音信号所处的声学环境,以提高信号的质量和清晰可辨程度。这些技术包括通过对有噪声的信号进行处理来从声音信号中提取有用的信息。上述技术应用于,例如语音通信,声音信号在多个通话者之间传输的通话应用中,例如远程电话(telephony)、电话会议、视频会议。此外,它们还用于在嘈杂的环境中进行信号接收的应用,或者声音识别,而当声音在嘈杂的环境中发出时,声音识别的性能会有很大的改变。
这些技术通常包括估计一个降噪滤波器(noise reduction filter)的传递函数(transfer function),然后基于频谱域(spectral domain)的乘法执行滤波处理。它们所运用的方法被定义为“通过短期频谱衰减(short-termspectral attenuation)的降噪(noise reduction)”。
根据这些技术,声音信号x(n)包含有用信号成分s(n)和噪声成分b(n),n代表离散时间的时间索引。然而,需要注意的是,也可以采用连续时间的信号表示。信号x(n)被组织为有固定长度、索引为k的连续帧x(n,k)。这些帧中的每一个首先被乘以一个加权窗,以使得可以提高随后对计算降噪滤波器所必需的频谱量(spectral quantities)的估算的准确度。于是,每个与加权窗相乘的帧在频谱域被分析,例如借助离散傅立叶变换或快速傅立叶变换。这个操作被称为短期傅立叶变换(STFT,short-term Fouriertrans formation)。
因此,所得到的被处理信号的频域表示X(k,f)使得在同一个时间可以估计该降噪滤波器的传递函数H(k,f),并通过该传递函数与该有噪声的信号的短期频谱的简单相乘将该传递函数应用于频谱域,其中f是频率索引。所述滤波的结果可以写成如下形式S^(k,f)=H(k,f)X(k,f).]]>该所得到的信号通过逆频域变换转换回时域。通过块重叠相加(blockoverlap and add)技术(OLA,表示“重叠相加(overlap add)”),或者通过块保留技术(OLS表示“重叠保留(overlap save)”)来最终合成相应的时间信号。这个在时域中重建信号的操作被称为逆短期傅立叶变换(ISTFT,inverse short-term Fourier transformation)。
短期频域衰减方法的详细描述可以在以下参考文献中找到“Enhancement and bandwidth compression of noisy speech”,IEEE学报,1979年,第67卷1586-1604页,J.S.Lim、A.V.Oppenheim著,和“Multiratedigital signal processing”,Prentice Hall,1983年,R.E.Crochiere、L.R.Rabiner著。
在索引k的时间段上借助频率成分(frequency componet)f应用于被处理的信号X(k,f)的短期频谱衰减H(k,f)通常是基于本地的信噪比SNR(k,f)的估计来决定的。所有抑制规则(suppression rules)的一个共同的特点在于如下所示的渐进性H(k,f)≈1,SNR(k,f)>>1H(k,f)≈0,SNR(k,f)<<1在大多数的方法中,存在如下假设噪声和有用信号统计不相关,有用信号是间断的(存在无声(silence)期间),且人耳对于信号的相位(通常未通过处理而被修正)不敏感。
通常采用的抑制规则可以通过例子来引证功率谱减法(powerspectral subtraction)、幅度谱减法(amplitude spectral subtraction)和直接采用维纳滤波器(Wiener Filter)。对于这些规则,有用语音信号的频域成分f的短期估计可以分别写为对于功率谱减法(参见前述J.S.Lim和A.V.Oppenheim所著文献)为S^SSP(k,f)=γss(k,f)γss(k,f)+γbb(k,f)X(k,f)···(1)]]>对于幅度谱减法(参见“Suppression of acoustic noise in speech usingspectral subtraction”,IEEE Trans.on Audio,Speech and Signal Processing,,1979年4月,第27卷第2期,113-120页,S.F.Boll著)为S^SSA(k,f)=[1-γbb(k,f)γss(k,f)+γbb(k,f)]X(k,f)···(2)]]>对于维纳滤波器(见前述J.S.Lim和A.V.Oppenheim的文章)为S^Wiener(k,f)=γss(k,f)γss(k,f)+γbb(k,f)X(k,f)···(3)]]>在这些表达式中,γss(k,f)和γbb(k,f)分别表示在索引k的时间窗上被处理信号X(k,f)的频域成分f之中的有用信号和噪声的功率谱密度(powerspectral density)。
基于上述表达式,有可能研究应用于有噪声的信号的频谱衰减的性能,其作为在给定频域成分f上所测量的本地信噪比的函数。图1中画出了上面提到的三个短期抑制规则的曲线。可能要注意的是,当本地信噪比显著时(图1中的右手部分),三个规则给出了基本相同的衰减。在所述处理过程的输出时,最佳功率减法规则(optimal powersubtraction rule)的噪声功率仍然是最大的,这里,最佳是指对高斯模型的最大似然而言(参考“Elimination of the musical noise phenomenon with the Ephraim andMalah noise suppressor”,IEEE Trans.on Speech and Audio Processing,1994年4月,第2卷第2期,345-349页,O.Cappé著)。对于所述三个抑制规则,我们注意到有关截止值(cutoff value)的本地信噪比的一个小变化就足以从全部衰减(H(k,f)≈0)的情形切换到可忽略的谱修正(spectralmodification)(H(k,f)≈1)的情形。
上述后一个属性构成了“音乐噪声”现象的原因之一。具体地,同时包括确定性和随机成分的环境噪声仅在没有声音活动的时候被特征化。考虑到随机成分的存在,在有声音活动时噪声的频率成分f的实际贡献与其在没有声音活动的瞬间基于多个帧所作的平均估计之间存在很大不同。考虑到这个不同,本地信噪比的估计在截止位置可能有波动,因此在所述处理过程的输出时,使得出现然后消失、且平均寿命统计上不超过所考虑的分析窗的数量级的频谱成分上升。这种特征在整个通带(passband)上是普遍的,引入了人耳能够听见并且恼人的残余噪声(residual noise)。
已有研究来试图降低这种残余噪声的干扰。所提出的解决方案包括以下几种途径平均化短期估计(参考前述的S.F.Boll所著文献)、噪声功率谱的过估计(参见“Enhancement of speech corrupted by acoustic noise”,Int.Conf.on Speech,Signal Processing,1979年,第208-211页,M.Berouti等著,以及“Experiments with a non-linear spectral subtractor,hiddenMarkov models and the projection for robust speech recognition in cars”,Proc.of EUSIPCO’91,1991年,第79-82页,P.Lockwood、J.Boudy著)或者跟踪噪声谱密度的最小值(参见“Spectral subtraction based on minimumstatistics”,in Signal Processing VIITheories and Applications,EUSIPCO’94,1994年9月,第1182-1185页,R.Martin著)。
一种相对有效的抑制音乐噪声的解决方案包括称作“直接判决(directed-decision)”的有用信号(useful signal)的功率谱密度估计器(参见“Speech enhancement using a minimum mean square error short-timespectral amplitude estimator”,IEEE Trans.on Audio,Speech and SignalProcessing,1984年,第32卷第6期,第1109-1121页,Y.Ephraim、D.Malah著,以及上述O.Cappé所著文献)。该估计器实现有用信号的瞬时功率谱密度和长期功率谱密度的折中,从而能够有效地消除音乐噪声。更进一步,众所周知,通过调整这个估计器的固有的延迟可提高这个解决方案的效果(参见专利文献FR2820227以及文献“A Two-Step Noise ReductionTechnique”,ICASSP,2004年5月,C.Plapous、C.Marro、L.Mauuary、P.Scalart著)。
已有多个研究基于语音和加性噪声信号(added noise signal)的统计模型来建立新的抑制规则。由于这些研究同传统的方法相比具有一个额外的自由度,使得引入一种称作为“软判决”的新算法成为可能(参见“Speechenhancement using a soft-decision noise suppression filter”,IEEE trans.onAudio,Speech and Signal Processing,1980年4月,第28卷,第2期,第137-145y页,R.J.Mac Aulay、M.L.Malpass著,“Speech enhancement usingoptimal non-linear spectral amplitude estimation”,Int.Conf.on Speech,Signal Processing,1983年,第1118-1121页,以及上述Y.Ephraim、D.Malah所著文献“Speech enhancement using a minimum mean square errorshort-time spectral amplitude estimator”)。
如上所述,短期频谱衰减的计算依赖于每个频谱成分的信噪比估计。例如,上面给出的每一个公式都涉及到下述数值SNR(k,f)=γss(k,f)γbb(k,f)]]>因此,降噪方法的性能,尤其是在失真和噪声水平的有效降低方面,受信噪比估计器的相关性的控制。
这个缺陷构成了现有语音降噪系统的最大限制。具体地,目前的降噪系统不能够对很低信噪比的谐波进行降噪。在实践中,降噪算法使用SNR来检测每个频率的语音成分(speech component)是否存在。如果所估计的SNR很不理想,则认为没有信号成分并抑制它。因此,尽管根据先验知识知道谐波肯定存在,谐波还是有可能被现有的降噪系统破坏。现在,需要注意的是,在大多数语言中,浊音(voiced sounds)(谐波)表示所发出声音的非常大的一部分。

发明内容
本发明的一个目的是克服现有降噪系统的限制。
本发明的另一个目的是提高降噪方法的性能。
本发明的另一个方面是提供一种不使信号过分失真的声音信号处理方法。特别是,所执行的信号处理使得保存包含于该信号中的所有或者部分谐波成为可能。
本发明的另一个目的是在完成声音信号处理时限制音乐噪声的出现。
本发明的另一个目的是获得有用信号的梳状谐波(harmonic comb)的一个好的估计。
因此,本发明提供了一种处理被组织为连续帧的有噪声的声音信号的方法。该处理包括涉及所述帧中至少一个帧的如下步骤-对所述有噪声的声音信号的所述帧实施一个使其转换至频域的变换;-估计所述帧的噪声功率谱密度;-基于所估计的噪声功率谱密度以及与所述帧相应的有用信号的功率谱密度的估计,计算第一降噪滤波器;以及
-利用由上述计算所得到的所述第一降噪滤波器对所述有噪声的声音信号的所述帧进行滤波,以获得所述帧的第一降噪估计;以及-基于所述有噪声的声音信号的所述帧的第一降噪估计获得第二信号的一帧,该第二信号的帧包括基本上与所述有噪声的声音信号的所述帧相对应的有用信号位于相同位置的谐波。
于是,这样的有噪声的语音信号的处理使得应用于所述信号的第一降噪滤波器在输出时获得调和性的再生(regeneration of harmonicity)。因而所获得的所述第二信号的帧被构建,以消除在第一滤波时可能出现的降噪信号帧的失真。
该处理使得获得有用信号的梳状谐波的一个好的估计成为可能,该有用信号可能是随后应用的主体。
优选地,在降噪处理中,该方法进一步包括以下步骤-基于所估计的噪声功率谱密度,以及所述帧的第一降噪估计和所获得的第二信号的帧的功率的结合,计算第二降噪滤波器;-利用由上述计算得到的所述第二降噪滤波器对有噪声的声音信号的所述帧进行滤波,以获得所述帧的第二降噪估计;以及-合成所述帧的第二降噪估计。
在本实施例中,由于第二降噪滤波器被来自调和性再生的信号所驱动,该第二降噪滤波器被以得以保留谐波的方式计算。因此,在第二滤波完成时获得的所述帧的第二降噪估计比在传统降噪系统中获得的降噪估计要更有效,因为在传统降噪系统中输入信号的谐波被破坏或者被减弱。
第一降噪滤波器的计算与适当时第二降噪滤波器的计算可包括实现短期频谱衰减的第一轮计算(first pass)。例如,可引用以下方法作为示例功率谱减法、幅度谱减法和开环维纳滤波器(open-loop Wiener filter)等。优选地,还可包括实现短期频谱衰减的第二轮计算(second pass),例如功率谱减法、幅度谱减法和开环维纳滤波器等,并在考虑第一轮计算中所执行计算的情况下使用与所述帧相应的有用信号的功率谱密度的估计。
优选地,获取包括基本上与所述有噪声的声音信号的所述帧相对应的有用信号中基本上位于相同位置的谐波的第二信号的帧的步骤包括当所述第一估计位于时域时是一个非线性函数应用,其应用于所述有噪声的声音信号的所述帧的所述第一降噪估计,且当所述第一估计位于频域时是圆周卷积(circular convolution)应用,其应用于所述有噪声信号的所述帧的所述第一降噪估计与将非线性函数转换至频域的变换间。
例如,所述非线性函数可以是以下各项中的任一个单波整流函数(single-wave rectification function)、绝对值、有噪声的声音信号的所述帧的所述第一降噪估计和阈值中的最大者;有噪声的声音信号的所述帧的所述第一降噪估计和阈值中的最小者。
本发明进一步提供了一种处理有噪声的声音信号的装置,包括用于实现如上所述方法的装置。
本发明也提供了一个位于信息媒介中的计算机程序,其特征在于,当该程序被加载并被计算装置执行时,该程序包括用于实现上述方法的指令。


通过阅读以下参照附图对非限制性实施例所作的详细描述,本发明的其它特征和优点将会变得更明显。
-图1为三种已知的短期抑制规则的性能比较图,正如已经说明的;-图2为能够实现本发明的一个实施例的各个功能块的示意图;-图3为恢复降噪信号中丢失的谐波的例子的示意图;-图4为根据本发明的一个实施例信号中的谐波恢复的效果示意图;以及-图5为根据本发明的一个实施例第二降噪滤波器估计的例子示意图。
具体实施例方式
图2示出了根据本发明的一个实施例的装置1。有噪声的声音信号的当前帧2进入装置1以经历其中的处理过程。根据上文引入的符号,该帧被表示为x(k,n)。
装置1包括分析单元3,其用于将有噪声的信号的当前帧x(k,n)转换到频域X(k,f)。首先,该帧被乘以加权窗w(n),以提供信号xw(k,n)xw(k,n)=w(n)x(k,n).
然后,利用离散傅立叶变换(DFT)执行到频域的转换,即X(k,f)=DFT((xw(k,n))优选地,所述DFT可通过快速傅立叶变换(或FFT)来实现。然而,到频域的其他变换,如小波变换也是可以的。对于逆操作同样如此,即后面将要提到的用于转换回时域的逆离散傅立叶变换(IDFT)。
此外,优选地,可在当前帧2上执行用于检测声音活动(DVA,detectingvocal activity)的功能4。DVA使得能够知晓什么时候更新噪声的功率谱密度(PSD)。因而,对DVA检测到的每个“只有噪声”的帧kb,功能块5根据下述递归表达式估计噪声功率谱密度 γ^bb(kb,f)=α(kb)γ^bb(kb-1,f)+(1-α(kb))|X(kb,f)|2]]>参数α(kb)控制平滑因子(smoothing factor),其随着时间的变化而变化。
如果检测到当前帧2不是噪声帧,则噪声的功率谱密度估计被标记,即,保持所获得的前一个噪声帧的PSD的最后的值。
需要注意的是, 的估计不限于这个指数平滑估计器,可使用任何其它的功率谱密度估计器。
可以使用任何类型的DVA,不管后者在时域还是在频域进行操作。甚至也可以省略这样的声音活动检测。
然后通过图2中的功能块7来实现第一降噪滤波器的估计。优选地,利用两轮计算方法在频域估计该第一降噪滤波器的传递函数(参见专利文献FR2820227,以及文献“A Two-Step Noise Reduction Technique”,ICASSP,2004年5月,C.Plapous、C.Marro、L.Mauuary、P.Scalart著)。在第一轮计算中,计算具有如下形式H^step1(k,f)=fstep1(γ^ss(k,f),γ^bb(k,f))]]>的传递函数的滤波器。
上述滤波器的传递函数的表达式是一个依赖于有用信号的功率谱密度 和噪声的功率谱密度 的数学表达式。据此,可根据短期频谱衰减方法来选择函数fstep1,以便 实现如功率谱减法规则(公式(1))、幅度谱减法规则(公式(2))、开环维纳滤波器规则(公式(3))等。可采用其他任何基于频率的噪声抑制规则来估计 上面详细描述了噪声功率谱密度 的计算。由于在声音活动期间信号和噪声的混合,故不能直接获得所涉及的频谱量 为了计算该频谱量,根据以下表达式使用直接判决的估计器(参见前述文献“Speechenhancement using a minimum mean square error short-time spectralamplitude estimator”,Y.Ephraim、D.Malah著)γ^ss(k,f)=β(k)|S^(k-1,f)|2+(1-β(k))P[|X(k,f)|2-γ^bb(k,f)]]]>其中,β(k)是能够随着时间变化而变化的重心参数(barycentricparameter), 是与索引为k-1的前一个帧相关的被估计的有用信号的频谱。确保数值 阈值的函数P如下述所示,该数值在估计错误的情形下有可能为负值P[z(k,f)]=z(k,f),z(k,f)>00]]>需要注意的是, 的估计不限于该直接判决的估计器。特别地,也可以使用指数平滑估计器或任何其它功率谱密度估计器。
此后,可重用传递函数 来改进有用信号的PSD 的估计。然后我们获得由以下公式给出的数值 γ^ss2(k,f)=|H^step1(k,f)X(k,f)|2]]>第二轮计算包括基于 计算所述第一降噪滤波器的传递函数的估计值 即H^1(k,f)=fstep2(γ^ss2(k,f),γ^bb(k,f))]]>与第一降噪滤波器 的两个优点相比,两轮计算的特别之处在于有用信号的PSD 的“更快速”更新。一方面,获得有用信号的非平稳性(non-stationarities)的快速跟踪,尤其在其时域包络(temporal envelope)快速变换的期间(例如,在无声/语音转换时语音信号的冲击或者消失),另一方面,降噪滤波器被更好地估计,该方法性能的提高证明了这一点。 和H1(k,f)可执行短期频谱衰减的方法,例如功率谱减法规则(公式(1))、幅度谱减法规则(公式(2))或者开环维纳滤波规则(公式(3))。也可执行其它任何基于频率的噪声抑制规则来估计 和H1(k,f)。当然,也可以仅限于第一轮频谱衰减而无需执行第二轮频谱衰减。
装置1的功能块6根据被计算的第一滤波器H1(k,f)来执行滤波。其可以在频域执行,此时对应于两个频谱相乘。就目前来看,这等效于在时域的圆周卷积操作。因而有必要采取一些预防措施以避免由于时域伪信号(temporal aliasing)引起的失真,当随着帧的速度通过点击侦听时,该时域伪信号是明显的。因此,为了满足线性卷积(linear convolution)的约束,有必要给每个输入帧加一定数量的零抽样点(所谓的“填零”方法)并限制降噪滤波器的冲激响应(impulse response)的时域支持(可在时域或频域执行)。
需要注意的是,为了限制降噪滤波器的冲激响应的时域支持(temporalsupport),可以在时域引入约束,这需要i)第一“逆”频谱变换,使得可以基于滤波器的传递函数H1(k,f)的信息获得冲激响应h1(k,n),ii)该冲激响应的点(point)数的限制,以获得一个截断的时域滤波器h1′(k,n),iii)第二”直接”频谱变换,使得基于被限制的冲激响应h1′(k,n)获得滤波器修正后的传递函数H1(k,f)。
降噪滤波器的(频域)传递函数 可用的情况下,通过对其进行离散傅立叶变换得到冲激响应 即h^1(k,n)=IDET(H^1(k,f))]]>通过用窗wfilt1对最重要的系数Lfilt1进行选择和加权来对上述冲激响应在时域进行限制h^1′(k,n)=wfilt1(n)h^1(k,n)]]>对噪声滤波器的时域支持的限制呈现出两个优点。一方面,避免了时域伪信号的问题(与线性卷积相一致)。另一方面,其确保平滑,从而避免了滤波器太过突出的影响。
因此,通过离散傅立叶(DFT)变换获得降噪滤波器的传递函数H1′(k,f)H^1′(k,f)=DET(h^1′(k,n)).]]>最后,通过频率滤波,所述有噪声信号的频谱与所述降噪滤波器的传递函数相乘获得所述有噪声信号的第一降噪版本,即S^1(k,f)=H^1′(k,f)X(k,f)]]>也可以等效的时域滤波方式来执行上述频率滤波步骤,即用 对xw(k,n)直接进行滤波,然后对结果进行离散傅立叶(DFT)变换。
如上文所解释,由于某些谐波已经被降噪滤波器H1′(k,f)抑制,所以有用信号的第一估计 有听觉失真。当然,失真的程度直接同SNR相关。在一个频率域的噪声功率越大,该频率域的谐波越有可能减少。
为了减少上述缺点,图2中所示的装置1中的功能块8创建一个伪信号 该信号具有被破坏的或者被严重衰减掉的谐波。
可在时域或者频域获得信号 在时域,可通过应用非线性变换来恢复信号的调和性,例如,用以下函数中的任一个单波整流函数、绝对值、关于阈值的最小/最大值等。如图3中的步骤14所示,我们得到以下表达式,其中NL表示所使用的非线性函数s^harmo(k,n)=NL(s^1(k,n))]]>其中,根据图3中的步骤13,通过逆离散傅立叶变换(IDFT)得到 s^1(k,n)=IDFT(S^1(k,f))]]>如图3中的步骤15所示,通过离散傅立叶变换(DFT)得到 S^harmo(k,f)=DFT(s^harmo(k,n)),]]>需要注意的是,谐波在与有用信号相同的位置被重建。隐含地,使用时域非线性变换来恢复谐波确保了这一点能够实现。
进一步需要注意的是,在时域应用非线性变换的情况下,通过将非线性变换应用到从xw(k,n)与 的卷积直接获得的信号 ,可避免转换到频域。
图4示出了非线性的效果和优点。第一频谱(曲线16)对应于没有噪声的有用信号的一个帧,并被当作参考。第二频谱(曲线17)对应于信号 很显然,在该第二频谱中某些谐波已经被完全破坏,其它的谐波被减弱。最后一个频谱(曲线18)对应于上述提到的信号 显然,应用到信号 的非线性变换已经使得可以重建丢失的谐波 。该信号 的频谱因而具有在计算新的降噪滤波器时特别有用的谐波信息,这个新的降噪滤波器能够保留被传统的降噪方法破坏的谐波。
时域非线性变换具有一个等效的频率,其包括在信号 的频谱和与有用信号具有同样谐波结构(在谐波位置的级别)的信号的频谱之间进行圆周卷积。这样的频谱可通过例如与函数 相应的时域信号d(k,n)得到。因而,可通过以下方式在频域获得信号 S^harmo(k,f)=S^1(k,f)⊗DFT(d(k,n))]]>其中,符号对应于圆周卷积运算符。如果所选择的时域非线性变换是,例如,绝对值函数,则信号d(k,n)可以被如下表示,其中函数sgn代表其所应用的值的符号(sign)d(k,n)=sgn(s^1(k,n))]]>因而,通过时域非线性变换或者频域的圆周卷积获得的信号 具有所述被破坏或者被减弱的谐波 其本身构成降噪信号的梳状谐波的一个好的估计,其中谐波被保留在与其在有用信号中相同的位置。这个梳状谐波估计非常有益,尤其适用于降噪处理,但不限于此。
优选地,更进一步,该信号使得计算能够保留通常被传统的算法破坏的谐波的降噪滤波器成为可能,如下文中所述。
需要注意的是,本发明不限于上述获取信号 的例子。实际上可本发明可扩展到任何目的在于重建被降噪滤波器H1′(k,f)抑制的谐波的方法。
优选地,通过图2的函数块9估计第二滤波器,图5以如下的方式示出了如何在频域中估计第二降噪滤波器的传递函数 g表示一个函数H^2(k,f)=g(γ^ss_harmo(k,f),γ^bb(k,f))]]>这个滤波器的传递函数的表达式是一个依赖于噪声的PSD 以及利用谐波恢复步骤所估计的有用信号的PSD的数学表达式,即γ^ss_harmo(k,f)=ρ(k,f)|S^1(k,f)|2+(1-ρ(k,f))|S^harmo(k,f)|2]]>在作为一个被选择用来创建信号 的非线性函数NL的PSD 计算中,参数ρ(k,f)被用来控制信号 的重注入(reinjection)的程度。需要注意的是,该参数可以是固定的或者依赖于频率和/或时间。
函数g可以被选择以使得 执行例如功率谱减法规则(公式(1))、幅度谱减法规则(公式(2))或者开环维纳滤波器规则(公式(3))。当然也可执行任何其它基于频率噪声抑制规则来估计 降噪传递函数 具有保留信号的谐波的优点,该谐波通常被传统的信号降噪方法破坏。这限制了降噪信号的失真。还要注意的是,该滤波器保留了滤波器 的好的属性,即对于非平稳性和极小的音乐噪声的良好跟踪性。
设备1的功能块10基于所述被估计的第二降噪滤波器执行第二次滤波。这样,对于第一传递函数来说,可通过逆离散傅立叶变换(IDFT)得到与降噪滤波器的(频域)传递函数 等效的(时域)冲激响应 即h^2(k,n)=IDFT(H^2(k,f))]]>通过利用窗wfilt2对最重要的系数Lfilt2进行选择和加权,可方便地在时域限制该冲激响应,即h^2(k,n)=wfilt2(n)h^2(k,n)]]>然后,通过离散傅立叶变换(DFT)得到降噪滤波器的传递函数 H^2′(k,f)=DFT(h^2′(k,n))]]>最后,通过频率滤波,即将有噪声信号的频谱与降噪滤波器的传递函数相乘得到降噪频率帧,即S^2(k,f)=H^2′(k,f)X(k,f)]]>也可以等效的方式通过时域滤波来执行上述频率滤波步骤,即用 直接进行滤波。在这种情形下,我们直接在时域获得信号 当在频域执行滤波时,回到时域是明智的。这由装置1的功能块11通过应用逆频谱变换(IDFT)来执行,即s^(k,n)=IDFT(S^2(k,f))]]>降噪输出信号由此可以通过块重叠相加技术(OLA表示“重叠相加”)或者块保存技术(OLS表示“重叠保存”)方便地合成。这种在时域重构信号的操作被称作逆短期傅立叶变换(ISTFT)。
在这些步骤完成时,在设备1的输出端得到帧12,该输出帧12是有限失真的输入帧2的一个降噪估计。
在本说明书的下面部分,描述了本发明的实施方式的一些优选的选择。这些选择是一些示例性实施例,不应该被理解为对本发明的限制。
为了便于装置1的功能块3和11实现分析和合成,优选地,选择OLA技术。此外,在被分析的帧之间存在重叠。例如,可以选择50%的重叠率。长度为L的有噪声的信号的当前帧2x(k,n){n=0,...,L-1}首先被乘以加权窗w(n),以得到信号xw(k,n)xw(k,n)=w(n)x(k,n)在该例中,使用长度为L的汉宁窗(Hanning window)w(n)=0.5-0.5cos(πnL)n=0,K,L-1]]>其中,L=256,对应于采样频率Fe=8kHz、长度为32ms的帧。
到频域的转换可以方便地使用快速傅立叶变换(FFT)或离散傅立叶变换(DFT)的数字优化的版本。为了获得更好的频率以及满足线性卷积约束,使用长度LFFT=512的FFT。因此,有必要先使用256个零采样点加长被加窗的块(windowed block)xw(k,n)(“填零”)xFFT(k,n)=xw(k,n),n=0,K,L-10,n=L,K,LFFT-1]]>这样就可以通过以下公式得到输入帧的FFT X(k,f)X(k,f)=FFT(xFFT(k,n))可选地,通过功能块4来执行声音活动的检测。
对于所述的噪声功率谱密度的估计 由功能块5来执行,然后,可以以下面的方式方便地继续处理。对于由DVA检测到的每个“只有噪声”的帧kb,噪声功率谱密度 的估计由以下递归表达式给出γ^bb(kb,f)=αγ^bb(kb-1,f)+(1-α)|X(kb,f)|2]]>如果检测到当前帧不是一个噪声帧,则噪声的功率谱密度的估计被标记,平滑量α被选择作为一个常量,并且α=0.8825,这对应于128ms的时间常量(已考虑到50%的重叠以及采样频率Fe=8kHz),该时间常量被充分地评价以确保在可靠的估计与噪声统计的时域变化的跟踪之间的折中。
优选地,功能块7估计的第一降噪滤波器的传递函数 是如下所示的开环维纳滤波器的传递函数H^step1(k,f)=η(k,f)1+η(k,f)]]>其中,η(k,f)表示先验信噪比(SNR),该先验信噪比理论上由有用信号的PSD估计 与噪声的PSD估计 的比值来定义,即η(k,f)=γ^ss(k,f)γ^bb(k,f)]]>优选地,通过使用直接判决估计器得到有用信号的PSD 即γ^ss(k,f)=β|S^(k-1,f)|2+(1-β)P[|X(k,f)|2-γ^bb(k,f)]]]>其中选择重心参数β为常量,且β=0.98。如上所述,函数P确保被(1-β)加权的数值的阈值P[z(k,f)]=z(k,f)z(k,f)>00]]>优选地,传递函数 在之后被重用以改进有用信号的PSD的估计 由此可以通过以下公式获得数值 γ^ss2(k,f)=|H^step1(k,f)X(k,f)|2]]>其用来计算如下公式所示的先验信噪比的第二估计η2(k,f)η2(k,f)=γ^ss2(k,f)γ^bb(k,f)]]>优选地,第二轮计算包括基于η2(k,f)进行第一降噪滤波器的传递函数的估计值 的计算,即H^1(k,f)=η2(k,f)1+η2(k,f)]]>由功能块6执行的滤波操作可以由下文所示的操作来执行。在所述降噪滤波器的(频率)传递函数 可用的情况下,优选地,可通过使用快速逆傅利叶变换(IFFT)得到相应的时域响应 快速逆傅利叶变换(IFFT)是逆离散傅利叶变换(IDFT)的数字优化的版本,即h^1(k,n)=IFFT(H^1(k,f))]]>
因为信号 是实数,首先提供相应的具有因果性的时域滤波器。然后选择与抽样点相应的所述滤波器的系数Lfilt1=256,所述抽样点对所关注的应用非常重要。然后,用长度为Lfilt1的汉宁窗对所获得的冲激响应进行加权。最后,将加权冲激响应填充LFFT-Lfilt1个零以提供满足避免失真的线性卷积约束的冲激响应 然后,优选地,通过使用快速傅利叶变换(FFT)获得降噪滤波器的传递函数 快速傅利叶变换(FFT)是离散傅利叶变换(DFT)的数字优化的版本,即H^1′(k,f)=FFT(h^1′(k,n))]]>最后,通过频率滤波,即通过将有噪声信号的频谱与降噪滤波器传递函数相乘获得有噪声的信号的第一降噪版本,即S^1(k,f)=H^1′(k,f)X(k,f)]]>在功能块8执行的恢复丢失的谐波的步骤中,使用信号 来创建一个伪信号 首先,优选地,通过逆快速傅利叶变换(FFTI)获得时域信号 s^1(k,n)=IFFT(S^1(k,f))]]>此后,将单波整流非线函数应用于该信号,其目的在于恢复信号的调和性,即s^harmo(k,n)=max(s^1(k,n),0)]]>当然,任何其它除单波整流函数之外的非线性函数(绝对值,阈值的最大/最小值等)都可以用来进行上述操作。最后,优选地,通过使用快速傅利叶变换(FFT)获得信号 即S^harmo(k,f)=FFT(s^harmo(k,n))]]>然后,优选地,可利用该信号来计算第二降噪滤波器的传递函数。
在本示例性实施例中,这样的第二滤波器的估计由装置1的功能块9以下述方式执行。第二降噪滤波器的传递函数 是如下开环维纳滤波器的传递函数H^2(k,f)=ηharmo(k,f)1+ηharmo(k,f)]]>其中,ηharmo(k,f)表示先验信噪比(SNR),该先验信噪比理论上由有用信号的PSD估计 与噪声的PSD估计 的比值来定义,即
ηharmo(k,f)=γ^ss_harmo(k,f)γ^bb(k,f)]]>其中,有用信号的PSD 由以下公式获得γ^ss_harmo(k,f)=ρ(k,f)|S^1(k,f)|2+(1-ρ(k,f))|S^harmo(k,f)|2]]>用来控制信号 再注入的程度的参数ρ(k,f)在应用中被选择为固定不变,并且等于0.5。
由于可获得降噪滤波器的(频率)传递函数 所以优选地,可通过使用快速逆傅利叶变换(IFFT)得到相应的时域响应 快速逆傅利叶变换(IFFT)是逆离散傅利叶变换(IDFT)的数字优化的版本h^2(k,n)=IFFT(H^2(k,f))]]>因为信号 是实数,首先提供相应的具有因果性的时域滤波器。然后选择与抽样点相应的所述滤波器的系数Lfilt2=256,所述抽样点对所述应用非常重要。然后,用长度为Lfilt2的汉宁窗对所获得的冲激响应进行加权。最后,将加权冲激响应填充LFFT-Lfilt2个零以提供满足避免失真的线性卷积约束的冲激响应 然后,优选地,通过使用快速傅利叶变换(FFT)获得降噪滤波器的传递函数 快速傅利叶变换(FFT)是离散傅利叶变换(DFT)的数字优化的版本,即H^2′(k,f)=FFT(h^2′(k,n))]]>可选地,可以对所述降噪滤波器 的模(modulus)的值进行阈值限制,以避免不平滑的降噪。
最后,通过功能块10执行的频率滤波获得降噪频率帧,即通过将有噪声信号的频谱与降噪滤波器传递函数相乘S^2(k,f)=H^2′(k,f)X(k,f)]]>然后在功能块11级别通过逆频谱变换执行将信号转换回时域的变换,优选地,使用逆快速傅立叶变换(IFFT),即s^(k,n)=IDFT(S^2(k,f))]]>然后通过块重叠相加方法OLA来合成降噪输出信号。
此外,需要注意的是,图2中所示的装置1作为所应用的功能,可以被放置在一种特殊的设备中,诸如声音采集设备、通信设备或者其它的语音识别设备。
此外,需要注意的是,装置所执行的处理可以本地方式执行,例如在通信终端中,或者在网络中以集中化方式执行,例如在语音识别服务器中。
另外,在实际中,根据本发明,用于处理有噪声的声音信号的装置1包括适用于执行根据本发明的处理信号方法的(电子)硬件装置和/或软件装置。
根据本发明的一个优选实现,处理根据本发明的有噪声的声音信号的方法的步骤由根据本发明的设备中使用的计算机程序的指令来确定。
当上述程序被加载到包含在所述设备中的计算装置时,根据本发明的方法被执行,该方法的执行由运行所述程序来控制。
这里,“计算机程序”被理解为一个或多个计算机程序形成的(软件)集合,当该“计算机程序”被适当的计算装置运行时,其目的在于实现本发明的方法。
因此,本发明的主题也包括这样的一个计算机程序,尤其是以软件的形式存储在信息媒介中的计算机程序。所述的信息媒介可包括任何能够存储根据本发明的程序的实体或者装置。
例如,所述的媒介可包括硬件存储装置,如ROM,例如CD ROM、微电子电路ROM,或者是磁记录装置,如硬盘。作为一个变化例,信息媒介还可以是包含所述程序的集成电路,该电路适合于执行所述方法,或者适合于被用于所述方法的执行中。
此外,该信息媒介还可以是可传输的非物质介质,如能够通过无线电或其他方法,用电缆或者光缆传送的电信号或者光信号。特别的,可从因特网类型的网络中下载基于本发明的程序。
从设计的观点来看,根据本发明的计算机程序可使用任何语言,可以是源代码、目标码或者是在源代码和目标码之间的中间码(如部分编译的形式),或者是其它任何可实现根据本发明的方法的形式。
权利要求
1.一种处理被组织为连续帧的有噪声的声音信号(x(n))的方法,其中,该方法包括涉及所述连续帧中至少一个帧(x(k,n))的如下步骤-对所述有噪声的声音信号的所述帧实施一个使其转换至频域的变换;-估计所述帧的噪声功率谱密度(γbb(k,f));-基于所估计的噪声功率谱密度以及与所述帧相应的有用信号的功率谱密度的估计,计算第一降噪滤波器 以及-利用由上述计算得到的所述第一降噪滤波器对所述有噪声的声音信号的所述帧进行滤波,以获得所述帧的第一降噪估计 以及-基于所述有噪声的声音信号的所述帧的第一降噪估计获得第二信号的一帧 该第二信号的帧包括基本上与所述有噪声的声音信号的所述帧相对应的有用信号中的谐波位于相同位置的谐波。
2.根据权利要求1所述的方法,其中,该方法进一步包括以下步骤-基于所估计的噪声功率谱密度,以及所述帧的第一降噪估计 的功率和所获得的第二信号的帧 的功率的组合,计算第二降噪滤波器 -利用由上述计算得到的所述第二降噪滤波器对有噪声的声音信号的所述帧(x(k,n);X(k,f))进行滤波,以获得所述帧的第二降噪估计 以及-合成所述帧的第二降噪估计。
3.根据权利要求2所述的方法,其中,当利用所述第二降噪滤波器执行的滤波结果位于频域时,在合成所述帧的第二降噪估计之前对所述滤波结果实施一个使其转换至时域的变换。
4.根据权利要求1至3中任一项所述的方法,其中,在对所述有噪声的声音信号的所述帧(x(k,n))实施使其转换至频域的变换之前,将所述帧乘以一个加权窗(w(n))。
5.根据权利要求4所述的方法,其中,所述加权窗是汉宁窗,该窗的长度为所述有噪声的声音信号的所述帧的长度L。
6.根据权利要求5所述的方法,其中,所述加权窗的形式为w(n)=0.5-0.5·cos(πnL)]]>其中,n是从0到L-1的整数,L等于256。
7.根据权利要求1至6中任一项所述的方法,其中对所述有噪声的声音信号的所述帧(x(k,n))实施的所述使其转换至频域的变换是长度为512的快速傅立叶变换。
8.根据权利要求1至7中任一项所述的方法,其中,在所述有噪声的声音信号的所述帧(x(k,n))中检测声音活动,且其中,当在所述帧中没有检测到声音活动时,所述帧的噪声功率谱密度估计 与包含于所述帧中的噪声功率谱密度一致;当在所述帧中检测到声音活动时,所述帧的噪声功率谱密度估计与包含在所述有噪声的声音信号的所述帧之前的至少一帧中的噪声功率谱密度一致。
9.根据权利要求8所述的方法,其中,包含于所述有噪声的声音信号的索引为kb且在其中未检测到声音活动的至少一帧中的噪声的功率谱密度受形式为γ^bb(kb,f)=αγ^bb(kb-1,f)+(1-α)|X(kb,f)|2]]>的指数平滑的影响,其中X(kb,f)表示将所述有噪声的声音信号的索引为kb的帧转换到频域的变换,α为平滑量。
10.根据权利要求9所述的方法,其中,所述α等于0.8825。
11.根据权利要求1至10中任一项所述的方法,其中,对所述第一降噪滤波器的计算包括实现短期频谱衰减方法的第一轮计算。
12.根据权利要求11所述的方法,其中,对所述第一降噪滤波器的计算包括实现具有形如H^step1(k,f)=η(k,f)1+η(k,f)]]>的传递函数的开环维纳滤波器的第一轮计算,其中k是所述有噪声的声音信号的所述帧的索引,η(k,f)表示与所述帧对应的有用信号的功率谱密度的估计与噪声的功率谱密度的估计之比。
13.根据权利要求12所述的方法,其中,与所述帧相对应的有用信号的功率谱密度的估计包括形式为γ^ss(k,f)=β|S^(k-1,f)|2+(1-β)P[|X(k,f)|2-γ^bb(k,f)]]]>的直接判决估计,其中,β为重心参数或者为指数平滑估计。
14.根据权利要求13所述的方法,其中,与所述帧相对应的有用信号的功率谱密度的估计包括一个使用重心参数β的直接判决估计,其中β=0.98。
15.根据权利要求11至14中任一项所述的方法,其中,所述对第一降噪滤波器的计算进一步包括实现短期频谱衰减方法的第二轮计算,其中与所述帧对应的有用信号的功率谱密度估计考虑了在所述第一轮计算中执行的计算。
16.根据权利要求15所述的方法,其中,考虑了在所述第一轮计算中执行的计算的、与所述帧对应的有用信号的功率谱密度估计的形式为γ^ss2(k,f)=|H^step1(k,f)X(k,f)|2]]>其中, 表示在所述第一轮计算中被计算的传递函数,X(k,f)表示将所述有噪声的声音信号的、索引为k的所述帧转换至频域的变换,且其中,对所述第一降噪滤波器的计算包括实现具有形如H^1(k,f)=η2(k,f)1+η2(k,f)]]>的传递函数的开环维纳滤波器的第二轮计算,其中,η2(k,f)表示考虑了在所述第一轮计算中执行的计算的、与所述帧对应的有用信号的功率谱密度的估计与噪声的功率谱密度的估计之比。
17.根据权利要求1至16中任一项所述的方法,其中,利用所述第一降噪滤波器对所述有噪声的声音信号的所述帧(x(k,n);X(k,f))的滤波在将所述帧转换至频域的变换(X(k,f))上执行。
18.根据权利要求1至17中任一项所述的方法,其中,利用所述第一降噪滤波器对所述有噪声的声音信号的所述帧的滤波包括所述第一降噪滤波器的系数选择和所述第一降噪滤波器的时域冲激响应的加权。
19.根据权利要求18所述的方法,其中,所述第一降噪滤波器的256个系数被选择,并且被汉宁窗加权。
20.根据权利要求19所述的方法,其中,所述对所述有噪声的声音信号的所述帧实施的使其转换至频域的变换是长度为512的快速傅立叶变换,其中,所述第一降噪滤波器的时域冲激响应(xw(k,n))被填充256个零。
21.根据权利要求1至20中任一项所述的方法,其中,获取包括基本上与所述有噪声的声音信号的所述帧相对应的有用信号中的谐波位于相同位置的谐波的第二信号的一帧 的步骤包括当所述第一估计位于时域时,将一个非线性函数应用于所述有噪声的声音信号的所述帧的所述第一降噪估计 且当所述第一估计位于频域时,将圆周卷积应用于所述有噪声信号的所述帧的所述第一降噪估计 与将非线性函数(d(k,n))转换至频域的变换之间。
22.根据权利要求21所述的方法,其中,所述非线性函数(d(k,n))是以下各项中的任一个单波整流函数、绝对值、所述有噪声的声音信号的所述帧的所述第一降噪估计和一阈值中的最大值、所述有噪声的声音信号的所述帧的所述第一降噪估计和一阈值中的最小值。
23.根据权利要求2至22中任一项所述的方法,其中,所述第二降噪滤波器 的计算实现一个短期频谱衰减方法。
24.根据权利要求23所述的方法,其中,所述第二降噪滤波器的计算实现具有形如H^2(k,f)=ηharmo(k,f)1+ηharmo(k,f)]]>的传递函数的开环维纳滤波器,其中,ηharmo(k,f)=γ^ss_harmo(k,f)γ^bb(k,f),γ^ss_harmo(k,f)=ρ(k,f)|S^1(k,f)|2+(1-ρ(k,f))|S^harmo(k,f)|2]]>其中, 表示索引为k的所述帧的所述第一降噪估计, 表示所述第二信号的帧,ρ(k,f)为所述第二信号的重注入参数。
25.根据权利要求24所述的方法,其中,ρ(k,f)作为时间和/或频率的函数而变化。
26.根据权利要求24所述的方法,其中,ρ(k,f)是固定的且等于0.5。
27.根据权利要求1至26中任一项所述的方法,其中,利用所述第二降噪滤波器对所述有噪声的声音信号的所述帧(x(k,n);X(k,f))的滤波在将所述帧转换至频域的变换(X(k,f))上执行。
28.根据权利要求2至27中任一项所述的方法,其中,利用所述第二降噪滤波器对所述有噪声的声音信号的所述帧的滤波包括所述第二降噪滤波器的时域冲激响应的选择和加权。
29.根据权利要求28所述的方法,其中,所述第二降噪滤波器的256个系数被选择,并且被汉宁窗加权。
30.根据权利要求29所述的方法,其中,所述对所述有噪声的声音信号的所述帧实施的使其转换至频域的变换是长度为512的快速傅立叶变换,其中,所述第二降噪滤波器的时域冲激响应被填充256个零。
31.根据权利要求2至30中任一项所述的方法,其中,所述帧的第二降噪估计的合成使用OLA块重叠相加或者OLS块保存。
32.用于处理有噪声的声音信号的装置(1),其中,包括用于实现如权利要求1至31中任一项中所述方法的装置。
33.一种位于信息媒介中的计算机程序,其中,当该程序被加载并被计算装置执行时,该程序包括用于实现如权利要求1至31中任一项所述方法的指令。
全文摘要
本发明涉及处理有噪声的声音信号的方法以及实现该方法的装置。该方法包括以下对有噪声的声音信号的每个帧(x(k,n))执行的步骤,包括实施一个频域变换;估计所述帧的噪声功率谱密度(PSD)(γ
文档编号G10L21/02GK101031963SQ200580031069
公开日2007年9月5日 申请日期2005年9月14日 优先权日2004年9月16日
发明者克洛德·马罗, 西里尔·普拉普斯, 帕斯卡尔·斯卡拉尔特 申请人:法国电信
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1