低频带噪声检测的制作方法

文档序号:2833531阅读:646来源:国知局
专利名称:低频带噪声检测的制作方法
技术领域
本发明总的来说涉及语音处理,更具体地是涉及在有低频带噪声的情况下对语音段的音调估计(pitch estimation)。
背景技术
语音处理中的音调估计可以用于在浊语音段与清语音段(voicedand speech unvoiced segments)之间进行区分,并用于表示浊语音的声调(tone)。由于浊语音可以使用周期信号来近似,因此可以通过测量信号的周期或其倒数来估计音调,其被称为基本频率或音调频率。在周期信号不能被用来近似语音段的情况下,该语音段可以被认定为清音。
对于音调估计,在时域和频域中已经开发出了各种各样的技术。尽管时域和频域音调确定方法都易于导致不稳定和错误,并且准确的音调估计在计算上较密集,频域方法对于实际语音数据与准确的周期模型的偏离通常更为宽容。
周期信号例如浊语音的傅立叶变换在频域中具有脉冲或峰值序列的形式。该脉冲序列对应于所述信号的线频谱,其可以表示为序列{(αi,θi)},其中θi为峰值的频率,αi为各自的复值线频谱幅值。为了确定给定的语音信号段是浊音还是清音,以及如果所述信号段为浊音则计算音调,首先以一有限平滑窗口乘以该时域信号。然后通过X(θ)=ΣkαkW(θ-θk)]]>给定该窗口信号的傅立叶变换,其中W(θ)为所述窗口的傅立叶变换。频域音调估计典型地是基于对变换信号X(θ)中的峰值的位置和幅值的分析。
给定任意音调频率,对应于该音调频率的线频谱可以仅包含该频率倍数的线频谱分量。因而可以断定出现在线频谱中的任何频率都应当是该音调频率的倍数。因此,音调频率可以作为出现在变换信号中的频谱峰值的频率的最大整除数而得到。然而,背景噪声以及与周期模型的其他偏离情况的存在使得频谱峰值离开其规定的准确位置,并且使伪频谱峰值同样出现在不可预知的位置。
从周期模型中可以得出结论,音调频率的变化导致在低频频谱线位置中相对较小的变化,而导致在高频频谱线位置相对较大的偏差。因此,低频频谱峰值对音调估计具有比高频频谱峰值对音调估计更大的影响。为此,频域音调估计的准确性在存在低频带噪声时严重地恶化。低频带噪声通常存在于运动或怠速汽车的客室中,因而严重限制了在移动环境下现有频域音调估计方法的适用范围。

发明内容
本发明提供支持语音段的频域音调估计的低频带噪声检测和补偿。提供一种低频带噪声检测器,仅在检测到低频带噪声的情况下,从频域音调估计计算中除去低于预定阈值的低频频谱峰值。
在本发明的一个方面,提供一种音调估计系统,包括低频带噪声检测器(LBND),可操作用于检测第一音频帧中存在的低频带噪声,频域音调估计器,可操作用于从第二音频帧中的至少一个频谱峰值计算第二音频帧的音调估计,以及音调估计器控制器,可操作用于在所述第一音频帧中存在低频带噪声的情况下,使所述音调估计器从所述第二音频帧的频谱中除去至少一个低于预定频率阈值的低频频谱峰值。
在本发明的另一个方面,所述LBND可操作用于确定所述第一音频帧的频谱;计算在所述第一音频帧的频带
中的相对频谱分量级的测度Rcurr,其中Fc为预定的阈值,从多个音频帧的每个帧的Rcurr值计算在所述多个音频帧的频带
中的相对频谱分量级的积分测度(integrative measure)R,以及如果R>R0则确定存在低频带噪声,其中R0为一个预定的阈值。
在本发明的另一个方面,所述预定阈值在大约270Hz与大约330Hz之间。
在本发明的另一个方面,所述预定阈值大约为300Hz。
在本发明的另一个方面,所述预定阈值Fc在大约330Hz与大约430Hz之间。
在本发明的另一个方面,所述预定阈值Fc大约为380Hz。
在本发明的另一个方面,使用公式R←F(R,Rcurr)计算所述积分测度R。
在本发明的另一个方面,所述第一音频帧为非语音帧。
在本发明的另一个方面,所述第二音频帧为语音帧。
在本发明的另一个方面,所述第一音频帧在所述第二音频帧之前。
在本发明的另一个方面,所述系统进一步包括声音活动检测器(VAD,voice activity detector),可操作用于检测第一音频帧是语音帧还是非语音帧,并且其中在所述第一音频帧为非语音帧的情况下所述LBND是可操作的。
在本发明的另一个方面,提供一种音调估计方法,包括检测第一音频帧中存在的低频带噪声,以及在所述第一音频帧中存在低频带噪声的情况下,从与高于预定频率阈值的一个频率相关的第二音频帧中的至少一个频谱峰值计算第二音频帧的音调估计。
在本发明的另一个方面,所述检测步骤包括确定所述第一音频帧的频谱;计算在所述第一音频帧的频带
中的相对频谱分量级的测度Rcurr,其中Fc是预定的阈值,从多个音频帧的每个帧的Rcurr值计算在所述多个音频帧的频带
中的相对频谱分量级的积分测度R;以及如果R>R0则确定存在低频带噪声,其中R0为一个预定的阈值。
在本发明的另一个方面,所述计算步骤包括在所述预定阈值在大约270Hz与大约330Hz之间的情况下计算。
在本发明的另一个方面,所述计算步骤包括在所述预定阈值大约为300Hz的情况下计算。
在本发明的另一个方面,所述计算测度Rcurr的步骤包括在所述预定阈值Fc在大约330Hz与大约430Hz之间的情况下计算。
在本发明的另一个方面,所述计算测度Rcurr的步骤包括在所述预定阈值Fc大约为380Hz的情况下计算。
在本发明的另一个方面,所述计算积分测度的步骤包括使用公式R←F(R,Rcurr)计算。
在本发明的另一个方面,所述检测步骤包括对非语音帧检测。
在本发明的另一个方面,所述计算步骤包括对语音帧计算。
在本发明的另一个方面,所述检测步骤包括对所述第一音频帧检测,该第一音频帧在所述第二音频帧之前。
在本发明的另一个方面,所述方法进一步包括检测所述第一音频帧是语音帧还是非语音帧,其中所述第一检测步骤包括在所述第一音频帧为非语音帧的情况下检测。
在本发明的另一个方面,提供一种包含在计算机可读介质上的计算机程序,该计算机程序包括第一代码段,可操作用于检测第一音频帧中存在的低频带噪声,以及第二代码段,可操作用于在所述第一音频帧中存在低频带噪声的情况下,从高于预定阈值的第二音频帧中的至少一个频谱峰值计算第二音频帧的音调估计。
在本发明的另一个方面,所述计算机程序进一步包括第三代码段,可操作用于在所述第一音频帧中存在低频带噪声的情况下,使所述第二代码段从第二音频帧的频谱中除去至少一个低于预定阈值的低频频谱峰值。


从以下结合附图的详细描述中将更加全面地理解和认识本发明,附图中图1是汽车客室噪声和串音(babble)噪声频谱的简化图解说明,用于理解本发明;图2A,2B和2C是分别从纯净语音信号、语音信号加串音噪声以及语音信号加汽车噪声中估计的音调曲线(pitch contour)的简化图解说明,用于理解本发明;图3是根据本发明的一个优选实施例构造和操作的包含低频带噪声检测器的音调估计系统的简化结构图说明;图4A是根据本发明的一个优选实施例操作的低频带噪声检测器的操作方法的简化流程图说明;图4B是根据本发明的一个优选实施例操作的音调估计器控制器的操作方法的简化流程图说明;以及图5A,5B和5C是在应用本发明以后分别从纯净语音信号、语音信号加串音噪声以及语音信号加汽车噪声中估计的音调曲线的简化图解说明。
具体实施例方式
在本发明中,数字化音频信号最好被分成具有适当持续时间和相对偏移,例如分别为25ms和10ms的帧,用于后续处理。最好为每个帧估计一次音调,所获得的音调值序列被称为数字化音频信号的音调曲线。
下面参照图1,其是汽车客室噪声和串音噪声频谱的简化图解说明,用于理解本发明。在图1中,运动或怠速车辆的汽车客室噪声的幅值频谱被表示为实线100。与之对比,相同强度的串音噪声的幅值频谱被表示为虚线102。可以看出汽车噪声最显著的频谱分量在380Hz以下,而大多数串音噪声频谱能量则在该频率以上。
下面参照图2A,2B和2C,其是分别从纯净语音信号、语音信号加串音噪声以及语音信号加汽车噪声中估计的音调曲线的简化图解说明,用于理解本发明。在图2A,2B和2C中,以对应于8KHz采样率的样本测量音调。对于清音帧的音调值被设置为零。在附图2C中,相对于附图2A和2B可以看出使用频谱峰值估计音调的准确性如何在汽车噪声条件下降低。音调净误差以及浊音/清音错误的判定出现在从受背景汽车噪声影响的语音信号所获得的音调曲线中。
下面参照图3,其是根据本发明的一个优选实施例构造和操作的包含低频带噪声检测器的音调估计系统的简化结构图说明。在图3的系统中,一个或多个音频流的帧在声音活动检测器(VAD)300中接收,该检测器用于使用常规技术检测所接收的帧是否包含语音,其中非语音帧表示安静或背景噪声。语音帧被传送到音调估计器302,其可以使用任何公知的频域音调估计方法,例如在美国专利申请No.09/617582中描述的,该专利申请被转让给本申请的受让人。
非语音帧被传送至低频带噪声检测器(LBND)304,其确定是否存在低频带噪声。LBND304的优选操作方法以下参照图4A将进行更为详细的描述。然后LBND304提供一个指示是否存在低频带噪声的信号给音调估计器控制器(PEC)306。接着PEC306根据从LBND304接收的信号修改音调估计器302的操作模式。PEC306的优选操作方法以下将参照图4B进行更详细的说明。
下面参照图4A,其是根据本发明的一个优选实施例操作的低频带噪声检测器,例如图3的LBND304的操作方法的简化流程图说明。在图4的方法中,确定非语音帧的频谱,并计算在频带
中的相对频谱分量级的测度Rcurr,其中Fc是一个例如在大约330Hz与大约430Hz之间的任意值的预定阈值(例如大约为380Hz)。保持变量R,其为从各个非语音帧获得的Rcurr值的加权平均值。R是多个非语音帧的Rcurr值的积分测度,并且在公式R←F(R,Rcurr)中最好使用最新的Rcurr值进行更新。如果R>R0,则可以确定存在低频带噪声,其中R0为一个预定阈值,并且可以产生一个指示是否存在低频带噪声的信号。
例如,使S(k),k=1,…,L作为在正FFT频率采样的非语音帧的功率谱。使Kc为被四舍五入成最近的FFT频率点指数的Fc。如果(∑S(k))/L<500,则Rcurr=0,否则Rcurr=maxS(k)0<k<Kc/maxS(k)Kc<k<L.]]>平均测度更新公式为R←(0.99R+0.01Rcurr)。所述阈值为R0=1.9。R可以被初始化为R=R0。
下面参照图4B,其是根据本发明的一个优选实施例操作的音调估计器控制器,例如图3的PEC306的操作方法的简化流程图说明。如果已检测到没有低频带噪声,则PEC306设置音调估计器302在其音调估计计算时使用任何频率范围内的任何频谱峰值。相反,如果已检测到低频带噪声,则PEC306设置音调估计器302从其音调估计计算中除去低于预定阈值,例如在大约270Hz与330Hz之间的任意值(例如大约为300Hz)的低频带频谱峰值。音调估计器302最好根据由EPC306基于最近的非语音帧的低频带噪声分析进行的最近设置持续进行操作。
下面参照图5A,5B和5C,其是在应用本发明以后分别从纯净语音信号、语音信号加串音噪声以及语音信号加汽车噪声中估计的音调曲线的简化图解说明。图5C表示通过应用本发明的系统和方法当与附图2C相比时如何提高使用频谱峰值估计的音调准确性。图5A和5B表示当分别与图2A和2B相比时,在没有低频带噪声时获得的音调估计的高准确性不会受应用本发明的系统和方法的显著影响。
可以理解的是,在不脱离本发明的精神和范围的情况下,在此所描述的任何方法的一个或多个步骤都可以省略或以与所示相比不同的顺序实现。
虽然在此所公开的方法和装置可以参照或可以不参照特定的计算机硬件或软件来描述,可以理解的是这里所描述的方法和装置可以很容易地使用常规技术以计算机硬件或软件来实现。
虽然已参照一个或多个具体的实施例对本发明进行了说明,但是该说明作为一个整体只是示意性地说明本发明,其并不是要解释为将本发明限制到所表示的实施例。可以理解的是,本领域技术人员可以进行各种修改,虽然没有在此具体说明,但是仍然落在本发明的实质精神和范围内。
权利要求
1.一种音调估计系统,包括低频带噪声检测器(LBND),可操作用于检测第一音频帧中低频带噪声的存在;频域音调估计器,可操作用于从第二音频帧中的至少一个频谱峰值计算所述第二音频帧的音调估计;以及音调估计器控制器,可操作用于在所述第一音频帧中存在低频带噪声的情况下,使所述音调估计器从所述第二音频帧的频谱中除去至少一个低于预定频率阈值的低频频谱峰值。
2.根据权利要求1所述的系统,其中所述LBND可操作用于确定所述第一音频帧的频谱;计算在所述第一音频帧的频带
中的相对频谱分量级的测度Rcurr,其中Fc是预定的阈值;从多个音频帧的每个帧的Rcurr值计算在所述多个音频帧的频带
中的相对频谱分量级的积分测度R;以及如果R>R0则确定存在低频带噪声,其中R0为一个预定的阈值。
3.根据权利要求1所述的系统,其中所述预定阈值在约270Hz与约330Hz之间。
4.根据权利要求1所述的系统,其中所述预定阈值约为300Hz。
5.根据权利要求2所述的系统,其中所述预定阈值Fc在约330Hz与约430Hz之间。
6.根据权利要求2所述的系统,其中所述预定阈值Fc约为380Hz。
7.根据权利要求2所述的系统,其中使用公式R←F(R,Rcurr)计算所述积分测度R。
8.根据权利要求1所述的系统,其中所述第一音频帧为非语音帧。
9.根据权利要求1所述的系统,其中所述第二音频帧为语音帧。
10.根据权利要求1所述的系统,其中所述第一音频帧在所述第二音频帧之前。
11.根据权利要求1所述的系统,进一步包括声音活动检测器(VAD),可操作用于检测所述第一音频帧是语音帧还是非语音帧,并且所述LBND在所述第一音频帧为非语音帧的情况下可操作。
12.一种音调估计方法,包括检测第一音频帧中低频带噪声的存在;以及在所述第一音频帧中存在低频带噪声的情况下,从与高于预定频率阈值的一个频率相关的第二音频帧中的至少一个频谱峰值计算所述第二音频帧的音调估计。
13.根据权利要求12所述的方法,其中所述检测步骤包括确定所述第一音频帧的频谱;计算在所述第一音频帧的频带
中的相对频谱分量级的测度Rcurr,其中Fc为一预定阈值;从多个音频帧的每个帧的Rcurr值计算在所述多个音频帧的频带
中的相对频谱分量级的积分测度R;以及如果R>R0则确定存在低频带噪声,其中R0为一个预定的阀值。
14.根据权利要求12所述的方法,其中所述计算步骤包括在所述预定阈值在约270Hz与约330Hz之间的情况下进行计算。
15.根据权利要求12所述的方法,其中所述计算步骤包括在所述预定阈值约为300Hz的情况下进行计算。
16.根据权利要求13所述的方法,其中所述计算测度Rcurr的步骤包括在所述预定阈值Fc在约330Hz与约430Hz之间的情况下进行计算。
17.根据权利要求13所述的方法,其中所述计算测度Rcurr的步骤包括在所述预定阈值Fc约为380Hz的情况下进行计算。
18.根据权利要求13所述的方法,其中所述计算积分测度的步骤包括使用公式R←F(R,Rcurr)进行计算。
19.根据权利要求12所述的方法,其中所述检测步骤包括对非语音帧进行检测。
20.根据权利要求12所述的方法,其中所述计算步骤包括对语音帧进行计算。
21.根据权利要求12所述的方法,其中所述检测步骤包括对所述第一音频帧进行检测,该第一音频帧在所述第二音频帧之前。
22.根据权利要求12所述的方法,进一步包括检测所述第一音频帧是语音帧还是非语音帧,并且其中所述第一检测步骤包括在所述第一音频帧为非语音帧的情况下进行检测。
23.一种包含在计算机可读介质上的计算机程序,该计算机程序包括第一代码段,可操作用于检测第一音频帧中低频带噪声的存在;以及第二代码段,可操作用于在所述第一音频帧中存在低频带噪声的情况下,从高于预定阈值的第二音频帧中的至少一个频谱峰值计算所述第二音频帧的音调估计。
24.根据权利要求23所述的计算机程序,进一步包括第三代码段,可操作用于在所述第一音频帧中存在低频带噪声的情况下,使所述第二代码段从所述第二音频帧的频谱中除去至少一个低于预定阈值的低频频谱峰值。
全文摘要
一种音调估计系统,包括低频带噪声检测器(LBND),可操作用于检测第一音频帧中存在的低频带噪声,频域音调估计器,可操作用于从第二音频帧中的至少一个频谱峰值计算第二音频帧的音调估计,以及音调估计器控制器,可操作用于在所述第一音频帧中存在低频带噪声的情况下,使所述音调估计器从所述第二音频帧的频谱中除去至少一个低于预定阈值的低频频谱峰值。
文档编号G10L21/00GK1754204SQ200480004954
公开日2006年3月29日 申请日期2004年2月23日 优先权日2003年2月24日
发明者亚历山大·索林 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1