一种多通道语音增强方法

文档序号:2833674阅读:220来源:国知局
专利名称:一种多通道语音增强方法
技术领域
本发明涉及语音增强和噪声消除的语音信号处理领域,特别涉及一种多通道语音增强方法。
背景技术
信号子空间方法(Signal Subspace Approach, SSA)主要基于矩阵正交分解理论,利用特征值分解(Eigenvalue Decomposition, EVD 或奇异值分解(Singular ValueDecomposition, SVD),将带噪语音信号的向量空间分解为彼此正交的两部分信号子空间(信号+噪声)和噪声子空间(只有噪声)。其中,EVD利用信号的自相关矩阵,实现由时域到特征域的变换,被视为依赖于信号的变换,其经常被称作Kariumen-Loeve变换(KLT)。本质上,基于SSA的语音增强是将噪声子空间置零,同时去除信号子空间中的噪声成分。SSA首先被引入到单通道语音增强领域(参考文献I IEphraim andH. L. VanTrees,“A signal subspace approach for speech enhancement,”IEEETrans. SpeechAudio Process.,vol. 3,no. 4,pp. 251-266,Jul. 1995),在 Karhunen-Loeve 域上设计了多种有约束的线性滤波器,很好的处理了白噪声污染的语音信号。Hu等人(参考文献2 :Y. Huand P. C. Loizou,“Ageneralized subspace approach for enhancing speech corruptedby colorednoise,,’ IEEE Trans. Speech Audio Process.,vol. 11,no. 4,pp. 334-341,Jul. 2003)利用广义特征值分解(Generalized Eigenvalue Decomposition,GEVD)的方法,提高了 SSA处理有色噪声的能力。程宁等人(参考文献3 :N. Cheng,W. Liu and L. Wang,“Masking Property Based Microphone Array Post-filterDesign”, Interspeech,2010)将人耳的听觉掩蔽效应应用到了 SSA中,精确了约束条件,使算法性能进一步得到提升。Doclo等人(参考文献4 :S. Doclo and Μ· Moonen,“GSVD_basedoptimal filteringfor single and multimicrophone speech enhancement,,,IEEETrans. Signal Process.,vol. 50,no. 9,pp. 2230-2244, Sep. 2002)将SSA应用到多通道语音增强算法中,它以广义奇异值分解(Generalized SingularValue Decomposition, GSVD)为工具,推导了在多通道环境下SSA的最优线性滤波器。Kim等人为提高语音识别系统的性能,先后提出了子频带独立插值方法(参考文献 5 G. Kim and N. I. Cho, Principal subspacemodification formulti-channel wiener filter in multi-microphone noisereduction, Proc.IEEE Int.Conference on Acoustics,Speech and SignalProcessing, 2008)和将多干扰源分离到不同的子空间中的子空间建模方法(参考文献6 :G. Kim and P. C. Loizou,Improving SpeechIntelligibility inNoise Using Environment-Optimized Algorithms, IEEE Trans.Audio,Speech,And Language Process.,vol. 18,no. 8,pp.2080-2090,2010)。多通道SSA也存在着诸多缺陷,主要包括在实际环境中应用KLT时,信号子空间维度的难以精确估计;处理有色噪声时的广义特征向量矩阵并不是正交阵,因此在特征值域上设计的线性信号估计器会引入语音畸变;多通道条件下GEVD的计算复杂度极高,不利于SSA在实时系统中应用,而现有的快速算法并不能保证算法的性能。
从先验知识的角度来审视SSA,其基于这样一个假设一个长为P的随机序列可以由长为Q < P的随机序列的线性变换得到,称之为低秩模型。由自回归(AutoRegressive,AR)模型模型和线性预测系数(Linear PredictionCoefficients, LPC)等知识,我们知道这个假设对于语音信号是成立的。但将这个假设应用到语音增强算方法中,却必须非常小心,对信号子空间(低秩模型)的维度必须精确估计。一方面,对信号子空间维度的过估计会导致信号子空间中噪声成分增加,从而在增强后的语音中保留了过多残余噪声;另一方面,对信号子空间的欠估计又会导致语音成分的丢失,从而增大语音畸变,降低语音感知质量。因此,精确的信号子空间维度估计是SSA优异性能的保证,并直接影响到算法后续过程的有效性。但在实际应用,由于房间回声和非平稳噪声等因素的影响,信号子空间的维度往往难以精确估计,因此低秩模型的先验知识难以准确运用。信号子空间维度估计的传统方法的根本缺陷在于过分依赖噪声估计,而忽略了信号子空间维度自身的变化规律。当基于SSA的语音增强算法工作在真实环境中时,由于噪声的干扰,SVD或EVD都会产生大量接近于零的奇异值或特征值,而且其值变化具有连续性,这也信号子空间维度的确定增加了难度。

发明内容
(一 )要解决的技术问题针对传统的信号子空间维度估计方法在真实环境中难以有效工作,其原因是过分依赖噪声的估计,本发明充分利用语音离散傅里叶变换(Discrete Fourier Transform,DFT)数幅值的超高斯分布特性和麦克风之间的相关性,提出了一种新的信号子空间维度估计方法,目的在于精确估计信号子空间的维度。(二)技术方案本发明为解决上述问题而提出的一种F范数表征信号子空间维度的多通道语音增强方法,其包括下列步骤步骤I :通过N个麦克风组成的麦克风阵列采集带噪声的多路语音信号y(t),并计算该多路语音信号y (t)的带噪语音互相关矩阵Ryy,其中,t表示离散时间点;步骤2 :利用噪声估计算法估计加性噪声互相关矩阵R ;步骤3 :利用所述带噪语音互相关矩阵Ryy和加性噪声互相关矩阵^vr估计纯净语音互相关矩阵I步骤4 :利用所述纯净语音互相关矩阵估计信号子空间的维度(_);步骤5 :对食=仓 进行广义特征值分解,并结合信号子空间的维度0和拉格朗日乘子μ获得时域约束线性信号估计器;步骤6 :利用时域约束线性信号估计器对多路语音信号y(t)进行滤波获得增强后的语音ο(三)有益效果本发明充分利用了语音DFT系数幅值的超高斯分布特性和麦克风之间的相关性。首先利用超高斯分布模型来更好地拟合各个频点上语音幅值谱的统计柱状图。其次,利用麦克风之间的相关性和正交变换不改变矩阵F范数的特点,获得了语音互相关矩阵F范数的高斯分布模型。然后,利用一种基于最大化原则的估计策略,在接受原假设的前提下最大化信号子空间的维度。通过以上步骤,本发明能够克服真实环境中噪声能量波动的不利影响,更精确地估计信号子空间的维度,使SSA可以在语音畸变和噪声消除之间建立更合理的折中。


图I是本发明中F范数表征信号子空间维度的多通道语音增强方法流程图;图2是本发明中基于F范数的估计信号子空间维度的方法流程图;图3是本发明中TDC线性信号估计器的设计流程图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。本发明提供一种基于F范数的信号子空间维度估计方法,该方法的具体步骤如下步骤SI :通过N个麦克风组成的麦克风阵列采集多路带噪语音信号y(t),具体包括步骤Sll :采集信号所用的麦克风阵列,其由N个等间距的麦克风组成。假设第η个麦克风在时刻t采集到的带噪语音信号yn(t)为Xn(t)与Vn(k)之和,即yn (t) = gn*s(t)+vn(t) =xn(t)+vn(t) (I)其中,gn是声源s(t)到第η个麦克风的冲击响应,xn(t)是第η个麦克风采集到的纯净语音,vn(t)是第η个麦克风采集到的加性噪声,t表示离散时间点。步骤S12 :利用长为L的汉宁窗对信号进行截短。信号模型可表示为向量形式yn = χη+νη, η = 1,2, ...,N (2)其中,yn= [yn(t)yn(t_l). . . yn(t_L+l)]T,其包含了带噪语音信号 yn(t)最近的 L个采样,vn和xn类比定义。那么,所有麦克风采集到的带噪语音信号的全局向量形式为y = x+v (3)其中,
权利要求
1.一种F范数表征信号子空间维度的多通道语音增强方法,其特征在于,包括下列步骤 步骤I :通过N个麦克风组成的麦克风阵列采集带噪声的多路语音信号y (t),并计算该多路语音信号y (t)的带噪语音互相关矩阵Ryy,其中,t表示离散时间点; 步骤2 :利用噪声估计算法估计加性噪声互相关矩阵食w ; 步骤3 :利用所述带噪语音互相关矩阵Ryy和加性噪声互相关矩阵R估计纯净语音互相关矩阵食 ; 步骤4 :利用所述纯净语音互相关矩阵食 估计信号子空间的维度^ ; 步骤5 :对食;;食口进行广义特征值分解,并结合信号子空间的维度0和拉格朗日乘子u获得时域约束线性信号估计器; 步骤6 :利用时域约束线性信号估计器对多路语音信号y(t)进行滤波获得增强后的语音负O O
2.如权利要求I所述的方法,其特征在于,所述麦克风阵列由N个等间距的麦克风组成,利用长为L的汉宁窗对语音信号进行截短,所述带噪语音互相关矩阵Ryy的阶数为NLXNL。
3.如权利要求I所述的方法,其特征在于,所述步骤2中加性噪声互相关矩阵的估计R通过下式得到 其中,Yth为SNR的下限阈值,Yk为第k帧的SNR;所述:是前一帧加性噪声互相关矩阵的估计,Ryy是当前帧带噪语音互相关矩阵,k是帧号。
4.如权利要求I所述的方法,其特征在于步骤4中所述估计信号子空间的维度0具体包括 步骤41 :计算纯净语音离散傅里叶变换系数幅值的超高斯分布模型 其中,0和n是可调参数,ax是纯净语音离散傅里叶变换系数的幅值,0;£是纯净语音的标准差,r是Ga_a函数,exp { }是指数算子; 步骤42 :利用所述纯净语音离散傅里叶变换系数幅值的超高斯分布模型获得纯净语音互相关矩阵的F范数其中,E { }是求和算子,ax( )是纯净语音在频点《处的离散傅里叶变换系数的幅值,
5.如权利要求4所述的方法,其特征在于,所述步骤41还包括 利用纯净语音数据训练得到纯净语音离散傅里叶变换系数幅值的统计柱状图P。;通过将所述纯净语音离散傅里叶变换系数幅值的超高斯分布模型和纯净语音离散傅里叶变换系数幅值的统计柱状图P。之间的KLD距离最小化,得到最佳参数组合(θ,η),其中,KLD距离如下计算
6.如权利要求4所述的方法,其特征在于,所述当前帧语音互相关矩阵的拒绝水平δ如下计算
7.如权利要求I所述的方法,其特征在于,所述步骤5具体包括以下内容步骤51、对进行广义特征值分解(GEVD),得到特征向量矩阵W和特征值矩阵A 步骤52、利用信噪比SNR Y计算拉格朗日乘子U
8.如权利要求3-7中任一项所述的方法,其特征在于,所述当前帧的后验信噪比SNRY如下计算
9.如权利要求I所述的方法,其特征在于,所述步骤6具体为利用所述TDC线性信号估计器H对所述多路语音信号y (t)进行滤波,并对得到的滤波后的语音信号i(/)进行帧间重叠获得增强后语音,其中滤波如下公式所示
10.如权利要求I所述的方法,其特征在于,所述步骤3中纯净语音互相关矩阵R如下估计 R = RA。
全文摘要
本发明公开了一种F范数表征信号子空间维度的多通道语音增强方法,该方法包括步骤1通过N个麦克风组成的麦克风阵列采集带噪声的多路语音信号y(t),并计算该多路语音信号y(t)的带噪语音互相关矩阵Ryy,其中,t表示离散时间点;步骤2利用噪声估计算法估计加性噪声互相关矩阵步骤3利用所述带噪语音互相关矩阵Ryy和加性噪声互相关矩阵估计纯净语音互相关矩阵步骤4利用所述纯净语音互相关矩阵估计信号子空间的维度步骤5对进行广义特征值分解,并结合信号子空间的维度和拉格朗日乘子μ获得时域约束线性信号估计器;步骤6利用时域约束线性信号估计器对多路语音信号y(t)进行滤波获得增强后的语音
文档编号G10L21/02GK102969000SQ20121051486
公开日2013年3月13日 申请日期2012年12月4日 优先权日2012年12月4日
发明者刘文举, 李超 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1