一种语音信号增强系统和方法

文档序号:2833569阅读:437来源:国知局
专利名称:一种语音信号增强系统和方法
技术领域
本发明属于信号处理技术领域,具体涉及语音信号的增强处理,特别是一种语音增强系统和方法。
背景技术
语音增强是指当语音信号被各种各样的噪声干扰后,从噪声背景中提取有用的语音信号,抑制、降低噪声干扰的技术。语音增强的一个主要目标是从带噪语音信号中提取尽可能纯净的原始语音,改进语音质量。随着数字信号处理理论成熟和硬件计算能力的大幅提升,使得基于麦克风阵列语音增强性能和实时性得以保证。传统的广义旁瓣消除语音增强法必须已知准确的目标源方位角,用线性预测的方式对噪声抑制。其缺点是难以满足目标源方位角未知或目标源移动的情况,广义旁瓣消除 方法信号失真较大,并且用传统的NLMS自适应滤波方法收敛速度慢。传统的多通道维纳滤波在平稳噪声环境下较广义旁瓣消除的信号失真较小,但是对于复杂环境下的目标源活性检测误差较大,信号失真也较大。传统的单通道语音幅度谱估计在平稳噪声环境下,能较为准确的估计噪声功率谱密度,但是在非平稳噪声情况下,噪声估计误差较大,会造成严重的音乐噪声和信号失真。如今大多数使用麦克风阵列语音增强的设备主要是基于指向型麦克风,即将有向麦克对准目标源,然后经过简单的处理。因此这类设备需要已知目标源的位置,且不能对目标源做实时跟踪。在实际应用环境下,噪声和干扰的情况往往比较复杂,并且如果目标源存在移动情况,会对目标源尤其是移动目标源的跟踪和增强产生巨大的影响,其结果是使现有的语音增强系统和方法所涉及的一些滤波器系数更新算法难以收敛,处理后得到结果相对于真实的信号源存在大量的失真。而现有的在这些方面表现较好的语音增强系统和方法,往往对麦克风阵列中麦克风的数量和布局有特定的要求。

发明内容
(一 )要解决的技术问题本发明所述解决的技术问题是现有的语音增强系统和方法在实际应用环境下进行语音信号处理时,对目标源实时跟踪以及对目标源实时增强性能不佳的问题。(二)技术方案为解决上述技术问题,本发明提出一种语音信号增强系统,用于对包含目标语音信号的输入信号进行增强,所述目标语音信号由目标源发出,该系统包括目标源跟踪模块、噪声自适应模块、多通道维纳滤波模块和语音幅度谱估计模块,其中输入信号分别连接到目标源跟踪模块和噪声自适应模块,所述目标源跟踪模块用于对输入信号进行滤波,得到一个语音参考信号;所述噪声自适应模块用于对输入信号进行处理,消去目标源成分,得到一个噪声参考信号;所述多通道维纳滤波模块用于接收所述语音参考信号和所述噪声参考信号,并利用所述噪声参考信号对所述语音参考信号进行滤波,得到一个降噪语音信号;所述语音幅度谱估计模块用于接收所述降噪语音信号和所述噪声参考信号,并根据所述噪声参考信号对所述降噪语音信号进行语音增强处理,得到一个语音增强信号和一个语音存在概率信号,并将所述语音存在概率信号反馈到所述目标源跟踪模块、噪声自适应模块和多通道维纳滤波模块,以对目标源跟踪模块、噪声自适应模块和多通道维纳滤波模块的参数进行实时调节。本发明还提出一种语音信号增强方法,用于对包含目标语音信号的输入信号进行增强,所述目标语音信号由目标源发出,该方法包括如下步骤Si、将所述输入信号通过一个自适应滤波器进行滤波得到一个语音参考信号,利用阻塞矩阵对所述输入信号进行噪声提取处理,得到一个噪声参考信号;S2、将所述噪声参考信号和所述语音参考信号通过一个多通道维纳滤波进行滤波得到一个降噪语音信号;S3、根据所述噪声参考信号对所述降噪语音信号进行语音增强处理,得到一个增强语音信号和一个语音存在概率信号;S4、根据语音存在概率信号对所述自适应匹配滤波器的滤波系数、阻塞矩阵、多通道维纳滤波器的滤波系数和学习步长进行更新。(三)有益效果·本发明的系统和方法可以在麦克风阵列比较简单的情况下,很好地克服在实际应用环境下对目标源实时跟踪的收敛不能保证、速度慢和实时增强失真大等问题。首先,在实际干扰和噪声较为复杂的应用环境下能够进行实时语音信号处理,能够对目标源尤其是移动目标源进行很好地跟踪并进行实时增强。其次,本发明所采用的方法对麦克风阵列本身没有太大要求,并且对目标源的先验知识要求比较少,对目标源的行为(主要指移动和是否处于活动状态)要求也不算严格,所以使得本发明应用范围比较广泛。再次,本发明是基于ASIO音频驱动进行设计和实现的,实时数据的输入和输出的延迟非常小,使本发明能够适应数据延迟性要求较高的应用场合,增强了本发明的实用性。最后,在本发明下的应用时,如果针对不同的应用环境有针对性地选择麦克风阵列,本发明的处理效果会更加优越。


图I是本发明的语音增强系统的结构框图;图2和图3是本发明不能处理的特殊情况的不意图;图4为本发明进行实验验证时的实验布局示意图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。本发明的语音增强系统和该语音增强系统所采用的方法是从实际应用环境出发,根据实际应用环境进行研究的。本发明使用的实验数据都是在实际场景下录制得到的,理论结合实验,得到了大体的处理方法框架。同时为了达到本发明能够实时运行的目的,我们不仅考虑了运行效果,而且把运算速率作为另一个重要的因素放入本发明的研究中,使得本发明能同时兼顾运行效果和运算速度。基于以上考虑,发明人对于本发明进行了进一步的完善,最后得到本发明的语音增强系统和方法。图I是本发明的语音增强系统的结构框图。如图I所示,本发明的语音增强系统主要由目标源跟踪模块、噪声自适应模块、多通道维纳滤波模块和语音幅度谱估计模块四个模块组成,输入信号分别连接到目标源跟踪模块和噪声自适应模块。目标源跟踪模块用于对输入信号进行滤波,得到目标语音参考信号;噪声自适应模块用于对输入信号进行处理,消去目标源成分,得到噪声参考信号。所述输入信号包含目标语音信号,所述目标语音信号由目标源发出。本发明的创新点在于根据实际环境的特性,经过反复实验,确定用这四个模块组成本发明的信号增强系统的基本架构。本发明的四个模块主要涉及传统的广义旁瓣消除、多通道维纳滤波、以及语音幅度谱估计三个技术环节。我们将这些技术环节进行修改并整合到本发明的模块中,使这些模块能够有机地结合起来,产生良好的处理效果,以达到实用 的目的。目标源跟踪模块和噪声自适应模块是本发明的系统的关键所在,本发明能够根据输入信号的信噪比将输入信号判定为纯噪声和带噪信号。纯噪声中不含有目标源成分,带噪信号含有需要提取的目标成分以及噪声成分。根据本发明的一个具体实施例,所述目标源跟踪模块可由一个滤波器实现,该滤波器的滤波系数可以实时更新;并且,所述噪声自适应模块利用一个阻塞矩阵消去输入信号中的目标源成分,从而得到噪声参考信号。继续参照图1,所述语音参考信号和噪声参考信号均输入到所述多通道维纳滤波模块,该多通道维纳滤波模块利用噪声参考信号对语音参考信号进行滤波,得到一个降噪语音信号。根据本发明的该实施例,该多通道维纳滤波模块可以由计算量很小的基于最小均方误差准则的自适应滤波器实现。所述降噪语音信号和所述噪声参考信号均输入到所述语音幅度谱估计模块,所述语音幅度谱估计模块根据所述噪声参考信号对所述降噪语音信号进行语音增强处理,得到一个语音增强信号和一个语音存在概率信号。根据本发明的该实施例,所述语音幅度谱估计模块可以由成熟的最小均方误差准则下的短时语音幅度谱估计实现,其利用信号的时域和频域信息对降噪语音信号进行语音增强处理。根据本发明的该实施例,如图I所示,由语音幅度谱估计模块输出的语音存在概率信号反馈到所述目标源跟踪模块、噪声自适应模块和多通道维纳滤波模块,以对目标源跟踪模块、噪声自适应模块和多通道维纳滤波模块的参数进行自动且实时地调节,使其更加适应复杂的环境。根据本发明的该实施例,所述目标源跟踪模块由滤波器实现,该滤波器的滤波系数根据所述语音存在概率信号进行调节,使该滤波器对噪声具有一定的鲁棒性;所述噪声自适应模块可以由广义特征值分解实现,其根据所述语音存在概率信号对其阻塞矩阵进行更新,以使其噪声参考信号中含有的目标源成分减小,从而减小最终的输出结果的失真;所述多通道维纳滤波模块根据所述语音存在概率信号对滤波系数和学习步长进行更新,该更新仅在信噪比低的时刻进行,以减小信号失真,提升降噪效果。
下面具体描述本发明的语音增强系统中各模块所执行的具体操作,即根据本发明的语音增强方法。在对本发明的方法进行说明之前,首先定义符号X(k,I)为输入的时域信号向量经过短时傅里叶变换得到的频域输入信号向量,H(k,I)为估计的目标源到麦克风阵列的响应向量,B(k,l)为阻塞矩阵,W(k,l)多通道维纳滤波向量。Rxx(k,l)为含有噪声的信号的协方差矩阵,Rnn(k, I)为噪声协方差矩阵。其中k表示频带序号,I表示数据帧序号。SI、首先,将输入信号X(k,I)经过目标源跟踪模块和噪声自适应模块分别进行处理,并分别得到语音参考信号和噪声参考信号。如前所述,根据本发明的一个具体实施例,目标源跟踪模块为自适应匹配滤波器,该自适应匹配滤波器对所述输入信号的第I帧进行滤波得到语音参考信号Ytl(k,I)Y0(k, I) = H(k, l)HX(k, I),H(k,I)为自适应匹配滤波器对输入信号的第I帧的滤波系数。根据本发明的该实施例,噪声自适应模块为利用阻塞矩阵对输入信号进行噪声提取处理,得到一个噪声参考信号。具体来说,该阻塞矩阵是自适应阻塞矩阵B(k,1),其用来消去输入信号中的目标源成分,得到噪声参考信号Y1;M(k,I), BPY1;M(k,I) = B(k,l)HX(k,I)。S2、将噪声参考信号Y1;M(k,l)和语音参考信号Ytl (k,I)通过一个多通道维纳滤波模块进行滤波得到一个降噪语音信号Z (k,I),其中Z (k,I) = W (k,I) hY (k,I),Y (k,I) = [Y0 (k,I),Yim(k,I)]根据本发明的一个具体实施例,多通道维纳滤波模块是一个多通道维纳滤波器。S3、然后,根据所述噪声参考信号Y1 ;M(k,I)对所述降噪语音信号Z (k,I)进行语音增强处理,得到一个增强语音信号和一个语音存在概率信号。根据本发明,通过语音信号幅度谱估计来对语音信号进行增强,从而得到增强语
音信号。在该实施例中,得到一个增强语音信号和一个语音存在概率信号的步骤是步骤一由所述噪声参考信号Y1;M(k,I)估计噪声方差λ d(l,k);步骤二 由噪声方差Xd(l,k)和上一帧已估计的语音信号幅度谱A(k,1-1)估计当前巾贞的为先验信噪比ξ (k, I);步骤三由当前帧的为先验信噪比ξ (k,I)计算增益函数,gp(.;;!!.(Α,/)=expf丄「'
/Α'Λ l+ca,/)I J式中u (k, I)为定义的中间变量。上标H1表示该时频点含有语音成分。步骤四由当前帧的为先验信噪比ξ (k,I)计算语音存在概率信号P (k,I),即P(U) = 11 + "(々:,) (I + ξ (IUY) exp(-u(kj)) \式中υ (k,I)为定义的中间变量,q(k,I)是先验语音不存在概率。步骤五对所述降噪语音信号Z (k,I)进行语音增强处理,得到增强语音信号的幅度谱估计A (k,I), BPA(k, I) = Glsa I Z (k, I) |,式中Gia((/) = (G^4(k,I)YaJ) {GmmfpikJ), (Gmin 为预先设定的经验值)。步骤六由增强的语音幅度谱估计值A(k,I),通过短时傅里叶分析反变换(ISTFT)得到一个增强语音信号。S4、最后,根据语音存在概率信号对所述自适应匹配滤波器的滤波系数、阻塞矩阵、多通道维纳滤波器的滤波系数和学习步长进行更新。所述语音存在概率信号可以对前述步骤进行反馈并对参数进行更新,并且对更新 的步长进行调节,从而减小信号失真和保证噪声抑制性能。I)自适应匹配滤波器的滤波系数的更新更新适应匹配滤波器的滤波系数之前,首先需要对带噪信号协方差矩阵Rxx (k,I)和噪声信号协方差矩阵Rnn (k,I)进行更新
R (k |rxv(a,/-i)语音不存在
ΛΛ , "I^Raa {kJ-\) + (\-a)X{kJ)X{kJ)n \ 丨.獅:
R ik ,JrmV^z-D语音存在
vlaRvv(々,/-l) + U-cOX((/)X(々,/)"α为平滑系数,其取值范围为0-1,经过反复实验,并且为0.95时最佳。输入信号中语音的存在与否的判断可利用语音参考信号和噪声参考信号的能量比值与一个门限值进行比较得到。然后依据Rxx(k,I)和Rffl(k,I)对输入信号的第I帧进行滤波的滤波系数进行更新,方法如下F (k, 1-1) = maxeig(RNN(k, 1-1) ^1Rxx (k, 1-1))
「 u// A -\)卜-\)H^,/) = -
e[Rss{k J-XV^kJ-X)max eig( ·)表示取最大特征值对应的特征向量Λ —’其中M为设备中
M-I
麦克风的数目。2)阻塞矩阵的更新该阻塞矩阵的更新可以根据输入信号的前一帧的带噪信号协方差矩阵Rxx(k,I)、噪声信号协方差矩阵RNN(k,I),以及从目标源到麦克风阵列的响应向量估计得到,即B(々,/) = /v----^>;Λ、卜I~丨),--/《々,/..-1),苴中 ιΜ *μχμ 的单位矩阵。3)多通道维纳滤波器的滤波系数和学习步长的更新利用噪声参考信号估计语音参考信号中的噪声成分,并使用最小均方误差准则的NLMS方法(Normalized Least Mean Squares)对多通道维纳滤波器的滤波系数的进行更新,即
权利要求
1.一种语音信号增强系统,用于对包含目标语音信号的输入信号进行增强,所述目标语音信号由目标源发出,其特征在于,该系统包括目标源跟踪模块、噪声自适应模块、多通道维纳滤波模块和语音幅度谱估计模块,其中输入信号分别连接到目标源跟踪模块和噪声自适应模块, 所述目标源跟踪模块用于对输入信号进行滤波,得到一个语音参考信号; 所述噪声自适应模块用于对输入信号进行处理,消去目标源成分,得到一个噪声参考信号; 所述多通道维纳滤波模块用于接收所述语音参考信号和所述噪声参考信号,并利用所述噪声参考信号对所述语音参考信号进行滤波,得到一个降噪语音信号; 所述语音幅度谱估计模块用于接收所述降噪语音信号和所述噪声参考信号,并根据所述噪声参考信号对所述降噪语音信号进行语音增强处理,得到一个语音增强信号和一个语音存在概率信号,并将所述语音存在概率信号反馈到所述目标源跟踪模块、噪声自适应模块和多通道维纳滤波模块,以对目标源跟踪模块、噪声自适应模块和多通道维纳滤波模块的参数进行实时调节。
2.如权利要求I所述的语音信号增强系统,其特征在于,所述目标源跟踪模块为滤波器,该滤波器的滤波系数能够根据所述语音存在概率信号进行调节,以提高其对噪声的鲁棒性。
3.如权利要求I所述的语音信号增强系统,其特征在于,所述噪声自适应模块利用一个阻塞矩阵消去输入信号中的目标源成分,从而得到噪声参考信号,且该阻塞矩阵能够根据所述语音存在概率信号进行更新,以减小所述噪声参考信号中的目标源成分。
4.如权利要求I所述的语音信号增强系统,其特征在于,所述多通道维纳滤波模块为最小均方误差准则的自适应滤波器,其能够根据所述语音存在概率信号对其滤波系数和学习步长进行调节,并使其仅在信噪比低的时刻对其滤波系数进行更新。
5.一种语音信号增强方法,用于对包含目标语音信号的输入信号进行增强,所述目标语音信号由目标源发出,其特征在于,该方法包括如下步骤 51、将所述输入信号通过一个自适应滤波器进行滤波得到一个语音参考信号,利用阻塞矩阵对所述输入信号进行噪声提取处理,得到一个噪声参考信号; 52、将所述噪声参考信号和所述语音参考信号通过一个多通道维纳滤波进行滤波得到一个降噪语音信号; 53、根据所述噪声参考信号对所述降噪语音信号进行语音增强处理,得到一个增强语音信号和一个语音存在概率信号; 54、根据语音存在概率信号对所述自适应匹配滤波器的滤波系数、阻塞矩阵、多通道维纳滤波器的滤波系数和学习步长进行更新。
6.如权利要求5所述的语音增强方法,其特征在于,在所述步骤SI中, 所述自适应匹配滤波器对所述输入信号的第I帧进行滤波得到语音参考信号Ytl (k,I)Y0(k, I) = H(k,l)HX(k,1),H(k,I)为该自适应匹配滤波器对输入信号的第I帧的滤波系数; 所述该阻塞矩阵是自适应阻塞矩阵B(k,I),其用来消去输入信号中的目标源成分,得到噪声参考信号 Y1;M(k,1),即 Y1;M(k,I) = B(k,l)HX(k,I)。
7.如权利要求6所述的语音增强方法,其特征在于,在所述步骤S2中,所述降噪语音信号 Z(k, I)为Z(k,I) = ff(k, l)HY(k,l),Y(k,I) = [Y0(k,l),Y1;M(k,I)]。
8.如权利要求7所述的语音增强方法,其特征在于,所述步骤S3包括 步骤一由所述噪声参考信号Y1;M(k,I)估计噪声方差Ad(l,k); 步骤二 由噪声方差Ad(l,k)和上一帧已估计的语音信号幅度谱A(k,1-1)估计当前中贞的为先验信噪比ξ (k, I); 步骤三由当前帧的为先验信噪比ξ (k,I)计算增益函数GH/),即
9.如权利要求8所述的语音增强方法,其特征在于,所述步骤S4中对于自适应匹配滤波器的滤波系数的更新的步骤为 首先,对带噪信号协方差矩阵Rxx (k,I)和噪声信号协方差矩阵Rnn (k,I)进行更新
10.如权利要求8所述的语音增强方法,其特征在于,所述步骤S4中对于阻塞矩阵的更新的步骤为 根据所述输入信号的前一帧的带噪信号协方差矩阵Rxx (k,I )、噪声信号协方差矩阵RNN(k,I),以及从目标源到麦克风阵列的响应向量估计得到,即 ,It , (kJ- \)I<\kJ- \)B{kJ) -11 中 I 为腿的单位矩阵。
11.如权利要求8所述的语音增强方法,其特征在于,在步骤S4中,对于多通道维纳滤波器的滤波系数和学习步长的更新的步骤为 利用所述噪声参考信号估计所述语音参考信号中的噪声成分,并使用最小均方误差准则的NLMS方法对所述多通道维纳滤波器的滤波系数的进行更新,即> (k J + \ ) 二 W (k J) + ii (p[k pz(k J、)Z {k J)\ JJc J),式中 u(p(k,1),pz (k, I))表示多通道维纳滤波器的学习步长。
全文摘要
本发明公开了一种语音信号增强系统和方法,方法包括如下步骤将输入信号通过自适应滤波器进行滤波得到语音参考信号,利用阻塞矩阵对输入信号进行噪声提取处理,得到噪声参考信号;将噪声参考信号和语音参考信号通过多通道维纳滤波进行滤波得到降噪语音信号;根据噪声参考信号对降噪语音信号进行语音增强处理,得到增强语音信号和语音存在概率信号;根据语音存在概率信号对自适应匹配滤波器的滤波系数、阻塞矩阵、多通道维纳滤波器的滤波系数和学习步长进行更新。本发明在麦克风阵列比较简单的情况下,很好地克服在实际应用环境下对目标源实时跟踪的收敛不能保证、速度慢和实时增强失真大等问题。
文档编号G10L21/02GK102938254SQ20121041021
公开日2013年2月20日 申请日期2012年10月24日 优先权日2012年10月24日
发明者张宁, 马峰, 戴礼荣, 凌震华 申请人:中国科学技术大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1