基于双麦克风语音增强装置及方法

文档序号：2823704阅读：200来源：国知局

专利名称：基于双麦克风语音增强装置及方法
技术领域：
本发明涉及一种基于双麦克风语音增强装置及方法。
背景技术：
随着无线通讯的发展，全球移动电话用户越来越多，用户对移动电话的要求已不仅满足于通话，而且要能够提供高质量的通话效果，尤其是目前移动多媒体技术的发展，移动电话的通话质量更显重要。由于大量环境噪声的存在，手机等通讯设备的麦克风采集到的语音信号普遍信噪比不够高，特别是在街道汽车等高噪声环境中，需要提高音量才能使对方听清。所以需要通过语音增强的方法来提升输入语音的信噪比，改善通讯质量。然而传统的单通道语音增强方法降噪效果有限，并且会对语音造成较大失真。使用双麦克风阵列，可以引入语音与噪声信号的相位信息，提高噪声抑制的效果并减小语音的失真。

发明内容
本发明需解决的技术问题是提供一种去噪效果良好的基于双麦克风语音增强装置及方法。根据上述需解决的技术问题，本发明提供了一种基于双麦克风语音增强装置，该装置包括麦克风阵列模块，包括第一麦克风和第二麦克风，用于接收时域带噪语音信号，并将接收的时域带噪语音信号输出，第一麦克风和第二麦克风接收到时域带噪语音信号分别为 xl，x2 ；固定波束形成器，用于接收所述麦克风阵列模块输出的时域带噪语音信号，并将接收到时域带噪语音信号的语音部分进行叠加，加大该时域带噪语音信号，形成初步加强的语音信号，然后输出；阻塞矩阵模块，用于接收所述麦克风阵列模块输出的时域带噪语音信号，将接收到的上述时域带噪语音信号中的语音部分进行抑制，获得参考噪声信号，然后输出；自适应滤波器，用于接收固定波束形成器输出的初步加强的语音信号和阻塞矩阵模块输出的参考噪声信号，并进行第一次降噪处理后输出得到初步降噪的信号；语音增强处理模块，用于接收自适应滤波器输出的初步降噪的信号并将该初步降噪的信号进行语音增强处理，得到进一步加强的语音信号，然后输出；输出模块，用于接收语音增强处理模块输出的进一步加强的语音信号并输出。优选的，所述阻塞矩阵模块满足β· = 0,这里取B = [1-1]，将麦克风阵列模块输出的时域带噪语音信号通过阻塞矩阵B，得到参考噪声信号Ns = X1-X2,其中，B代表阻塞矩阵，Ns代表参考噪声信号。优选的，第一麦克风和第二麦克风是全指向麦克风。本发明还提供了一种基于双麦克风语音增强方法，其特征在于该方法包括如下步
6骤步骤S001 由麦克风阵列模块中的第一麦克风和第二麦克风分别接收外界的时域带噪语音信号xl、x2，并将所述接收到的时域带噪语音信号分别传送给固定波束形成器和阻塞矩阵模块，由固定波束形成器将得到的第一麦克风和第二麦克风分别接收的时域带噪语音信号进行放大，得到初步加强的信号yf，由阻塞矩阵模块得到参考噪声信号NS ；步骤S002 将由固定波束形成器得到初步加强的信号^和由阻塞矩阵模块得到参考噪声信号Ns输入至自适应滤波器，经自适应滤波器的处理得到初步降噪的信号y ；步骤S003 由语音增强处理模块接收自适应滤波器输出的初步降噪的信号，并对所述初步降噪的信号分为m帧、进行预加重处理，短时傅里叶变换成频域信号Y，并对将频域信号划分为若干频带k，计算各个频带的能量YE(m，k)，其中m表示帧数，k为频带数；设初始的噪声能量估计值V(0，k) = 0，初始的先验信噪比估计值 SNRprior(0,k) = 0；由各频带的能量YE(m，k)及前一帧得到的噪声能量估计值V(m-1，k)，计算各个频带当前帧的后验信噪比SNRp。st(m，k)，并由前一帧的先验信噪比估计值- 1,A:)得
到当前帧的先验信噪比估计值(m, k)；采用计权噪声估计法对当前帧的先验信噪比进行修正，得到修正先验信噪比估计 ■》R’prior(m,k、；根据得到的修正先验信噪比估计值5》/ ；^,(叫幻，计算各个频带的衰减增益系数 q (m, k)；采用门限判决对所述衰减增益系数进行调整；用得到的调整后的衰减增益系数q' (！！！，⑴，对初步降噪后信号丫&浊)的频谱进行处理；由修正的先验信噪比估计值5^ ；^(吼幻对当前帧进行判断，判断当前帧是否是
噪声；根据噪声判决结果对各频带的噪声能量估计值V(m，k)进行更新，如果判断为噪声，则噪声能量估计值等于前一帧的值V(m，k) = V(m-1, k)，否则采用频带能量YE(m，k)，对噪声能量估计值V(m，k)进行更新；将经上述过程处理后的频域信号变换成时域信号，对该时域信号进行去加重处理，并输出；步骤S004 将上述经去加重处理的时域信号输出。优选的，步骤S001中，由固定波束形成器对第一麦克风和第二麦克风分别接收外界的时域带噪语音信号分别经过延时补偿，之后作加权相加得到初步加强的信号，由阻塞矩阵模块将经过延时补偿的第一麦克风和第二麦克风分别接收外界的时域带噪语音信号通过阻塞矩阵相加参考噪声信号。优选的，步骤S003中，短时傅里叶变换成频域信号，并对将频域信号划分为若干频带，计算各个频带的能量；语音增强处理模块对所述初步降噪的信号y进行分帧后的信号为y (m)，m表示帧数，经过一个高通滤波器，作为预加重处理，高通滤波器其形式如下H(z) = 1-a其中常数a = 0. 9325，短时傅里叶变换如下
2 -2 f—X{f,m) = — X^Hn~m)xx(m)e~ ” 0 ^ kl ^ M"1其中，M为短时傅利叶变换的计算长度，m表示第m帧信号，f表示频率值，X表示频域信号，x表示时域信号；汉明窗函数定义如下win(n) = {0. 54-0. 46cos (2 * n * n/M)0 彡 n 彡 M_10其余 n}采用如下方法计算每个频带的能量并进行平滑E (m, k) = | X (m，k) |20 ^ k ^ N_1YE(m, k) = a YE(m-l, k) + (l-a )E(m, k)0 彡 k 彡 N_1其中，YE(m，k)表示经平滑后的每个频带区间的能量，m表示当前帧的序号，k表示当前的子带的序号，a =0.75表示平滑因子；N为选取的频带总数，E(m，k)表示频带能量值，X(m，k)表示第m帧第k个频带的频域信号；设初始的噪声能量估计值V(0，k) = 0，初始的先验信噪比估计值 SNRprior(0,k) = 0；由各频带的能量\(!11，k)及前一帧得到的噪声能量估计值V(m-1，k)，计算各
Y {m k)
个频带当前帧的后验信噪比^^卿㈣^-^^一并由前一帧的先验信噪比估计值 SNRprior{m- 1，幻得到当前帧的先验信噪比估计值；
八\hm-l,k)\2「]SNRprior(m,k) = a——-L + (l-a)max[O,SNRpost(m,A:)-l]
勺丨雄)|}幻表示前一帧最后得到的降噪后语音信号，E{|v(m，k) |2}表示噪声能量估计值，，a为第一平滑系数；采用计权噪声估计法对先验信噪比估计值进行修正；先验信噪比估计值幻，乘以计权因子去q0，得到正先验信噪比估计值 SNRpnor(m-\,k),计权因子计算如下
8
qe =
1SNRpri0f{m,k)<yx
^—{SNRprior{m,k)-y2)yx<SNRprior{m,k) <6Z Yi-Yi
0SNRprior(m,k)>ez其中Y 取 1. 5 左右，Y 2 取 200，9 z 取 20 ;根据得到的修正先验信噪比估计值S&i^Jm-lj),计算各个频带的衰减增益 q (m, k)；q{m,k) =
其具体方法为
1 —-
SNRposl其中，对于不同频带，a为不同的常数；采用门限判决对所述衰减增益进行调整；首先以当前帧先验信噪比为判断，小于某一阈值频带的增益系数均乘以某一调整值qmod，这样做可以进一步抑制噪声，接着将所有小于某阀值的增益系数调整到门限值qfloor，这样做可以避免一定的语音失真；方法如下
■(m k,= J^mod《(w, k), SNR^ (m, k) < 0G 1 q(m,k), 否则
\q{m,k), q{k) > qfloor [qfloor,否则其中qm。d = 0.1, 0G= 1.2, qfloor = 0. 01将当前帧的各频带的带噪语音信号Y(m，k)，乘以前面得到的相应频带的衰减增益，得到的就是该频带的增强后的语音信号^^；S(m, k) = q{m, k) * Y(m, yt) 0 彡 k 彡 N-1由修正的先验信噪比估计值si^&Ow,幻对当前帧进行判断，判断当前帧是否
是噪声；根据噪声判决结果对各频带的噪声能量估计值进行更新，如果判断为噪声，则噪声能量估计值等于前一帧的值V(m，k) = V(m-1, k)，否则采用频带能量YE(m，k)，对噪声能量估计值V(m，k)进行更新；V (m, k) = u V (m-1, k) + (1-u ) E (m, k)u表示第二平滑系数。将经上述过程处理后的频域信号用前面所述短时傅里叶变换变换成时域信号，将该时域信号经过低通滤波器，H(z) = 1+a z—1进行去加重处理，并输出。
9
本发明采用双麦克风阵列，采用波束形成初步抑制非相关噪声，并通过从语音增强算法，进一步衰减各类型的背景噪声。大大提高了对噪声的衰减，保证了语音可懂度。

图1是本发明提供的基于双麦克风的语音增强方法的流程示意图；图2是本发明提供的基于双麦克风语音增强装置的结构框图；图3是非线性计权曲线。
具体实施例方式下面结合附图和实施方式对本发明作进一步说明。参见图1-3，本发明提供的基于双麦克风语音增强装置，该装置包括麦克风阵列模块，包括第一麦克风和第二麦克风，用于接收时域带噪语音信号，并将接收的时域带噪语音信号输出，第一麦克风和第二麦克风接收到时域带噪语音信号分别为 xl, x2 ；固定波束形成器，用于接收所述麦克风阵列模块输出的时域带噪语音信号，并将接收到时域带噪语音信号的语音部分进行叠加，加大该时域带噪语音信号，形成初步加强的语音信号，然后输出；阻塞矩阵模块，用于接收所述麦克风阵列模块输出的时域带噪语音信号，将接收到的上述时域带噪语音信号中的语音部分进行抑制，获得参考噪声信号，然后输出；自适应滤波器，用于接收固定波束形成器输出的初步加强的语音信号和阻塞矩阵模块输出的参考噪声信号，并进行第一次降噪处理后输出得到初步降噪的信号；语音增强处理模块，用于接收自适应滤波器输出的初步降噪的信号并将该初步降噪的信号进行语音增强处理，得到进一步加强的语音信号，然后输出；输出模块，用于接收语音增强处理模块输出的进一步加强的语音信号并输出。所述阻塞矩阵模块满足5.1 = 0 ,这里取B = [1-1]，将麦克风阵列模块输出的时域带噪语音信号通过阻塞矩阵B，得到参考噪声信号Ns = Xl-X2，其中，B代表阻塞矩阵，Ns代表参考噪声信号。第一麦克风和第二麦克风是全指向麦克风。本发明提供的基于双麦克风语音增强方法，该方法包括如下步骤步骤S001 由麦克风阵列模块中的第一麦克风和第二麦克风分别接收外界的时域带噪语音信号xl、x2，并将所述接收到的时域带噪语音信号分别传送给固定波束形成器和阻塞矩阵模块，由固定波束形成器将得到的第一麦克风和第二麦克风分别接收的时域带噪语音信号进行放大，得到初步加强的信号yf，由阻塞矩阵模块得到参考噪声信号Ns ；步骤S002 将由固定波束形成器得到初步加强的信号^和由阻塞矩阵模块得到参考噪声信号Ns输入至自适应滤波器，经自适应滤波器的处理得到初步降噪的信号y ；步骤S003 由语音增强处理模块接收自适应滤波器输出的初步降噪的信号，并对所述初步降噪的信号分为m帧、进行预加重处理，短时傅里叶变换成频域信号Y，并对将频域信号划分为若干频带k，计算各个频带的能量YE(m，k)，其中m表示帧数，k为频带数；设初始的噪声能量估计值V(0，k) = 0，初始的先验信噪比估计值SNRprior(0,k) = 0；由各频带的能量YE(m，k)及前一帧得到的噪声能量估计值V(m-1，k)，计算各个频带当前帧的后验信噪比SNRp。st(m，k)，并由前一帧的先验信噪比估计值得到当前帧的先验信噪比估计值Sii^m (m, k)；采用计权噪声估计法对当前帧的先验信噪比进行修正，得到修正先验信噪比估计值；根据得到的修正先验信噪比估计值
权利要求
一种基于双麦克风语音增强装置，其特征在于该装置包括麦克风阵列模块，包括第一麦克风和第二麦克风，用于接收时域带噪语音信号，并将接收的时域带噪语音信号输出，第一麦克风和第二麦克风接收到时域带噪语音信号分别为x1，x2；固定波束形成器，用于接收所述麦克风阵列模块输出的时域带噪语音信号，并将接收到时域带噪语音信号的语音部分进行叠加，加大该时域带噪语音信号，形成初步加强的语音信号，然后输出；阻塞矩阵模块，用于接收所述麦克风阵列模块输出的时域带噪语音信号，将接收到的上述时域带噪语音信号中的语音部分进行抑制，获得参考噪声信号，然后输出；自适应滤波器，用于接收固定波束形成器输出的初步加强的语音信号和阻塞矩阵模块输出的参考噪声信号，并进行第一次降噪处理后输出得到初步降噪的信号；语音增强处理模块，用于接收自适应滤波器输出的初步降噪的信号并将该初步降噪的信号进行语音增强处理，得到进一步加强的语音信号，然后输出；输出模块，用于接收语音增强处理模块输出的进一步加强的语音信号并输出。
2.根据权利要求1所述的基于双麦克风语音增强装置，其特征在于所述阻塞矩阵模块满足5*1 = 0，这里取B = [1-1]，将麦克风阵列模块输出的时域带噪语音信号通过阻塞矩阵B，得到参考噪声信号Ns = X1-X2,其中，B代表阻塞矩阵，Ns代表参考噪声信号。
3.根据权利要求1所述的基于双麦克风语音增强装置，其特征在于第一麦克风和第二麦克风是全指向麦克风。
4.一种用于权利要求1所述的基于双麦克风语音增强装置的基于双麦克风语音增强方法，其特征在于该方法包括如下步骤步骤SOOl 由麦克风阵列模块中的第一麦克风和第二麦克风分别接收外界的时域带噪语音信号xl、X2，并将所述接收到的时域带噪语音信号分别传送给固定波束形成器和阻塞矩阵模块，由固定波束形成器将得到的第一麦克风和第二麦克风分别接收的时域带噪语音信号进行放大，得到初步加强的信号yf，由阻塞矩阵模块得到参考噪声信号Ns ；步骤S002 将由固定波束形成器得到初步加强的信号yf和由阻塞矩阵模块得到参考噪声信号Ns输入至自适应滤波器，经自适应滤波器的处理得到初步降噪的信号y ；步骤S003 由语音增强处理模块接收自适应滤波器输出的初步降噪的信号，并对所述初步降噪的信号分为m帧、进行预加重处理，短时傅里叶变换成频域信号Y，并对将频域信号划分为若干频带k，计算各个频带的能量Ye (m，k)，其中m表示帧数，k为频带数；设初始的噪声能量估计值V(0，k) = 0，初始的先验信噪比估计值5^ _乂0,幻=0;由各频带的能量Ye(m，k)及前一帧得到的噪声能量估计值V(m-1，k)，计算各个频带当前帧的后验信噪比SNRp。st(m，k)，并由前一帧的先验信噪比估计值Si^prtw(ZW-U)得到当前帧的先验信噪比估计值；采用计权噪声估计法对当前帧的先验信噪比进行修正，得到修正先验信噪比估计值 SNBiprior{m,k)；根据得到的修正先验信噪比估计值S^C^mJ)，计算各个频带的衰减增益系数q(m，k)；采用门限判决对所述衰减增益系数进行调整；用得到的调整后的衰减增益系数q' (m, k)，对初步降噪后信号Y(m，k)的频谱进行处理；由修正的先验信噪比估计值对当前帧进行判断，判断当前帧是否是噪声；根据噪声判决结果对各频带的噪声能量估计值V (m，k)进行更新，如果判断为噪声，则噪声能量估计值等于前一帧的值V(m，k) = V(m-l，k)，否则采用频带能量YE(m，k)，对噪声能量估计值V (m，k)进行更新；将经上述过程处理后的频域信号变换成时域信号，对该时域信号进行去加重处理，并输出；步骤S004 将上述经去加重处理的时域信号输出。
5.根据权利要求4所述的基于双麦克风语音增强方法，其特征在于步骤SOOl中，由固定波束形成器对第一麦克风和第二麦克风分别接收外界的时域带噪语音信号分别经过延时补偿，之后作加权相加得到初步加强的信号，由阻塞矩阵模块将经过延时补偿的第一麦克风和第二麦克风分别接收外界的时域带噪语音信号通过阻塞矩阵相加参考噪声信号。
6.根据权利要求4所述的基于双麦克风语音增强方法，其特征在于步骤S003中，短时傅里叶变换成频域信号，并对将频域信号划分为若干频带，计算各个频带的能量；语音增强处理模块对所述初步降噪的信号y进行分帧后的信号为y(m)，m表示帧数，经过一个高通滤波器，作为预加重处理，高通滤波器其形式如下 Η(ζ) = 1-α ζ—1 其中常数α = 0.9325，短时傅里叶变换如下其中，M为短时傅利叶变换的计算长度，m表示第m帧信号，f表示频率值，X表示频域信号，χ表示时域信号；汉明窗函数定义如下 win (η) = { 采用如下方法计算每个频带的能量并进行平滑E (m, k) = IX (m，k) 120 ^ k ^ N-IYe(m, k) = α YE(m-l，k) + (l-a )E(m，k)0 ^ k ^ N-I其中，Ye(m，k)表示经平滑后的每个频带区间的能量，m表示当前帧的序号，k表示当前的子带的序号，a =0.75表示平滑因子；N为选取的频带总数，E(m，k)表示频带能量值， X(m, k)表示第m帧第k个频带的频域信号；设初始的噪声能量估计值V (0，k) = 0，初始的先验信噪比估计值幻=0 ；由各频带的能量\(111，k)及前一帧得到的噪声能量估计值V(m-1，k)，计算各个频带当前帧的后验信噪比
全文摘要
本发明涉及一种基于双麦克风语音增强装置及方法，该装置包括麦克风阵列模块，包括第一麦克风和第二麦克风，用于接收时域带噪语音信号，并将接收的时域带噪语音信号输出，第一麦克风和第二麦克风接收到时域带噪语音信号分别为x1，x2；固定波束形成器，用于接收所述麦克风阵列模块输出的时域带噪语音信号，并将接收到时域带噪语音信号的语音部分进行叠加，加大该时域带噪语音信号，形成初步加强的语音信号，然后输出。该装置及方法去噪效果良好。
文档编号G10L21/02GK101976565SQ20101022429
公开日2011年2月16日申请日期2010年7月9日优先权日2010年7月9日
发明者叶利剑申请人:瑞声声学科技(深圳)有限公司;瑞声光电科技(常州)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：叶利剑
技术所有人：瑞声声学科技（深圳）有限公司;瑞声光电科技（常州）有限公司
我是此专利的发明人