双麦克风信号处理方法

文档序号：2832193阅读：261来源：国知局

专利名称：双麦克风信号处理方法
专利说明双麦克风信号处理方法 技术领域：
本发明涉及一种用于完成声学回声抵消以及背景噪声消除的双麦克风的语音信号处理方法。
背景技术：
语音通信中，经由本地扬声器发出的远端信号，由于机壳等内部固体传声以及房间混响，被本地麦克风接收，产生声学回声，对通信的质量产生很大的影响；同时，由于大量环境噪声的存在，麦克风采集到的语音信号普遍信噪比不够高，所以需要通过麦克风指向性以及语音增强算法来抑制远场以及背景噪声，提升输入语音的信噪比。
因此，有必要研究一种新的语音增强的方法，以达到良好的降噪效果。

发明内容
本发明需解决的技术问题是提供一种实现抑制语音通讯中远端信号的声学回声，以及本地的远场噪声和背景噪声的双麦克风信号处理方法。
根据上述的技术问题，设计了一种双麦克风信号处理方法，所述方法包括三个步骤第一使用双麦克风得到实现形成指向性波束的指向性模块的步骤；第二对第一个步骤输出的信号使用实时回声抵消方法的步骤；第三对经第二个步骤处理后的信号使用实时语音增加方法的步骤，其中第一个步骤的指向性模块的实现，包括如下的步骤 (11)提供两个全指向性麦克风，将其中之一做延迟并与另一个相减以构成一个阶压差式麦克风阵列、或提供一个全指向性麦克风和一个单指向性麦克风构成一麦克风阵列，分别接收信号并分帧处理； (12)利用比较器比较信号短时能量，判断当前帧信号是语音还是噪音； (13)利用自适应滤波器及依照判断结果改变自适用滤波器的系数对信号进行降噪，第二个步骤的实时回声抵消方法，包括如下的步骤 (21)将第一个步输出的信号及远端信号分别作为期望信号和参考信号，分帧，并转变到频域； (22)参考信号通过自适应滤波器产生输出信号，并与期望信号相减得到误差信号； (23)由误差信号控制自适应滤波器的系数更新； (24)分别计算期望信号、参考信号以及误差信号的能量，并得到自功率和互功率谱； (25)由期望信号与误差信号能量的大小，对误差信号进行处理，得到输出信号，第三个步骤的语音增强方法，包括如下的步骤 (31)、将第二步输出的信号用处理器进行分帧、预加重处理、再经过短时傅里叶变换到频域； (32)、将变换到频域后的信号划分为若干频带，再计算各个频带能量并进行平滑，得到经平滑后的每个频带内的信号能量，所述信号能量包括语音能量和噪音能量，并得到所述噪音能量的初始估计值； (33)、通过信号能量及噪音能量的初始估计值，计算各个频带当前帧的后验信噪比，并由前一帧的先验信噪比估计值得到当前帧的先验信噪比估计值； (34)、由得到的先验信噪比估计值对当前帧进行判决，判断是否是噪声，否则执行步骤(35)、是则执行(36)； (35)、对各频带的噪音能量的估计值进行更新，再通过信号能量及噪音能量的当前更新的估计值，计算各个频带当前帧的后验信噪比，并由前一帧的先验信噪比估计值得到当前帧的先验信噪比估计值，继续执行步骤(34)以再进行判决； (36)、根据得到的先验信噪比估计值，计算各个频带的衰减增益因子； (37)、用得到的衰减增益因子，对划分到各频带的信号频谱进行处理； (38)、将处理后的频域信号变换到时域，进行去加重处理，变成最终输出信号。
更优的是，所述步骤(37)中的处理为将当前帧的带噪语音信号乘以相应频带的衰减增益因子。
更优的是，操作所述步骤(38)包括有 (381)、通过逆快速傅里叶变换将频域信号变换为时域，得到增强后的时域语音信号； (382)、通过低通滤波器进行加重处理。
本发明集合了实时的指向性波束形成，回声抵消以及语音增强的功能，对于语音通讯中的回声级背景噪声干扰均有良好的抑制作用，最终输出的是直接降噪后的信号。本发明使用的降噪算法，与现有的算法相比，大大提高了对噪声的衰减，保证了语音可懂度，特别的，对于汽车噪声，街道噪声一类平稳的加性噪声效果尤为突出。

图1为本发明双麦克风信号处理方法的模块示意图；图2为本发明第一个步骤指向性波束形成算法的流程示意图；图3为本发明第二个步骤实时回声抵消方法的流程示意图；图4为本发明第三个步骤语音增强算法的流程示意图 具体实施方式

下面结合附图和实施方式对本发明作进一步说明。
如图1所示，本发明的主要思想是通过双传声器阵列及相关算法，实现指向性波束形成接收信号，从而抑制远场噪声；并通过自适应回声抵消及频域的语音增强算法，从而减少语音通信中的回声和背景噪声的干扰。本发明传声器采用的是将声音转换为电信号的麦克风。
本发明双麦克风信号处理方法集成在处理器内，其包括以下步骤所述方法包括三个步骤第一使用双麦克风得到实现形成指向性波束的指向性模块的步骤；第二对第一个步骤输出的信号使用实时回声抵消方法的步骤；第三对经第二个步骤处理后的信号使用实时语音增加方法的步骤，其中如图2所示第一个步骤的指向性模块的实现，包括如下的步骤 (11)提供两个全指向性麦克风，将其中之一做延迟并与另一个相减以构成一个阶压差式麦克风阵列、或提供一个全指向性麦克风和一个单指向性麦克风构成一麦克风阵列，分别接收信号并分帧处理； (12)利用比较器比较信号短时能量，判断当前帧信号是语音还是噪音； (13)利用自适应滤波器及依照判断结果改变自适用滤波器的系数对信号进行降噪，如图3所示，第二个步骤的实时回声抵消方法，包括如下的步骤 (21)将第一个步输出的信号及远端信号分别作为期望信号和参考信号，分帧，并转变到频域； (22)参考信号通过自适应滤波器产生输出信号，并与期望信号相减得到误差信号； (23)由误差信号控制自适应滤波器的系数更新； (24)分别计算期望信号、参考信号以及误差信号的能量，并得到自功率和互功率谱； (25)由期望信号与误差信号能量的大小，对误差信号进行处理，得到输出信号，如图4所示，第三个步骤的语音增强方法，包括如下的步骤 (31)、将第二步输出的信号用处理器进行分帧、预加重处理、再经过短时傅里叶变换到频域； (32)、将变换到频域后的信号划分为若干频带，再计算各个频带能量并进行平滑，得到经平滑后的每个频带内的信号能量，所述信号能量包括语音能量和噪音能量，并得到所述噪音能量的初始估计值； (33)、通过信号能量及噪音能量的初始估计值，计算各个频带当前帧的后验信噪比，并由前一帧的先验信噪比估计值得到当前帧的先验信噪比估计值； (34)、由得到的先验信噪比估计值对当前帧进行判决，判断是否是噪声，否则执行步骤(35)、是则执行(36)； (35)、对各频带的噪音能量的估计值进行更新，再通过信号能量及噪音能量的当前更新的估计值，计算各个频带当前帧的后验信噪比，并由前一帧的先验信噪比估计值得到当前帧的先验信噪比估计值，继续执行步骤(34)以再进行判决； (36)、根据得到的先验信噪比估计值，计算各个频带的衰减增益因子； (37)、用得到的衰减增益因子，对划分到各频带的信号频谱进行处理； (38)、将处理后的频域信号变换到时域，进行去加重处理，变成最终输出信号。
其中，步骤(37)中的处理为将当前帧的带噪语音信号乘以相应频带的衰减增益因子。
操作步骤(38)包括有 (381)、通过逆快速傅里叶变换将频域信号变换为时域，得到增强后的时域语音信号； (382)、通过低通滤波器进行加重处理。
下面具体的实例介绍中，双麦克风信号处理系统输入的含噪语音信号的采样率为8kHZ，精度为16位。
信号采集的双麦克风可以选择两个全指向性麦克风或一个单指向性麦克风加一个全指向性麦克风组合的方式。
对于一个单指向性麦克风加一个全指向性麦克风组合，将单指向性麦克风的输入信号z作为期望信号，全指向性麦克风输入信号x作为参考信号。
对于两个全指向性麦克风，将其中一个麦克风的信号x1做延迟，延迟时间为 T＝d/c 其中，d是两个麦克风间距离，c是声速。这里麦克风间距离取0.05m，则延时为1.5×10-4s，对于8kHz采样率，即延迟2个采样点。
延迟后的信号为x1’，另一路信号为x2。两者相减， y＝x2-x1’ 再通过一个低通滤波器，构成一个一阶压差式麦克风阵，即相当于一个但指向性麦克风，同样设输出信号为z，作为期望信号。
另外，将全指向性麦克风x2做相同延迟，又由于一阶压差式麦克风阵输出信号幅度小于全指向性麦克风，因此将x2幅度做一定减小，具体值由麦克风特性决定。最终得到信号x作为参考信号。
接着为计算信号的短时能量，对信号进行分帧，这里为保证下一步回声抵消性能，取一帧256点。
接着计算两个信号的短时能量值。
其中m表示第m帧信号，i为其中第i个采样点。
比较两者大小，当Ex≤0.32Ez，判断当前帧为语音帧，将参考信号通过自适应滤波器W，并与期望信号相减，消除噪声。
e(m)＝z(m)-w(m)x(m) 并且令后增益系数h1增加 h1＝min(1，h1+0.2) 当Ex＞0.32Ez，为噪声帧。同样通过自适应滤波器，消除噪声，同时计算当前帧信号能量，与语音阈值比较，若小于语音阈值，则更新自适应滤波器系数。
e(m)＝z(m)-w(m)x(m) w(m+1)＝w(m)+μx(m)e(m) 其中更新系数μ＝0.05，语音阈值为帧长L乘以0.00001。
另外令后增益系数h1减小 h1＝max(0.3，h1-0.2) 误差信号e(m)就是经过指向性模块后初步降噪的信号。
接着进行回声抵消处理。
将远端传来的电信号，经过同样两个采样点的延迟，作为回声抵消的参考信号u(m)，指向性模块得到的误差信号，作为回声抵消的期望信号d(m)。
回声抵消提供频域的重叠存储快速块LMS算法。
首先，在期望信号及参考信号最后分别补上256点0，构成512点一帧的输入信号。并计算期望信号的能量。
接着分别作512点的快速傅里叶变换(FFT)，将信号变换到频域，并计算各自的功率谱，并平滑 Pd(m)＝αPd(m-1)+(1+α)|D(m)D*(m)| Pu(m)＝αPu(m-1)+(1+α)|U(m)U*(m)| 其中α＝0.6是平滑因子。
参考信号与自适应滤波器系数相乘，并作IFFT之后与期望信号相减，得到误差信号。
注意，这里的误差信号前256点为零，后256点为期望信号减去IFFT的后256点。
计算误差信号的能量比较期望信号与误差信号的大小，决定最终输出信号最后对自适应滤波器系数进行更新。
判断期望信号与参考信号的功率谱大小若参考信号的功率谱Pd(m)＞0.0256则对系数进行更新；若Pu(m)＞20Pd(m)则将滤波器系数归零；否则保持系数不变。
系数更新公式为 W(m+1)＝W(m)+μE(m) 其中更新系数μ＝0.1。
最后进行语音增强处理。
回声抵消模块最终输出的信号，即为待增强的带噪语音信号。
首先同样，对在时域中的带噪语音信号用处理器进行分帧，是将带噪语音信号以帧为单位等分成若干带噪语音信号单元。该带噪语音信号单元由采样点组成，本发明选取了8KHz的采样频率，根据短时谱分析的需要，帧长一般设定成10～35ms之间，本实施例以32ms分帧，即一帧带噪语音信号单元设有256个采样点，自然的，任意一帧带噪语音信号单元具有一定的帧长，本发明任意帧的帧长为256。
分帧后的语音信号，经过一个高通滤波器，作为预加重处理。由于语音信号中的背景噪声在低频部分能量一般较大，所以使用该高通滤波器可以衰减低频部分的份量，使降噪效果更好。其形式如下 H(z)＝1-αz-1 α一般取值在0.75-0.95之间，这里α＝0.9，可以取得较好的效果。
由于语音信号是短时平稳的，所以可以对信号进行分帧处理，但分帧又会带来帧信号边界处的不连续而导致频率泄露。所以，对于分帧后的语音信号要进行短时傅里叶变换(STFT)。短时傅里叶变换可以理解为对帧信号先加窗再做傅里叶变换。加窗函数的目的就是为了在做短时傅里叶变换时，减少帧信号边界处的不连续而造成频率泄露，从而减少“块效应”。这里使用了一个长度等于帧长256点的汉明窗，它可以有效的降低吉布斯效应的震荡程度。
汉明窗函数定义如下 win(n)＝{ 0.54-0.46cos(2*π*n/M)0≤n≤M-10 其余n } 短时傅里叶变换如下 0≤k1≤M-1 其中，M＝256，为短时傅利叶变换的计算长度。m表示第m帧信号。
这样就将当前帧的带噪语音信号s从时域变换到了频域。
变换到频域后的带噪语音信号包括语音信号和噪音信号，该信号以帧为单位划分为若干频带，之后针对不同频带的语音信号进行不同的策略操作。
下面对4kHz以下带噪语音信号进行频带划分，之后的信号处理均在各个频带中进行，这样既可以减少运算复杂度，又可以针对不同的频带做不同的处理，得到更好的语音增强效果。
本发明中的信号共划分为23个频带，具体见表1。
表1 23个频带划分各个频带的信号能量估计，用如下公式计算并进行平滑 E(m，k)＝|X(m，k)|2 0≤k≤N-1 Y(m，k)＝αY(m-1，k)+(1-α)E(m，k)0≤k≤N-1 其中，Y(m，k)表示经平滑后的每个频带区间的信号能量，m表示当前帧的序号，k表示当前的子带的序号，α＝0.75表示平滑因子，N为选取的频带总数，即23。
经平滑后的每个频带区间的信号能量包括语音能量和噪音能量，在这里，先得到一个噪音能量的初始估算值，根据信号能量和噪音能量的初始估算值去计算得到各个频带当前帧的后验信噪比，并由前一帧的先验信噪比计算得到当前帧的先验信噪比估计值。再由得到的先验信噪比估计值对当前帧进行判决，判断是否是噪声如果判决为“否”，即不是噪音，则对各频带的噪音能量的估计值进行更新，再通过信号能量及噪音能量的当前更新的估计值，计算各个频带当前帧的后验信噪比，并由前一帧的先验信噪比计算得到当前帧的先验信噪比估计值，再循环对当前帧进行判决，判断是否是噪音，噪音能量的估计值是否需要更新。
如果判决为“是”，即为噪音，根据得到的先验信噪比估计值，计算各个频带的衰减增益因子，继续下一步；计算当前帧信号的后验信噪比的公式，如下其中V(k)表示当前估计的噪声信号的能量值。
然后基于Ephraim和Malah的先验信噪比估计公式，计算当前帧的先验信噪比估计值的公式如下
本发明中，每个频带的噪声能量的判决与更新提供了基于先验信噪比的语音激活检测(VAD)方法。首先判断当前帧是否是纯噪声信号。
其中γ(m，k)＝min[SNRpost(m，k)，40]，
对VAD(m)进行判断，并进行噪声更新，如下其中η为噪声更新判决因子，本发明中取η＝0.01。
μ为平滑因子，这里取μ＝0.9。
接下来，对各个频带的衰减增益因子的进行计算。基于前面计算得出的先验信噪比估计值，采取不同的策略。对于信噪比大的频带，可认为是语音信号，提供频谱相减的方法得到衰减因子，对于信噪比小的频带，认为是噪声信号，对其进行一定程度的衰减。其具体公式如下。

其中，a，b，c分别为不同的常数。
考虑到噪声主要集中在较低的频带，因此对于中低频段和高频，取不同的a，b，c。
本发明中对于k≤18的频带，即2kHz以下的信号，a＝10，b＝5.5，c＝8 对于k＞18的频带，即2kHz以上的信号，a＝5，b＝4.8，c＝5 得到衰减增益因子，再将当前帧的各频带的带噪语音信号X(m，k)，乘以它，得到的就是该频带信噪比增强后的语音信号。
0≤k≤N-1 其中，N＝23为频带总数，

为第k个频带增强后的语音信号估计值。
最后，将处理后的信噪比增强后的语音信号从频域变换到时域，进行去加重处理，变成输出信号。其操作为第一步逆快速傅里叶变换(FFT)，把频域的语音信号变换到时域，得到增强后的时域语音信号。
时域的变换用通用的逆离散傅利叶变换(IDFT)实现。

0≤k≤M-1 其中，M＝256，为帧长。s为变换到时域后的全频带增强后的语音信号。
第二步进行去加重处理。
和前面的预加重处理相反，这里将信号通过一个低通滤波器，最大程度的还原原有的信号。滤波器的频响如下； H(z)＝1+αz-1 这里的系数与前面预加重处理相对应，取α＝0.9。
最终输出的信号，即为经过了指向性、回声抵消和语音增强处理的语音信号。
与相关技术相比较，本发明提出了传声器集成芯片的实时语音增强系统解决方案，传声器直接输出的经过语音增强的信号，供下级使用，节约了另外使用相应算法的成本。
本文提出的的语音增强的方法有效地利用了先验信噪比估计值，并对不同频带采取不同处理策略。算法可靠实时，对于噪声信号的抑制效果十分明显，特别对于汽车、街道噪声一类平稳加性噪声的抑制由很好的效果。
以上所述的仅是本发明的实施方式，在此应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出改进，但这些均属于本发明的保护范围。
权利要求
1.一种双麦克风信号处理方法，其特征在于，所述方法包括三个步骤
第一使用双麦克风得到实现形成指向性波束的指向性模块的步骤；
第二对第一个步骤输出的信号使用实时回声抵消方法的步骤；
第三对经第二个步骤处理后的信号使用实时语音增加方法的步骤，其中
第一个步骤的指向性模块的实现，包括如下的步骤
(11)提供两个全指向性麦克风，将其中之一做延迟并与另一个相减以构成一个阶压差式麦克风阵列、或提供一个全指向性麦克风和一个单指向性麦克风构成一麦克风阵列，分别接收信号并分帧处理；
(12)利用比较器比较信号短时能量，判断当前帧信号是语音还是噪音；
(13)利用自适应滤波器及依照判断结果改变自适用滤波器的系数对信号进行降噪，
第二个步骤的实时回声抵消方法，包括如下的步骤
(21)将第一个步输出的信号及远端信号分别作为期望信号和参考信号，分帧，并转变到频域；
(22)参考信号通过自适应滤波器产生输出信号，并与期望信号相减得到误差信号；
(23)由误差信号控制自适应滤波器的系数更新；
(24)分别计算期望信号、参考信号以及误差信号的能量，并得到自功率和互功率谱；
(25)由期望信号与误差信号能量的大小，对误差信号进行处理，得到输出信号，
第三个步骤的语音增强方法，包括如下的步骤
(31)、将第二步输出的信号用处理器进行分帧、预加重处理、再经过短时傅里叶变换到频域；
(32)、将变换到频域后的信号划分为若干频带，再计算各个频带能量并进行平滑，得到经平滑后的每个频带内的信号能量，所述信号能量包括语音能量和噪音能量，并得到所述噪音能量的初始估计值；
(33)、通过信号能量及噪音能量的初始估计值，计算各个频带当前帧的后验信噪比，并由前一帧的先验信噪比估计值得到当前帧的先验信噪比估计值；
(34)、由得到的先验信噪比估计值对当前帧进行判决，判断是否是噪声，否则执行步骤(35)、是则执行(36)；
(35)、对各频带的噪音能量的估计值进行更新，再通过信号能量及噪音能量的当前更新的估计值，计算各个频带当前帧的后验信噪比，并由前一帧的先验信噪比估计值得到当前帧的先验信噪比估计值，继续执行步骤(34)以再进行判决；
(36)、根据得到的先验信噪比估计值，计算各个频带的衰减增益因子；
(37)、用得到的衰减增益因子，对划分到各频带的信号频谱进行处理；
(38)、将处理后的频域信号变换到时域，进行去加重处理，变成最终输出信号。
2.根据权利要求1所述双麦克风信号处理方法，其特征在于，所述步骤(37)中的处理为将当前帧的带噪语音信号乘以相应频带的衰减增益因子。
3.根据权利要求1所述双麦克风信号处理方法，其特征在于操作所述步骤(38)包括有
(381)、通过逆快速傅里叶变换将频域信号变换为时域，得到增强后的时域语音信号；
(382)、通过低通滤波器进行加重处理。
全文摘要
本发明提供了一种双麦克风信号处理方法，包括三个步骤第一使用双麦克风得到实现形成指向性波束的指向性模块的步骤；第二对第一个步骤输出的信号使用实时回声抵消方法的步骤；第三对经第二个步骤处理后的信号使用实时语音增加方法的步骤。本发明集合了实时的指向性波束形成，回声抵消以及语音增强的功能，对于语音通讯中的回声级背景噪声干扰均有良好的抑制作用，最终输出的是直接降噪后的信号。本发明使用的降噪算法，与现有的算法相比，大大提高了对噪声的衰减，保证了语音可懂度，特别的，对于汽车噪声，街道噪声一类平稳的加性噪声效果尤为突出。
文档编号G10L21/00GK101763858SQ20091011067
公开日2010年6月30日申请日期2009年10月19日优先权日2009年10月19日
发明者叶利剑申请人:瑞声声学科技(深圳)有限公司, 瑞声声学科技(常州)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：叶利剑
技术所有人：瑞声声学科技（深圳）有限公司;瑞声声学科技（常州）有限公司
我是此专利的发明人

上一篇：一种音频信号检测方法和装置的制作方法
上一篇：音乐情感距离的度量方法