手机麦克风的语音增强系统和语音增强方法_3

文档序号：9752213阅读：来源：国知局

样点的延时后的次麦克风中的信号幅值减去其对应均值的值相乘，并将每个采样点计算的结果在一帧内求和，最后对求和的值进行归一化，得到对应每一帧的归一化互通道相关Τ (η，τ)，计算公式如下：
[0069]
[0070] 其中，L代表每一帧时域信号的长度，τ为延时，χ1>η和χ2,η分别为主，次麦克风中的数字带噪语音信号，<!和5 2,η分别为每一帧内主麦克风和次麦克风接受的信号的均值， XI,η和Χ2,η的下标1和2为麦克风的标号（1 :主麦克风，2:次麦克风）。
[0071] 例如:对一帧带噪语音信号，选取24个频带的子带互通道能量差作为第一类特征，选取τ = {-10，-9，-8，'"+8，+9，+10}对应的归一化互通道相关的值作为第二类特征，一共为 45个输入作为训练神经网络的输入。神经网络采用3层的反向传播神经网络 (Backpropagation Neural Networks)。隐藏层采用30个神经元，输入层到隐藏层采用 tansig作为激活函数，隐藏层到输出层采用purl ine作为激活函数，最大迭代次数为2000 次，学习步长设定为0.01，学习函数设定为traingdx。
[0072]上述基于互通道信号功率比值的语音活动检测单元分别对主麦克风数字带噪语音信号和次麦克风数字带噪语音信号计算信号的功率，并得到两个通道的信号功率比值，具体步骤如下：
[0073] (1)采用不同的平滑参数α计算两个通道信号的功率，计算过程如下：
[0074]
[0075]
[0076] 其中，Pis(t)为长时间平滑计算得到的功率，使用的平滑参数为a_s = 0.999，Pif⑴为短时间平滑得到的功率，平滑参数为a_f = 0.9。i为主，次麦克风的标号（1:主麦克风2:次麦克风）。
[0077] (2)将长平滑和短平滑分别计算得到的两个通道的功率相比得到互通道功率的比值，计算过程如下：
[0078]
[0079] , _
[0080] 其中，Ps(t)为长平滑互通道功率比，Pf(t)为短平滑互通道功率比，因为语音信号是高度非平稳的信号，短时间平滑得到的信号功率会比长时间平滑得到的信号功率大得多，而噪声较语音信号平缓，所以短时间和长时间平滑的信号功率差别较语音小的多。可以通过比较Pf(tWPP s(t)的大小来判断语音和噪声。
[00811 (3)对每一个时域采样点，比较比较Pf(t)和Ps(t)的大小，如果满足P f(t)>2*Ps(t) 则将该时域采样点标记为1表示语音，否则标记为0表示噪声。
[0082] 现有技术中区分语音和噪声的方法通过设定一个阈值，将功率比值与设定阈值进行比较，如果大于阈值则判断为语音，小于阈值则判断为噪声，但是固定的阈值无法在不同的信噪比和噪声环境下获得准确的结果，本发明分别采用长时间的平滑和短时间的平滑迭代计算主、次麦克风中的带噪语音信号的功率，再计算长时间和短时间平滑迭代计算的主、次麦克风的带噪语音的功率的比值，通过比较长时间信号功率比值和短时间信号功率比值的大小来判断语音和噪声，该方法能够在不同的信噪比噪声环境下取得准确的结果。
[0083] 另外，现有的语音活动检测方法难以准确的区分语音和噪声，造成语音被误判为噪声或者噪声被误判为语音，本发明的语音活动检测方法，分别采用神经网络语音活动检测单元和基于互通道信号功率比值的语音活动检测单元进行语音活动的检测，结合两者的结果可以在判断出语音存在的部分的同时减少噪声的误判。
[0084]如图3所示，上述噪声活动检测模块NAD利用互通道信号功率的比值进行噪声活动的检测，具体步骤如下：
[0085] (1)将消噪模块获取的背景噪声信号（即：主麦克风数字带噪语音信号中滤除了纯净语音信号得到的背景噪声信号)和主麦克风数字带噪语音信号作为噪声活动检测器的输入；
[0086] (2)采用不同的平滑参数α计算噪声和带噪语音信号的功率，计算过程如下：
[0087] Pnoise-s(t)=a-sPnoise-s(t-l) + (l-a-s)n2(t) (7)
[0088] Pnciise-f(t)=a-fPnciise- f(t-l) + (l-a-f)n2(t) (8)
[0089] 其中，Pnciise_s(t)为长时间平滑计算得到的噪声功率，a_ s = 〇 · 999，Pnciise_f (t)为短时间平滑计算得到的噪声功率，a_f = 0.9，n(t)为第一滤波器输出的背景噪声信号；
[0090] (3)分别将Pncilse3_s(t)和Pncilse3_ f(t)与长，短时平滑计算得到的主麦克风中带噪信号功率进行比较，得到噪声和带噪语音信号的功率比值，计算过程如下：
[0091]
[0092]
[0093] 其中，Pn_s(t)与Pn_f(t)分别为长平滑和短平滑计算得到的噪声与主麦克风中带噪语音的长时功率比和短时功率比；
[0094] (4)为了在噪声段增加长时与短时平滑功率比值的差距，对Pn_s(t)再次进行平滑，计算过程如下：
[0095] Pn-ss(t)=a-ssPn-ss(t-l) + (l_a-ss)Pn-s(t) (11)
[0096] 其中，Pn_ss(t)为对长时功率比Pn_s(t)进行再次平滑得到的功率比值，这里的平滑系数a_ ss根据神经网络语音活动的结果进行调整，在语音段即语音帧a_ss为1保持Pn_ ss(t)不变，在噪声段即噪声帧<^为0.999迭代平滑计算Pn_ss(t);
[0097] (5)对每一个时域采样点，比较Pn_f⑴和Pn_ ss(t)的大小，如果满足Pn_f⑴>2*Pn_ ss (t)将该时域采样点标记为0表示噪声，否则标记为1表示语音，标记为噪声的记作噪声采样点。
[0098] 消噪装置的时域消噪模块通过滤除主、次麦克风中的线性相关噪声得到主麦克风时域增强语音信号和估计的背景噪声信号;频域消噪模块通过短时傅里叶变化将主麦克风时域增强信号和背景噪声信号转化到频域，进一步的滤除主、次麦克风中的线性不相关噪声得到最终的消噪信号。
[0099] 图4中的消噪模块包括:第一滤波器和第二滤波器，主麦克风数字带噪语音信号和次麦克风数字带噪语音信号作为第一滤波器的输入，第一滤波器在语音活动检测模块提供的语音采样点控制自适应滤波器调整参数将纯净语音信号从次麦克风数字带噪语音信号中滤除得到背景噪声信号，该背景噪声信号作为噪声活动检测模块NAD的一个输入信号;第二滤波器以经过了时延τ(本发明实用例中采用10个采样点）的主麦克风数字带噪语音信号作为参考信号，将第一滤波器输出的背景噪声信号作为输入，在噪声活动检测模块NAD提供的噪声采样点控制第二滤波器调整参数将背景噪声信号从主麦克风数字带噪语音信号中滤除，得到主麦克风增强语音信号。
[0100] 图5中的频域消噪模块包括：主麦克风噪声估计单元、语音的基音和谐波检测单元、维纳滤波器消噪处理单元，主麦克风噪声估计单元对主麦克风频域增强语音信号中的噪声进行估计;语音的基音和谐波检测单元估计语音的基音和谐波，并在语音主宰帧中将估计的语音的基音和谐波所在的频点标记为语音存在的频点，对于基音和谐波以外的频点通过预设的判断条件来确定是否为噪声频点；设定一增益函数心(《!〇,将增益函数G P(wk)与估计的主麦克风中的噪声功率相乘，依据频点的性质改变增益函数GP(wk)的值来调节维纳滤波器的参数，控制维纳滤波器消噪处理单元将估计的背景噪声从主麦克风频域增强语音信号中滤除的同时针对语音频点进行保留，减少语音失真提高语音的可懂度。具体如图6所示，包括以下步骤：
[0101] (1)通过短时傅里叶变换将时域消噪模块中第二滤波器输出的主麦克风增强语音信号和第一滤波器输出的背景噪声信号进行短时傅里叶变换转化到频域;上述时域消噪模块的时域信号的采样率设为8khz，短时傅里叶变换所使用的帧长L为256个采样点，帧移Μ为 128个采样点；
[0102] (2)对主麦克风频域增强语音信号采用基于最小值迭代的噪声估计算法(minima controlled recursive averaging，MCRA)得到第一噪声估计信号基于最小值迭代的噪声估计算法通过计算得到每一帧带噪语音信号在每一个频点的先验信噪比和后验信噪比，并通过先验信噪比和后验信噪比计算每一个频点的语音存在概率，通过语音存在概率调整噪声估计的平滑参数，并通过噪声估计的平滑参数迭代计算得到每一帧带噪语音信号在每一个频点的第一噪声估计η)，每一个频点的先验信噪比和后验信噪比通过将带噪语音信号的功率与带噪语音信号功率的最小值进行比较得到；
[0103] (3)通过次麦克风中的背景噪声信号估计主麦克风频域增强语音信号在频带的噪声，得到第二噪声估计信号瓦(/c, η);
[0104] (4)将第一噪声估计信号η)和第一噪声估计信号相加得到主麦克风的时域增强语音信号的最终噪声估计信号％(fc,η)，通过最终噪声估计信号％(fc, η)计算噪声的功率Pnn(Wk);
[0105] (5)利用所述基于最小值迭代的噪声估计算法得到的每一帧带噪语音信号在每一个频点的先验信噪比和后验信噪比确定语音主宰帧和噪声主宰帧，在语音主宰帧中估计所述主麦克风频域增强语音信号的基音和谐波，并将估计的语音的基音和谐波所在的频点标记为语音频点，在基音和谐波以外的频点通过预设的判断条件标记噪声频点；
[0106] (6)结合步骤(5)标记的噪声频点和语音频点调节维纳滤波器的参数H(wk)，对所述主麦克风频域增强语音信号中的噪声频点进行滤除，同时对标记为语音的频点进行保留，得到频域增强后的语音信号6(w);
[0107] (7)将频域增强后的语音信号6(w)通

完整全部详细技术资料下载

当前第3页1 2 3 4 5