一种双麦克风语音降噪方法与流程

文档序号：17630222发布日期：2019-05-11 00:04阅读：3295来源：国知局

本发明涉及语音降噪领域，尤其是一种双麦克风语音降噪方法。

背景技术：

伴随智能电视的普及，语音识别功能也越来越普及，智能语音遥控器作为人和电视语音的交互工具，起到了语音采集，传输的功能，是人机交互的一个重要接口。

目前的主流为单麦克语音遥控器，主要是单个麦克风对语音进行采集，并通过蓝牙传输到电视端进行语音识别，在背景噪声低或者无噪声的情况下能获得很好的语音识别效果。

单麦克语音采集存在两个主要的缺陷，第一点：喷麦效应，单颗麦克录音时，由于麦克风口对距离人很近，人说话发出的气流声在说某些音节时会很大，比如说“朋友”、“奔跑”等词时，会产生较大的气流，导致麦克风录音时产生较强的噪声，而该噪声会影响语音识别的正确率。第二点，在外界噪声较强时，特别是外界噪声也为语音时，会导致语音识别分不清楚是谁在讲话，从而产生误识别。

技术实现要素：

针对现有技术存在的问题，本发明的目的在于提供一种减少语音识别的误识别的双麦克风语音降噪方法。

为实现上述目的，本发明一种双麦克风语音降噪方法，具体为：

1)设置前、后放置的2颗麦克风进行语音采集；前置麦克的为主麦克，主要负责语音的采集和喷麦噪声的检测；后置麦克为辅助麦克，主要负责喷麦噪声补偿和背景噪声的采集；

2)语音输入时，前置麦克和后置麦克同时拾音，分别获取时域语音数据t1和t2；

3)分别对前置麦克风和后置麦克风的时域语音数据进行频域加窗和傅里叶变换处理，获取频域语音数据f1和f2：

4)对前置麦克和后置麦克的频域语音数据计算自相关谱psd和互相关谱cpsd；

5)采用自相关谱psd和互相关谱cpsd运算相关性函数，用来判断前置麦克的频域语音数据和后置麦克的频域语音数据的相关性；

6)采用相关性函数估计信噪比函数snr，当相关性高时，气质和后置麦克的相关性高、估计信噪比函数的值高；而当相关性函数相关性低，估计信噪比函数估计值低；并用估计信噪比函数计算增益函数；

7)采用增益函数对前置麦克风的频域语音数据进行增益调整，获得降噪后的前置麦克风的频域语音数据；降噪后的频域语音数据进行逆傅里叶变换，将频域语音数据变换成时域语音数据；最终输出降噪后的时域语音数据；

8)分析步骤3)前置麦克的频域语音数据f1，如其属于20-4000hz频段频域、量大而且均匀无衰减的类型，则确定频域语音数据f1属于喷麦噪声；用后置麦克的频域语音数据f2替换原前置麦克的喷麦语音数据，完成对前置麦克喷麦噪声的修复。

进一步，所述步骤2)中，前置麦克风和后置麦克风分别获取时域语音数据，采样率为16000hz，并分每帧128个语音数据进行处理；输出所述时域语音数据t1和t2。

进一步，所述步骤3)中，输入是时域语音数据t1和t2，输出是频域语音数据f1和f2，公式为：

f1＝fft(hanningwin*t1)；

f2＝fft(hanningwin*t2)。

进一步，所述步骤4)中，自相关谱psd的计算公式为：psd＝∑|f1|²；互相关谱cpsd计算公式为：cpsd＝∑(|f1|×|f2|^*)；其中f1表示前置麦克的频域语音数据，f2后置麦克的频域语音数据，符号*是复数的共轭运算。

进一步，所述步骤5)中，相关性函数coh的公式为：

其中cpsd是前置麦克和后置麦克频域语音数据的互相关谱，psd1是前置麦克频域语音数据的自相关谱，psd2是后置麦克频域语音数据的自相关谱。

进一步，所述步骤6)中，增益函数g的计算公式是：

进一步，所述步骤7)中，降噪后的频域语音数据公式为：f1_new＝g*f1；降噪后的时域语音数据公式为：t1_new＝ifft(f1_new)。

进一步，所述步骤3)中，加窗运算选择的是汉宁窗，对每帧128个乘以汉宁窗系数，用来防止后面时频转换时发生频谱混叠。

本发明硬件上结构简单，相比之前的智能语音遥控器仅简单地增加1路麦克就能达到很好的噪声抑制的功能。软件算法上通过相关性函数的方式抑制了背景噪声，通过检测补偿算法抑制了喷麦噪声。

附图说明

图1为设置于产品正面的前置麦克位置示意图；

图2为设置于产品背面的后置麦克位置示意图；

图3为本发明双麦克风语音降噪方法流程框架图；

图4为背景噪声降噪效果图一；

图5为背景噪声降噪效果图二；

图6为背景噪声降噪效果图三；

图7为喷麦降噪效果图一；

图8为喷麦降噪效果图二；

图9为喷麦降噪效果图三。

具体实施方式

下面，参考附图，对本发明进行更全面的说明，附图中示出了本发明的示例性实施例。然而，本发明可以体现为多种不同形式，并不应理解为局限于这里叙述的示例性实施例。而是，提供这些实施例，从而使本发明全面和完整，并将本发明的范围完全地传达给本领域的普通技术人员。

为了易于说明，在这里可以使用诸如“上”、“下”“左”“右”等空间相对术语，用于说明图中示出的一个元件或特征相对于另一个元件或特征的关系。应该理解的是，除了图中示出的方位之外，空间术语意在于包括装置在使用或操作中的不同方位。例如，如果图中的装置被倒置，被叙述为位于其他元件或特征“下”的元件将定位在其他元件或特征“上”。因此，示例性术语“下”可以包含上和下方位两者。装置可以以其他方式定位(旋转90度或位于其他方位)，这里所用的空间相对说明可相应地解释。

如图1至图9所示，本发明一种双麦克风语音降噪方法，其中，在产品正面1设置前置麦克2，在产品背面3设置后置麦克4，采用前后放置的2颗麦克风进行语音采集，前置麦克的为主麦克，主要负责语音的采集和喷麦噪声的检测。后置麦克为辅助麦克，主要负责喷麦噪声补偿和背景噪声的采集。

语音输入时，前置麦克和后置麦克同时拾音，开始软件背景噪声降噪算法和喷麦语音降噪算法处理。

1背景噪声降噪，背景噪声降噪算法处理主要利用前后2路麦克语音数据的频域相关性对主麦克语音数据的频域增益进行修正：

1.1如附图2所示，前置麦克风和后置麦克风分别获取时域语音数据，采样率为16000hz，即每秒16000个时域语音数据，我们分每帧128个语音数据进行处理，即每次取128个时域语音数据进行背景噪声降噪。该部分获得输出是时域语音数据t1和t2。

1.2分别对前置麦克风和后置麦克风的时域语音数据进行频域加窗和傅里叶变换处理，获取频域语音数据。加窗运算选择的是汉宁窗，对每帧128个乘以汉宁窗系数，用来防止后面时频转换时发生频谱混叠，傅里叶变换是时域数据到频域数据的转换，具体算法实现中我们采用快速傅里叶变换(fft)，以减少硬件的负担。该部分的输入是时域语音数据t1和t2，输出是频域语音数据f1和f2。公式为：

f1＝fft(hanningwin*t1)

f2＝fft(hanningwin*t2)。

1.3对前置麦克和后置麦克的频域语音数据计算自相关谱和互相关谱，用来计算相关性函数。自相关谱(psd)的计算公式如下(其中f1是频域语音数据)：

psd＝∑|f1|²。

互相关谱(cpsd)计算公式如下(其中f1表示前置麦克的频域语音数据，f2后置麦克的频域语音数据，符号*是复数的共轭运算)：cpsd＝∑(|f1|×|f2|^*)。

该部分输入是频域麦克风数据f1和f2，输出是频域自相关谱和互相关谱。

1.4采用自相关谱和互相关谱运算相关性函数，用来判断前置麦克的频域语音数据和后置麦克的频域语音数据的相关性。原理上，当用户对麦克说话时，前后麦克的相关性函数的值会增大，而当只有背景噪声存在时，前后麦克的相关性函数的值会减小。相关性函数coh的公式如下(其中cpsd是前置麦克和后置麦克频域语音数据的互相关谱，psd1是前置麦克频域语音数据的自相关谱，psd2是后置麦克频域语音数据的自相关谱)：

该部分的输入是频域自相关谱和互相关谱，输出是前置麦克和后置麦克的互相关函数。

1.5采用相关性函数估计信噪比函数(snr)，当相关性高时，气质和后置麦克的相关性高，因此估计信噪比函数的值高，而当相关性函数相关性低，估计信噪比函数估计值低，所有比较值已经信噪比函数的值采用的是多次实验经验值最终确定。随后，采用估计信噪比函数计算增益函数，增益函数(g)的计算公式是：

该部分输入是前置麦克和后置麦克语音数据的频域相关性函数，输出是频域增益函数。

1.6采用增益函数对前置麦克风的频域语音数据进行增益调整，获得降噪后的前置麦克风的频域语音数据。该部分的输入是前置麦克风的频域语音数据和增益函数，输出是降噪后的频域语音数据。公式为(其中f1是前置麦克频域语音数据，f1_new为降噪后的频域语音数据)：

f1_new＝g*f1。

1.7降噪后的频域语音数据进行逆傅里叶变换，将频域语音数据变换成时域语音数据，实际采用的是快速逆傅里叶变换变换(ifft)。公式为(其中t1_new是降噪后的时域语音数据，f1_new是降噪后的频域语音数据)：

t1_new＝ifft(f1_new)。

1.8最终输出降噪后的时域语音数据t1_new。

2喷麦语音降噪算法处理，喷麦语音降噪算法主要利用喷麦噪声的频域能量特性和后置麦克不受喷麦影响的特性对喷麦语音进行降噪处理：

2.1分析上述背景噪声降噪处理算法中的经过傅里叶变换的前置麦克的频域语音数据，如前置麦克频域语音数据符合喷麦噪声模型，则认为该部分语音属于喷麦噪声。喷麦噪声模型为频域数据20-4000hz频段频域能量大而且均匀无衰减，具体阈值由实验获取，为经验值。

2.2经过检测确认为喷麦语音的，用后置麦克的频域语音数据替换原前置麦克的喷麦语音数据，完成对前置麦克喷麦噪声的修复。

本发明中通过软件算法和硬件结合的方式达到噪声抑制目的：通过前置后置双麦克的方式，从硬件上限制2路麦克的拾音方向，前置麦克拾取的语音强度大，背景噪声相对小，而后置麦克拾取的语音相对小，背景噪声相对大，而且不会包含喷麦噪声。同时软件算法利用硬件麦克拾音的差异在背景噪声的抑制上采用了频域相关性函数计算频域增益的方式，在喷麦噪声上采用了前置麦克检测加后置麦克补偿的方式，很好的解决但颗麦克风上无法规避的问题。

背景噪声效果：如图5、图6，是实际录音时的前置麦克和后置麦克录制的语音，可以看到有较强的背景噪声，如图7是降噪后的语音，可以看到经过降噪后的噪声被抑制而语音被完成的保留。

喷麦噪声消除效果：如图7、图8，是实际录音是前置和后置麦克风录制的语音，可以看到前置麦克风在语音开始的时候有一个很大幅度的声音，是喷麦噪声，而后置麦克没有，如图9，经过喷麦降噪处理后的语音，补偿了喷麦噪声，修复了语音。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨洋;姚嘉;高永泽;马琪
技术所有人：杭州微纳科技股份有限公司
我是此专利的发明人

上一篇：液流电池系统的制作方法
上一篇：一种凹板单元及分段组合式圆管型玉米脱粒凹板的制作方法