一种单通道语音去混响的方法和装置的制作方法

文档序号：2833208阅读：303来源：国知局

专利名称：一种单通道语音去混响的方法和装置的制作方法
技术领域：
本发明涉及语音增强领域，特别涉及单通道语音去混响的方法和装置。
背景技术：
在远距离语音通讯中，麦克风端接收的信号容易受到环境混响的影响。比如，在房间内，语音经过墙面、地板和家具等多次放射，麦克风端接收到的信号是直达声和反射声的混合信号。这部分反射声就是混响信号。当说话人距离麦克风比较远，且通话环境是一个相对封闭的空间时，就很容易产生混响。混响严重时，会导致语音不清楚，影响通话质量。另夕卜，混响带来的干扰，还会导致声学接收系统性能变差，语音识别系统性能显著下降等。早期的去混响方法主要是利用反卷积来进行的。这类方法需要提前知道准确的混响环境(房间或办公室等)的冲激响应或传递函数。混响环境的冲激响应可以通过某种特别的方法或装置提前测量得到，也可以通过其它方法单独估计得到。然后利用这个已知的混响环境冲激响应，估计逆滤波器，实现对混响信号的反卷积，从而实现去混响。这类方法的问题是，混响环境的冲激响应往往很难提前获得，且求取逆滤波器的过程本身可能引入新的不稳定因素。另一类去混响方法，不需要估计混响环境的冲激响应，因此不需要计算逆滤波器和进行逆滤波运算，也被称为盲去混响方法。这类方法通常基于语音模型假设，比如混响导致接收的浊音激励脉冲发生变化，使得周期性变得不那么明显，从而影响语音清晰度。这类方法一般基于LPC (Linear Prediction Coding,线性预测编码)模型,假定产生语音的模型是一个全极点模型，而混响或其它加性噪声在整个系统中引入了新的零点，从而干扰了浊音激励脉冲，但并不影响全极点滤波器。去混响方法是估计信号的LPC残差，然后按照基因同步粹发准则(pitch-synchronous clustering criterion)或峰度(Kurtosis)最大化准则等，来估计干净的脉冲激励序列，从而实现去混响。这类方法的问题是计算复杂度往往非常高，且对于混响只影响全零点滤波器的假设，与实验分析存在不相符的情况。利用谱减法去混响是一个较佳的方案，语音信号包括直达声、早期反射声和晚期反射声，采用谱减法将晚期反射声的功率谱从整个语音的功率谱中除去能够提高语音质量。但其中的关键问题在于晚期反射声的谱的估计，即如何获得比较准确的晚期反射声的功率谱，从而在将晚期反射声的成份有效去除的同时又不损伤语音。在单通道语音去混响中，因为只有一路麦克风信息可用，因此估计混响环境的传递函数或估计混响时间(RT60)非常困难。

发明内容
本发明提供的一种单通道语音去混响的方法和装置，以解决单通道语音去混响中估计混响环境的传递函数或估计混响时间困难的问题。本发明公开了一种单通道语音去混响的方法，所述方法包括对输入的单通道语音信号进行分帧，按时间顺序对帧信号进行如下处理
对当前帧进行短时傅里叶变换，获得当前帧的功率谱和相位谱；选取当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧，将这些帧的功率谱进行线性叠加估计出当前帧的晚期反射声的功率谱；通过谱减法从当前帧的功率谱中去除估计出的当前帧的晚期反射声的功率谱，得到当前帧的直达声和早期反射声的功率谱；将当前帧的直达声和早期反射声的功率谱与当前帧的相位谱一起进行短时傅里叶逆变换，获得当前帧去混响后的信号。较佳地，依据晚期反射声的衰减特性，设置所述时长范围的上限值；和/ 或，依据语音相关特性及直达声和早期反射声在混响环境下的冲击响应分布区域，设置所述时长范围的下限值。较佳地，所述时长范围的上限值选择在0. 3秒5秒之间的值。较佳地，所述时长范围的下限值选择在50毫秒 80毫秒之间的值。较佳地，所述将这些帧的功率谱进行线性叠加估计出当前帧的晚期反射声的功率谱具体包括应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加估计出当前帧的晚期反射声的功率谱；或者，应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加估计出当前帧的晚期反射声的功率谱；或者，应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加，并且应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加，估计出当前帧的晚期反射声的功率谱。本发明还公开了一种单通道语音去混响的装置，所述装置包括分帧单元，用于对输入的单通道语音信号进行分帧，按时间顺序向傅里叶变换单兀输出巾贞信号；傅里叶变换单元，用于对接收的当前帧进行短时傅里叶变换，获得当前帧的功率谱和相位谱，向谱减单元和谱估计单元输出当前巾贞的功率谱，向傅里叶逆变换单元输出相位谱；谱估计单元，用于将当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧的功率谱进行线性叠加，估计出当前帧的晚期反射声的功率谱，向谱减单元输出估计的当前帧的晚期反射声的功率谱；谱减单元，用于通过谱减法从傅里叶变换单元获得的当前帧的功率谱中去除从谱估计单元获得的当前帧的晚期反射声的功率谱，得到当前帧的直达声和早期反射声的功率谱，向傅里叶逆变换单元输出当前帧的直达声和早期反射声的功率谱；傅里叶逆变换单元，用于将从谱减单元获得的当前帧的直达声和早期反射声的功率谱与从傅里叶变换单元获得的当前帧的相位谱一起进行短时傅里叶逆变换，输出当前帧去混响后的信号。
较佳地，所述谱估计单元具体用于，依据晚期反射声的衰减特性设置所述时长范围的上限值；和/或，依据语音相关特性及直达声和早期反射声在混响环境下的冲击响应分布区域设置所述时长范围的下限值。较佳地，所述谱估计单元具体用于，选择时长范围的上限值为0. 3秒5秒之间的值。较佳地，所述谱估计单元具体用于，选择时长范围的下限值为50毫秒 80毫秒之间的值。较佳地，所述谱估计单元具体用于对于当前帧之前的、到当前帧的距离在所述设置的时长范围内的若干帧，应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加估计出当前帧的晚期反射声的功率谱；或者，对于当前帧之前的、到当前帧的距离在所述设置的时长范围内的若干帧，应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加估计出当前帧的晚期反射声的功率谱；或者，对于当前帧之前的、到当前帧的距离在所述设置的时长范围内的若干帧，应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加，并且应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加，估计出当前帧的晚期反射声的功率谱。本发明实施例的有益效果是通过选取当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧，将这些帧的功率谱进行线性叠加估计出当前帧的晚期反射声的功率谱，能够不需估计混响环境的传递函数或混响时间，便可以估计出当前帧的晚期反射声的功率谱，进而利用谱减法进行去混响，简化了去混响的操作复杂度，使得实现更为简单；依据语音相关特性及直达声和早期反射声在混响环境下的冲击响应分布区域设置时长范围的下限值，能够在去除混响的同时更好保留有用的直达声和早期反射声，提高话音质量；依据晚期反射声的衰减特性设置时长范围的上限值，能够在保证估计的晚期反射声的功率谱的准确性的同时，减少叠加运算量；本发明实施例将上限值选择为0. 3秒5秒之间的值，该上限值为通过实验获得的门限值，在混响环境发生变化时，无需调整该上限值，都能够获得较好的去混响效果；本发明实施例将下限值设置在50毫秒 80毫秒之间，在混响环境变化时，无需改变下限值，便能够有效避开直达声和早期反射声进行叠加，使得叠加结果中基本不包含直达声和早期反射声，从而在去混响的同时保留有用的直达声和早期反射声，取得较好的话音质量。上述混响环境的变化包括从无混响的消声室到混响非常严重的大礼堂。

图I为本发明单通道语音去混响的方法的流程图2为真实房间的冲激响应的示意图；图3为本发明实施效果示意图，图3 (a)为混响信号时域示意图，图3 (b)为去混响后的信号的时域示意图，图3 (c)为混响信号频域示意图，图3 (d)为去混响信号频域示意图；图4为本发明单通道语音去混响装置的结构图；图5为本发明单通道语音去混响装置具体实施方式
的结构图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。参见图1，为本发明提供的单通道语音去混响的方法的流程图。步骤S100，对输入的单通道语音信号进行分帧，按时间顺序对帧信号进行如下处理。步骤S200，对当前帧进行短时傅里叶变换，获得当前帧的功率谱和相位谱。步骤S300，选取当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧，将这些帧的功率谱进行线性叠加估计出当前帧的晚期反射声的功率谱。所述若干帧为一个预设数量的帧，可以为时长范围内的所有帧或该时长范围内的一部分中贞。步骤S400，通过谱减法从当前帧的功率谱中去除估计的当前帧的晚期反射声的功率谱，得到当前帧的直达声和早期反射声的功率谱。步骤S500，将当前帧的直达声和早期反射声的功率谱与当前帧的相位谱一起进行短时傅里叶逆变换，获得当前帧去混响后的信号。在混响环境中，麦克风采集到的信号x(t)，即单通道语音信号，是直达声和反射声的混合，可用如下混响模型表示X (t) = h*s (t) +n (t)其中，s(t)是从声源发出的信号，h是从声源位置到麦克风位置两点之间的房间冲激响应，*表示卷积运算，n(t)表示混响环境内的其它加性噪声。一个真实房间的冲激响应，如图2所示。可以将它划分为3个部分，直达峰hd、早期反射he和晚期反射hi。hd和s(t)的卷积可以简单地认为是声源发出的信号经过一定的延迟后在麦克风端的再现，对应于X(t)中的直达声部分。早期反射部分的冲击响应对应于hd之后一段时长的部分，该时长的结束时间点为50ms至80ms中的某个时间点。一般认为这一部分和s(t)卷积所产生的早期反射声对直达声有加强和改善音质的作用。晚期反射声部分的冲击响应是去除hd和he后房间冲激响应余下的长长的拖尾部分，这一部分与信号s(t)卷积所产生的反射声，就是会对听感造成影响的混响成份。去混响算法主要是去除这一部分的影响。因此，混响模型也可表示为X (t) = (hd+he) *s (t)+hl*s (t)+n (t)hi部分符合指数衰减模型，可用如下方程近似
权利要求
1.一种单通道语音去混响的方法，其特征在于，所述方法包括对输入的单通道语音信号进行分帧，按时间顺序对帧信号进行如下处理对当前帧进行短时傅里叶变换，获得当前帧的功率谱和相位谱；选取当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧，将这些帧的功率谱进行线性叠加估计出当前帧的晚期反射声的功率谱；通过谱减法从当前帧的功率谱中去除估计出的当前帧的晚期反射声的功率谱，得到当前帧的直达声和早期反射声的功率谱；将当前帧的直达声和早期反射声的功率谱与当前帧的相位谱一起进行短时傅里叶逆变换，获得当前帧去混响后的信号。
2.根据权利要求I所述的方法，其特征在于，依据晚期反射声的衰减特性，设置所述时长范围的上限值；和/或，依据语音相关特性及直达声和早期反射声在混响环境下的冲击响应分布区域，设置所述时长范围的下限值。
3.根据权利要求I所述的方法，其特征在于，所述时长范围的上限值选择在0. 3秒5秒之间的值。
4.根据权利要求I所述的方法，其特征在于，所述时长范围的下限值选择在50毫秒 80毫秒之间的值。
5.根据权利要求1-4任一项所述的方法，其特征在于，所述将这些帧的功率谱进行线性叠加估计出当前帧的晚期反射声的功率谱具体包括应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加估计出当前帧的晚期反射声的功率谱；或者，应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加估计出当前帧的晚期反射声的功率谱；或者，应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加，并且应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加，估计出当前帧的晚期反射声的功率谱。
6.一种单通道语音去混响的装置，其特征在于，所述装置包括分帧单元，用于对输入的单通道语音信号进行分帧，按时间顺序向傅里叶变换单元输出中贞信号；傅里叶变换单元，用于对接收的当前帧进行短时傅里叶变换，获得当前帧的功率谱和相位谱，向谱减单元和谱估计单元输出当前巾贞的功率谱，向傅里叶逆变换单元输出相位谱；谱估计单元，用于将当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧的功率谱进行线性叠加，估计出当前帧的晚期反射声的功率谱，向谱减单元输出估计的当前帧的晚期反射声的功率谱；谱减单元，用于通过谱减法从傅里叶变换单元获得的当前帧的功率谱中去除从谱估计单元获得的当前帧的晚期反射声的功率谱，得到当前帧的直达声和早期反射声的功率谱，向傅里叶逆变换单元输出当前帧的直达声和早期反射声的功率谱；傅里叶逆变换单元，用于将从谱减单元获得的当前帧的直达声和早期反射声的功率谱与从傅里叶变换单元获得的当前帧的相位谱一起进行短时傅里叶逆变换，输出当前帧去混响后的信号。
7.根据权利要求6所述的装置，其特征在于，所述谱估计单元具体用于，依据晚期反射声的衰减特性设置所述时长范围的上限值；和/或，依据语音相关特性及直达声和早期反射声在混响环境下的冲击响应分布区域设置所述时长范围的下限值。
8.根据权利要求6所述的装置，其特征在于，所述谱估计单元具体用于，选择时长范围的上限值为0. 3秒5秒之间的值。
9.根据权利要求6所述的装置，其特征在于，所述谱估计单元具体用于，选择时长范围的下限值为50毫秒 80毫秒之间的值。
10.根据权利要求6-9任一项所述的装置，其特征在于，所述谱估计单元具体用于对于当前帧之前的、到当前帧的距离在所述设置的时长范围内的若干帧，应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加估计出当前帧的晚期反射声的功率谱；或者，对于当前帧之前的、到当前帧的距离在所述设置的时长范围内的若干帧，应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加估计出当前帧的晚期反射声的功率谱；或者，对于当前帧之前的、到当前帧的距离在所述设置的时长范围内的若干帧，应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加，并且应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加，估计出当前帧的晚期反射声的功率P曰。
全文摘要
本发明公开一种单通道语音去混响的方法和装置，所述方法包括对输入的单通道语音信号进行分帧，按时间顺序对帧信号进行如下处理对当前帧进行短时傅里叶变换，获得当前帧的功率谱和相位谱；选取当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧，将这些帧的功率谱进行线性叠加估计出当前帧的晚期反射声的功率谱；通过谱减法从当前帧的功率谱中去除估计出的当前帧的晚期反射声的功率谱，得到当前帧的直达声和早期反射声的功率谱；将当前帧的直达声和早期反射声的功率谱与当前帧的相位谱一起进行短时傅里叶逆变换，获得当前帧去混响后的信号。本发明能够解决单通道语音去混响中估计混响环境的传递函数或估计混响时间困难的问题。
文档编号G10L21/02GK102750956SQ201210201879
公开日2012年10月24日申请日期2012年6月18日优先权日2012年6月18日
发明者吴晓婕, 李波, 楼夏夏申请人:歌尔声学股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：楼夏夏;吴晓婕;李波
技术所有人：歌尔声学股份有限公司
我是此专利的发明人