一种单通道语音去混响装置的制作方法

文档序号：2834190阅读：233来源：国知局

专利名称：一种单通道语音去混响装置的制作方法
技术领域：
本实用新型涉及语音增强领域，特别涉及单通道语音去混响装置。
背景技术：
在远距离语音通讯中，麦克风端接收的信号容易受到环境混响的影响。比如，在房间内，语音经过墙面、地板和家具等多次放射，麦克风端接收到的信号是直达声和反射声的混合信号。这部分反射声就是混响信号。当说话人距离麦克风比较远，且通话环境是一个相对封闭的空间时，就很容易产生混响。混响严重时，会导致语音不清楚，影响通话质量。另夕卜，混响带来的干扰，还会导致声学接收系统性能变差，语音识别系统性能显著下降等。
早期的去混响装置主要是利用反卷积来进行去混响的。这类装置需要提前知道准确的混响环境(房间或办公室等)的冲激响应或传递函数。混响环境的冲激响应可以通过某种特别的装置提前测量得到，也可以通过其它装置单独估计得到。然后利用这个已知的混响环境冲激响应，估计逆滤波器，实现对混响信号的反卷积，从而实现去混响。这类装置的问题是，混响环境的冲激响应往往很难提前获得，且求取逆滤波器的过程本身可能引入新的不稳定因素。另一类去混响装置，不需要估计混响环境的冲激响应，因此不需要计算逆滤波器和进行逆滤波运算，也被称为盲去混响装置。这类装置通常基于语音模型假设，比如混响导致接收的浊音激励脉冲发生变化，使得周期性变得不那么明显，从而影响语音清晰度。这类装置一般基于LPC (Linear Prediction Coding,线性预测编码)模型,假定产生语音的模型是一个全极点模型，而混响或其它加性噪声在整个系统中引入了新的零点，从而干扰了浊音激励脉冲，但并不影响全极点滤波器。去混响装置是估计信号的LPC残差，然后按照基因同步粹发准则(pitch-synchronous clustering criterion)或峰度(Kurtosis)最大化准则等，来估计干净的脉冲激励序列，从而实现去混响。这类装置的问题是计算复杂度往往非常高，且对于混响只影响全零点滤波器的假设，与实验分析存在不相符的情况。利用谱减法去混响是一个较佳的方案，语音信号包括直达声、早期反射声和晚期反射声，采用谱减法将晚期反射声的功率谱从整个语音的功率谱中除去能够提高语音质量。但其中的关键问题在于晚期反射声的谱的估计，即如何获得比较准确的晚期反射声的功率谱，从而在将晚期反射声的成份有效去除的同时又不损伤语音。在单通道语音去混响中，因为只有一路麦克风信息可用，因此估计混响环境的传递函数或估计混响时间(RT60)非常困难。

实用新型内容本实用新型提供的一种单通道语音去混响的装置，以解决单通道语音去混响中估计混响环境的传递函数或估计混响时间困难的问题。本实用新型还公开了一种单通道语音去混响的装置，所述装置包括用于对输入的单通道语音信号进行分帧，按时间顺序向傅里叶变换器输出帧信号的分巾贞器；用于对接收的当前帧进行短时傅里叶变换，获得当前帧的功率谱和相位谱，向谱减器和谱估计器输出当前帧的功率谱，向傅里叶逆变换器输出当前帧的相位谱的傅里叶变换器；用于将当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧的功率谱进行线性叠加，估计出当前帧的晚期反射声的功率谱，向谱减器输出估计的当前帧的晚期反射声的功率谱的谱估计器；用于通过谱减法从傅里叶变换器获得的当前帧的功率谱中去除从谱估计器获得的当前帧的晚期反射声的功率谱，得到当前帧的直达声和早期反射声的功率谱，向傅里叶逆变换器输出当前帧的直达声和早期反射声的功率谱的谱减器；用于将从谱减器获得的当前帧的直达声和早期反射声的功率谱与从傅里叶变换器获得的当前帧的相位谱一起进行短时傅里叶逆变换，输出当前帧去混响后的信号的傅里叶逆变换器；所述分帧器与所述傅里叶变换器连接；所述傅里叶变换器与所述谱减器、所述谱估计器和所述傅里叶逆变换器连接；所述谱估计器与谱减器连接；所述谱减器与所述傅里叶逆变换器连接。较佳地，所述谱估计器具体用于，依据晚期反射声的衰减特性设置所述时长范围的上限值。较佳地，所述谱估计器具体用于，依据语音相关特性及直达声和早期反射声在混响环境下的冲击响应分布区域设置所述时长范围的下限值。较佳地，所述谱估计器具体用于，选择所述时长范围的上限值为0. 3秒5秒之间的值。较佳地，所述谱估计器具体用于，选择所述时长范围的下限值为50毫秒 80毫秒之间的值。较佳地，所述谱估计器具体用于对于当前帧之前的、到当前帧的距离在所述设置的时长范围内的若干帧，应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加估计出当前帧的晚期反射声的功率谱。较佳地，所述谱估计器具体用于对于当前帧之前的、到当前帧的距离在所述设置的时长范围内的若干帧，应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加估计出当前帧的晚期反射声的功率谱。较佳地，所述谱估计器具体用于对于当前帧之前的、到当前帧的距离在所述设置的时长范围内的若干帧，应用自回归AR模型将这些帧的功率谱中全部成分进行线性叠加，并且应用滑动平均MA模型将这些帧的功率谱中直达声和早期反射声成分进行线性叠加，估计出当前帧的晚期反射声的功率谱。本实用新型实施例的有益效果是通过选取当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧，将这些帧的功率谱进行线性叠加估计出当前帧的晚期反射声的功率谱，能够不需估计混响环境的传递函数或混响时间，便可以估计出当前帧的晚期反射声的功率谱，进而利用谱减法进行去混响，简化了去混响的操作复杂度，使得实现更为简单；依据语音相关特性及直达声和早期反射声在混响环境下的冲击响应分布区域设置时长范围的下限值，能够在去除混响的同时更好保留有用的直达声和早期反射声，提高话音质量；依据晚期反射声的衰减特性设置时长范围的上限值，能够在保证估计的晚期反射声的功率谱的准确性的同时，减少叠加运算量；本实用新型实施例将上限值选择为0. 3秒5秒之间的值，该上限值为通过实验获得的门限值，在混响环境发生变化时，无需调整该上限值，都能够获得较好的去混响效果;本实用新型实施例将下限值设置在50毫秒 80毫秒之间，在混响环境变化时，无需改变下限值，便能够有效避开直达声和早期反射声进行叠加，使得叠加结果中基本不包含直达声和早期反射声，从而在去混响的同时保留有用的直达声和早期反射声，取得较好的话音质量。上述混响环境的变化包括从无混响的消声室到混响非常严重的大礼堂。

图1为本实用新型单通道语音去混响装置的结构图；图2为真实房间的冲激响应的示意图；图3为本实用新型单通道语音去混响装置具体实施方式
的结构图；图4为本实用新型实施效果示意图，图4 (a)为混响信号时域示意图，图4 (b)为去混响后的信号的时域示意图。
具体实施方式
为使本实用新型的目的、技术方案和优点更加清楚，下面将结合附图对本实用新型实施方式作进一步地详细描述。本实用新型的装置如图1所示，单通道语音去混响的装置包括如下器。用于对输入的单通道语音信号进行分帧，按时间顺序向傅里叶变换器200输出帧信号的分巾贞器100。用于对接收的当前帧进行短时傅里叶变换，获得当前帧的功率谱和相位谱，向谱减器400和谱估计器300输出当前帧的功率谱，向傅里叶逆变换器500输出相位谱的傅里叶变换器200。用于将当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧的功率谱进行线性叠加，估计出当前帧的晚期反射声的功率谱，向谱减器400输出估计的当前帧的晚期反射声的功率谱的谱估计器300。用于通过谱减法从傅里叶变换器200获得的当前帧的功率谱中去除从谱估计器300获得的当前帧的晚期反射声的功率谱,得到当前帧的直达声和早期反射声的功率谱，向傅里叶逆变换器500输出当前帧的直达声和早期反射声的功率谱的谱减器400。用于将从谱减器400获得的当前帧的直达声和早期反射声的功率谱与从傅里叶变换器200获得的当前帧的相位谱一起进行短时傅里叶逆变换，输出当前帧去混响后的信号的傅里叶逆变换器500。分帧器100与傅里叶变换器200连接；傅里叶变换器200与谱减器400、谱估计器300和傅里叶逆变换器500连接；谱估计器300与谱减器400连接；谱减器400与傅里叶逆变换器500连接。在混响环境中，麦克风采集到的信号x(t)，即单通道语音信号，是直达声和反射声的混合，可用如下混响模型表示X (t) = h*s (t) +n (t)其中，s(t)是从声源发出的信号，h是从声源位置到麦克风位置两点之间的房间冲激响应，*表示卷积运算，n(t)表示混响环境内的其它加性噪声。一个真实房间的冲激响应，如图2所示。可以将它划分为3个部分，直达峰hd、早期反射he和晚期反射hi。hd和s(t)的卷积可以简单地认为是声源发出的信号经过一定的延迟后在麦克风端的再现，对应于X(t)中的直达声部分。早期反射部分的冲击响应对应于hd之后一段时长的部分，该时长的结束时间点为50ms至80ms中的某个时间点。一般认为这一部分和s(t)卷积所产生的早期反射声对直达声有加强和改善音质的作用。晚期反射声部分的冲击响应是去除hd和he后房间冲激响应余下的长长的拖尾部分，这一部分与信号s(t)卷积所产生的反射声，就是会对听感造成影响的混响成份。去混响算法主要是去除这一部分的影响。因此，混响模型也可表示为X (t) = (hd+he) *s (t)+hl*s (t)+n (t)hi部分符合指数衰减模型，可用如下方程近似
权利要求1.一种单通道语音去混响装置，其特征在于，所述装置包括用于对输入的单通道语音信号进行分帧，按时间顺序向傅里叶变换器输出帧信号的分中贞器；用于对接收的当前帧进行短时傅里叶变换，获得当前帧的功率谱和相位谱，向谱减器和谱估计器输出当前帧的功率谱，向傅里叶逆变换器输出当前帧的相位谱的傅里叶变换器；用于将当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧的功率谱进行线性叠加，估计出当前帧的晚期反射声的功率谱，向谱减器输出估计的当前帧的晚期反射声的功率谱的谱估计器；用于通过谱减法从傅里叶变换器获得的当前帧的功率谱中去除从谱估计器获得的当前帧的晚期反射声的功率谱，得到当前帧的直达声和早期反射声的功率谱，向傅里叶逆变换器输出当前帧的直达声和早期反射声的功率谱的谱减器；用于将从谱减器获得的当前帧的直达声和早期反射声的功率谱与从傅里叶变换器获得的当前帧的相位谱一起进行短时傅里叶逆变换，输出当前帧去混响后的信号的傅里叶逆变换器；所述分帧器与所述傅里叶变换器连接；所述傅里叶变换器与所述谱减器、所述谱估计器和所述傅里叶逆变换器连接；所述谱估计器与谱减器连接；所述谱减器与所述傅里叶逆变换器连接。
专利摘要本实用新型公开一种单通道语音去混响装置，包括用于对输入的单通道语音信号进行分帧，按时间顺序输出帧信号的分帧器；用于对接收的当前帧进行短时傅里叶变换，获得当前帧的功率谱和相位谱的傅里叶变换器；用于将当前帧之前的、到当前帧的距离在设置的时长范围内的若干帧的功率谱进行线性叠加，估计出当前帧的晚期反射声的功率谱的谱估计器；用于通过谱减法从功率谱中去除晚期反射声的功率谱，得到直达声和早期反射声的功率谱的谱减器；用于将去除后的功率谱与获得的当前帧的相位谱一起进行短时傅里叶逆变换，输出当前帧去混响后的信号的傅里叶逆变换器。本实用新型能够解决单通道语音去混响中估计混响环境的传递函数或估计混响时间困难的问题。
文档编号G10L21/0208GK202887704SQ20122028768
公开日2013年4月17日申请日期2012年6月18日优先权日2012年6月18日
发明者楼厦厦, 吴晓婕, 李波申请人:歌尔声学股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：楼厦厦;吴晓婕;李波
技术所有人：歌尔声学股份有限公司
我是此专利的发明人

上一篇：吉他拍锤的制作方法
上一篇：一种便携式聋人语言交流机的制作方法