一种单通道语音增强的方法和系统的制作方法

文档序号:2818954阅读:929来源:国知局
专利名称:一种单通道语音增强的方法和系统的制作方法
技术领域
本发明涉及语音技术领域,特别是涉及一种单通道语音增强的方法和系统。
背景技术
语音增强技术应用于噪声环境下的语音通信,可以提高通话质量;应用于人机对话,可以提高识别正确率。在人们的日常生活的各种噪声环境下,人们往往更希望获取经过降噪处理后的语音信息。传统的单通道(麦克)语音增强技术,如谱减法、维纳滤波等方法, 都是先估计噪声幅值或能量,再直接将其从带噪语音中减去。上述方法对于平稳噪声如白噪声,可以达到一定的效果,然而对于诸如非目标人说话的噪声、音乐噪声等非平稳噪声, 则可能造成较严重的语音损伤,可以看出,噪效果是跟噪音的类型是有关系的。近年来,基于听觉场景分析的语音处理技术的研究日趋活跃。听觉场景分析 (Auditory Scene Analysis)是指人类的听觉系统能够从复杂的混合声音中选择并跟踪某一说话人的声音。听觉系统利用声音的各种特性(时域、频域、空间位置等),通过自下而上 (分解)和自上而下(学习)的双向信息交流,对现实世界的混合声音进行分解,使各成分归属于各自的物理声源。此后,人们尝试用计算机模拟人的这种听觉特性,产生了计算听觉场景分析 (Computational Auditory Scene Analysis,CASA)方法。既然是模拟人的一种生理机能, 就需要对人耳的生理结构及声音进入人耳、引起神经冲动并由听神经传导、人脑的处理机能做一些了解并用计算机算法的形式模拟实现。针对计算机对人耳听觉特性的模拟,现有技术只公开了双通道语音的增强方法,并没有出现单通道语音增强技术。总之,需要本领域技术人员迫切解决的一个技术问题就是如何能够提供一种单通道语音增强的方法及系统,降低对目标语音信号的损伤,并在多种噪声环境下,均能实现较好的去噪效果并保持较高的语音质量。

发明内容
本发明所要解决的技术问题是提供一种单通道语音增强的方法和系统,可以降低对目标语音信号的损伤,并在多种噪声环境下,均能实现较好的去噪效果并保持较高的语
音质量。为了解决上述问题,本发明公开了一种单通道语音增强的方法,其特征在于,包括通过语音激活检测从带噪语音信号中提取噪声信号;通过外围分析分别对带噪语音信号和噪声信号进行外耳、内耳和中耳的模拟处理;通过特征提取获取模拟处理后的带噪语音信号和噪声信号的每一个时频单元的言旨量差;对每一个时频单元的能量差生成不同的掩蔽值并进行加权,得到掩蔽处理信号;
利用 掩蔽处理信号和模拟处理后的带噪语音信号进行语音信号的重建,获得语音增强信号。优选的,所述通过语音激活检测从带噪语音信号中提取噪声信号,包括依据前一帧的能量谱,对当前帧带噪语音信号的能量谱进行迭代更新,更新方法为σ (m) = α x(m) |2+(1_α ) σ (m-1);如果当前帧的前一帧的语音激活检测的判决结果不为噪声,则当前帧的噪声能量与前一帧的噪声能量谱相同;如果当前帧的前一帧的语音激活检测的判决结果为噪声,则对当前帧的噪声能量进行迭代更新,更新方法为λ (m) = β x(m) |2+(1-β) λ (m-1);依据带噪语音信号的能量谱和噪声能量谱计算每一帧的后验信噪比,当所述后验信噪比小于预置阈值时,将当前帧的带噪语音信号作为噪声并进行提取;其中,σ (m)为经迭代更新的第m帧带噪语音信号的能量谱,λ (m)是经迭代更新的第m帧噪声能量谱,x(m)为第m帧带噪语音信号,α和β分别为迭代因子。优选的,将前5帧带噪语音信号作为噪声;前3帧带噪语音信号的能量谱平均值作为噪声能量谱的初始值;第4帧带噪语音信号的能量谱值作为带噪语音的能量谱的初始值;从第4帧开始,对当前帧带噪语音信号的能量谱ο (m)进行迭代更新。优选的,所述对带噪语音信号和噪声信号进行外耳的模拟处理,具体为头相关传输函数取值为1。优选的,所述对带噪语音信号和噪声信号进行内耳的模拟处理,具体为将带噪语音信号和噪声信号分别与gammatone滤波器组的滤波函数g(c,η)进行离散时间卷积处理 Wi (c,n) = yi(n)*g(C,n)i = 1,2 ;c = 1,2,...,128 ;其中,71 (η)为带噪语音信号,y2 (η)为噪声信号,Y1 (c, η)为内耳模拟处理后的带噪语音信号,Y2 (C, η)为内耳模拟处理后的噪声信号;
\tN-1 exp(-2^c0 οο^(2π fct + φχ if t>0咖,0 卞else .ERB (fc) = 24. 7 (4. 37fc/1000+l), bc = 1. 019ERB (fc);c为频率通道数,N是滤波器的阶数,b。是与频率带宽相关的衰减因子,fc是第c 个频率通道的中心频率,Φ。是相位值,ERB为频率带宽。优选的,所述对带噪语音信号和噪声信号进行中耳的模拟处理,具体为将带噪语音信号和噪声信号分别乘以中耳系数后,再分别与增益因子进行卷积处理;其中,中耳系数midEarCoeff = 10. Ophon720'0 ;phon = (loudnesslevellnphones (cf, IoudFunc) _DB),DB = 60 ;loudnesslevellnphones (fc, IoudFunc)为等响度曲线 IoudFunc 在中心频率 fc 处对应的响度值。优选的,所述通过特征提取获取模拟处理后的带噪语音信号和噪声信号的每一个时频单元的能量差,具体为
权利要求
1.一种单通道语音增强的方法,其特征在于,包括 通过语音激活检测从带噪语音信号中提取噪声信号;通过外围分析分别对带噪语音信号和噪声信号进行外耳、内耳和中耳的模拟处理; 通过特征提取获取模拟处理后的带噪语音信号和噪声信号的每一个时频单元的能量差;对每一个时频单元的能量差生成不同的掩蔽值并进行加权,得到掩蔽处理信号; 利用掩蔽处理信号和模拟处理后的带噪语音信号进行语音信号的重建,获得语音增强信号。
2.如权利要求1所述的方法,其特征在于,所述通过语音激活检测从带噪语音信号中提取噪声信号,包括依据前一帧的能量谱,对当前帧带噪语音信号的能量谱进行迭代更新,更新方法为 σ (m) = α |x(m) |2+(1_α) σ (m_l);如果当前帧的前一帧的语音激活检测的判决结果不为噪声,则当前帧的噪声能量与前一帧的噪声能量谱相同;如果当前帧的前一帧的语音激活检测的判决结果为噪声,则对当前帧的噪声能量进行迭代更新,更新方法为 λ (m) = β x(m) 2+(1-β) λ (m-1);依据带噪语音信号的能量谱和噪声能量谱计算每一帧的后验信噪比,当所述后验信噪比小于预置阈值时,将当前帧的带噪语音信号作为噪声并进行提取;其中,σ (m)为经迭代更新的第m帧带噪语音信号的能量谱,λ (m)是经迭代更新的第 m帧噪声能量谱,x(m)为第m帧带噪语音信号,α和β分别为迭代因子。
3.如权利要求2所述的方法,其特征在于, 将前5帧带噪语音信号作为噪声;前3帧带噪语音信号的能量谱平均值作为噪声能量谱的初始值; 第4帧带噪语音信号的能量谱值作为带噪语音的能量谱的初始值; 从第4帧开始,对当前帧带噪语音信号的能量谱ο (m)进行迭代更新。
4.如权利要求1所述的方法,其特征在于,所述对带噪语音信号和噪声信号进行外耳的模拟处理,具体为头相关传输函数取值为1。
5.如权利要求4所述的方法,其特征在于,所述对带噪语音信号和噪声信号进行内耳的模拟处理,具体为将带噪语音信号和噪声信号分别与gammatone滤波器组的滤波函数g(c,η)进行离散时间卷积处理 Wi (c,n) = yi(n)*g(c,n)i = 1,2 ;c = 1,2,. . .,128 ;其中,Y1(Ii)为带噪语音信号,y2(η)为噪声信号,Y1 (c, η)为内耳模拟处理后的带噪语音信号,Y2 (c, η)为内耳模拟处理后的噪声信号;g(c t) = I广1 exp(-2^c0fct + φχ if t>0 ' [θ,else.ERB (fc) = 24. 7 (4. 37fc/1000+l), bc = 1. 019ERB (fc);c为频率通道数,N是滤波器的阶数,b。是与频率带宽相关的衰减因子,fc是第c个频率通道的中心频率,Φ。是相位值,ERB为频率带宽。
6.如权利要求5所述的方法,其特征在于,所述对带噪语音信号和噪声信号进行中耳的模拟处理,具体为将带噪语音信号和噪声信号分别乘以中耳系数后,再分别与增益因子进行卷积处理; 其中,中耳系数 midEarCoeff = 10. Ophon720'0 ; phon = (loudnesslevellnphones(cf, IoudFunc)-DB),DB = 60 ; IoudnesslevelInphones (fc, IoudFunc)为等响度曲线 IoudFunc 在中心频率 fc 处对应的响度值。
7.如权利要求6所述的方法,其特征在于,所述通过特征提取获取模拟处理后的带噪语音信号和噪声信号的每一个时频单元的能量差,具体为
8.如权利要求1所述的方法,其特征在于,所述对每一个时频单元的能量差加权不同的掩蔽值,具体为每一个时频单元对应的能量差越大,加权的掩蔽值越大;每一个时频单元对应的能量差越小,加权的掩蔽值越小。
9.如权利要求1所述的方法,其特征在于,生成掩蔽值后,还包括对掩蔽值进行平滑处理,使相邻的时频单元经加权后的掩蔽处理信号相连续。
10.一种单通道语音增强的系统,其特征在于,包括语音激活检测模块,用于通过语音激活检测从带噪语音信号中提取噪声信号; 外围分析模块,用于通过外围分析分别对带噪语音信号和噪声信号进行外耳、内耳和中耳的模拟处理;特征提取模块,用于通过特征提取获取模拟处理后的带噪语音信号和噪声信号的每一个时频单元的能量差;掩蔽处理模块,用于对每一个时频单元的能量差生成不同的掩蔽值并进行加权,得到掩蔽处理信号;语音重建模块,用于利用掩蔽处理信号和模拟处理后的带噪语音信号进行语音信号的重建,获得语音增强信号。
11.如权利要求10所述的系统,其特征在于,所述掩蔽处理模块还包括掩蔽平滑子模块,用于对掩蔽值进行平滑处理,使相邻的时频单元经加权后的掩蔽处理信号相连续。
全文摘要
本发明提供了一种单通道语音增强的方法和系统,所述方法包括通过语音激活检测从带噪语音信号中提取噪声信号;通过外围分析分别对带噪语音信号和噪声信号进行外耳、内耳和中耳的模拟处理;通过特征提取获取模拟处理后的带噪语音信号和噪声信号的每一个时频单元的能量差;对每一个时频单元的能量差生成不同的掩蔽值并进行加权,得到掩蔽处理信号;通过对掩蔽处理信号和模拟处理后的带噪语音信号进行语音信号的重建,获得语音增强信号。本发明可以降低对目标语音信号的损伤,并在多种噪声环境下,均能实现较好的去噪效果并保持较高的语音质量。
文档编号G10L21/02GK102157156SQ201110067058
公开日2011年8月17日 申请日期2011年3月21日 优先权日2011年3月21日
发明者梁维谦, 胡奎, 董保帅, 陈卓 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1