一种基于相关性的非线性语音增强方法与流程

文档序号:11546310阅读:287来源:国知局

本发明属于语音通讯技术领域,尤其涉及语音增强技术。



背景技术:

语音通信过程中,发送端会话者发出的语音会受到来自其所在周围环境引入噪声的干扰,比如办公室内空调声音,电脑主机等风扇转动的声音等。在接收端接收到的语音已不再是发送端会话者的纯净语音,而是引入了各类噪声干扰的带噪语音,使接收端收听者收听到的语音辨识度降低。然而在诸多场合,尤其是在电话会议过程中,语音辨识度及语音质量需得到较好的保证,因此对语音进行增强是必要的,进来语音增强技术得到快速发展。

现有的语音增强方法中有一类是基于谱减思想的方法,该类方法将带噪语音频谱与估计得到的噪声频谱作差获得增强后的语音信号频谱,其算法复杂度低,计算量较小,但其缺点是利用谱减法进行语音增强后语音信号中噪声残留较严重。第二类是基于自适应滤波算法的语音增强技术,该类算法无法从根本上克服收敛速度和稳态误差之间的矛盾,且算法在信噪比较低的环境中效果较差。第三类是基于矩阵分解或模型学习类的语音增强方法,该类方法对于非平稳突发噪声的去除效果较优,但该类方法涉及的矩阵分解、模型训练学习等理论实现过程复杂,计算量要比前两类方法高出很多。基于上述,本发明公开一种新型的语音增强技术以克服现有技术的不足之处。



技术实现要素:

本发明目的在于提供一种基于相关性的非线性语音增强方法,在保证语音质量的前提下解决噪声去除不净等问题,并能在信噪比较低场景下得到较好的语音增强效果。

为了实现上述发明目的,本发明的技术方案如下:一种基于相关性的非线性语音增强方法,主要包括:步骤a:对语音预处理的带噪语音数据和估计噪声数据进行快速傅里叶变换,得到带噪语音帧的频谱和估计噪声帧的频谱;步骤b:信噪比及衰减增益计算,得到衰减增益;步骤c:带噪语音与噪声的相关性计算,计算得到带噪语音帧的频谱和估计噪声帧的频谱的互相关函数;步骤d:非线性衰减增益计算,得到非线性衰减增益;步骤e:语音增强处理,将衰减增益与步骤d中非线性衰减增益共同作用于带噪语音帧的频谱上,以实现语音增强的处理,得到纯净的语音信号频谱

优选的,步骤e后面还包括步骤f,用于快速傅里叶逆变换,对语音信号频谱进行已知的快速傅里叶逆变换,将信号从频域转换回时域:

优选的,步骤b进一步包括以下步骤:步骤b1:计算后验信噪比;步骤b2:计算信噪比更新系数,其中为前一帧带噪语音数据,参数可根据具体应用场景选取合适数值;步骤b3:计算先验信噪比;步骤b4:计算先验信噪比比例;步骤b5:利用超几何分布相关计算公式计算最佳衰减增益;步骤b6:计算衰减增益下限;步骤b7:计算得到衰减增益

优选的,步骤b2中所述参数常用的取值范围为[0.05,0.30]。参数可以取0.25。

优选的,步骤b5最佳衰减增益,其中为已知的gamma函数,为以自然常数为底的指数函数,分别为0阶和1阶bessel函数。

优选的,步骤b6中衰减增益下限,其中为以自然常数为底的指数函数。

优选的,衰减增益,其中为加权系数,可依据应用场景选取合适数值,常用的取值范围为[0.60,0.90]。

优选的,非线性衰减增益通过计算得到,其中,为常用的取较小值操作,即

优选的,非线性衰减增益的计算过程为:

本发明提供一种基于相关性的非线性语音增强方法,可以在较低计算量前提下,克服现有技术方法的不足,利用本发明的技术方案能够更彻底地去除带噪语音信号中的噪声成分,并可依据不同应用场景在去除噪声和保证语音音质两方面进行灵活折中,且本发明提供的技术方案可以在信噪比较低场景下得到较好的语音增强效果,而计算量相比于现有算法并无较大提升,易于实现并应用于实时传输的场景。

附图说明

图1为本发明具体实施方式中非线性语音增强方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明的基本原理是:一种非线性语音增强方法。本方法利用带噪语音信号和参考噪声信号的频域信息计算信噪比,利用该信噪比计算得到各频段的衰减增益值;然后再计算带噪语音信号与参考噪声信号的相关性,据此相关性对衰减增益值进行非线性调整,最后将调整后的衰减增益与带噪语音频谱相乘得到去除噪声干扰的纯净语音。

图1为本发明具体实施方式中非线性语音增强方法的流程图。下面结合图1,对本发明方法的具体实施步骤作进一步描述。

本发明关注在已知带噪语音和已知估计噪声的前提下,进行语音增强处理,而对于噪声的估计过程不加以叙述。

步骤1语音预处理:

对带噪语音和估计噪声进行分帧处理,通过加窗分帧处理得到待增强的带噪语音数据和估计噪声数据

其中,为窗函数,本实施实例中采用汉明(hamming)窗;加窗分帧处理是数字信号处理中常用而且必要的过程,数字信号运算处理单元每次可读取处理有限数量数字信号,利用窗函数将数字信号按每次可读取处理的数量进行分帧。

步骤2快速傅里叶变换:

对加窗处理得到的带噪语音和估计噪声进行已知的快速傅里叶变换,得到带噪语音帧的频谱和估计噪声帧的频谱:

其中为已知的快速傅里叶变换。

步骤3信噪比及衰减增益计算:

本步骤中对信噪比及衰减增益的估算借鉴y.ephraim和d.malah在“y.ephraimandd.malah,"speechenhancementusingminimummean-squareerrorshort-timespectralamplitudeestimator".ieeetransactionsonacoustics,speechandsignalprocessing,vol.assp-32,no.6,pp.1109-1121,1984.”中提出的经典算法,并对其算法进行改进与简化,对该计算过程仅进行简述,详细信息请参考上述原文:

1)首先计算后验信噪比

2)然后计算信噪比更新系数

其中为前一帧带噪语音数据,参数可根据具体应用场景选取合适数值,常用的取值范围为[0.05,0.30],本发明实例中选取为0.25;

3)计算先验信噪比

本步骤中利用1)中计算得到的后验信噪比和2)中计算得到的更新系数加权求和得到估算出的先验信噪比

4)利用3)计算得到的计算先验信噪比比例

5)利用超几何分布相关计算公式计算最佳衰减增益

其中为已知的gamma函数,为以自然常数为底的指数函数,分别为0阶和1阶bessel函数,有关bessel相关可参考williamj.lentz“besselfunctionsinmiescatteringcalculationsusingcontinuedfractions”;

6)计算衰减增益下限

其中同5)中所述,为以自然常数为底的指数函数,衰减增益下限为一正值,用来对求得的最佳衰减增益进行限制,若,则说明最佳衰减增益值过小,以至于增强后的语音会含有起伏的“音乐噪声”现象,故须利用的值加以限制,详见7)中运算过程;

7)计算得到衰减增益

其中为常用的取较大值操作,即

利用加以限制,并与进行加权求和再求平方得到衰减增益;其中为加权系数,可依据应用场景选取合适数值,常用的取值范围为[0.60,0.90],本发明实例中选取为0.75。

步骤4带噪语音与噪声的相关性计算

该步骤中先计算带噪语音信号的功率谱和估计噪声的功率谱,该步骤中涉及下角标表示复数量的实部,下角标表示复数量的虚部:

然后计算带噪语音信号和估计噪声的互功率谱

然后计算带噪语音信号和估计噪声的互相关函数

本发明旨在利用带噪语音信号与估计噪声的相关性加强语音增强的效果,本步骤中在频域利用带噪语音功率谱、估计噪声功率谱以及二者的互功率谱计算得到带噪语音信号与估计噪声的互相关函数。在语音处理过程中,带噪语音信号和估计噪声信号被视为统计独立的高斯变量,互相关函数能够表征带噪语音和估计噪声在不同频段内的相关程度,互相关函数值较大,说明带噪语音和估计噪声相关性较强,则表示带噪语音中无语音成分或语音成分较少,噪声成分占比较高;互相关函数值较小,说明带噪语音和估计噪声相关性较弱,则表示带噪语音中含有较多语音成分,使其与估计噪声表现出较弱的相关性。

步骤5非线性衰减增益计算

计算的均值

上式中为小于上限值的整数,根据不同的应用场景,值的选取可有所不同,比如在噪声集中于低频的场合,可选取较小值,而在噪声特性未知场合,可选取与上限值相同大小的值。比如,采样率为16khz,加窗预处理过程中帧长选为10ms,则一帧中的数据点数为160,采用帧叠方式进行快速傅里叶变换并求得互相关函数,则取值范围为0,...,159,若已知噪声集中分布于低频段0hz-4khz,则可将值选为79求取

根据所关注频段的相关性均值判定是否对当前帧施加非线性衰减增益,对比与相关性阈值,如果,说明在所关注频域段内,当前语音帧数据与估计噪声数据相关性较小,语音占主要成分,为保证语音音质不受到损害,则不施加非线性衰减增益,将非线性衰减增益置为1.0;如果,说明在所关注频域段内,当前语音帧数据与估计噪声数据相关性较大,噪声成分占主要,为更好地实现语音成分增强效果,需施加非线性衰减增益进一步去除噪声,非线性衰减增益通过计算得到,其中为常用的取较小值操作,即

使用是为保证,保证非线性衰减增益对于带噪语音起到衰减而非放大的效果。

综上,计算过程为:

其中可依据具体应用场景选择合适数值,该数值的选取也可视为在去除噪声干扰和保证语音音质间做出折中,若选取较大值,则依据上式,被置为1.0的概率增大,非线性衰减增益的作用减弱,在保证语音音质不受损伤的同时噪声会有所残留;若选取较小值,被置为1.0的概率减小,非线性衰减增益的作用增强,能够更好地去除噪声干扰,但若选取的值过小,非线性衰减增益作用过大,会对语音音质造成损伤。因此需根据具体应用场景选取合适数值,常用的取值范围为[0.70,0.80],本发明实例中取值为0.735。

步骤6语音增强处理

将步骤3计算得到的衰减增益与步骤5计算得到的非线性衰减增益共同作用于带噪语音频谱上实现语音增强处理:

带噪语音信号频谱在利用信噪比计算得到的衰减增益作用的基础上,进一步进行非线性衰减增益处理,利用此非线性衰减增益更好地去除噪声,得到更加纯净的语音

步骤7快速傅里叶逆变换

对经过增强处理得到的语音信号频谱进行已知的快速傅里叶逆变换,将信号从频域转换回时域:,得到增强后的时域语音信号,其中为已知的快速傅里叶逆变换。

上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1