本发明属于麦克风阵列语音增强技术领域,涉及一种基于相干性和能量比的鲁棒gsc方法。
背景技术:
近年来,随着人工智能的火热发展,语音作为人机交互的重要入口受到了广泛关注,国内外对于语音交互的研究又掀起了一个新的高潮。从亚马逊的智能音箱echo到小米的智能音箱小爱同学,再到百度的小度小度,这些语音交互产品都已经慢慢融入到了我们的生活,而且前端去燥主要用麦克风阵列来抑制噪声,达到语音增强的目的。麦克风阵列利用了语音信号的空间信息,比单通道语音信号有更多的空时信息,具有更高的增益、波束灵活性、抑制噪声能力强等优点。自从上个世纪七十年代以来,麦克风阵列技术已经广泛应用于语音增强,主要包括盲源分离、声源定位、去混响以及鸡尾酒会效应等。
自适应波束形成算法主要有最小方差无失真响应(minimumvariancedistortionlessresponse,mvdr)波束形成算法,线性约束最小方差(linearlyconstrainedminimunvariance,lcmv)波束形成算法和广义旁瓣消除(generalizedsidelobecancelling,gsc)波束形成算法,由于gsc把波束形成中的约束问题转化为无约束问题且不需要噪声的先验信息,在工程中应用广泛。在传统的gsc算法中,由于存在下支路期望信号泄露、麦克风不匹配、房间混响、语音段估计不准等问题,容易造成期望信号误消,为解决这一问题,sven等人提出仅在干扰噪声占据主导时更新自适应噪声相消器,hoshuyama提出用自适应阻塞矩阵输出来约束滤波器的更新,cohen等人提出从源信号到麦克风阵列的声学传递函数来避免期望信号对消,但仍存在不足。
技术实现要素:
有鉴于此,本发明的目的在于提供一种新的自适应滤波器系数更新算法,首先用固定波束形成(fbf)后的信号与原始信号求相干性,然后再用fbf后信号与原始信号在一定频率范围内求能量比,最后用信号的相干性和功率比来联合控制自适应噪声相消器的更新,从而进一步提升麦克风阵列算法对不同角度、不同噪声干扰的抑制,并提高鲁棒性。
为达到上述目的,本发明提供如下技术方案:
一种基于相干性和能量比的鲁棒gsc方法,包括以下步骤:
s1:在上支路部分使用超指向波束形成器输出期望信号,并与原始信号求相干性;
s2:使用延迟求和波束形成器输出信号,并与原始信号在一定频率范围内求信干能量比;
s3:用信号的相干性与能量比联合控制自适应噪声相消器(adaptivenoisecanceller,anc)上下的更新。
进一步,步骤s1中所述超指向波束形成器采用超指向波束形成算法,鲁棒性超指向权值矢量为
其中,φn为噪声的归一化协方差矩阵,im为m阶单位矩阵,ε为经验值常数,输出为
进一步,步骤s1中所述求相干性,具体包括:
超指向波束形成器输出后为防止对弱语音段的误判,进行帧间递归平滑,表示为:
其中,k为频点,
原始信号对齐后为:
其中,符号.*为点乘操作,
同理,对式(4)进行帧间递归平滑为:
对式(3)和(4)求相干取模值得到:
其中,ε为很小的常数,防止分母为零;
为防止频点间值突变,对式(6)频点平滑为:
式中,min为对大于1的值取值为1,conv为卷积操作,hanning为汉宁窗,l为频点平滑的点数,取l=5;
对相干性系数进行语音段判决,大于一定阈值判定为语音段,小于一定阈值判定为噪声段,中间值则进行线性映射,得到:
其中,speech_exist、noise_exist分别为语音、噪声存在判决阈值,取0.7和0.3。
进一步,步骤s2中,所述延迟求和波束形成器采用延迟求和波束形成算法,权值矢量表示为
wdsb=d(f,θ)/m(9)
输出为
进一步,步骤s2中,所述求信干能量比,具体包括:
固定波束形成器输出后,输出信号与原始对齐信号每帧能量分别为:
帧间递归平滑后为:
对每帧信号在一定频点范围内求能量和之比为:
其中,bins_a、bins_b为频点值,同理对能量比系数进行语音段判决得到:
进一步,步骤s3中,具体包括:
由式(10)和式(16)已经求出相干性和能量比的语音存在帧,联合自适应步长控制因子为
则基于相干性和能量比的改进gsc输出信号为
式中,
anc的权矢量通过nlms算法更新,归一化处理得到
其中,
本发明的有益效果在于:相比于传统的gsc算法,本方案具有更好的低频特性和波束指向性,通过相干性与能量比联合控制anc更新,防止了anc在语音段对期望信号的误消问题,具有更强的鲁棒性。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为传统gsc算法结构框图;
图2为本发明所述基于相干性和能量比的鲁棒gsc结构框图;
图3为不同背景噪声下三种gsc算法的pesq均值对比图;
图4为三种gsc算法的频域分段信噪比均值对比图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1所示,传统的gsc主要分为三个部分:第一部分是固定波束形成器(fixedbeamformer,fbf),称为上支路,主要作用为输出期望信号,一般会残留部分干扰噪声;第二部分是阻塞矩阵(blockingmatrix,bm),称为下支路,主要作用是阻塞期望信号的通过,留下参考噪声;第三部分是自适应噪声相消器(adaptivenoisecanceller,anc),上下支路的输出信号进入该相消器得到进一步增强后的信号。
固定波束形成算法主要有延迟求和波束形成(delayandsumbeamformer,dsb)和超指向波束形成(superdirectivebeamformer,spd),延迟求和波束形成算法是对每路信号在期望方向进行延迟补偿,再求和除以麦克风个数得到最后输出。超指向波束形成是最大化阵列指向性因子,比dsb有更好的指向性且具有更好的低频特性。不失一般性,假设圆阵有m个麦克风,则第m个麦克风接收到的信号为:
zm(t)=x(t-τm)+nm(t),m=1,2,...,m(1)
其中,x(t-τm),nm(t)和τm分别为第m个麦克风接收到的期望信号、干扰噪声和相对于参考位置的时延。
对语音分帧加窗,短时傅里叶变换得到
其中,
其中,
t为转置操作,j为虚数单位,ω为角频率,r为圆阵半径,θ为期望方向角速度,φ为麦克风相对于x轴的角度,c为麦克风相对于x轴的声速,d(f,θ)为阵列导向矢量。
延迟求和是最简单也是最容易实现的固定波束形成算法,在上述条件下,权值矢量可表示为wdsb=d(f,θ)/m(7)
输出为
超指向波束形成算法比传统的固定波束形成算法有更大的阵列增益和更好的低频特性,本发明的gsc上支路采用该算法,鲁棒性超指向权值矢量为
其中,φn为噪声的归一化协方差矩阵,im为m阶单位矩阵,ε为经验值常数,输出为
阻塞矩阵的作用就是阻塞期望信号的通过,留下干扰噪声,最常用的阻塞矩阵是griffiths-jim矩阵,定义为(m-1)×m维矩阵
阻塞矩阵输出为
由公式(8)和(12)得到gsc的输出信号为
式中,anc的权矢量一般通过nlms算法更新,归一化处理得到
其中
式中,γ为遗忘因子,μ为步长因子,上标*表示共轭。
在上述传统gsc算法框架上,本发明提出一种改进的鲁棒gsc算法,在上支路用鲁棒超指向固定波束形成器,并求出与原始信号的相干性。根据在语音段相干性高,在噪声段相干性低来控制anc的更新。由于fbf后会残留部分噪声,所以在部分噪声段也会有弱相干性,再用另外一个固定波束形成器与原始信号求信干能量比,语音段能量比大,噪声段能量比特别小,进一步控制anc的跟新,通过相干性和能量比联合控制anc更新,防止了anc在语音段对期望信号的误消问题,具有更强的鲁棒性。本文改进算法的结构框图如图2所示。
固定波束形成器1输出后为防止对弱语音段的误判,进行帧间递归平滑,表示为
原始信号对齐后为
同理,对式(17)进行帧间递归平滑为
其中α为平滑因子,符号.*为点乘操作。
对式(16)和(17)求相干取模值得到
其中,ε为很小的常数,防止分母为零。
为防止频点间值突变,对式(19)频点平滑为:
式中,min为对大于1的值取值为1,conv为卷积操作,hanning为汉宁窗,l为频点平滑的点数,一般取l=5。
对相干性系数进行语音段判决,大于一定阈值判定为语音段,小于一定阈值判定为噪声段,中间值则进行线性映射,得到:
其中,speech_exist、noise_exist分别为语音、噪声存在判决阈值,一般取0.7和0.3。
固定波束形成器2输出后,输出信号与原始对齐信号每帧能量分别为:
帧间递归平滑后为:
对每帧信号在一定频点范围内求能量和之比为:
其中,bins_a、bins_b为频点值,同理对能量比系数进行语音段判决得到:
由式(21)和式(27)已经求出相干性和能量比的语音存在帧,联合自适应步长控制因子为
则本实施例基于相干性和能量比的改进gsc输出信号为
本发明实施例画出期望信号在0度,音乐干扰在120度时的语音帧数存在图
如图3给出了在期望方向角度为0°、干扰角度为120°时四种背景噪声下的pesq值。从图中可以得到,传统gsc和gsc-nbf对pesq有一定的提升,本发明的算法(gsc-cp)在各种噪声条件下对pesq提升明显,特别是在人声干扰情况下。
图4中可以看出,本发明算法在各个背景噪声场景中频域分段信噪比提升明显,尤其是在高信噪比情况下。其它两种算法提升效果有限,原因可能是期望信号的误消和干扰噪声抑制不彻底。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。