一种增强目标语音的装置及其方法与流程

文档序号：11202382阅读：1489来源：国知局

本发明涉及语音信号处理技术领域，具体地，涉及一种基于声学矢量传感器高阶波束形成技术增强目标语音的装置及其方法。

背景技术：

在实际环境中，麦克风在拾取语音信号时，不可避免地会受到来自周围环境噪声、传输媒介噪声、通信设备内部电噪声、房间混响以及其它说话人的话音干扰，因此拾取语音的质量受到影响。语音增强技术是语音处理领域的核心技术之一，能够实现从带噪语音中提取干净的目标语音，以改善接收端语音质量，提高语音的清晰度、可懂度和舒适度，使人易于接受或提高语音处理系统的性能。

基于单个麦克风的语音增强技术的研究已经有四十多年的历史。但是实际情况中，噪声总是来自于四面八方，且其与语音信号在时间和频谱上常常是相互交叠的，再加上回波和混响的影响，利用单麦克风增强感兴趣的声音并有效抑制背景噪声和方向性强干扰是相当困难的。引入麦克风阵列技术后，语音增强技术取得了很大突破。相比传统的单一麦克风语音增强技术，麦克风阵列语音增强技术可以利用语音信号的空间信息来形成波束，实现对干扰噪声的消除，能够保证在语音信息损失最小的条件下实现噪声抑制(j.benesty,s.makino,andj.e.chen,speechenhancement.berlin,.germany:springer,2005.)。因此近十多年来，麦克风阵列语音增强技术已成为了语音增强技术的研究热点和关键技术。然而，目前大多数的麦克风阵列语音增强技术的性能都是正比于阵列所用麦克风数目的，因此该种技术的研究往往采用较多麦克风的阵列，有的麦克风阵列甚至使用数百个麦克风，而较多的麦克风数目造成麦克风阵列的体积也较大，最典型的案例是mit搭建的用于噪声消除和语音增强的麦克风阵列使用了1020个麦克风，其阵列孔径有几米长。因此麦克风阵列技术噪声抑制性能虽好，但由于其设备体积大，算法运算复杂度高，故在实际应用时受到了许多限制。

声学矢量传感器(acousticvectorsensor，avs)作为音频信号采集器。与常用的声压麦克风相比，avs在结构上具有其特殊性：一颗avs由2到3个正交放置的压力梯度传感器和1个全向压力传感器构成(a.nehoraiande.paldi,"vector-sensorarrayprocessingforelectromagneticsourcelocalization,"signalprocessing,ieeetransactionson,vol.42,pp.376-398,1994.)，它的空间结构紧凑，传感器近似同位放置，各个传感器接收到的音频信号无时延差别。对于理想的avs，各通道接收信号存在三角函数关系，因此，仅单颗avs就能够实现单个或者多个的空间声源到达方向的估计。随着移动互联网和智能机器人等应用需求的不断增长，具有更小体积的avs，必将使之在众多场景中替代常规麦克风阵列技术，成为未来音频传感和噪声抑制的最佳解决方案之一。

为便于描述，以二维场景为例进行说明，即只利用avs中2个正交同位放置的压力梯度传感器采集音频信号的场景。实际应用中，可同理推广至三维场景或利用更多传感器的情形。在二维场景下，其梯度传感器输出的信号模型可表示为：

其中xavs(t)＝[xu(t)xv(t)]^t是avs的输出信号，navs(t)＝[nu(t)nv(t)]^t是传感器稳态背景噪声，s(t)是目标声源信号，ni(t)为干扰源信号，i为干扰源的数目。a(φs)＝[usvs]^t＝[cosφssinφs]^t是目标声源的导向矢量，同理干扰源的导向矢量为a(φi)＝[uivi]^t＝[cosφisinφi]^t。

基于avs的空间匹配波束形成器(spacialmatchedfilter，smf)的输出可表示为：

smf波束形成器(k.t.wong,h.chi,"beampatternsofanunderwateracousticvectorhydrophonelocatedawayfromanyreflectingboundary,"ieeejournalofoceanicengineering,vol.27,no.33,pp.628-637,july2002)能够在目标方向形成波束，其权值矢量与目标信号源的导向矢量的指向是一致的。当对目标信源到达角度φs方向进行波束形成时，smf的权值ws通常的解表示为：

ws＝a(φs)/(||a^h(φs)||||a(φs)||)(3)

该波束形成器对任意角度φ的声源，波束响应可表示为：

由波束响应可知smf波束形成器能够一定程度抑制非目标方向的干扰声源，但是由于smf的目标波束较宽，对干扰方向的抑制效果十分有限，难以满足实际应用。

技术实现要素：

本发明的目的在于克服单通道语音增强方法由于无法利用声源的空间方位信息难以抑制空间干扰噪声以及传统麦克风阵列的语音增强方法受限于阵列体积过大和计算复杂难以便携设备的缺陷和不足，提供一种增强目标语音的装置，该装置能够利用声源方位信息有效抑制空间干扰源和背景噪声，对目标方向语音加以增强，增强后的目标语音失真度小，听觉感知评价得分较高；同时该装置具有较低的计算复杂度，极具在小型设备上的应用和推广优势。

为了达到上述目的，本发明提供一种增强目标语音的装置，所述装置包括用于采集音频信号的声学矢量传感器，所述装置还包括：

高阶空间匹配波束形成器，用于进一步收窄空间匹配波束形成器的目标波束；

零陷滤波器，用于对非目标方向的干扰声源进行自动跟踪或者定位，并调整所述高阶空间匹配波束形成器在主要干扰方向形成零陷；

后置维纳滤波器，用于滤除残余噪声；

所述声学矢量传感器将采集到的音频信号通过依次相连接的所述高阶空间匹配波束形成器、零陷滤波器以及后置维纳滤波器进行波束处理，即对于提取的目标方向语音信号首先通过所述高阶空间匹配波束形成器对其进行波束进一步收窄处理，其次通过所述零陷滤波器对收窄后的波束在主要干扰方向形成零陷，最后利用所述后置维纳滤波器滤除残余噪声，从而获得增强的目标方向语音。

根据本发明的一个实施例，所述高阶空间匹配波束形成器在任意时频下的权值whos为：

其中，为所述高阶空间匹配波束形成器的高阶系数，φs为目标声源的到达角度，a(φs)为目标声源的导向矢量，φ为起主要作用的声源到达角度。

根据本发明的一个实施例，当噪声水平较小时，所述高阶空间匹配波束形成器在任意时频(k,l)下的权值whos(φs,φ,bwn,k,l)为：

其中，为所述高阶空间匹配波束形成器的高阶系数，φs为目标声源的到达角度，a(φs)为目标声源的导向矢量，φ为起主要作用的声源到达角度，γuv(k,l)为所述声学矢量传感器接收信号的u通道和v通道分量数据比。

根据本发明的一个实施例，所述其中，a取值为4，b取值为16，tr为目标语音的功率

占空间总信号功率的比率。

根据本发明的一个实施例，所述零陷滤波器在任意时频(k,l)下的权值wni(φi,φ,bwni,k,l)为：

其中，φi为主要干扰声源的到达角度，φ为起主要作用的声源到达角度，φd(k,l)＝φ，bwni根据经验取值为128。

根据本发明的一个实施例，所述后置维纳滤波器在任意时频(k,l)下的权值wpf(k,l)为：

其中，利用所述高阶空间匹配波束形成器和零陷滤波器对接收信号的各通道信号做波束形成处理，并提取初步增强的目标语音时频谱，其输出为ys，利用空间匹配波束形成器对接收信号的各通道原始信号做固定波束形成处理，其输出为ym，为ys和ym的互功率谱，为ym的自功率谱。

本发明的另外一个目的还在于提供一种增强目标语音的方法，所述方法包括以下步骤：

a1：对声学矢量传感器中的各梯度传感器输出数据加窗分帧，进行短时傅里叶变换，分别得到各通道传感器的时频谱数据；

a2：根据所述步骤a1中得到的各通道时频谱数据获得各通道传感器间的相互数据比isdr，并根据所得的isdr值求得任意时频点占支配地位的声源到达角度估计；

a3：对所述步骤a1中所得的各通道时频谱数据计算声源功率谱的空间分布，并利用目标方向的功率谱与空间总功率谱的比率配置高阶空间匹配滤波阶数；

a4：在短时傅里叶变换域，根据所述步骤a2获得目标声源到达角度和各时频点处占支配地位的声源到达角度，以及根据所述步骤a3中获得的所述滤波阶数，计算空间匹配波束形成器的高阶系数，完成高阶空间匹配波束形成器的设计；

a5：根据所述步骤a3中的声源功率谱的空间分布信息进一步获得主要干扰声源的到达角度；

a6：根据所述步骤a5中获得的主要干扰声源的到达角度以及根据所述步骤a2获得各时频点处占支配地位的声源到达角度，从而获得零陷滤波系数，完成零陷滤波器的设计；

a7：利用所述步骤a4设计的高阶空间匹配波束形成器以及所述步骤a6设计的零陷滤波器对所述步骤a1中各通道原始数据进行滤波，并提取初步增强的目标声源的时频谱；再根据目标声源到达角度获得固定波束形成器权向量，对所述步骤a1中的各通道原始数据进行固定波束形成；从而获得后置维纳滤波器的权值，完成后置维纳滤波器的设计；

a8：通过所述步骤a7设计的所述后置维纳滤波器对所述固定波束形成器的输出进行滤波，并对滤波后的数据进行傅里叶反变换，用叠接相加法重建增强后的目标声源时域信号。

根据本发明的一个实施例，所述步骤a7中，所述固定波束形成器的输出为所述后置维纳滤波器的输入，并利用所述高阶空间匹配波束形成器和零陷滤波器对接收信号的各通道信号做波束形成处理，并提取初步增强的目标语音时频谱，获得信号输出为ys；利用所述空间匹配波束形成器对接收信号的各通道原始信号做固定波束形成处理，获得信号输出为ym；将ys和ym的互功率谱作为分子，将ym的自功率谱作为分母，两者比值即为所述后置维纳滤波器的权值。

根据本发明的一个实施例，所述步骤a2中，根据获得各通道传感器间的相互数据比isdr值，利用三角函数关系求得任意时频点占支配地位的声源到达角度估计。

本发明相对于现有技术，具有以下有益效果：本发明增强目标语音的装置及其方法能够在多人说话的环境下有效地增强目标方向的语音，抑制干扰语音，同时抑制背景噪声；其次，本发明采用声学矢量传感器采集语音信号，体积小，易于在小型设备上集成，同时算法复杂度较低，易于实时运行在运算能力有限的嵌入式平台上；最后本发明的目标语音增强方法不依赖任何先验知识，实用性和可靠性强。

附图说明

图1是本发明增强目标语音的装置的结构示意图；

图2为本发明实施例示意图；

图3为本发明实施例示意图；

图4为本发明实施例示意图。

具体实施方式

下面结合实施例及附图，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

如图1所示为本发明一种增强目标语音的装置的结构示意图，该装置包括用于采集音频信号的声学矢量传感器、用于进一步收窄空间匹配波束形成器的目标波束的高阶空间匹配波束形成器、用于对非目标方向的干扰声源进行自动跟踪或者定位，并调整所述高阶空间匹配波束形成器在主要干扰方向形成零陷的零陷滤波器以及用于滤除残余噪声的后置维纳滤波器。该声学矢量传感器将采集到的音频信号通过依次相连接的高阶空间匹配波束形成器、零陷滤波器以及后置维纳滤波器进行波束处理，即对于提取的目标方向语音信号首先通过高阶空间匹配波束形成器对其进行波束进一步收窄处理，其次通过零陷滤波器对收窄后的波束在主要干扰方向形成零陷，最后利用后置维纳滤波器滤除残余噪声，从而获得增强的目标方向语音。

本发明还提供了一种增强目标语音的方法，该方法包括以下步骤：

a1：对声学矢量传感器中的各梯度传感器输出数据加窗分帧，进行短时傅里叶变换，分别得到各通道传感器的时频谱数据；

a2：根据步骤a1中得到的各通道时频谱数据获得各通道传感器间的相互数据比isdr，并根据所得的isdr值利用三角函数可以求得任意时频点占支配地位的声源到达角度估计；

a3：对步骤a1中所得的各通道时频谱数据计算声源功率谱的空间分布，并利用目标方向的功率谱与空间总功率谱的比率配置高阶空间匹配滤波阶数；

a4：在短时傅里叶变换域，根据步骤a2获得目标声源到达角度和各时频点处占支配地位的声源到达角度，以及根据步骤a3中获得的所述滤波阶数，计算空间匹配波束形成器的高阶系数，完成高阶空间匹配波束形成器的设计；

a5：根据步骤a3中的声源功率谱的空间分布信息进一步获得主要干扰声源的到达角度；

a6：根据步骤a5中获得的主要干扰声源的到达角度以及根据步骤a2获得各时频点处占支配地位的声源到达角度，从而获得零陷滤波系数，完成零陷滤波器的设计；

a7：利用步骤a4设计的高阶空间匹配波束形成器以及步骤a6设计的零陷滤波器对步骤a1中各通道原始数据进行滤波，并提取初步增强的目标声源的时频谱；再根据目标声源到达角度获得固定波束形成器权向量，对步骤a1中的各通道原始数据进行固定波束形成；从而获得后置维纳滤波器的权值，完成后置维纳滤波器的设计；本发明实施例中，固定波束形成器的输出为后置维纳滤波器的输入，并利用高阶空间匹配波束形成器和零陷滤波器对接收信号的各通道信号做波束形成处理，并提取初步增强的目标语音时频谱，获得信号输出为ys；利用空间匹配波束形成器对接收信号的各通道原始信号做固定波束形成处理，获得信号输出为ym；将ys和ym的互功率谱作为分子，将ym的自功率谱作为分母，两者比值即为后置维纳滤波器的权值。

a8：通过步骤a7设计的所述后置维纳滤波器对所述固定波束形成器的输出进行滤波，并对滤波后的数据进行傅里叶反变换，用叠接相加法重建增强后的目标声源时域信号。

本发明的增强目标语音的装置中的高阶空间匹配波束形成器设计如下，其滤波器权值为(针对三维的声学矢量传感器为例)：

其中，为高阶空间匹配波束形成器的高阶系数，φs为目标声源的到达角度，a(φs)为目标声源的导向矢量，φ为起主要作用的声源到达角度。

则高阶空间匹配波束形成器的波束响应为：

由此可见，其波束的宽度仅与bwn有关，并随着bwn的增大而变窄，通过设置不同的bwn值能够得到理想的波束宽度，进而抑制干扰噪声并增强目标语音。其具体实现方式如下：

如图2所示为两个纯净的语音信号，二者的空间夹角为45°，如图3为声学矢量传感器的u通道和v通道拾取的混合语音信号。以16khz的采样率对声学矢量传感器接收的信号进行采样，并进行加窗分帧，分帧短时窗采用汉宁窗，窗长k＝1024采样点，傅里叶变换点数也为k，帧移50％，得到各通道的时频谱数据：

其中，k为傅里叶变换的频率指数，l是短时帧序号。

定义u通道传感器与v通道传感器之间的分量数据比(intersensordatarate，isdr)如下式：

同理，u通道传感器与o通道传感器间分量数据比如下式：

根据研究(李波，基于信号稀疏性的声学矢量传感器doa估计方法研究，硕士学位论文，北京大学，2012)，语音信号在短时傅里叶域具有较好的稀疏性。当一段语音有多个说话人出现时，仍会有某些语音片段只有一个说话人处于活跃状态而其他所有的说话人处于静音状态(短暂停顿或停歇)。即使在多个说话人同时处于活跃状态的片段，不同说话人的语音信号能量在频域仍有可能占据不同的离散频率。在某个具体的时频点，可以近似的认为至多只有一个信源占支配地位，其它信源的影响可以忽略。将此性质称作语音的时频域稀疏性。根据时频稀疏性假设，在时频数据点(k,l)处至多只有一个信源占支配地位，不妨用sd(k,l)表示该信源，导向矢量ad(φd)＝[udvd]^t＝[cosφdsinφd]^t。考虑传感器稳态噪声远小于各声源的情况，有：

其中，ε表示分量数据比误差分量，该误差由假性噪声引起，且均值为零。该时频数据点(k,l)处信源doa角度与isdr有关。对γuv(k,l)求反余切，有

其中，σ大小与稳态噪声水平有关，当噪声水平较小时，近似认为：

其中，由于反余切函数的值域只能对应180°范围，为求得360°范围的φd角度，引入参数flag，其值由下式求得：

综上，对于任意信源的到达角度φ(k,l)在时频点(k,l)上的短时状态，可以用φd(k,l)来估计，带入公式(5)，得：

对于bwn的取值，当环境干扰声源较强时，可采取较大bwn值，但不宜过大，过大的值会导致目标声源的信息缺失。可利用φd(k,l)计算信源功率谱的空间分布，根据目标语音功率占空间总信号功率的比率的情况，配置高阶空间匹配滤波阶数。本发明实施例中，采用如下方法配置高阶空间匹配滤波阶数。

首先计算空间总信号功率：

ew＝sum(xu(k,l)x^*u(k,l)+xv(k,l)x^*v(k,l))(17)

下面计算目标语音功率，因目标语音未知，所以用估算为：

其中ns为一个常数，与目标语音估计的精度有关，设置为256。于是，目标语音功率占空间总信号功率的比率为：

最后求得bwn为：

其中a和b的分别取值为4和16。

根据文献(石伟，基于声学矢量传感器的鲁棒doa估计方法研究与实现)的方法，对信源功率谱的空间分布信息进一步计算，得到主要干扰信源的到达角度估计φi，如实时更新则表示为φi(k,l)。参照高阶空间匹配波束形成器的设计思路，设计零陷滤波器如下：

其中，bwni的取值为128。

利用(16)所得高阶空间匹配波束形成器和(21)所得零陷滤波器对(7)(8)(9)各通道信号做波束形成处理，提取初步增强的目标语音时频谱，其输出为：

利用公式(3)中的smf波束形成期对各通道信号做固定波束形成处理，固定波束形成器输出为：

接下来描述后置维纳滤波器权值的计算。该后置维纳滤波器的输入是固定波束形成器的输出ym，计算ys和ym的互功率谱，作为后置滤波器权值计算公式的分子，即：

其中e[.]表示统计均值，可采用邻近m帧结果的平均值，m的适当取值能够有效降低音乐噪声并减少语音失真，但取值不宜过长，会影响语音清晰度。本发明中参数m取值为2。又固定波束形成器的输出的自功率谱为故后置维纳滤波器的权值计算公式具体可表示为：

最终的增强目标语音时频谱为：

y(k,l)＝wpf(k,l)ym(k,l)(26)

最后对y(k,l)进傅里叶反变换，采用叠接相加法(overlapadd)重建时域语音信号，即获得增强后的目标语音，如图4所示，为分别对两个目标信号方向增强的结果。

综上所述，本发明的增强目标语音的装置通过声学矢量传感器在空间匹配波束形成器的权值中引入高阶系数，设计高阶空间匹配波束形成器，进一步收窄空间波束形成器的目标波束，在提取目标方向语音的同时，较好地抑制波束外的各种干扰噪声。针对非目标方向的干扰声源，能够自动跟踪定位，并调整高阶波束形成器在主要干扰方向形成零陷，进一步抑制干扰声源。最后，利用后置维纳滤波器滤除残余噪声，获得增强的目标方向语音。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未违背本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：石伟;王鹏;邹月娴;谢友希;石刚;邹爱华
技术所有人：深圳海岸语音技术有限公司
我是此专利的发明人

上一篇：一种应用于智能导购的指纹识别类型镜子的制造方法与工艺
上一篇：一种用于汽车加工的固定装置的制造方法