基于差分阵列的声源方向定位方法与流程

文档序号:12120171阅读:336来源:国知局

本发明涉及声源定位技术领域,特指一种基于差分阵列的声源方向定位方法。



背景技术:

基于麦克风阵列的声源定位技术是近几年国内外的一项研究热点,它主要原理是:通过具有一定几何拓扑结构的麦克风阵列采集声源信号,通过阵列信号处理技术对语音信号进行处理和分析,从而确定声源位置。

目前,基于麦克风阵列的声源定位技术已广泛应用于许多领域,如视频会议、声音检测、语音增强、语音识别、说话人识别、智能机器人、监控监听系统、助听装置等。传统的声源定位算法主要有:

基于高分辨率谱估计的方法。该方法源于一些现代高分辨率估计技术,如自回归模型(AR,Auto Regressive)、最小方差谱估计(MV,Minimum Variance)、多重信号分类(MUSIC,Multiple Signal Classification)等,它们利用求解麦克风信号间的相关矩阵来定出方向角,从而进一步确定声源位置,这类方法有很强的分辨力,但是运算量极大,且不适用于近距离的定位。

基于时延估计(TDOA,Time Difference of Arrival)的技术。该方法首先求出声音到达不同位置麦克风的时间差,从而根据时间差用几何法来计算出声源位置;这类时延估计算法主要由广义互相关函数(GCC,Generalized cross correlation)时延估计算法和自适应最小均方时延(LMS,Least Mean Square)估计算法。比如专利名称为“麦克风间距测量方法和装置”(申请人:华为终端有限公司,专利号:CN101685153B)就属于这类技术。这类方法计算量小,实时性好,成本低易于实现,但是由于要先估计时延会造成二次估计上的误差,时延精度也易受到混响和噪声干扰的影响,鲁棒性较差。

需要指出的是,获取声源的准确方向是利用麦克风阵列进行语音增强处理的前提,所以声源方向(DoA,direction of arrival)估计是麦克风阵列中的重要课题,提出一种计算量小,声源方向估计准确的定位方法显得尤为重要。



技术实现要素:

本发明的目的在于克服现有技术的缺陷,提供一种基于差分阵列的声源方向定位方法,解决传统声源定位方法中存在的计算量极大、易受到混响和噪声干扰的影响以及鲁棒性较差的问题。

实现上述目的的技术方案是:

本发明提供了一种基于差分阵列的声源方向定位方法,包括如下步骤:

利用平面麦克风阵列录制环境声音形成输入信号,计算所形成的输入信号的协方差矩阵;

对输入信号的协方差矩阵进行特征值分解以获得最大特征值的特征向量作为目标声源,计算所述目标声源的协方差矩阵;

设计两个正交的N阶对偶差分阵列波束形成,并得到每一差分阵列波束形成的权重;

基于所述目标声源的协方差矩阵和每一差分阵列波束形成的权重计算得出声源方向候选项;

利用所述声源方向候选项计算出其余三个象限内的声源方向候选项并一起组成声源方向候选项数组;

对于所述声源方向候选项数组内的每一声源方向候选项利用延迟求和的波束形成方法进行波束形成,比较四个声源方向候选项所形成波束的能量,选取能量最大的声源方向候选项作为目标声源方向。

本发明的声源方向的定位方法,设计了两个正交的N阶对偶差分阵列波束形成,利用两个正交对偶差分阵列波束来计算声源方向,结合麦克风阵列获取的输入信号计算出的目标声源的协方差矩阵,能够快速计算得出声源方向。该声源方向的定位方法具有高效、计算量小,且准确度高的优点,是一种新的定位方法。

本发明基于差分阵列的声源方向的定位方法的进一步改进在于,基于所述目标声源的协方差矩阵和每一差分阵列波束形成的权重计算得出声源方向候选项,包括:

利用声源方向计算公式计算得到所述声音方向候选项,所述声音方向计算公式为:

式一中,θ为需计算的声源方向候选项,h0和h为设计的两个正交的N阶对偶差分阵列波束形成的权重,N为差分阵列波束形成的阶数,H为共轭转置操作,Rss为目标声源的协方差矩阵。

本发明基于差分阵列的声源方向的定位方法的进一步改进在于,对输入信号的协方差矩阵进行特征值分解通过如下公式进行:

Rxx=U∑U=[USUN]∑[USUN]H (式二)

式二中,Rxx为输入信号的协方差矩阵,U为特征向量矩阵,∑为特征值组成的对角阵,US为对应最大的特征值的特征向量,UN为其余特征值的特征向量,H为共轭转置操作。

本发明基于差分阵列的声源方向的定位方法的进一步改进在于,所述声源方向计算公式的推导方法包括:

将差分阵列波束方向图写成如下式子:

B(θ)=hH*d(θ) (式三)

式三中,h为两个差分阵列波束形成的权重中的一个,H为共轭转置操作,d(θ)为该方向的导向矢量;

当平面麦克风阵列中的麦克风间距足够小时,将式三写成麦克劳林级数形式:

特别的,令aN,N=1;aN,n=0,n<N,则由式四得到:

B(θ)=cosN(θ) (式五)

式四和式五中,N为差分阵列波束形成的阶数;

令差分阵列波束形成的输出信号为Y,输入信号为X,则得到式六和式七:

Y=hHX (式六)

X=d(θ)*S+N (式七)

式六和式七中,S为输入信号中的声源信号,N为输入信号中的噪声信号;

基于式六和式七,将差分阵列波束形成的输出信号能量写成如下式子:

EY=YYH=ES(hHd(θ)d(θ)Hh)+ENhHh (式八)

式八中,EY为输出信号Y的期望值,ES为声源信号的期望值,EN为噪声信号的期望值,ENhHh表示噪声信号的协方差矩阵;

将式三和式五代入式八中得出:

EY=EScos2N(θ)+ENhHh (式九)

基于输入信号的协方差矩阵和式六,所述差分阵列波束形成的输出信号能量还可写成如下式子:

EY=YYH=hHXXHh=hH*Rss*h+hHRNh (式十)

式十中,Rss为目标声源的协方差矩阵,hHRNh为噪声信号的协方差矩阵;

由式九和式十得出:

hH*Rss*h=EScos2N(θ) (式十一)

由于设计了两个正交的N阶对偶差分阵列波束形成,所以根据式十一得出:

通过式十一和式十二得出所述式一。

本发明基于差分阵列的声源方向的定位方法的进一步改进在于,计算所形成的输入信号的协方差矩阵,通过如下公式计算:

Rxx=E(XXH) (式十三)

式十三中,Rxx为输入信号的协方差矩阵,X输入信号,E为期望值,H为共轭转置操作。

本发明基于差分阵列的声源方向的定位方法的进一步改进在于,计算所述目标声源的协方差矩阵,通过如下公式计算:

式十四中,Rss为目标声源的协方差矩阵,US为目标声源,∑S为目标声源对应的特征值组成的对角阵,H为共轭转置操作。

本发明基于差分阵列的声源方向的定位方法的进一步改进在于,对于所述声源方向候选项数组内的每一声源方向候选项进行波束形成,包括:

利用延迟求和的波束形成方法于每一声源方向候选项进行波束形成;或者

利用最小均方差无失真响应的波束形成方法于每一声源方向候选项进行波束形成。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本发明提供了一种基于差分阵列的声源方向定位方法,用于平面麦克风阵列的声源方向的估计。麦克风阵列根据拓扑结构可分为线性阵列、平面阵列、立体阵列等,线性麦克风阵列也称一维麦克风阵列,其阵元中心位于同一条直线上。平面麦克风阵列也称二维麦克风阵列,其阵元中心分布在一个平面上,根据阵列的几何形状可分为等边三角形阵、均匀圆阵、均匀方阵、同轴圆阵、圆形或矩形面阵等。立体麦克风阵列也称三维麦克风阵列,其阵元分布在立体空间中。本发明的基于差分阵列的声源方向定位方法是针对平面麦克风阵列中的声源方向估计,旨在解决传统方法中存在的计算量大、易受到混响和噪声干扰的影响以及鲁棒性较差的问题。本发明的声音方向定位方法为一种新的声源方向估计方法,省去传统估计方法中的各种条件约束,比如传统的基于最大似然估计和基于信号子空间的方法,需要假设信号在各个频带上服从复高斯分布,且计算量大,本发明的声源方向定位方法没有条件约束,且计算量小。下面对本发明基于差分阵列的声源方向定位方法进行说明。

本发明提供了一种基于差分阵列的声源方向定位方法,包括如下步骤:

利用平面麦克风阵列录制环境声音形成输入信号,计算所形成的输入信号的协方差矩阵;计算所形成的输入信号的协方差矩阵,通过如下公式计算:

Rxx=E(XXH) (式十三)

式十三中,Rxx为输入信号的协方差矩阵,X输入信号,E为期望值,H为共轭转置操作。

对输入信号的协方差矩阵进行特征值分解以获得最大特征值的特征向量作为目标声源,并计算该目标声源的协方差矩阵。此时假定目标声源只有一个,所以最大特征值的特征向量即为目标声源,其余特征值的特征向量即为噪声空间。对输入信号的协方差矩阵进行特征值分解通过如下公式进行:

Rxx=UΣU=[USUN]∑[USUN]H (式二)

式二中,Rxx为输入信号的协方差矩阵,U为特征向量矩阵,∑为特征值组成的对角阵,US为对应最大的特征值的特征向量,UN为其余特征值的特征向量即为噪声空间,H为共轭转置操作。

计算目标声源的协方差矩阵,通过如下公式计算:

式十四中,Rss为目标声源的协方差矩阵,US为目标声源,∑S为目标声源对应的特征值组成的对角阵,H为共轭转置操作。

由于麦克风阵列录制形成的输入信号为已知,所以输入信号的协方差矩阵也为已知值,对于该输入信号的协方差矩阵进行特征值分解所获得的目标声源也为已知值,进一步地该目标声源的协方差矩阵也为已知值。其中的输入信号的协方差矩阵进行特征值分解时,可以用幂方法快速获得矩阵中的最大特征值和特征向量。该幂方法可参考引文(Richard L.Burden,J.Douglas Faires Numerical Analysis,Chapter 9.3,pp576至580)。

设计两个正交的N阶对偶差分阵列波束形成,并得到每一差分阵列波束形成的权重;其中一个差分阵列波束形成的权重为h0,另一个差分阵列波束形成的权重为h。设计差分阵列波束形成的方法参考引文(Jacob Bebesty,Jingdong chen,Israel Cohen,Design of Circular Differential Microphone Arrays,Springer Topics in Signal Processing,Springer International Publishing Switzerland 2015)。

基于目标声源的协方差矩阵和每一差分阵列波束形成的权重计算得出声源方向候选项;该声源方向候选项为θ;

利用声源方向候选项θ计算出其余三个象限内的声源方向候选项并一起组成声源方向候选项数组;该声源方向候选项数组包括四个角度,分别是:θ、180±θ、以及360-θ。

对于声源方向候选项数组内的每一声源方向候选项进行波束形成,比较四个声源方向候选项所形成波束的能量,选取能量最大的声源方向候选项作为目标声源方向。对于所述声源方向候选项数组内的每一声源方向候选项进行波束形成,包括:利用延迟求和的波束形成方法于每一声源方向候选项进行波束形成;或者利用MVDR波束形成方法于每一声源方向候选项进行波束形成。MVDR(Minimum variance distortionless response,最小均方差无失真响应)。

本发明声源方向的定位方法中基于所述目标声源的协方差矩阵和每一差分阵列波束形成的权重计算得出声源方向候选项,包括:

利用声源方向计算公式计算得到声音方向候选项,所述声音方向计算公式为:

式一中,θ为需计算的声源方向候选项,h0和h为设计的两个正交的N阶对偶差分阵列波束形成的权重,N为差分阵列波束形成的阶数,H为共轭转置操作,Rss为目标声源的协方差矩阵。式一中权重h0和h为设计两个差分阵列波束形成时的已知值,N为设计差分阵列波束形成是的已知阶数,Rss为在对输入信号的协方差矩阵进行特征值分解时的已知值,这样就能够计算出声源方向候选项的值了。

上述声源方向计算公式的推导方法包括:

将差分阵列波束方向图写成如下式子:

B(θ)=hH*d(θ) (式三)

式三中,h为两个差分阵列波束形成的权重中的一个,H为共轭转置操作,d(θ)为该方向的导向矢量;该式三表示为权重为h的差分阵列波束方向图。

当平面麦克风阵列中的麦克风间距足够小时,将式三写成麦克劳林级数形式:

特别的,令aN,N=1;aN,n=0,n<N,则由式四得到:

B(θ)=cosN(θ) (式五)

式四和式五中,N为差分阵列波束形成的阶数;

令差分阵列波束形成的输出信号为Y,输入信号为X,则得到式六和式七:

Y=hHX (式六)

X=d(θ)*S+N (式七)

式六和式七中,S为输入信号中的声源信号,N为输入信号中的噪声信号;

基于式六和式七,将差分阵列波束形成的输出信号能量写成如下式子:

EY=YYH=ES(hHd(θ)d(θ)Hh)+ENhHh (式八)

式八中,EY为输出信号Y的期望值,ES为声源信号的期望值,EN为噪声信号的期望值,ENhHh表示噪声信号的协方差矩阵;

将式三和式五代入式八中得出:

EY=EScos2N(θ)+ENhHh (式九)

基于输入信号的协方差矩阵和式六,所述差分阵列波束形成的输出信号能量还可写成如下式子:

EY=YYH=hHXXHh=hH*Rss*h+hHRNh (式十)

式十中,Rss为目标声源的协方差矩阵,hHRNh为噪声信号的协方差矩阵;式十中XXH的相当于式十三中的输入信号的协方差矩阵Rxx,而输入信号的协方差矩阵又等于目标声源的协方差矩阵与噪声信号的协方差矩阵之和,也即Rxx=Rss+RN,故而得出式十。

由式九和式十得出:

hH*Rss*h=EScos2N(θ) (式十一)

由于设计了两个正交的N阶对偶差分阵列波束形成,所以根据式十一得出:

通过式十一和式十二得出所述式一。

本发明的基于差分阵列的声源方向定位方法,在估计出目标声源的方向后,可以用于波束形成,可以对估计出的方向进行波束形成增强那个方向的信号。本发明的声源方向的定位方法没有条件约束,计算量小,且更高效。

下面以四个麦克风组成的圆阵麦克风阵列为例对计算过程进行说明。

圆阵麦克风阵列中的四个麦克风所形成的输入信号分别为X1、X2、X3和X4,在设计两个正交的N阶对偶差分阵列波束形成时,所设计的权重h0和h均包括对应每一麦克风输入信号的系数,以权重h为例,h=[a1,a2,a3,a4]。

这样可计算出圆阵麦克风阵列的输入信号X:

X=a1X1+a2X2+a3X3+a4X4

进一步地根据输入信号X计算协方差矩阵,并且对该协方差矩阵进行特征值分解,得到最大特征值对应的特征向量作为目标声源,进一步计算目标声源的协方差矩阵,得到目标声源的协方差矩阵Rss

将目标声源的协方差矩阵Rss、权重h0和h代入到式一中,即可计算得出声源方向候选项θ。

由于圆阵麦克风阵列的阵元中心分布在一个平面上,对偶差分阵列波束关于X轴和Y轴对称,所以上述计算得到的声源方向候选项θ在另外三个象限对应的角度为:θ、180±θ、以及360-θ。对四个角度采用延迟求和的波束形成方法进行波束形成,比较形成波束的能量,其中能量最大的方向就是目标声源方向。

以上结合实施例对本发明进行了详细说明,本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而,实施例中的某些细节不应构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1