基于双向双耳匹配滤波器加权融合的双耳声源定位方法与流程

文档序号：11229115阅读：959来源：国知局

本发明属于信息技术领域，涉及一种适用于复杂声学环境下的双耳声源定位方法，具体涉及一种基于双向双耳匹配滤波器加权融合的双耳声源定位方法。

背景技术：

声源定位技术是指对接收到的信号进行处理得到自然声源或人为声源所在的位置信息。它涉及到人工智能、听觉心理学、听觉生理学和高性能计算机系统等多个研究领域，在多种领域有广泛的应用前景。由于声音具有绕过障碍物的特性，在机器人多信息采集系统中，听觉可以与机器人视觉相配合弥补其视觉有限性及不能穿过非透光障碍物的局限性。早期的机器人导航主要使用测距传感器(如声纳)，而跟踪主要依靠视觉。这种形式在视觉场景内被广泛作为定位目标的方式。但是像人和大部分动物那样，视觉场景被限制在小于180°的范围内。在真实世界中，听觉能带来360°的“听觉场景”。它能定位不在视觉场景内的声音目标，即定位由物体遮挡造成的模糊目标或在拐角处的声音目标。

双耳声源定位是声源定位技术发展的一个重要分支。双耳定位充分利用了双麦克风的易搭载性和耳廓的滤波特性，在智能监控、移动机器人、虚拟现实、视频会议等研究中有着重要的应用。它是声源定位技术的一个重要分支，不仅利用了双麦克风简易的阵列结构，又结合人耳听觉特性成功克服了双麦克风定位的前后向歧义性。

双耳音频天然具有很多通信及多媒体体验的优势。在人与人的日常交互中，听觉感知都是人与人之间最有效最直接的交互方式之一。其中在日常感知世界、获取信息的主要过程中，人们通过视觉获取的信息大约占到了70％-80％，通过听觉获取的信息大约占到了10％-20％。因此在机器人智能化程度不断提升的过程中，机器人的听觉交互是必不可少的研究方向。人和其他的哺乳动物的听觉系统都具有很强的声源定位能力，因此人类一直期望机器人能够像人一样具有实时定位环境中的声源位置的能力。事实上，能否进行听觉定位是机器人智能与否的重要标志之一。与机器人视觉相比，机器人听觉仍然处于初始阶段。然而与机器人视觉相比，听觉的优势在于：

1)视觉的应用场景仅限于180°范围内，而听觉却可以定位到360°的范围。

2)由于声音信号的衍射性能，相较于视觉、激光等其他的传感信号听觉不需要直线视野，在有视野遮蔽障碍物的情况下依然可以有效的工作。

基本上，双耳声音源定位是一个模式分类的问题。类似于自动语音识别，其主要的两大步骤分别是：语音信号处理和模式分类。首先通过双耳传声器接收原始的声音源信号，并进行模数转换，把模拟声音信号转换成数字信号。在信号处理阶段，首先对原始信号进行预处理：降噪和滤波，信号预加重，分帧并加窗，对于每帧信号提取特征时域的特征或频域特征组成特征向量。特征向量可以有效表征声源的位置信息。模式分类阶段，通过与定位系统中的先验知识(即模板)进行比对从而得出定位结果。现有的声源定位系统包括以下步骤：

1、语音录入，预滤波、模数变换。先把录入的模拟声音信号进行预滤波，高通滤波抑制50hz电源噪声信号；低通滤波滤除声音信号中频率分量超过采样频率一半的部分，防止混叠干扰，对模拟声音信号进行采样和量化得到数字信号。

2、预加重。信号通过高频加重滤波器冲激响应h(z)＝1-0.95z^-1，以补偿嘴唇辐射带来的高频衰减。

3、分帧、加窗。由于语音信号的慢时变性，整体非平稳，局部平稳，一般认为语音信号在10-30ms内是平稳的，可以把声音信号按照20ms的长度进行分帧。分帧函数为：

xk(n)＝w(n)s(nk+n)n＝0,1...n-1；k＝0,1...l-1

其中n为帧长，l为帧数，s表示语音信号。w(n)为窗函数，它的选择(形状和长度)对短时分析参数的特性影响很大，常用的窗函数包括矩形窗、汉宁窗和汉明窗等。一般选用汉明窗，可以很好地反应语音信号的特性变化，汉明窗表达式为：

4、特征提取。利用信号匹配滤波的思想。将双耳信号中的其中一个作为输入信号，另一个作为期望输出信号，通过求解匹配的滤波器系数，将其视为一种新的特征线索。

5、在线定位。从双耳传声器接收的音频信号中提取特征与模板中存储的特征进行全局匹配，差别最小的情况被视为声源最有可能出现的位置。不过在几何定位中则是直接利用双耳特征与环境位置之间的关系计算声源的坐标，这种模式理论上可以得到准确解，但是易受环境噪声及混响等因素的干扰。

目前主要的声源定位算法包括麦克风阵列声源定位算法和基于双通道的声源定位算法。基于双通道语音信号的声源定位方法模拟人耳的听觉特征，可以实现较为准确的声源定位。最具有代表性的是基于互相关函数的双耳时间差估计，然而实际环境下的噪声和混响，会严重影响基于互相关函数的声源定位性能。传统的双耳声源定位方法主要提取双耳时间差和双耳能量差作为定位线索。由于时间差和能量差的提取与声源的频率有关，而且转向角的确定只与时间差及部分高频能量差相关，俯仰角的确定只与能量差有关。所以传统的定位线索在一定程度上并不能满足精准定位的需求，仍有许多问题亟待解决。

技术实现要素：

本发明提出了一种基于双向双耳匹配滤波器加权融合的双耳声源定位方法，提出了一种新的双耳定位线索，采用双向匹配，决策加权融合的方法得到鲁棒的特征双耳线索。利用包含更多能量信息的定位线索进行定位，有效解决了声源定位技术中双耳线索在噪声环境下只能在部分区域性能最优、垂直方向定位效果差的问题。该方法提出了双耳匹配滤波的概念，提取新的定位线索，降低了算法的时间复杂度，保证了声源定位系统的实时性要求。通过该方法，可以提高在噪声环境下的双耳声源定位的效果。

为了实现上述目的，本发明采用以下技术方案：

一种基于双向双耳匹配滤波器加权融合的双耳声源定位方法，主要以下步骤：

1)训练阶段，在定位空间录制声源数据，保存于双耳语音声源定位数据库，为决策加权融合后的数据库中声源数据的双向双耳匹配滤波器建立模板，具体包括：

1-1)定位空间按照转向角(水平方向)和俯仰角(竖直方向)划分坐标系；

1-2)采用固定声源到坐标系中心距离，在室内/半室内安静环境中分别为定位空间划分后的每个方向录制声源数据；

1-3)决策加权融合，分别计算每个方向上声源数据的双向双耳匹配滤波器的代价函数和误差函数，根据得到的代价函数和误差函数对双向双耳匹配滤波器进行加权融合；

1-4)离线训练，为每个方向的加权融合后的双向双耳匹配滤波器的系数向量建立模板；

2)定位线索提取阶段，当检测到声源时，计算得到的声源数据的双向双耳匹配滤波器的代价函数和误差函数进行加权融合，得到融合后的混合双向双耳匹配滤波器系数向量，作为提取的定位线索；

3)将步骤2)中得到定位线索与步骤1)中训练的模板进行相似性计算；然后通过概率计算，实现双耳声源定位。

进一步地，步骤1)转向角(水平方向)采用非均匀的划分方法，俯仰角(竖直方向)采用均匀划分的方式。

进一步地，步骤1)所述模板包括所有方向上混合双向双耳匹配滤波器系数加权融合后得到的系数向量。

进一步地，步骤1-3)，分别跟据以下公式计算每个方向上的双向双耳匹配滤波器的误差函数和代价函数：

ef(n)＝xr(n)-yf(n)，eb(n)＝xl(n)-yb(n)；

其中xr(n)，xl(n)分别表示左耳和右耳接收的语音信号，yf(n)，yb(n)分别表示正向双耳匹配滤波器的期望输出信号和逆向双耳匹配滤波器的期望输出信号；e表示最小均方误差。

进一步地，步骤1-3)所述双向双耳匹配滤波器(即正向双耳匹配滤波器和逆向双耳匹配滤波器)的系数向量可以通过最小化均方误差，可以得到维纳霍夫差分方程：

其中，是滤波器输入信号为xl(n)(即左耳信号)时的自相关函数，为左右耳信号的互相关函数，若令xl(n)＝[xl(n),xl(n-1),…,xl(n-m+1)]^t，则输入信号的自相关矩阵为：

式中h表示共轭转置；同理，滤波器输入信号与期望信号之间的互相关向量为：

因此，求解维纳霍夫方程，可以得到正向双耳匹配滤波器的系数向量为：

同理，逆向双耳匹配滤波器的系数向量为：

进一步地，步骤1-3)所述加权函数为：

ωh＝ωfψf+ωbψb，

进一步地，步骤3)中，两个方向上加权融合后的双向双耳匹配滤波器的相似度通过其加权融合双向双耳匹配滤波器系数向量的夹角余弦来衡量，定义为：

ωh,ωtemp分别表示由声源获得的双耳匹配滤波器系数向量和来自模板的滤波器系数向量。

进一步地，步骤3)中所述概率计算为通过最大后验概率得到声源的最终位置分布的最大概率：

通过采取上述技术方案，本发明首先设计双向双耳匹配滤波器。然后根据正向双耳匹配滤波器和逆向双耳匹配滤波器的代价函数和误差函数进行决策加权融合，得到加权融合后的全局双耳线索。最后用模式分类的方法，通过计算加权融合后的线索和离线训练后的模板进行匹配。然后通过声源所在位置的最大后验概率得到声源的最终位置。提出了双耳匹配滤波的概念，提取新的定位线索，降低了算法的时间复杂度，保证了声源定位系统的实时性要求。其在噪声环境下的双耳声源定位的效果，相比于传统的方法有较明显的提高。

附图说明

图1是本发明一实施例中的正向双耳匹配滤波器和逆向双耳匹配滤波器原理示意图。

图2a及图2b是本发明一实施例中基于最小均方误差设计决策加权融合后的所有方向上的估计误差均值和方差。

图3是本发明一实施例中基于双向双耳匹配滤波器加权融合后得到的双耳声源定位结果示意图，图中，越亮的地方代表概率越大。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

首先介绍本发明的技术构思及原理：

双向双耳匹配滤波器的设计。定义正向双耳匹配滤波器即将左耳信号xl(n)作为滤波器的输入信号，右耳信号xr(n)作为滤波器的参考信号(期望信号)，如图1所示，反之即得到反向双耳匹配滤波器。下面我们以正向双耳匹配滤波器为例，逆向双耳匹配滤波器的设计除输入输出相反外，其他均一样。令滤波器的系数向量w＝[w0,w1,…,wm-1]，m表示帧长，则滤波器的输出信号为：

因此，滤波器的匹配误差可以定义为：

e(n)＝xr(n)-y(n)(2)

通过最小化均方误差，即代价函数j(n)＝e{|e(n)|²}＝e{e(n)e^*(n)}可以得到著名的维纳霍夫(wiener-hopf)差分方程：

式中h表示共轭转置。同理，滤波器输入信号与期望信号之间的互相关向量为：

因此，求解维纳霍夫方程，我们可以得到正向双耳匹配滤波器的系数向量为：

同理，逆向双耳匹配滤波器的系数向量为：

2.决策加权。根据设计的双向双耳匹配滤波器的代价函数和误差函数对其进行决策加权融合。加权后得到的新的双耳线索可以表示为：

ωh＝ωfψf+ωbψb

其中：

3.声源定位。最终的定位结果采用模式分类的方法。通过余弦相似性判定两个向量之间的角度的余弦值，从而确定两个向量是否指向相同的方向。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。此时，基于全局双耳线索的余弦相似性矩阵可以确定最后声源所存在的位置：

这里的＜，＞，‖‖分别表示由声源获得的滤波器系数向量和来自模板的滤波器系数向量。ωh,ωtemp分别表示由声源获得的双耳匹配滤波器系数向量和来自模板的滤波器系数向量。当声源出现时，声源所在的位置通过最大后验概率得到最大概率可以最终确定：

基于前述对技术构思和原理的介绍和阐述，本实施实例采用加州大学戴维斯分校的cipic数据库进行试验，此数据库具有目前最大的人头采集数量和最多的方向采集数。此数据库在国际上人形机器人声源定位中较为权威而且是使用最为广泛的数据库之一。数据库中共有45个人头进行试验，其中包括27名成年男性，16名成年女性，以及一个仿真人头模型kemar，在此仿真模型中又分别设置了大耳廓与小耳廓，在数据录取时将麦克风置于人耳之中或者仿真耳中。图1是本发明实施例中流程示意图。

数据采集过程是在严格的消音室进行，所使用的所有声源距离人头中心距离(即双耳连线的中点位置)为1米。该数据库只考虑了人头前方的定位空间，共划分为25个转向角区间[-80°，-65°，-55°，-45°：5°：45，55°，65°，80°]；俯仰角按照均匀划分的模式，共分为50个区间[-45°：5.625°：230.625°]，即一共1250个方向。采样频率为44.1khz，数据格式为长度为200的fir滤波器，即头相关传递函数hrtf。因此，这里只需用声源信号与hrtf卷积就可以得到双耳传声器接收到的信号。

在线定位阶段，声源信号采用真实的说话人的语音信号进行测试，采样频率为44.1khz，对一个较短的时间窗内(当前t秒)的信号进行识别，给出当前时间窗的识别结果。

1.对当前时间窗内声源信号进行分帧、加窗处理，帧长为256个采样点，帧移为128个采样点，观测时间长度为2s；

2.分别计算每个方向上的双向双耳匹配滤波器的代价和误差函数，根据得到的代价函数和误差函数对双向双耳匹配滤波器进行加权融合(公式8)；图2a和图2b是本发明实施例中基于最小均方误差设计决策加权融合后的所有方向上的估计误差均值和方差。

3.图3是基于双向双耳匹配滤波器决策融合的定位示意图，颜色越亮表示声源在该位置出现的概率越大。例如声源在-25°和45°时如图所示。

表1所示为不同信噪比情况下基于正向双耳匹配滤波器、逆向双耳匹配滤波器和加权融合后的全局双耳匹配滤波器的转向角定位结果。表2所示为不同信噪比情况下基于正向双耳匹配滤波器、逆向双耳匹配滤波器和加权融合后的全局双耳匹配滤波器的俯仰角定位结果。从表中我们可以清楚的看到，改进后的双耳线索的定位效果相比有了明显的提升。

表1不同信噪比情况下正向、逆向、决策加权后的双耳匹配滤波器转向角定位结果

表2不同信噪比情况下正向、逆向、决策加权后的双耳匹配滤波器俯仰角定位结果

上述实例只是本发明的举例，尽管为说明目的公开了本发明的实例，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。因此，本发明不应局限于该实例的内容。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘宏;岳梦荻
技术所有人：北京大学深圳研究生院
我是此专利的发明人

上一篇：一种六氟异丁烯的制备方法与流程
上一篇：一种基于PN扩频码的室内可见光定位方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、邢老师：1.机械设计及理论 2.生物医学材料及器械 3.声发射检测技术。
2、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
3、王老师：1.机器人 2.嵌入式控制系统开发
4、张老师：1.机械设计的应力分析、强度校核的计算机仿真 2.生物反应器研制 3.生物力学
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。