一种srp-phat多源空间定位方法
【专利摘要】本发明所述一种SRP-PHAT多源空间定位方法,首先假设在数据获得过程中均匀圆形麦克风阵列的全部麦克风的数目和空间位置不变,各向同性的麦克风均匀分布在一个半径为r的位于x-y平面的圆周上,采用极坐标来表示平面波s的到达方向,坐标系的原点位于圆形阵列的圆心位置上,多声源信号划分为互不重叠的时频点集合,使每个时频窗内只包含一个活动的源信号,满足弱的W分离正交条件;并选取汉明窗,通过SRP-PHAT算法计算可控响应功率函数和得到目标函数,控制波束在所有可能的接收方向进行扫描,则波束输出功率最大的方向值即得到声源的方向,其使得多声源的DOA估计在强噪声和适度混响的声学环境下具有较好的分离性能,明显突出了真正峰值,具有较高的定位精度。
【专利说明】-种SRP-PHAT多源空间定位方法
【技术领域】
[0001] 本发明涉及一种空间定位方法,具体地说,涉及一种SRP-PHAT多源空间定位方 法,应用于视频会议、语音增强、助听器、免提电话和智能机器人等系统中。
【背景技术】
[0002] 声源定位技术在视频会议、语音增强、助听器、免提电话和智能机器人等系统中具 有广泛的应用前景,近年来受到了越来越多的关注。
[0003] 目前相位变换加权的可控响应功率(SRP-PHAT :Steered Response Power-Phase Transform)声源定位算法已成为主流算法,该算法结合了可控波束形成和GCC-PHAT的优 点,在低信噪比条件下具有较强的鲁棒性。对于单声源定位有较好的性能,但最大的缺点是 运算量大,庞大的运算量限制了在实时系统中的应用。
[0004] 许多研究者都尝试着减少其核心的可控响应功率搜索过程的计算量。如二次加速 SRP-PHAT声源定位算法通过垂直布置的阵列将二维空间的搜索转化为一维空间的搜索,采 用层次搜索策略,由粗至精对一维空间进行搜索。又如改进的联合SRP-PHAT语音定位算法 利用正交直线麦克风阵列将二维搜索空间削减为一对一维空间,然后分别在一维空间中执 行分级搜索策略,寻找SRP最大值以确定声源位置。
[0005] 在实际运用中常常需要估计多个声源的位置。现有的基于语音信号稀疏性的 W-分离正交性假设并不满足多声源,导致该方法空间分辨率低,容易受混响的影响,特别是 在混响和噪声环境下无法分辨两个在方向上靠的较近的信号源。因此,多声源定位问题具 有非常重要的理论意义和实用价值。
【发明内容】
[0006] 本发明克服了现有技术中的缺点,提供了一种SRP-PHAT多源空间定位方法,可在 混响和噪声环境下分辨多个在方向上靠的较近的信号源,定位效果好。
[0007] 为了解决上述技术问题,本发明是通过以下技术方案实现的:
[0008] -种SRP-PHAT多源空间定位方法,其特征在于,包括以下步骤:
[0009] 1)在假设条件下计算空间坐标,首先假设在数据获得过程中均匀圆形麦克风阵列 的全部麦克风的数目和空间位置不变,声源与麦克风距离符合声场模型的要求,各个麦克 风的物理性质相同,各向同性的麦克风均匀分布在一个半径为r的位于x-y平面的圆周上, 采用极坐标来表示平面波s的到达方向,坐标系的原点位于圆形阵列的圆心位置上,信号 的俯仰角Θ e [0, ji/2],而方位角Φ e [0,2ji];
[0010] 2)多声源信号划分为互不重叠的时频点集合,使每个时频窗内只包含一个活动的 源信号,满足弱的W分离正交条件;并选取汉明窗,当WD0M = 1时满足W-分离正交;
[0011] 3)通过SRP-PHAT算法计算所有麦克风对的相位变换的可控响应功率函数和得到 一个目标函数,波束形成器的控制波束在所有可能的接收方向进行扫描,则波束输出功率 最大的方向值即得到声源的方向。
[0012] 进一步,所述步骤2)包括:
[0013] 首先引入两个重要的特性准则:(1)掩蔽在多大程度上保留了感兴趣的声源; (2)掩蔽在多大程度上抑制了干扰声源;
[0014] 考虑将多声源信号划分为互不重叠的时频点集合,每个时频窗内只包含一个活动 的源信号,而且近似满足
[0015]
【权利要求】
1. 一种SRP-PHAT多源空间定位方法,其特征在于,包括以下步骤: 1) 在假设条件下计算空间坐标,首先假设在数据获得过程中均匀圆形麦克风阵列的全 部麦克风的数目和空间位置不变,声源与麦克风距离符合声场模型的要求,各个麦克风的 物理性质相同,各向同性的麦克风均匀分布在一个半径为r的位于x-y平面的圆周上,采用 极坐标来表示平面波s的到达方向,坐标系的原点位于圆形阵列的圆心位置上,信号的俯 仰角 Θ e [〇,ji/2],而方位角 Φ e [〇,2π]; 2) 多声源信号划分为互不重叠的时频点集合,使每个时频窗内只包含一个活动的源信 号,满足弱的W分离正交条件;并选取汉明窗,当WDO M = 1时满足W-分离正交; 3) 通过SRP-PHAT算法计算所有麦克风对的相位变换的可控响应功率函数和得到一个 目标函数,波束形成器的控制波束在所有可能的接收方向进行扫描,则波束输出功率最大 的方向值即得到声源的方向。
2. 根据权利要求1所述一种SRP-PHAT多源空间定位方法,其特征在于,所述步骤2)包 括: 首先引入两个重要的特性准则:(1)掩蔽在多大程度上保留了感兴趣的声源;(2)掩蔽 在多大程度上抑制了干扰声源; 考虑将多声源信号划分为互不重叠的时频点集合,每个时频窗内只包含一个活动的源 信号,而且近似满足
定义时频掩蔽码为
通过估计对应每个源的时频掩蔽,由此可以从混合源中得到某个源j
其中Mj为源j支集的指示函数,Sj (t,ω),X(t,ω)分别为sj,x(t)的时频表示, 对于给定的时频掩码M,定义保留的信号比率PSRM :
PSRM为估量在使用掩蔽后所保留的源Sj能量所占的百分比; 同时定义
其中zj (t)为在源Sj的干扰下所有源之和; 定义应用时频掩蔽Μ后信号干扰比为:
其中SIRM主要估量在应用时频掩蔽Μ分离信号后的信号干扰比; 通过PSRM和SIRM可估量近似W-分离正交性WDOM :
由于语音信号具有稀疏的时频表示,其时频表示的功率占总功率的绝大比例,其时频 表示的乘积幅度通常总是小的,因此满足弱的W分离正交条件;特别地,当WDOM = 1时满足 W-分离正交。
3. 根据权利要求1所述一种SRP-PHAT多源空间定位方法,其特征在于,所述步骤3)对 于双麦克风的SRP-PHAT算法, 对于仅有两个麦克风,麦克风mi和麦克风mj阵列,来自方位角和俯仰角的信号到达两 麦克风时延为Λ τ ij( θ,φ),TDOA可以通过广义互相关(GCC)估计,表示为:
其中P(r)是三维空间矢量r空间似然函数,可通过计算所有可能的Θ和φ得到,广 义互相关函数Rsisj(A Ti,j(0,φ))在频域中可表示为:
其中Vij(co)为加权函数,Si(c〇)S*j(c〇)为互功率谱密度函数; 相位变换(PHAT)法就是一种典型的变换方法, 定义相位加权函数为:
通过选择合适的加权函数,使延时累加可控响应功率满足最优化信噪比准则,广义互 相关Rsisj(A Ti,j(0,φ))在所限制的范围τ内表现为一个峰值,对应传播到麦克风 mi和麦克风mj的延迟TD0A。
4. 根据权利要求1所述一种SRP-PHAT多源空间定位方法,其特征在于,所述步骤3)对 于圆阵列麦克风声源的SRP-PHAT算法: 对所有麦克风对的广义互相关
其中Δ τ ρ Δ τ f Δ τ N为N个麦克风的可控延时,其中Δ τ i = τ厂τ Qi = l…N,τ。 为参考时延估计,取所有麦克风延时中最小的为参考。
5.根据权利要求1所述一种SRP-PHAT多源空间定位方法,其特征在于,所述步骤3)对 于多声源圆阵列麦克风SRP-PHAT算法: 当同时存在两个及以上声源时,当同时存在两个以上声源时,一个声源的SRP-PHAT峰 值混入了另一个声源的SRP-PHAT峰值,一些点上会产生虚假的峰值,很难找到局部最大峰 值; 利用语音信号近似W-分离正交性,在时频域估计各声源信号到达麦克风、阵列的相对 时延,利用短时傅里叶变换作为近似W-分离正交变换, 假设第i个麦克风的信号模型的频域表示为:
若给定窗函数W,sj的短时傅里叶变换为Sj,有
通过选择恰当的窗函数及大小,在信号为近似W-分离正交性假设下,仅有一个声源在 任何时间-频率点有效,则其互谱为:
则麦克风i和麦克风j之间的延时Λ τ n,i-Λ τ n,j可以通过互功率谱得到。
【文档编号】G01S5/18GK104142492SQ201410366922
【公开日】2014年11月12日 申请日期:2014年7月29日 优先权日:2014年7月29日
【发明者】孙明 申请人:佛山科学技术学院