一种面向实时声源定位的改进时延估计方法

文档序号:30972914发布日期:2022-08-02 22:20阅读:104来源:国知局
一种面向实时声源定位的改进时延估计方法

1.本发明属于电子信息技术领域,更具体地说,涉及一种面向实时声源定位的改进时延估计方法。


背景技术:

2.实现高精度、可靠且实时的声源定位备受当前工业界与学术界关注。声源定位系统的核心是声源定位算法,其中基于tdoa的算法由于运算量小且实时性高,是目前使用最广泛的算法之一。其主要通过对麦克风间的信号进行互相关,提取声源到达麦克风间的若干组时延,通过几何计算或位置估计实现定位。基于tdoa的算法中最常用的算法是相位变换加权广义互相关(gcc-phat),传统gcc-phat算法计算获得的互相关序列,虽然在高信噪比时互相关峰值尖锐,且通过峰值搜索获取的延迟点正确,但是在低噪比的场景中,gcc-phat算法受到噪声的影响显著,突出的峰值杂乱,准确的峰值容易被淹没,使得提取的延迟点存在较大误差。此外,现有时延估计方法存在实时性不足,以致难以在计算能力有限的嵌入式设备内得到有效运行,从而影响实现良好效果的实时声源定位系统。


技术实现要素:

3.为了克服上述现有技术的缺点,本发明目的在于提供一种面向实时声源定位的改进时延估计方法。
4.为了实现上述目的,本发明采用的技术方案是:
5.一种面向实时声源定位的改进时延估计方法,包括:
6.fifo buffer,为fifo数据结构的矩阵,矩阵每行具有先进先出的特性,用于实时存放多通道麦克风接收信号;
7.声源信号检测,从fifo buffer内取需要估计时延的两通道信号,采用离散hilbert变换和短时过零率相结合的双门限法,检测实时接收的信号中是否存在有效声源信号;
8.gcc-phat改进互相关算法,在确认存在有效声源信号的前提下,快速、准确计算两通道信号的互相关,得到包含尖锐互相关峰值的互相关序列;
9.区域峰值搜索,根据实际阵元的间距大小,设定在中搜索互相关峰值的范围,并同时提取区域峰值所对应的偏移量;
10.时延估计,将搜索的偏移量转化为时延值。
11.优选地,所述fifo buffer,需要实时无阻塞地将多通道麦克风接收信号写入其内,构建的buffer内存放每通道接收信号的长度为0.8s~1.5s,太长不仅影响计算的实时性,还会引入较多的多径干扰。
12.优选地,所述声源信号检测,首先的离散hilbert变换用于提取信号包络,其基于fft实现,通过设定其门限值作为检测声源的第一级判断,而短时过零率表示一帧语音中波形穿过横轴的次数,通过设定其门限值作为检测声源的第二级判断。
13.优选地,所述gcc-phat改进互相关算法,其主要步骤如下:
14.1)首先,求得带通滤波后的互功率谱,并对其进行最值归一化;
15.2)然后,根据所用带通滤波的上下截止频点,从上述归一化的互功率谱中截取出有效声源频段,并对其进行phat加权,拼接成完整的互功率谱;
16.3)最后,对拼接完的互功率谱进行ifft,得所需的互相关序列。
17.与现有技术相比,在较低信噪比的场景下,本方法能够实时,稳定准确地估计出信号间的时延,即在同等条件下计算的互相关序列峰值更加准确尖锐,为后续的精确位置估计提供支撑。
附图说明
18.图1是本发明的整体架构图。
19.图2是展示的传统gcc-phat时延估计方法流程图。
20.图3(a)是接收的较高信噪比的两通道信号;图3(b)是利用传统gcc-phat方法获得的较高信噪比的两信号互相关曲线;图3(c)是利用本发明gcc改进方法获得的较高信噪比的两信号互相关曲线;图3(d)是接收的较低信噪比的两通道信号;图3(e)是利用传统gcc-phat方法获得的较低信噪比的两信号互相关曲线图;图3(f)是利用本发明gcc改进方法获得的较低信噪比的两信号互相关曲线。
21.图4(a)是两带通滤波后的信号互功率谱图;图4(b)是图4(a)进行phat加权后的互功率谱图;图4(c)是图(b)进行ifft转到时域的互相关曲线;图4(d)是不对互功率谱进行最值归一化便拼接的互功率谱图;图4(e)是图(d)进行ifft转到时域的互相关曲线;图4(f)是对互功率谱进行最值归一化的图;图4(g)是对图4(f)截取的有效语音频段进行phat加权后再拼接的互功率谱图;图4(h)是对图4(g)做ifft得到的互相关曲线。
具体实施方式
22.下面结合附图和实施例详细说明本发明的实施方式。
23.一种面向实时声源定位的改进时延估计方法,其整体架构如图1所示,包括:
24.fifo buffer,为fifo数据结构的矩阵,矩阵每行具有先进先出的特性,用于实时存放多通道麦克风接收信号;
25.声源信号检测,从fifo buffer内取需要估计时延的两通道信号,采用离散hilbert变换和短时过零率相结合的双门限法,检测实时接收的信号中是否存在有效声源信号;
26.gcc-phat改进互相关算法,在确认存在有效声源信号的前提下,快速、准确计算两通道信号的互相关,得到包含尖锐互相关峰值的互相关序列;
27.区域峰值搜索,根据实际阵元的间距大小,设定在中搜索互相关峰值的范围,并同时提取区域峰值所对应的偏移量;
28.时延估计,将搜索的偏移量转化为时延值。
29.优选地,所述fifo buffer,需要实时无阻塞地将多通道麦克风接收信号写入其内,构建的buffer内存放每通道接收信号的长度为0.8s~1.5s,太长不仅影响计算的实时性,还会引入较多的多径干扰。
30.优选地,所述声源信号检测,首先的离散hilbert变换用于提取信号包络,其基于fft实现,通过设定其门限值作为检测声源的第一级判断,而短时过零率表示一帧语音中波形穿过横轴的次数,通过设定其门限值作为检测声源的第二级判断。
31.优选地,所述声源信号检测,首先对fifo buffer内数据进行声源信号检测,检测数据内是否都存在有效声源。本发明提出一种hilbert变换和短时过零率相结合的双门限法,用于检测实时接收信号中是否存在有效声源。其中,离散hilbert变换可基于fft而快速实现提取信号包络,计算式如下
[0032][0033][0034]
式中,表示离散hilbert变换;表示卷积运算;为信号的频谱;为符号函数,;为的包络,通过设定其门限值作为检测声源的第一级判断。再则,短时过零率表示一帧语音中波形穿过横轴的次数,是判断语音信号的有效方法,通过设定其门限值作为检测声源的第二级判断。
[0035]
按照传统gcc-phat算法流程进行计算,如图2所示,在较高信噪比的场景下,获得的互相关曲线如图3(b)所示,而在低信噪比的场景下获得的互相关曲线如图3(e)所示。虽然在高信噪比时互相关峰值尖锐,且通过峰值搜索获取的延迟点正确,但是在低噪比时,gcc-phat算法受到噪声的影响显著,突出的峰值杂乱,准确的峰值容易被淹没,使得提取的延迟点存在较大误差。为了削弱噪声的影响,首先对实时接收信号进行带通滤波(语音信号一般为300hz~3khz频率范围的宽带信号),然后对滤波后的信号进行gcc-phat处理,然而这样所获得的互相关序列的最高峰值一直靠近于延迟点0处,无法估计准确时延。其原因是:两带通滤波后的信号互功率谱如图4(a)所示,进行phat加权后的功率谱近似为图4(b)所示的一条直线,即频域的全局白化导致在时域表现为在靠近0位置点的冲激信号,如图4(c)所示。
[0036]
优选地,所述gcc-phat改进互相关算法,分别高、低信噪比场景下得到的互相关曲线见图3(c)和(f),其主要流程如图1所示,对比图2所示的传统gcc-phat算法,其主要步骤为:
[0037]
1)首先,通过求得带通滤波后的两信号互功率谱后,对其进行最值归一化,得到归一化的互功率谱如图4(f)所示;
[0038]
2)然后,再根据带通滤波的上下截止频点去截取出有效语音频段,并将其进行phat加权,拼接成完整的互功率谱如图4(g)所示;
[0039]
3)最后,对互功率谱做ifft得到的互相关序列如图4(h)所示,可见解决了图4(a)、(b)、(c)所示的采用传统gcc-phat算法无法估计时延的问题。
[0040]
优选地,所述gcc-phat改进互相关算法中,互功率谱进行最值归一化是关键一步,若不对互功率谱进行最值归一化,则获得拼接后的互功率谱如图4(d)所示,可见有效频段
外的噪声功率远强于有效频段内,最后获取到较大误差的延迟点如图4(e)所示。
[0041]
本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的;本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1