声源追踪方法、声源追踪设备及计算机可读存储介质与流程

文档序号:14674897发布日期:2018-06-12 21:21阅读:304来源:国知局
声源追踪方法、声源追踪设备及计算机可读存储介质与流程

本发明涉及声源追踪技术领域,尤其涉及一种声源追踪方法、声源追踪设备及计算机可读存储介质。



背景技术:

目前,在酒店安防监控领域、大型报告会场、新闻现场等诸多空间场景中,通常需要麦克风阵列进行远场拾音,以追踪场景中发言人的语音。

但是现有的麦克风阵列存在以下缺陷,没有突发语音端点检测,不能对突发事件作为应急反应,并且容易受到其他声源的噪音干扰,从而影响远场拾音的效果,造成麦克风阵列在定位追踪语音上的精确度和实时性上有一定程度的降低,导致麦克风阵列无法正确地获取到发言人的语音信息,极大地降低了麦克风阵列的工作效率。



技术实现要素:

本发明的主要目的在于提供一种声源追踪方法、声源追踪设备及计算机可读存储介质,旨在解决麦克风阵列在远场拾音上的精确度和实时性的追踪定位效率低下的技术问题。

为实现上述目的,本发明实施例提供一种声源追踪方法,所述声源追踪方法应用于声源追踪终端,所述声源追踪方法包括:

获取能量阈值和过零率阈值;

根据能量阈值和过零率阈值检测并采集突发音频信号;

对突发音频信号进行解析,以获取突发音频信号的声源方位信息;

根据声源方位信息,确定终端的声音采集方向。

优选地,所述根据能量阈值和过零率阈值检测并采集突发音频信号的步骤包括:

获取现场音频信号并解析,以获取现场音频信号的能量值和过零率;

将所有现场音频信号中能量值大于能量阈值,且过零率大于过零率阈值的现场音频信号设为突发音频信号。

优选地,所述对突发音频信号进行解析,以获取突发音频信号的声源方位信息的步骤包括:

获取所有突发音频信号中能量值最大的最大音频信号,并根据能量值确定最大音频信号的时延值;

根据信号时延值获取突发音频信号中所有的时频点;

将所有时频点进行聚类处理,以获得声源方位信息。

优选地,所述将所有时频点进行聚类处理的步骤包括:

对所有时频点进行降噪处理,以获取到降噪时频点;

将所有降噪时频点进行聚类处理,以获得声源方位信息。

优选地,所述根据声源方位信息,确定终端的声音采集方向的步骤包括:

当检测到多个声源方位信息时,获取各声源方位信息的波束能量;

将波束能量最大的声源方位信息的方向确定为终端的声音采集方向。

优选地,所述获取能量阈值和过零率阈值的步骤包括:

根据预设测试条件采集预设采集范围内的样本音频信号;

根据样本音频信号进行计算,以获取能量阈值和过零率阈值。

此外,为实现上述目的,本发明还提供一种声源追踪设备,所述声源追踪设备包括:存储器、处理器,通信总线以及存储在所述存储器上的声源追踪程序,

所述通信总线用于实现处理器与存储器间的通信连接;

所述处理器用于执行所述声源追踪程序,以实现以下步骤:

获取能量阈值和过零率阈值;

根据能量阈值和过零率阈值检测并采集突发音频信号;

对突发音频信号进行解析,以获取突发音频信号的声源方位信息;

根据声源方位信息,确定终端的声音采集方向。

优选地,所述根据能量阈值和过零率阈值检测并采集突发音频信号的步骤包括:

获取现场音频信号并解析,以获取现场音频信号的能量值和过零率;

将所有现场音频信号中能量值大于能量阈值,且过零率大于过零率阈值的现场音频信号设为突发音频信号。

优选地,所述对突发音频信号进行解析,以获取突发音频信号的声源方位信息的步骤包括:

获取所有突发音频信号中能量值最大的最大音频信号,并根据能量值确定最大音频信号的时延值;

根据信号时延值获取突发音频信号中所有的时频点;

将所有时频点进行聚类处理,以获得声源方位信息。

优选地,所述将所有时频点进行聚类处理的步骤包括:

对所有时频点进行降噪处理,以获取到降噪时频点;

将所有降噪时频点进行聚类处理,以获得声源方位信息。

优选地,所述根据声源方位信息,确定终端的声音采集方向的步骤包括:

当检测到多个声源方位信息时,获取各声源方位信息的波束能量;

将波束能量最大的声源方位信息的方向确定为终端的声音采集方向。

优选地,所述获取能量阈值和过零率阈值的步骤包括:

根据预设测试条件采集预设采集范围内的样本音频信号;

根据样本音频信号进行计算,以获取能量阈值和过零率阈值。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序可被一个或者一个以上的处理器执行以用于:

获取能量阈值和过零率阈值;

根据能量阈值和过零率阈值检测并获取突发音频信号;

对突发音频信号进行解析,以获取突发音频信号的声源方位信息;

根据声源方位信息,确定终端的声音采集方向。

本发明通过获取能量阈值和过零率阈值;根据能量阈值和过零率阈值检测并获取突发音频信号;对突发音频信号进行解析,以获取突发音频信号的声源方位信息;根据声源方位信息,确定终端的声音采集方向。本发明通过对突发音频信号进行阈值限定,以增加对突发语音端点的声源检测,从而能够对突发事件作出应急反应,避免噪音声源的干扰提高语音追踪和语音识别精确度和实时性,降低噪声影响,实现多声源测向,对声源的音频信息进行有效定位和提取,极大地提高了声源追踪设备的工作效率。

附图说明

图1为本发明声源追踪方法一较佳实施例的流程示意图;

图2为图1中步骤S40的细化流程示意图;

图3为图1中步骤S20的细化流程示意图;

图4为本发明实施例方法涉及的硬件运行环境的设备结构示意图;

图5为本发明声源追踪终端近场球面波模型。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供一种声源追踪方法,所述声源追踪方法应用于声源追踪终端,在声源追踪方法第一实施例中,参照图1,所述声源追踪方法包括:

步骤S10,获取能量阈值和过零率阈值;

所述音频型号具有短时平均能量,所述短时平均能量可对语音信号进行浊音分析(浊音的短时平均能量比清音短时平均能量大;还可以用来区别声母和韵母的分界、无声和有声的分界等等。而能量阈值是对短时平均能量的门限界定,通过能量阈值,可对语音信号进行筛选过滤,以保障后续声源追踪终端所获取的音频信号为准确清晰的信息信号。

所述过零率阈值,指的是在离散时间语音信号情况下,如果相邻的信号采样具有不同的代数符号就称为发生了过零,而单位时间内过零的次数就称为短时过零率,所述短时过零率指的是一个信号的符号变化的比率,是信号频率的简单度量。而过零率阈值是对过零率的门限界定,通过过零率阈值,可对语音信号进行筛选过滤,保障后续声源追踪终端所获取的音频信号不是无效不规律的信息信号。

可以理解的是,在背景噪声比较小时采用短时平均能量的识别效率较高,而在背景噪声比较大时采用过零率的识别效率较高,但是通常情况是两个参数联合进行识别。能量阈值和过零率阈值均根据实际情况对采集到的音频信号进行合格性判定。

所述获取能量阈值和过零率阈值的步骤包括:

步骤S11,根据预设测试条件采集预设采集范围内的样本音频信号;

能量阈值和过零率阈值的获取方式可以是用户手动设置的,也可以是声源追踪终端的生产厂商预设的,也可以是根据实际情况调试的等等。而其中最能够保障质量效果的方式便是根据实际情况调试。具体情况为,声源追踪终端的应用场景一般是对安防监控领域、大型报告会场、视频会议现场、新闻现场、演讲会场等重要空间场景,因此对声源采集质量要求较高,需要根据现场环境适时作出调整。

不同的现场环境也有不用的环境影响因素,其中影响因素最大最重要便是收音效果。假设声源追踪终端距离声源(发言人或播放设备等)较远,那么在当前的现场场景中,声源追踪终端将不可避免地受到其他声源的影响导致收音效果降低。因此,调试过程主要是模拟正常收音效果与被干扰的收音效果的区别,并进行适配处理。故,在正常进行收银之前,可实现设置一理想环境,进行最佳效果采样。具体为根据预设测试条件采集预设采集范围内的样本音频信号,所述预设测试条件一般可以是现场环境安静无干扰的条件;也可以是可正常收音情形下的略微嘈杂环境的条件等等。在预设测试条件下进行预设采集范围内的音频信号采集,所述预设采集范围是为保障声源追踪终端的收音效果而设置的收音范围,终端的收音范围越远,其对音频信号的解析识别能力的要求就越高,对硬件的规格需求也就越大,这会导致终端体积增大,因此,需要设置一个预设采集范围,作为声源追踪终端的合理收音范围,在保障收音质量效果的同时,避免对终端硬件上的苛求导致操作不变。

步骤S12,根据样本音频信号进行计算,以获取能量阈值和过零率阈值。

在采集到样本音频信号之后,声源追踪终端将对样本音频信号进行数据计算处理。需要说明的是,为保障能量阈值和过零率阈值的稳定和高度参考性,样本音频信号的数量越多,密度越高,越能够计算获取到精确的能量值和过零率阈值。

可选地,以下为能量阈值和过零率阈值的一优选实例:

声源追踪终端将样本音频信号将模拟信号通过内置的多通道声音同步采集模块转换成数字信号送给DSP(数字信号处理技术)芯片,DSP芯片计算样本音频信号的短时能量和短时过零率;每一帧记为,n=1,2,…N,n为离散音频信号时间序列,N为帧长,i表示帧数。则每一帧音频信号的能量阈值为:

而每一帧音频信号的过零率阈值为:

即,Ei和Zi分别为该样本音频信号的能量阈值和过零率阈值。

步骤S20,根据能量阈值和过零率阈值检测并采集突发音频信号;

声源追踪终端在获取到能量阈值和过零率阈值之后,便可以将能量阈值和过零率阈值作为精准的参考数据,对后续的音频信号进行有效筛选和判断。通过能量阈值和过零率阈值,声源追踪终端可实时检测当前结束到的所有突发音频信号。在现实生活中,对声源的检测识别追踪过程中经常会检测到突发的音频信号。例如原本安静的空间场景中突然出现了音频信息,那么声源追踪终端需要对音频信号进行追踪检测,以确定当前出现的音频信息是否为有效信息。若判定是否有效信息的方式即可通过能量阈值和过零率阈值进行检测。

参照图2,所述根据能量阈值和过零率阈值检测并采集突发音频信号的步骤包括:

步骤S21,获取现场音频信号并解析,以获取现场音频信号的能量值和过零率;

所述现场音频信号指的是声源追踪终端所在现场的音频信号,声源追踪终端主要是通过对现场的音频信息进行采集,并转化为现场音频信号,同时对现场音频信号进行解析,以获取到现场音频信号的能量值和过零率。由上述可知,能量值和过零率即为突发音频信号的短时平均能量和短时过零率。

步骤S22,将所有现场音频信号中能量值大于能量阈值,且过零率大于过零率阈值的现场音频信号设为突发音频信号。

在获取到现场音频信号的能量值和过零率之后,声源追踪终端将对能量值和过零率进行阈值检测。假设能量值大于能量阈值,证明当前的现场音频信号的能量值达标;假设过零率大于过零率阈值,则证明当前的现场音频信号的过零率达标。但是,该检测判定过程中,只有现场音频信号的能量值和过零率同时达标,才能将该现场音频信号确认为达标的突发音频信号,否则该现场音频信号为无效的音频信号。也就是说,假设现场音频信号中的能量值大于能量阈值,而过零率不大于过零率阈值;或者现场音频信号中的过零率大于过零率阈值,而能量值不大于能量阈值时,声源追踪终端将认定该突发音频信号为不合格的无效音频信号。通过能量阈值和过零率阈值的双重限定,声源追踪终端可以将不清晰的、无效不规律的噪音进行有效过滤,从而得到真正所需要的突发音频信号,避免出现采集的音频信号不可用的现象发生。

步骤S30,对突发音频信号进行解析,以获取突发音频信号的声源方位信息;

突发音频信号中包含了很多信息,包括音频采集强度,音频频率,以及音频语义等多种有效信息,但都需要进行解析才能够获取到。通过对突发音频信号的解析,可获得大量解析数据,而这些解析数据,可具体指向该段突发音频信号的来源。

具体地,参照图3,以下将通过例子进行解析说明,所述对突发音频信号进行解析,以获取突发音频信号的声源方位信息的步骤包括:

步骤S31,获取所有突发音频信号中能量值最大的最大音频信号,并根据能量值并根据能量值确定最大音频信号的信号时延值;

声源追踪终端所获取的突发音频信号可能是不连续的,因此突发音频信号中的能量值也会是不连续的,因此存在一定的能量值差异。也就是说,所采集的突发音频信号中,每一帧的帧能量都有可以因为声源的发音方式不同而出现能量值的迥异,而能量值最大的音频信号通常是当前应用场景主要的声源信息,例如在新闻发布会中,演讲发言人的发言是焦点,也是会场内音量最高(即能量值最大)的音频信号。声源追踪终端需获取到所有突发音频信号中能量值最大的最大音频信号,根据每一帧信号中的帧能量,声源追踪终端可确定该最大音频信号的时延值,因为时延值会通过帧能量的变化趋势体现出来。而一般地,在声源追踪终端的应用场景中,演讲发言人的声音将会比较稳定,其音频信号的能量值也会呈现稳定的变化形式。

步骤S32,根据信号时延值获取突发音频信号中所有的时频点;

步骤S33,将所有时频点进行聚类处理,以获得声源方位信息。

由信号时延值,终端可确定出突发音频信号中的所有时频点,从而确定所有时频点的确切位置,而根据时频点,终端可对其进行聚类处理,以判断终端检测到该突发音频信号的方向位置,从而获取突发音频信号的声源方位信息。聚类处理主要是对不同时频点进行统计处理,以确定不同帧时刻所存在的信号帧是否为有效或清晰的信号帧,而有效的信号帧中的信号强度均可以标识着该信号帧的方向来源,经过一段突发音频信号中的多个信号帧的聚类处理,终端可统计出精确的声源方位信息。

所述将所有时频点进行聚类处理,以获得声源方位信息的步骤包括:

步骤S331,对所有时频点进行降噪处理,以获取到降噪时频点;

步骤S332,将所有降噪时频点进行聚类处理,以获得声源方位信息。

时频点中可能存在一些游离的无效信号点,为避免无效信号点对获取声源方位信息的干扰,本实施例将对时频点进行降噪处理,以获取到降噪时频点。将所有时频点中游离无效的时频点进行过滤、隔离或者柔化,从而减少或消除离散的时频点,可直观地显示时频特征,同时有利于提高所有时频点的辨识度,方便后续的操作处理。

步骤S40,根据声源方位信息,确定终端的声音采集方向。

获取到声源方位信息之后,终端即可针对声源方位信息,确定声源的位置范围,并将终端采集音频信号的收音天线或采集模块进行进一步精确定位,以过滤掉可能周围存在的噪音,避免干扰因素对收音效果的影响。在本实施例中声源追踪终端中的收音天线或采集模块可设置成可转动的采集装置,在获取到声源方位信息后,可将采集装置进行位移,以更方便有效地采集到音频信号。例如,在辩论赛之中,声源追踪终端可同时追踪正方和反方的发言,在轮到正方发言时,迅速确定正方的声源方向信息,以将终端上的采集装置转动到朝向正方声源方向的位置;而当轮到反方发言时,终端通过分析可迅速确定反方的声源方向信息,以将终端上的采集装置转动到朝向反方声源方向上的位置,从而实现高精度获取发言方的音频信号的目的。

本发明通过获取能量阈值和过零率阈值;根据能量阈值和过零率阈值检测并获取突发音频信号;对突发音频信号进行解析,以获取突发音频信号的声源方位信息;根据声源方位信息,确定终端的声音采集方向。本发明通过对突发音频信号进行阈值限定,以增加对突发语音端点的声源检测,从而能够对突发事件作出应急反应,避免噪音声源的干扰提高语音追踪和语音识别精确度和实时性,降低噪声影响,实现多声源测向,对声源的音频信息进行有效定位和提取,极大地提高了声源追踪设备的工作效率。

进一步地,在本发明声源追踪方法第一实施例的基础上,提出本发明声源追踪方法第二实施例,参照图2,与前述实施例的区别在于,所述根据声源方位信息,确定终端的声音采集方向的步骤包括:

步骤S41,当检测到多个声源方位信息时,获取各声源方位信息的波束能量;

步骤S42,将波束能量最大的声源方位信息的方向确定为终端的声音采集方向。

假设终端同时获取到多个声源方位信息,则不同的声源方位信息当前将被确定为声音采集方向,例如当前声源追踪终端在新闻发布会上同时检测到两个或两个以上的声源,分别为中文发言以及英文翻译。那么证明在当前场景下,中文发言和英文翻译均属于有效声源,按流程应该同时采集。但是在本实施例中,英文翻译只是对中文发言的版本转换,相对于原版的中文发言,英文翻译的音量(即能量值)会稍微降低一些。那么为方便声源追踪终端进行最大化的声源追踪,终端将经过一个能量判定过程,以确定所要追踪的方向。

具体地,在终端检测到多个声源方位信息之后,终端将直接获取各声源方位信息的波束能量。所述波束能量指的是声源方位信息中所检测到的能量值最大的声源能量。波束能量越大,则相对应的能量值越大,也就意味着当前所采集到的对应声源为主要声源。

在确定波束能量之后,终端可确定下当前场景环境中最主要的声源,从而将波束能量最大的声源方位信息的方向确定为终端的声音采集方向。

可选地,在本实施例中,声源与声源追踪终端的距离较远,即声源追踪终端中多个麦克风之间的幅度衰减差异很小,可以近似认为相等,是平面波模型。当信源离声源追踪终端较近时,基于平面波前的远场模型不再适用,必须采用更为精确也更为复杂的基于球面波前的近场模型。声波在传播过程中要发生幅度衰减,其幅度衰减因子与传播距离成正比。信源到声源追踪终端各阵元的距离是不同的,因此声波波前到达各阵元时,幅度也是不同的。近场模型和远场模型最主要的区别在于是否考虑声源追踪终端各阵元因接收信号幅度衰减的不同所带来的影响。对于远场模型,信源到各阵元的距离差与整个传播距离相比非常小,可忽略不计;参照图5,图5为本发明声源追踪终端近场球面波模型,对于近场模型,信源到各阵元的距离差与整个传播距离相比较大,必须考虑各阵元接收信号的幅度差。

参照图4,图4是本发明实施例方法涉及的硬件运行环境的设备结构示意图。

本发明实施例终端可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、便携计算机等终端设备。

如图4所示,该声源追踪设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地,该声源追踪设备还可以包括用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

本领域技术人员可以理解,图4中示出的声源追踪设备结构并不构成对声源追踪设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图4所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及声源追踪程序。操作系统是管理和控制声源追踪设备硬件和软件资源的程序,支持声源追踪程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与声源追踪设备中其它硬件和软件之间通信。

在图4所示的声源追踪设备中,处理器1001用于执行存储器1005中存储的声源追踪程序,实现以下步骤:

获取能量阈值和过零率阈值;

根据能量阈值和过零率阈值检测并采集突发音频信号;

对突发音频信号进行解析,以获取突发音频信号的声源方位信息;

根据声源方位信息,确定终端的声音采集方向。

进一步地,所述根据能量阈值和过零率阈值检测并采集突发音频信号的步骤包括:

获取现场音频信号并解析,以获取现场音频信号的能量值和过零率;

将所有现场音频信号中能量值大于能量阈值,且过零率大于过零率阈值的现场音频信号设为突发音频信号。

进一步地,所述对突发音频信号进行解析,以获取突发音频信号的声源方位信息的步骤包括:

获取所有突发音频信号中能量值最大的最大音频信号,并根据能量值确定最大音频信号的时延值;

根据信号时延值获取突发音频信号中所有的时频点;

将所有时频点进行聚类处理,以获得声源方位信息。

进一步地,所述将所有时频点进行聚类处理的步骤包括:

对所有时频点进行降噪处理,以获取到降噪时频点;

将所有降噪时频点进行聚类处理,以获得声源方位信息。

进一步地,所述根据声源方位信息,确定终端的声音采集方向的步骤包括:

当检测到多个声源方位信息时,获取各声源方位信息的波束能量;

将波束能量最大的声源方位信息的方向确定为终端的声音采集方向。

进一步地,所述获取能量阈值和过零率阈值的步骤包括:

根据预设测试条件采集预设采集范围内的样本音频信号;

根据样本音频信号进行计算,以获取能量阈值和过零率阈值。

本发明声源追踪设备的具体实施方式与上述声源追踪方法各实施例基本相同,在此不再赘述。

本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于:

获取能量阈值和过零率阈值;

根据能量阈值和过零率阈值检测并采集突发音频信号;

对突发音频信号进行解析,以获取突发音频信号的声源方位信息;

根据声源方位信息,确定终端的声音采集方向。

本发明计算机可读存储介质具体实施方式与上述声源追踪方法各实施例基本相同,在此不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1