声源定位方法、装置、计算机设备及存储介质与流程

文档序号:31468079发布日期:2022-09-09 22:14阅读:95来源:国知局
声源定位方法、装置、计算机设备及存储介质与流程

1.本发明涉及信号处理技术领域,尤其涉及一种声源定位方法、装置、计算机设备及存储介质。


背景技术:

2.语音交互被广泛应用于智能会议或者智能客服等场景中。在语音交互的应用过程中,往往需要在嘈杂环境下采集目标声源的语音信号。因此,对目标声源进行准确地声源定位是非常重要的。
3.现有技术中,往往是通过人工手动调整麦克风位置,使得麦克风可以朝向目标声源进行语音信号采集。但是目标声源是不断变化的,人工方式不能及时将麦克风调整至准确的位置。进而导致目标声源定位的准确率和效率较低,从而降低了语音信号采集的质量。


技术实现要素:

4.本发明提供一种声源定位方法、装置、计算机设备及存储介质,本发明解决了现有技术中定位精度准确度低和效率低的问题。
5.一种声源定位方法,包括:
6.获取音频采集信号,并对所述音频采集信号进行预处理,得到待定位音频信号;
7.获取预设声纹识别模型,并将所述待定位音频信号输入至所述预设声纹识别模型,通过所述预设声纹识别模型对所述待定位音频信号进行声纹匹配,以确定所述待定位音频信号是否包括目标音频信号;
8.当所述待定位音频信号包括所述目标音频信号时,获取至少一个目标采集图像,所述目标采集图像通过图像采集设备在目标采集区域拍摄得到;所述目标采集区域根据所述目标音频信号的信号采集区域生成;
9.获取预设图像识别模型,将所述目标采集图像输入至所述预设图像识别模型,通过所述预设图像识别模型对所述目标采集图像进行图像匹配,得到目标图像;一个目标图像关联一个声源音频信号;
10.将所述声源音频信号和所述目标音频信号进行信号匹配,得到声源定位结果。
11.一种声源定位装置,包括:
12.获取模块,用于获取音频采集信号,并对所述音频采集信号进行预处理,得到待定位音频信号;
13.声纹匹配模块,用于获取预设声纹识别模型,并将所述待定位音频信号输入至所述预设声纹识别模型,通过所述预设声纹识别模型对所述待定位音频信号进行声纹匹配,以确定所述待定位音频信号是否包括目标音频信号;
14.采集模块,用于当所述待定位音频信号包括所述目标音频信号时,获取至少一个目标采集图像,所述目标采集图像通过图像采集设备在目标采集区域拍摄得到;所述目标采集区域根据所述目标音频信号的信号采集区域生成;
15.图像匹配模块,用于获取预设图像识别模型,将所述目标采集图像输入至所述预设图像识别模型,通过所述预设图像识别模型对所述目标采集图像进行图像匹配,得到目标图像;一个目标图像关联一个声源音频信号;
16.结果模块,用于将所述声源音频信号和所述目标音频信号进行信号匹配,得到声源定位结果。
17.一种计算机设备,包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述声源定位方法。
18.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述所述声源定位方法。
19.本发明提供的声源定位方法、装置、电子设备及存储介质,本发明通过对音频采集信号进行预处理,实现了对待定位音频信号的获取,提高了音频信号的信噪比和质量。通过预设声纹识别模型进行声纹匹配,可以快速确定待定位音频信号中是否包括目标音频信号。再通过预设图像采集设备对图像采集设备拍摄得到的目标采集图像进行图像匹配,结合音频信号匹配的方法对目标声源进行准确定位。提高了声源定位的准确性和效率。
附图说明
20.为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
21.图1是本发明一实施例中声源定位方法的流程图;
22.图2是本发明一实施例中声源定位方法的步骤s20的流程图;
23.图3是本发明一实施例中声源定位方法的步骤s30的流程图;
24.图4是本发明一实施例中声源定位装置的原理框图;
25.图5是本发明一实施例中计算机设备的示意图。
具体实施方式
26.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
27.在一实施例中,如图1所示,提供提供了一种声源定位方法,包括如下步骤s10-s50:
28.s10,获取音频采集信号,并对所述音频采集信号进行预处理,得到待定位音频信号。
29.可理解地,音频采集信号为通过指向性麦克风阵列采集到的音频信号。音频信号为带有语音的有规律的声波的频率、幅度变化信息载体。待定位音频信号为对需要确定方向和位置的音频信号。其中,麦克风阵列可以为心型麦克风阵列、环形麦克风阵列、线性麦克风阵列、双指向型麦克风阵列或全向型麦克风阵列。麦克风阵列中的麦克风均为多声道
麦克风。麦克风阵列中麦克风的数量可以根据实际情况设定,如当空间范围小时,设置4个麦克风或6个麦克风,当空间范围大时,设置8个麦克风或12个麦克风。并将麦克风阵列的前后左右四个区域划分为不同的麦克风采集区域。例如当麦克风阵列中存在4个麦克风时,一个麦克风对应采集一个麦克风采集区域中的音频信号。也即,一个多声道麦克风用于采集处于麦克风阵列前方的麦克风采集区域的音频信号;一个多声道麦克风用于采集处于麦克风阵列后方的麦克风采集区域的音频信号;一个多声道麦克风用于采集处于麦克风阵列左方的麦克风采集区域的音频信号;一个多声道麦克风用于采集处于麦克风阵列右方的麦克风采集区域的音频信号。
30.具体地,通过麦克风阵列对周围环境中的音频信号进行采集,得到音频采集信号。通过依次对麦克风阵列采集到的音频采集信号进行求和处理、放大处理和降噪处理,即可完成对音频采集信号的预处理,得到待定位音频信号。假设在智能会议应用场景下,当存在多个多声道麦克风时,由于每一个多声道麦克风所对应的音频信号采集区域不同。因此在音频采集信号中包括所有多声道麦克风采集到的音频信号。进而在待定位音频信号中也可能存在多段不同的音频信号。
31.示例性地,在智能会议场景中,麦克风阵列中所有多声道麦克风均会对周围环境中的音频信号进行采集,当一个多声道麦克风对处于麦克风阵列前方的麦克风采集区域中的音频信号进行采集时。左方的多声道麦克风对处于麦克风阵列左方的麦克风采集区域中的音频信号进行采集。右方的多声道麦克风对处于麦克风阵列右方的麦克风采集区域中的音频信号进行采集。后方的多声道麦克风对处于麦克风阵列后方的麦克风采集区域中的音频信号进行采集,也即麦克风阵列中的多个多声道麦克风同时对周围环境中的音频信号进行采集。
32.进一步地,在一实施例中,当采集方向发生变化时,即原来左方、右方或后方变成当前前方时,例如,原来左方的多声道麦克风变成当前前方的多声道麦克风,则对当前前方的麦克风采集区域中的音频信号进行采集。原来前方的多声道麦克风变成当前右方的多声道麦克风,则对当前右方的麦克风采集区域中的音频信号进行采集。原来右方的多声道麦克风变成当前后方的多声道麦克风,则对当前后方的麦克风采集区域中的音频信号进行采集。原来后方的多声道麦克风变成当前左方的多声道麦克风,则对当前左方的麦克风采集区域中的音频信号进行采集。
33.s20,获取预设声纹识别模型,并将所述待定位音频信号输入至所述预设声纹识别模型,通过所述预设声纹识别模型对所述待定位音频信号进行声纹匹配,以确定所述待定位音频信号是否包括目标音频信号。
34.可理解地,预设声纹识别模型为提前训练完成的声纹识别模型,如将人或动物的声音作为训练数据输入到模型中,对模型进行训练,当模型识别的准确率达到设置的阈值时(如准确率为95%以上时),则结束模型训练,得到声纹识别模型。目标音频信号为目标物发出的音频信号。其中,在不同应用场景中目标物不同。例如,在智能会议场景下需要采集不同用户的音频信号,该目标物即为用户。在动物声音采集场景下,该目标物即为动物。
35.具体地,在得到待定位音频信号之后,调取预设声纹识别模型,将待定位音频信号输入到预设声纹识别模型中,并通过预设声纹识别模型对待定位音频信号进行声纹匹配。也即在预设声纹识别模型中预先存储若干音频信号(该音频信号可以根据不同应用场景确
定。例如在智能会议中,该音频信号即可以为参加会议的用户的音频信号)。当目标音频信号和预设声纹识别模型中的音频信号匹配失败时,则确定所述待定位音频信号不包括目标音频信号。当目标音频信号和预设声纹识别模型中的音频信号匹配成功时,则确定所述待定位音频信号包括目标音频信号。
36.s30,当所述待定位音频信号包括所述目标音频信号时,获取至少一个目标采集图像,所述目标采集图像通过图像采集设备在目标采集区域拍摄得到;所述目标采集区域根据所述目标音频信号的信号采集区域生成。
37.可理解地,目标采集图像为图像采集设备在目标采集区域拍摄的图像。图像采集设备为用于拍摄图像的设备,如摄像头或数码相机等设备。信号采集区域为采集目标音频信号的多声道麦克风所对应的采集区域。目标采集区域是通过信号采集区域对图像采集设备的位置或者视野进行调整后的拍摄区域。目标采集区域可以和信号采集区域相同,也可以处于信号采集区域内(也即目标采集区域小于信号采集区域)。
38.具体地,在确定待定位音频信号包括所述目标音频信号之后,获取目标音频信号所对应的麦克风阵列的麦克风采集区域,并将该麦克风采集区域确定为信号采集区域。进而可以通过信号采集区域对图像采集设备的拍摄区域进行调整,得到目标采集区域。从而使得图像采集设备在目标采集区域中进行拍摄,得到目标采集图像。其中,图像采集设备拍摄的频率在此不做限定。例如,图像采集设备可以每间隔1s拍摄一次。
39.s40,获取预设图像识别模型,将所述目标采集图像输入至所述预设图像识别模型,通过所述预设图像识别模型对所述目标采集图像进行图像匹配,得到目标图像;一个目标图像关联一个声源音频信号。
40.可理解地,预设图像识别模型为提前训练完成的图像识别模型,如将人或动物的图像作为训练数据输入到模型中,对模型进行训练,当模型识别的准确率达到设置的阈值时(如准确率为97%以上时),则结束模型训练,得到图像识别模型。目标图像为与预设图像识别模型中的图像匹配成功的目标采集图像。一个目标图像关联一个声源音频信号。声源音频信号为预先采集目标图像对应的目标物发出的音频信号。
41.具体地,在得到目标采集图像之后,调取预设图像识别模型,将目标采集图像输入到预设图像识别模型中,并依次将所有目标采集图像和预设图像识别模型中的图像进行图像匹配。也即在预设图像识别模型中预先存储若干图像(该图像可以根据不同应用场景确定。例如在智能会议中,该图像即可以为参加会议的用户)。当目标采集图像和预设图像识别模型中的图像不同时,得到匹配失败的结果,并对用户提示匹配失败。当目标采集图像和预设图像识别模型中的图像相同时,将该目标采集图像确定为目标图像。
42.s50,将所述声源音频信号和所述目标音频信号进行信号匹配,得到声源定位结果。
43.具体地,在得到目标图像之后,调取与目标图像相关联的声源音频信号,并将声源音频信号和目标音频信号进行信号匹配。当声源音频信号和目标音频信号相同时,得到表征匹配成功的声源定位结果。当声源音频信号和目标音频信号不同时,得到表征匹配失败的声源定位结果。其中,声源定位结果表征声源音频信号与目标音频信号是否匹配成功。
44.本发明通过对音频采集信号进行预处理,实现了对待定位音频信号的获取,提高了音频信号的信噪比和质量。通过预设声纹识别模型进行声纹匹配,可以快速确定待定位
音频信号中是否包括目标音频信号。再通过预设图像采集设备对图像采集设备拍摄得到的目标采集图像进行图像匹配,结合音频信号匹配的方法对目标声源进行准确定位。提高了声源定位的准确性和效率。
45.在一实施例中,所述步骤s10中,即获取音频采集信号,包括:
46.(1)通过麦克风阵列采集声波信号,并对所述声波信号进行声电转换,得到模拟音频信号。
47.可理解地,声波信号为麦克风阵列采集到所有的声音,如人声和场景噪音等。模拟音频信号为声电转换后的电信号。电信号为以电压、电流或电磁波为载体的信号。通过麦克风阵列中的多声道麦克风对周围环境中的声波信号进行采集,并将得到的声波信号进行声电转换之后得到的电信号即为模拟音频信号。
48.(2)对所述模拟音频信号进行模数转换,得到所述音频采集信号。
49.具体地,通过模数转换电路对模拟音频信号进行模数转换处理,得到数字音频信号,并将获得的数字音频信号确定为音频采集信号。其中,模数转换为将模拟信号转换为数字信号。
50.本发明通过麦克风阵列采集声波信号,并对声波信号进行声电转换以及模数转换,实现了对音频采集信号的获取。
51.在一实施例中,所述步骤s10中,即对所述音频采集信号进行预处理,得到待定位音频信号,包括:
52.(1)通过波束形成算法对所述音频采集信号进行加权求和处理,得到有效音频信号。
53.可理解地,有效音频信号为多个声波信号相加后的音频信号。窗函数包括矩形窗、汉明窗(hamming)、汉宁窗(hanning)和布莱克曼(blackman)等。
54.具体地,在获取音频采集信号之后,对音频采集信号进行分帧处理,即将音频采集信号划分为固定时长的片段,如25毫秒进行分割。对划分后的音频信号进行加窗处理,即在每个固定时长的片段中增加窗函数,使得划分后不连续的音频信号,变得连续,并表现出周期函数的特性。通过傅里叶变换对加窗后的音频信号进行处理,将时域中的加窗变成频域中的卷积。并采用延时求和波束形成算法对每个多声道麦克风的音频采集信号在频域中进行求和计算,得到有效音频信号。其中,波束形成算法为将多个声波信号进行求和的算法。进一步地,在采用指向性麦克风阵列时,可以直接通过麦克风阵列对音频采集信号进行处理,得到有效音频信号。在采用环形麦克风阵列或线性麦克风阵列时,需要通过波束形成算法对音频采集信号进行求和处理,也即通过上述过程得到有效音频信号。
55.(2)通过自动增益控制电路对所述有效音频采集信号进行放大处理,得到放大音频信号。
56.可理解地,自动增益控制电路为通过反馈系统对放大器的增益进行自动调节的电路,通常是为了使放大电路的增益自动地随信号强度而调整的控制电路。反馈系统为根据输出信号对输入信号进行调整的电路。放大电路为将输入的微弱信号放大到所需要的幅度值且与原输入信号变化规律一致的信号。其中,放大电路包括线性放大电路和压缩放大电路。
57.具体地,在得到有效音频信号之后,将有效音频信号输入到自动增益控制电路,通
过放大电路对有效音频信号进行放大,并将输出的音频信号输入到反馈系统中,反馈系统对输出的音频信号进行检测处理,确定输出的音频信号是否符合输出信号的强度范围要求,如将信号强度范围设置为60-80dbm。当输出的音频信号不符合信号强度范围时,对放大器的增益进行调整。其中,当输入弱信号时,线性放大电路工作,确保输出信号的强度;当输入信号达到一定强度时,启动压缩放大电路,使输出信号的强度降低。通过调整后的放大器增益对有效音频信号进行放大处理,得到放大音频信号。
58.(3)基于主动降噪技术对所述放大音频信号进行降噪处理,得到所述待定位音频信号。
59.可理解地,主动降噪技术为通过电子线路获取噪声的相反相位,并将得到相位相反、振幅相同的信号对噪音进行抵消的技术。
60.具体地,在得到放大音频信号之后,对放大音频信号进行频谱分析,得到放大音频信号的信号频谱。通过电子线路对场景噪音的相位进行处理,得到与场景噪音相位相反、振幅相同的信号,并通过频谱分析得到该信号的噪音频谱。将信号频谱中与噪音频谱相位相反、振幅相同的信号进行抵消,得到待定位音频信号。其中,优选的主动降噪技术为enc降噪。信号频谱为对放大音频信号进行频谱分析得到的频谱。频谱分析为将复杂信号分解为简单信号的技术,即找出音频信号在不同频率下的信息。噪音频谱为与场景噪音相位相反、振幅相同的信号的频谱。
61.本发明通过波束形成算法对音频采集信号进行求和计算,实现了对有效音频信号的获取。通过自动增益控制电路对有效音频信号进行放大处理以及通过主动降噪技术对放大音频信号进行降噪,实现了对待定位音频信号的获取,提高了音频信号的信噪比和质量。
62.在一实施例中,如图2所示,所述步骤s20中,即通过所述预设声纹识别模型对所述待定位音频信号进行声纹匹配,以确定所述待定位音频信号是否包括目标音频信号,包括:
63.s201,对所述待定位音频信号进行语音端点检测,以确定所述待定位音频信号中是否包括声波音频信号。
64.可理解地,语音端点检测就是从连续的信号流中检测出有效信号的范围。声波音频信号为人或动物发出的音频信号。
65.具体地,在得到待定位音频信号之后,对待定位音频信号进行语音端点检测。从待定位音频信号中准确定位出声波音频信号的起始点和/或结束点,也即在该待定位音频信号中只需要检测到起始点和/或结束点,即可确定待定位音频信号中包括声波音频信号。其中,起始点也即为待定位音频信号中开始采集到声波音频信号的起始时间;结束点也即为待定位音频信号中从采集到声音之后未采集到声波音频信号的时间。
66.进一步地,本实施例中通过信号能量值的变化进行语音端点检测。首先将待定位音频信号按照固定时长比如30毫秒进行分割,每个分割单元包含数量相同的信号采样点,然后计算每个分割单元中信号的能量值。如果在待定位音频信号的前端部分连续若干个分割单元的能量值低于预设能量值阈值(该预设能量值阈值可以根据需求进行设定),接下来的连续若干个分割单元能量值大于或等于预设能量值阈值,则在信号能量值增大的地方就是声波音频信号的起始点。同样的,如果连续的若干个分割单元中语音的能量值较大,随后若干个分割单元中语音的能量值变小,并且持续一定的时长,可以认为在能量值减小的地方即是声波音频信号的结束点。
67.s202,在所述待定位音频信号中包括声波音频信号时,对所述声波音频信号进行声纹特征识别,得到与所述声波音频信号相对应的待定位声纹特征;一个所述声波音频信号对应一个待定位声纹特征。
68.可理解地,待定位声纹特征为声波音频信号中携带的声纹特征。该待定位声纹特征可以通过梅尔频率倒谱系数对声波音频信号提取得到。
69.具体地,当确定在所述待定位音频信号中包括声波音频信号时,采用梅尔频率倒谱系数对声波音频信号进行特征提取,首先对待定位音频信号进行预处理,得到多个采样点。将待定位音频信号以256或512个采样点进行分帧处理,得到多个分帧单元。其中,为避免相邻分帧单元的变化过大,让两相邻分帧单元之间有一段重叠区域,此重叠区域包含128或256个取样点。将每个分帧单元乘以窗函数,使每分帧单元的左端和右端具有连续性,从而得到连续的时间窗。其次对所有加窗后的分帧单元进行快速傅里叶变换,得到与各分帧单元相对应的频谱,即获得分布在时间轴上不同时间窗内的频谱。
70.进一步地,通过梅尔滤波器对获得的频谱进行处理,得到梅尔频谱,即将线形的自然频谱转换为体现人类听觉特性的梅尔频谱。然后取梅尔频谱的对数得到梅尔频谱的对数能量,并根据离散余弦变换将对数能量进行逆变换,并取离散余弦变换后的第二个到第十三个系数作为梅尔频率倒谱系数,并将梅尔频率倒谱系数确定为待定位声纹特征。
71.s203,将所述待定位声纹特征和所述预设声纹识别模型中的目标声纹特征进行特征匹配,得到声纹匹配结果;一个所述待定位声纹特征对应一个声纹匹配结果。
72.可理解地,目标声纹特征即为预先存储至预设声纹识别模型中目标物的声纹特征。示例性地,在智能会议应用场景中,需要采集演讲者的音频信号。则该目标物即为智能会议中的演讲者。从而可以预先采集演讲者的音频信号,并对该演讲者的音频信号进行声纹特征提取得到目标声纹特征。声纹匹配结果为待定位声纹特征和目标声纹特征匹配的结果。
73.具体地,在得到待定位声纹特征之后,将待定位声纹特征输入到预设声纹识别模型中,并与预设声纹识别模型中的目标声纹特征进行匹配,即计算待定位声纹特征和目标声纹特征之间的相似度。当待定位声纹特征和目标声纹特征的相似度大于或等于预设目标相似度阈值时,得到表征匹配成功的声纹匹配结果。当待定位声纹特征和目标声纹特征的相似度小于预设目标相似度阈值时,得到表征匹配失败的声纹匹配结果。其中,预设目标相似度阈值为提前设置的用于判断待定位声纹特征和目标声纹特征之间相似度的阈值。
74.s204,在任意一个所述声纹匹配结果表征匹配成功时,确定所述待定位音频信号中包括目标音频信号。
75.具体地,由于在不同的应用场景中,目标声纹特征的数量为一个或者多个。因此,在对待定位声纹特征和目标声纹特征进行特征匹配,得到声纹匹配结果之后,当任意一个声纹匹配结果表征匹配成功时,则表征待定位音频信号中有当前应用场景下所需要采集的目标物的音频信号。也即待定位音频信号中包括目标音频信号。当所有声纹匹配结果表征匹配失败时,则表征待定位音频信号中不具有当前应用场景下所需要采集的目标物的音频信号。也即待定位音频信号中不包括目标音频信号。
76.进一步地,如果待定位音频信号中不包括目标音频信号,即待定位音频信号中全为场景噪声时,通过麦克风阵列对周围环境中的音频信号重新采集,并根据上述步骤对采
集音频信号进行预处理和声纹匹配,直至确定待定位音频信号中包括目标音频信号。具体实现过程与上述步骤s10-s20相同,在此不再赘述。进一步地,当同一麦克风阵列超过两次均判定待定位音频信号中不包括目标音频信号,则对麦克风阵列进行替换,并用新的麦克风阵列对周围环境中的音频信号重新采集。
77.本发明通过对待定位音频信号进行语音端点检测,可以快速确定待定位音频信号中是否包括声波音频信号。通过对声波音频信号进行声纹特征识别,可以提取声波音频信号的待定位声纹特征。通过待定位声纹特征和目标声纹特征的匹配以及对表征匹配成功的声纹匹配结果的确定,实现了确定待定位音频信号中包括目标音频信号。
78.在一实施例中,如图3所示,所述步骤s30中,即当所述待定位音频信号包括所述目标音频信号时,获取目标采集图像,包括:
79.s301,在所述待定位音频信号包括目标音频信号时,获取所述目标音频信号对应的信号采集区域。
80.具体地,在得到表征匹配成功的声源定位结果之后,即当确定待定位音频信号包括目标音频信号时,对采集目标音频信号的区域进行确定。对四个麦克风采集区域内的音频信号进行信号强度计算,得到与各麦克风采集区域相对应的信号强度值。并将四个信号强度值进行比较,将四个信号强度值中最大值所对应的麦克风采集区域确定为信号采集区域。
81.s302,获取所述图像采集设备的当前采集区域,并根据所述信号采集区域对所述当前采集区域进行调整,得到目标采集区域。
82.s303,通过所述图像采集设备在所述目标采集区域进行图像采集,得到所述目标采集图像。
83.具体地,在获取信号采集区域之后,通过图像采集设备对当前视野范围进行拍摄,得到当前采集区域,并比较信号采集区域和当前采集区域是否为同一方向。当信号采集区域和当前采集区域的方向相同时,则将该当前采集区域确定为目标采集区域。当信号采集区域和当前采集区域的方向不同时,通过终端控制设备对图像采集设备的拍摄区域进行调整,将图像采集设备拍摄区域调整为信号采集区域,并将调整后的拍摄区域确定为目标采集区域。其中,当前采集区域为图像采集设备当前视野的范围。终端控制设备为可以对图像采集设备的位置或方向进行调整的设备。
84.进一步地,在确定目标采集区域之后,通过图像采集设备对目标采集区域内的图像进行拍摄,并将拍摄得到图像确定为目标采集图像。其中,在不同的应用场景中,处于目标采集区域内的目标物的数量可能为一个或多个。因此,在一个目标采集图像中可能存在一个或者多个采集对象。
85.在一实施例中,当麦克风阵列左方的多声道麦克风、右方的多声道麦克风或后方的多声道麦克风在各麦克风采集区域采集到音频信号时,图像采集设备会对采集到音频信号的麦克风采集区域中的图像进行拍摄,并在客户端的当前画面中会呈现对应的画面窗口,也即呈现左方、右方或后方的画面窗口。当需要对画面进行转换时,可以点击客户端上左方、右方或后方的画面窗口或其它方式触发跳转指令,从当前画面跳转到左方、右方或后方的画面窗口对应的画面,也即使左方、右方或后方的画面窗口对应的画面变成当前画面。同时,麦克风阵列中的多声道麦克风的采集方向也发生变化,具体变化过程与上述步骤s10
中的实施例相同,在此不在赘述。其中,客户端包括但不限于显示屏、各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。
86.本发明通过获取信号采集区域以及当前采集区域,并根据信号采集区域对图像采集设备拍摄区域进行调整,实现了对目标采集区域的获取。通过图像采集设备对目标采集区域的图像进行拍摄,实现了对目标采集图像的采集。
87.在一实施例中,所述步骤s40中,即通过所述预设图像识别模型对所述目标采集图像进行图像匹配,得到目标图像,包括:
88.(1)对所述目标采集图像进行图像识别,得到至少一个截取采集图像;所述截取采集图像是指从所述目标采集图像中截取的仅包含一个采集对象的采集图片;
89.(2)将包含同一个采集对象的截取采集图像关联记录为一个拍摄采集组。
90.可理解地,截取采集图像为从所述目标采集图像中截取的仅包含一个采集对象的采集图片。拍摄采集组为同一个采集对象的截取采集图像的集合。采集对象为图像采集设备所拍摄到的图像。
91.具体地,在得到目标采集图像之后,对目标采集图像中的采集对象进行识别。通过计算目标采集图像的灰度值,检测目标采集图像中采集对象的边缘,得到目标采集图像中采集对象的边缘。根据检测到的采集对象的边缘对目标采集图像中的采集对象图像进行分割,得到至少一个截取采集图像。并对所有截取采集图像进行图像匹配,得到包含同一个采集对象的截取采集图像。并将包含同一个采集对象的截取采集图像进行关联,依次将所有包含同一个采集对象的截取采集图像进行关联,并将关联后包含同一个采集对象的截取采集图像记录为一个拍摄采集组。
92.(3)针对每一个所述拍摄采集组,确定所述目标人物图像与所述拍摄采集组中的截取采集图像之间的图片相似度;
93.(4)将大于或等于预设图像相似度阈值的图片相似度对应的截取采集图像记录为所述目标图像。
94.具体地,在得到拍摄采集组之后,将拍摄采集组中的包含同一个采集对象的截取采集图像输入到预设图像识别模型中,并与预设图像识别模型中的目标人物图像进行相似度匹配。例如,通过灰度匹配对截取采集图像和目标人物图像进行相似度匹配,对截取采集图像的像素进行计算,得到截取采集图像的像素值。对目标人物图像的像素进行计算,得到目标人物图像的像素值。将截取采集图像的像素值和目标人物图像的像素值进行比较,得到两张图像之间的图片相似度。当图片相似度大于或等于预设图像相似度阈值时,将对应的截取采集图像记录为目标图像。当图片相似度小于预设图像相似度阈值时,确定截取采集图像不是目标图像。其中,预设图像相似度阈值为提前设置的图片之间相似度的阈值。目标人物图像为作为训练数据的目标物的图片。
95.进一步地,当确定截取采集图像不是目标图像时,将下一个拍摄采集组中的截取采集图像和目标人物图像进行匹配,直至某个拍摄采集组中的截取采集图像和目标人物图像的相似度大于或等于预设图像相似度阈值,得到目标图像。当所有拍摄采集组中的截取采集图像均匹配失败,对图像采集设备的视野或位置进行调整,并对调整后的目标采集区域重新拍摄,得到新的目标采集图像。对新的目标采集图像进行分割,得到新的截取采集图像,并与目标人物图像重新匹配。
96.本发通过对目标采集图像进行图像识别,得到截取采集图像,并通过将包含同一个采集对象的截取采集图像进行关联记录,实现了对拍摄采集组的获取。通过截取采集图像和目标人物图像进行相似度匹配,实现了对目标图像的确定。
97.在一实施例中,所述步骤s50中,即将所述声源音频信号和所述目标音频信号进行信号匹配,得到声源定位结果,包括:
98.(1)对所述声源音频信号和所述目标音频信号进行声纹特征识别,得到声源音频信号对应的声源音频声纹特征和目标音频信号对应的目标音频声纹特征。
99.可理解地,声源音频声纹特征为声源音频线信号的声纹特征。目标音频声纹特征为目标音频信号的声纹特征。
100.具体地,在得到目标图像之后,获取与目标图像关联的声源音频信号,通过梅尔频率倒谱系数对声源音频信号进行特征提取,首先对待定位音频信号进行预处理,得到多个采样点。将声源音频信号以256或512个采样点进行分帧处理,得到多个分帧单元。其中,为避免相邻分帧单元的变化过大,让两相邻分帧单元之间有一段重叠区域,此重叠区域包含128或256个取样点。将每个分帧单元乘以窗函数,使每分帧单元的左端和右端具有连续性,从而得到连续的时间窗。其次对所有加窗后的分帧单元进行快速傅里叶变换,得到频域中与各分帧单元相对应的频谱,即获得分布在时间轴上不同时间窗内的频谱。
101.进一步地,通过梅尔滤波器对获得的频谱进行处理,得到梅尔频谱,即将线形的自然频谱转换为体现人类听觉特性的梅尔频谱。然后取梅尔频谱的对数,得到梅尔频谱的对数能量,并根据离散余弦变换将对数能量进行逆变换,并取离散余弦变换后的第二个到第十三个系数作为梅尔频率倒谱系数,并将梅尔频率倒谱系数确定为声源音频声纹特征。同理,得到与目标音频信号相对应的目标音频声纹特征。具体实现过程与上述步骤相同,在此不再赘述。
102.(2)将所述声源音频声纹特征和所述目标音频声纹特征进行相似度匹配,得到声源定位结果。
103.具体地,在得到声源音频声纹特征和目标音频声纹特征之后,检测声源音频声纹特征和目标音频声纹特征之间的相似度是否超过预设声纹相似度阈值。当声源音频声纹特征和目标音频声纹特征的相似度小于预设声纹相似度阈值时,得到表征匹配失败的声源定位结果,并对匹配失败的声源定位结果进行提示。当声源音频声纹特征和目标音频声纹特征的相似度大于或等于预设声纹相似度阈值时,得到表征匹配成功的声源定位结果,即可确定目标物的位置。其中,声源定位结果为声源音频声纹特征和目标音频声纹特征的相似度匹配结果。预设声纹相似度阈值为提前设置的用于判断声源音频声纹特征和目标音频声纹特征之间相似度的阈值。
104.进一步地,在一实施例中,将声源音频声纹特征和目标音频声纹特征进行相似度匹配,得到相似度为0.9,设定的预设声纹相似度阈值为0.8,声源音频声纹特征和目标音频声纹特征的相似度大于预设声纹相似度阈值,得到匹配成功的结果,即可确定目标物的位置。其中,预设声纹相似度阈值可以根据实际情况进行设置,如将预设声纹相似度阈值设置为0.6,避免因声音嘶哑或其他因素而造成声源音频声纹特征和目标音频声纹特征的相似度小于预设声纹相似度阈值,导致无法对目标物进行定位。
105.本发明通过对声源音频信号和目标音频信号进行声纹特征识别,实现了对声源音
频声纹特征和目标音频声纹特征的获取。通过声源音频声纹特征和目标音频声纹特征进行相似度匹配,实现了对声源定位结果的获取。
106.进一步地,若在当前应用场景中更新了声源时(如智能会议场景中,第一批处于会议上的用户结束会议之后,第二批其它用户加入至智能会议时),或者当前目标物的位置发生变化时(如从一个多声道麦克风的采集区域移动到另一个多声道麦克风的采集区域),亦或者当前应用场景发生变化时(如智能会议场景切换为智能客服场景时),可以根据上述步骤s10至s50的方法确定新的声源定位结果。具体实现过程与上述步骤s10-s50相同,在此不再赘述。
107.在一实施例中,提供一种声源定位装置,该声源定位装置与上述实施例中声源定位方法一一对应。如图4所示,该声源定位装置包括获取模块11、声纹匹配模块12、采集模块13、图像匹配模块14和结果模块15。各功能模块详细说明如下:
108.获取模块11,用于获取音频采集信号,并对所述音频采集信号进行预处理,得到待定位音频信号;
109.声纹匹配模块12,用于获取预设声纹识别模型,并将所述待定位音频信号输入至所述预设声纹识别模型,通过所述预设声纹识别模型对所述待定位音频信号进行声纹匹配,以确定所述待定位音频信号是否包括目标音频信号;
110.采集模块13,用于当所述待定位音频信号包括所述目标音频信号时,获取至少一个目标采集图像,所述目标采集图像通过图像采集设备在目标采集区域拍摄得到;所述目标采集区域根据所述目标音频信号的信号采集区域生成;
111.图像匹配模块14,用于获取预设图像识别模型,将所述目标采集图像输入至所述预设图像识别模型,通过所述预设图像识别模型对所述目标采集图像进行图像匹配,得到目标图像;一个目标图像关联一个声源音频信号;
112.结果模块15,用于将所述声源音频信号和所述目标音频信号进行信号匹配,得到声源定位结果。
113.在一实施例中,所述获取模块11包括:
114.声电转换单元,用于通过麦克风阵列采集声波信号,并对所述声波信号进行声电转换,得到模拟音频信号;
115.模数转换单元,用于对所述模拟音频信号进行模数转换,得到所述音频采集信号。
116.在一实施例中,所述获取模块11还包括:
117.加权求和单元,用于通过波束形成算法对所述音频采集信号进行加权求和处理,得到有效音频信号;
118.放大单元,用于通过自动增益控制电路对所述有效音频采集信号进行放大处理,得到放大音频信号;
119.降噪单元,用于基于主动降噪技术对所述放大音频信号进行降噪处理,得到所述待定位音频信号。
120.在一实施例中,所述声纹匹配模块12包括:
121.检测单元,用于对所述待定位音频信号进行语音端点检测,以确定所述待定位音频信号中是否包括声波音频信号;
122.声纹特征识别单元,用于在所述待定位音频信号中包括声波音频信号时,对所述
声波音频信号进行声纹特征识别,得到与所述声波音频信号相对应的待定位声纹特征;一个所述声波音频信号对应一个待定位声纹特征;
123.声纹特征匹配单元,用于将所述待定位声纹特征和所述预设声纹识别模型中的目标声纹特征进行特征匹配,得到声纹匹配结果;一个所述待定位声纹特征对应一个声纹匹配结果;
124.确定单元,用于在任意一个所述声纹匹配结果表征匹配成功时,确定所述待定位音频信号中包括目标音频信号。
125.在一实施例中,所述采集模块13包括:
126.区域单元,用于获取所述目标音频信号对应的信号采集区域;
127.调整单元,用于获取所述图像采集设备的当前采集区域,并根据所述信号采集区域对所述当前采集区域进行调整,得到目标采集区域;
128.采集单元,用于通过所述图像采集设备在所述目标采集区域进行图像采集,得到所述目标采集图像。
129.在一实施例中,所述图像匹配模块14包括:
130.图像识别单元,用于对所述目标采集图像进行图像识别,得到至少一个截取采集图像;所述截取采集图像是指从所述目标采集图像中截取的仅包含一个采集对象的采集图片;
131.关联单元,用于将包含同一个采集对象的截取采集图像关联记录为一个拍摄采集组;
132.相似度确定单元,用于针对每一个所述拍摄采集组,确定所述目标人物图像与所述拍摄采集组中的截取采集图像之间的图片相似度;
133.记录单元,用于将大于或等于预设图像相似度阈值的图片相似度对应的截取采集图像记录为所述目标图像。
134.在一实施例中,所述结果模块15包括:
135.识别单元,用于对所述声源音频信号和所述目标音频信号进行声纹特征识别,得到声源音频信号对应的声源音频声纹特征和目标音频信号对应的目标音频声纹特征;
136.相似度匹配单元,用于将所述声源音频声纹特征和所述目标音频声纹特征进行相似度匹配,得到声源定位结果。
137.关于声源定位装置的具体限定可以参见上文中对于声源定位方法的限定,在此不再赘述。上述声源定位装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
138.在一个实施例中,提供了一种计算机设备,该计算机设备可以是客户端或者服务端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种声源定位方法。
139.在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中声源定位方法。
140.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中声源定位方法。
141.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
142.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
143.以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1