一种车载声源定位方法、装置、设备、介质及产品与流程

文档序号:29464509发布日期:2022-04-02 02:53阅读:444来源:国知局
一种车载声源定位方法、装置、设备、介质及产品与流程

1.本技术涉及语音处理技术领域,尤其涉及一种车载声源定位方法、装置、电子设备、计算机可读存储介质及计算机程序产品。


背景技术:

2.随着语音处理技术如语音唤醒、语音识别的飞速发展,各种语音应用应运而生。语音助手作为一种典型的语音应用,在不同场景中得到广泛应用。语音助手通常支持一定范围内的语音唤醒和识别。例如,车载语音助手通常支持全车范围内的语音唤醒和识别。
3.当车内不同区域的人同时说话时,可以对语音唤醒和识别造成严重影响。为此可以通过声源定位确定唤醒方向,然后通过波束形成(beamforming)算法有效抑制其他方向的语音,从而提高唤醒率和识别率,提升用户的交互体验。
4.其中,声源定位可以通过基于麦克风阵列的波束形成算法实现。具体地,车内的顶灯位置和车内b柱的位置可以分别部署2个麦克风,形成麦克风阵列。通过将麦克风阵列中各阵元(即各麦克风)采集的信号进行加权求和形成波束,然后通过搜索声源的可能位置来引导该波束,最终使得该波束输出功率最大的位置即为声源的位置。
5.然而,上述声源定位方法容易受到麦克风阵列的位置以及周围材料的影响,例如b柱上的麦克风可能受到材料的遮挡,进而导致麦克风阵列失效。如此,影响了声源定位的准确度,进而影响用户的交互体验。


技术实现要素:

6.本技术实施例的主要目的在于提供一种车载声源定位方法,该方法能够降低麦克风阵列位置对于声源定位的影响,提高声源定位的准确度。本技术还提供了上述车载声源定位方法对应的装置、设备、计算机可读存储介质以及计算机程序产品。
7.第一方面,本技术提供了一种车载声源定位方法,应用于电子设备,该方法包括:
8.获取车内目标位置部署的多个麦克风接收的多路时域信号,所述目标位置无材料遮挡,所述多路时域信号与所述多个麦克风一一对应;
9.将所述多路时域信号分别进行傅里叶变换,获得多路频域信号;
10.输入所述多路频域信号至预测模型,获得车内各音区的信号能量占比,所述音区表示车内空间被划分的区域;
11.根据车内各音区的所述信号能量占比,确定所述车载声源所属的音区。
12.一种可能的实现方式中,所述预测模型通过利用第一类型的样本数据、第二类型的样本数据和第三类型的样本数据进行模型训练得到,所述第一类型的样本数据中的声源属于相位相同且幅度不同的音区,所述第二类型的样本数据中的声源属于幅度相同且相位不同的音区,所述第三类型的样本数据中的声源属于幅度不同且相位不同的音区。
13.一种可能的实现方式中,所述第一类型的样本数据中的相位信息被设置为掩膜,所述第二类型的样本数据中幅度信息被设置为掩膜。
14.一种可能的实现方式中,所述预测模型通过对复数u型网络进行训练得到。
15.一种可能的实现方式中,所述目标位置为顶灯位置,所述顶灯位置部署有至少2个麦克风,所述车内空间被划分为四音区或五音区。
16.一种可能的实现方式中,所述车内空间容纳有n排座位,所述n大于或等于3,所述目标位置为相邻两排座位的中间位置,每个中间位置部署有至少2个麦克风,所述车内空间被划分为2n个音区或2n+1个音区。
17.第二方面,本技术提供了一种车载声源定位装置,其特征在于,包括:
18.通信模块,用于获取车内目标位置部署的多个麦克风接收的多路时域信号,所述目标位置无材料遮挡,所述多路时域信号与所述多个麦克风一一对应;
19.变换模块,用于将所述多路时域信号分别进行傅里叶变换,获得多路频域信号;
20.预测模块,用于输入所述多路频域信号至预测模型,获得车内各音区的信号能量占比,所述音区表示车内空间被划分的区域;
21.定位模块,用于根据车内各音区的所述信号能量占比,确定所述车载声源所属的音区。
22.一种可能的实现方式中,所述预测模型通过利用第一类型的样本数据、第二类型的样本数据和第三类型的样本数据进行模型训练得到,所述第一类型的样本数据中的声源属于相位相同且幅度不同的音区,所述第二类型的样本数据中的声源属于幅度相同且相位不同的音区,所述第三类型的样本数据中的声源属于幅度不同且相位不同的音区。
23.一种可能的实现方式中,所述第一类型的样本数据中的相位信息被设置为掩膜,所述第二类型的样本数据中幅度信息被设置为掩膜。
24.一种可能的实现方式中,所述预测模型通过对复数u型网络进行训练得到。
25.一种可能的实现方式中,所述目标位置为顶灯位置,所述顶灯位置部署有至少2个麦克风,所述车内空间被划分为四音区或五音区。
26.一种可能的实现方式中,所述车内空间容纳有n排座位,所述n大于或等于3,所述目标位置为相邻两排座位的中间位置,每个中间位置部署有至少2个麦克风,所述车内空间被划分为2n个音区或2n+1个音区。
27.第三方面,本技术实施例还提供了一种车载声源定位设备,包括:处理器、存储器、系统总线;
28.所述处理器以及所述存储器通过所述系统总线相连;
29.所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述车载声源定位方法中的任意一种实现方式。
30.第四方面,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述车载声源定位方法中的任意一种实现方式。
31.第五方面,本技术实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述车载声源定位方法中的任意一种实现方式。
32.本技术实施例提供了一种车载声源定位方法,该方法首先获取车内无材料遮挡的目标位置部署的多个麦克风所接收的多路时域信号,其中多路时域信号和多个麦克风一一
对应,然后将多路时域信号分别进行傅里叶变换,获得对应的多路频域信号,将获得的多路频域信号输入预测模型,获得车内各音区分别的信号能量占比,从而根据在各音区的信号能量占比确定车载声源所述的音区。
33.一方面,根据预测模型预测获得声源信号在车内各音区分别的信号能量占比,根据信号能量占比确定声源所述的音区,从而避免麦克风阵列的位置对于声源定位的影响。
34.另一方面,麦克风所部署的位置无材料遮挡,因此可以避免识别结果受到周围材料的影响,从而能够提高声源定位的准确度,提高用户的交互体验。
附图说明
35.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
36.图1为本技术实施例提供的一种车载声源定位方法的场景图;
37.图2为本技术实施例提供的一种车载声源定位方法的流程示意图;
38.图3为本技术实施例提供的一种车内音区划分的示意图;
39.图4为本技术实施例提供的另一种车内音区划分的示意图;
40.图5为本技术实施例提供的一种几何声学反射的示意图;
41.图6为本技术实施例提供的一种预测模型的结构示意图;
42.图7为本技术实施例提供的一种载声源定位装置的结构示意图。
具体实施方式
43.语音交互是指通过语音进行人机交互。区别于基于图形界面的人机交互,语音交互具有操作便捷、使用门槛低(视力障碍人员也可以使用)、交互效率高等优势,因而被广泛应用到不同领域。例如,休闲娱乐领域,智能音箱支持用户通过语音控制音箱播放音乐;又例如,在汽车领域,汽车支持驾驶员通过语音对车辆进行控制。
44.语音交互的关键在于语音唤醒和语音识别。语音唤醒是指设备(例如:手机、玩具、家电等)在休眠或锁屏状态下,也能检测到用户的声音(设定的语音指令,即唤醒词),从而让处于休眠或锁屏状态下的设备直接进入到等待指令状态,开启语音交互第一步。语音识别(speech recognition)也称为自动语音识别(automatic speech recognition,asr)、计算机语音识别(computer speech recognition)或语音转文本,具体是将人类语音处理为书面格式的文本。基于语音识别得到的文本进行进一步地语义理解,可以实现语音交互。
45.在语音交互场景中,可以存在多个用户发出语音。例如,在车载场景中,驾驶员和乘客均可以发出语音,车载语音助手可以支持全车范围内的语音唤醒与语音识别。但是当车内不同区域的人同时说话时,可能对语音唤醒和识别的精度造成严重影响,例如乘客发出的语音可以干扰驾驶员发出的语音,导致驾驶员发出的语音未被车载语音助手正确识别,进而影响对驾驶员对车辆的控制,影响用户体验。
46.通过声源定位技术对声源方向进行定位,然后再通过波束形成算法抑制来自其他方向的语音,可以提高唤醒率和识别率,从而提升用户的交互体验。
47.相关技术通常采用麦克风阵列进行声源定位。以车载场景为例,可以通过在车内的顶灯位置和车内b柱的位置分别部署2个麦克风,形成麦克风阵列,通过将麦克风阵列中各阵元(即各麦克风)采集的信号进行加权求和形成波束,然后通过搜索声源的可能位置来引导该波束,最终使得该波束输出功率最大的位置即为声源的位置来实现声源定位。
48.但是,这种声源定位方法容易受到麦克风阵列的位置以及周围材料的影响,例如b柱上的麦克风可能受到材料的遮挡,进而导致麦克风阵列失效,影响声源定位的准确度,进而影响用户的交互体验。
49.有鉴于此,本技术提供了一种车载声源定位方法,该方法应用于电子设备。电子设备是指具有数据处理能力的设备,例如可以是服务器,或者是终端。其中,终端包括但不限于车载娱乐系统(in-vehicle infotainment/on-board infotainment)、智能手机、平板电脑、笔记本电脑、个人数字助理(personal digital assistant,pda)或者智能穿戴设备等。本实施例中,以电子设备为车载娱乐系统为例进行说明。
50.具体地,车载娱乐系统获取多个麦克风分别接收的多路时域信号,其中,多个麦克风部署于无材料遮挡的车内目标位置,该车内目标位置例如可以是顶灯位置,然后将多路时域信号分别进行傅里叶变换,获得多路频域信号。车载娱乐系统通过将多路频域信号输入至预测模型(为例描述方便,本实施例中,有些情况下也称作模型),获得该信号中各音区的信号能量占比,车载娱乐系统根据该能量占比,确定车载声源所属音区。一方面,车载娱乐系统可以根据预测模型预测获得声源信号在车内各音区分别的信号能量占比,根据信号能量占比确定声源所述的音区,从而避免麦克风阵列的位置对于声源定位的影响,提高了定位的准确度。另一方面,麦克风所部署的位置无材料遮挡,因此可以避免识别结果受到周围材料的影响,从而能够提高声源定位的准确度,提高用户的交互体验。
51.该方法的应用场景可以如图1所示,车内包括车载娱乐系统100和麦克风200,其中麦克风进一步包括200-1和200-2。麦克风200-1和200-2分别接收两路时域信号,车载娱乐系统100从麦克风200-1和200-2分别获取这两路时域信号,然后将这两路时域信号分别进行傅里叶变换,获得对应的两路频域信号。然后车载娱乐系统100将这两路频域信号输入至预测模型,获得车内各音区的信号能量占比,从而根据车内各音区的信号能量占比,确定车载声源所属的音区,实现对于车载声源的定位。
52.为了使得本公开的技术方案更加清楚、易于理解,下面从电子设备为车载娱乐系统100为例,对本公开实施例提供的车载声源定位方法进行介绍。如图2所示,该方法包括以下步骤:
53.s202:车载娱乐系统获取车内目标位置部署的多个麦克风接收的多路时域信号。
54.目标位置是指部署麦克风的位置。通常情况下,为了麦克风能够接收质量较高的声音信号,目标位置无材料遮挡。
55.在一些可能的实现方式中,车内空间包括n排座位,部署麦克风的目标位置为相邻两排座位的中间顶灯位置,其中每个目标位置部署有至少2个麦克风。对于车内空间音区的划分可以依据车内座位的分布进行。当车内空间包括n排座位时,车内空间被划分为2n个音区或2n+1个音区。
56.例如,如图3中(a)所示,车内空间包括2排座位,部署2个麦克风200-1和200-2,可以将车内空间按照座位划分为五音区:s1、s2、s3、s4和s5。又例如,如图3中(b)所示,车内空
间包括2排座位,部署2个麦克风200-1和200-2,也可以将车内空间按照座位划分为四音区:s1、s2、s3和s4。
57.又例如,如图4所示,车内空间包括3排座位,包括两个目标位置a1和a2,a1部署2个麦克风200-3和200-4,a2部署2个麦克风200-5和200-6。如此,可以将车内空间按照座位划分为七音区:s1、s2、s3、s4、s5、s6和s7。
58.下面以车内空间包括2排座位,部署2个麦克风200-1和200-2,车内空间包括五音区为例,进行介绍。
59.时域(time domain)用于描述物理信号对时间的关系。时域信号用于表示信号随时间的变化关系。本实施例中,车载娱乐系统获取车内1个目标位置部署的2个麦克风接收的2路时域信号,这两路时域信号可以分别为y1和y2。
60.s204:车载娱乐系统将多路时域信号分别进行傅里叶变换,获得多路频域信号。
61.傅里叶(fourier)变换是指将一个表示波的函数从时域(时间与振幅的关系)转化为频域(频率与振幅的关系)的操作。时域信号经过傅里叶变换转换后的频谱是该时域信号在频域下的表现。
62.以具有2个麦克风所采集的2路时域信号y1和y2为例,时域信号y1经过傅里叶变换后的频域信号为y1,其对应的关系可以为:f(y1)=y1。时域信号y1经过傅里叶变换后的频域信号为y2,其对应的关系可以为:f(y2)=y2。
63.s206:车载娱乐系统将多路频域信号输入至预测模型,获得车内各音区的信号能量占比。
64.预测模型是指能够预测该频域信号在各音区的信号能量占比的模型,可以通过神经网络训练获得。具体地,预测模型可以通过利用第一类型的样本数据、第二类型的样本数据和第三类型的样本数据进行模型训练得到。
65.对于预测模型的训练可以由处理设备执行,其中处理设备可以为具有数据处理能力的设备。对于预测模型进行训练的设备和执行该方法的电子设备可以为同一设备,也可以为不同设备。
66.其中,第一类型的样本数据中的声源属于相位相同且幅度不同的音区,第二类型的样本数据中的声源属于幅度相同且相位不同的音区,第三类型的样本数据中的声源属于幅度不同且相位不同的音区。样本数据包括作为输入频域信号以及该频域信号在车内各音区的信号能量占比。输入频域信号可以根据冲激响应与语音信号获得。
67.在本实施例中,处理设备可以通过image的方法获得车内的冲激响应。image是一种基于房间几何声学获得目标点冲激响应的方法。图5(a)所示为经过一次反射的情形,s为声源位置,d为接收点位置,s

为位于墙壁后的镜像声源位置,共有两路声信号(l1和l2)到达接收点。其中l1为直达声的路径,l2为反射声的路径。其中l1的路径长度可以通过s和d的位置计算得到,l2的路径长度可以通过三角形的对称性计算获得。
68.如图5(b)所示为经过两次反射的情形,s

为一次反射的镜像声源位置,s
″’
为二次反射的镜像声源位置,l3为经过二次反射声的路径。
69.处理设备通过image获取车内的冲激响应的原理为:假设一个矩形房间,该房间的长宽高分别为lx、ly和lz。以房间中一角为原点,声源的位置为rs=[xs,ys,zs],麦克风位置r=[x,y,x]。墙壁的位置为x=0,y=0和z=0。镜像声源的位置可以表示为rp=[xs-x+
2qx,ys-y+2jy,zs-z+2kz]。其中,q、j和k均可以取值0或者1,因此rp共存在8种排列组合的形式。将q、j和k用集合p表示,则有p={(q,j,k):q,j,k∈{0,1}}。
[0070]
当p的元素中每一个维度均为1的情况下,表示该方向的声源镜像会被纳入计算。考虑到有些镜像会被反射多次,因此存在rm=[2mxlx,2myly,2mzlz]。其中,mx,my和mz均为整数,集合m=(mx,my,mz)的取值范围为-n~n。在位置rm+rp处镜像的反射阶数可以表示为:o
p,m
=|2mx+q|+|2my+j|+|2mz+k|。声源镜像到麦克风接收位置的距离可以表示为d=||rp+rm||,任何镜像声源的到达时延为:其中0表示声速。
[0071]
因此,从声源到麦克风接收位置的冲激响应可以表示为:
[0072][0073]
其中,m={(mx,my,mz):-n≤mx,my,mz≤n},表示涵盖m的所有组合方式,β
x1
,β
x2
,β
y1
,β
y2
,β
z1
和β
z2
是六面墙壁的反射系数,p表示涵盖的八种组合方式。集合m的元素范围为-n~n,共有(2n+1)3种组合方式,因此共存在8(2n+1)3种不同的路径。
[0074]
进一步地,在模拟离散版本的冲激响应时存在采样点对不齐的问题,因此针对该问题的离散版本的冲激响应形式为:
[0075][0076]
其中,fs表示采样率,lfp表示理想的低通滤波器,截止频率为fs/2。波达时间将会被移位到最近的整数值,因此对应的近似值为:
[0077]
lpf{δ(n-τfs)}≈(n-round{τfs})
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0078]
在本实施例中,以包括2个麦克风以及5个音区为例进行介绍。处理设备将第一麦克风接收的五个音区的冲激响应分别记为i
s11
、i
s21
、i
s31
、i
s41
和i
s51
,第二麦克风接收的五个音区的冲激响应分别记为i
s12
、i
s22
、i
s32
、i
s42
和i
s52
,将五个音区分别的语音信号记为s1、s2、s3、s4和s5。处理设备通过将各区的语音信号与各区的冲激响应进行卷积,获得麦克风接收到的信号y1和y2:
[0079][0080][0081]
其中,si表示各音区分别的语音信号,i
si1
表示第一麦克风接收到各音区的冲激响应,i
si2
表示第二麦克风接收到各音区的冲激响应,n1表示第一麦克风接收到的噪声,g2表
示第一麦克风接收到的噪声。在本实施例中,i=1,2,3,4,5。
[0082]
处理设备将卷积获得的两路麦克风信号y1和y2分别经过短时傅里叶变换,获得对应的两路复数频域信号y1和y2。其中复数信号中既包括该信号的幅度信息,又包括该信号的相位信息。复数可以通过a+bi(a、b均为实数)或者r(cosθ+isinθ)的形式表现,其中模长r表示该信号的幅度,角度θ表示该信号的相位。
[0083]
通过上述方式获得的复数频域信号可以作为神经网络模型的输入训练数据,然后根据声源位置获得上述复数信号对应的输出训练数据。其中,预测模型的输出训练数据为该信号在车内各音区的信号能量占比。
[0084]
当声源对应的两路复数频域信号为y1、y2,信号在各个音区的能量占比为mi。本实施例中,i可以为1,2,3,4,5。声源在s1音区的信号在每个音区的能量占比为m1,m2,m3,m4和m5。
[0085]
mi=si/(s1+s2+s3+s4+s5)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0086]
例如,当声源在s1音区时,对应的两路复数信号为y1、y2,该信号在每个音区的能量占比为m1,m2,m3,m4和m5。其中,m1的值根据该声源的幅值计算获得,数值为1,m2,m3,m4和m5的值为0。
[0087]
当声源在s2音区时,对应的两路复数信号为y1、y2,该信号在每个音区的能量占比为m1,m2,m3,m4和m5。其中,m2的值根据该声源的幅值计算获得,数值为1,m1,m3,m4和m5的值为0。
[0088]
当声源在s1和s2音区时,对应的两路复数信号为y1、y2,该信号在每个音区的能量占比为m1,m2,m3,m4和m5。其中,m1和m2的值根据该声源的幅值计算获得,m1的值可以为a,m2的值可以为b,其中a+b=1,m3,m4和m5的值为0。
[0089]
当声源在s1和s3音区时,对应的两路复数信号为y1、y2,该信号在每个音区的能量占比为m1,m2,m3,m4和m5。其中,m1和m3的值根据该声源的幅值计算获得,m1的值可以为c,m3的值可以为d,其中c+d=1,m2,m4和m5的值为0。
[0090]
当声源在s1、s2和s3音区时,对应的两路复数信号为y1、y2,该信号在每个音区的能量占比为m1,m2,m3,m4和m5。其中,m1,m2和m3的值根据该声源的幅值计算获得,m1的值可以为e,m2的值可以为f,m3的值可以为g,其中e+f+g=1,m4和m5的值为0。
[0091]
当声源在s1、s2、s3和s4音区时,对应的两路复数信号为y1、y2,该信号在每个音区的能量占比为m1,m2,m3,m4和m5。其中,m1,m2,m3和m4的值根据该声源的幅值计算获得,m1的值可以为h,m2的值可以为i,m3的值可以为j,m4的值可以为k,其中h+i+j+k=1,m5的值为0。
[0092]
如此,预测模型可以获得作为输入数据的复数频域信号,以及输入数据分别对应的车内各音区的信号能量占比作为输出数据。
[0093]
预测模型可以采用unet网络结构。unet网络是一种形状类似于u型的网络,如图6所示。其中,unet包括两部分,一部分用于特征提取,一部分用于上采样。如图6所示,在特征提取部分中,通过卷积进行特征提取,然后针对提取到的每个特征图,还可以进行池化,例如是以2x2进行最大池化或平均池化。上采样部分中,每上采样一次,就和特征提取部分对应的通道数相同的尺度进行融合。在本实施例中,模型可以采用5层二维卷积结构,其中每一层的通道数分别为16、32、64、128以及256,核(kernel)的大小可以为(4,4)。
[0094]
由于输入数据中包括信号的幅度信息和相位信息,因此可以对于车内的前后排与方向进行区分。具体地,前后排可以通过幅度信息进行区分,方向可以通过相位信息进行区分。
[0095]
对于来自同一排的数据,可以将幅度信息掩码(mask),强制模型学习相位信息。对于来自不同排同方向的数据,可以将相位信息掩码,强制模型学习幅度信息。
[0096]
在本实施例中,在对模型进行训练的过程中,可以先通过两个声源、信干比较高的数据进行训练,使模型逐渐学习到幅度和相位对于模型区域的表征信息。然后逐渐增加训练数据的难度,例如扩充声源个数,降低信干比等。
[0097]
在对两个声源的识别进行训练的过程中,可以先训练来自两个声源均属于同一音区的样本数据,然后训练两个声源属于相位相同且幅度不同的两个音区的第一类型的样本数据(例如两个声源位于前排的不同音区),再训练两个声源属于幅度相同且相位不同的两个音区的第二类型的样本数据(例如图3中(b)所示,声源位于s2和s4音区),最后训练两个声源属于幅度不同且相位不同的两个音区的第三类型的样本数据(例如图3(b)所示,声源位于s2和s3音区)。
[0098]
如此,经过训练获得的预测模型可以根据输入的多路频域信号,获得车内各音区的信号能量占比。在本实施例中,各音区分别对应的能量占比可以为m1,m2,m3,m4和m5。
[0099]
s208:车载娱乐系统根据车内各音区的信号能量占比,确定车载声源所属的音区。
[0100]
根据s206中对于训练数据中信号能量的介绍可知,频域信号在该音区的能量占比可以反应声源在该音区的可能性。在不含噪声的情况下,不包括声源的音区中对应的信号能量占比可以为0。因此,可以为信号能量占比设置阈值,当对应的信号能量占比高于该阈值时,表明该音区中包括声源。
[0101]
如此,车载娱乐系统可以根据车内各音区的信号能量占比,确定声源所属的音区。进一步地,车载娱乐系统中还可以设置所能识别的声源数量。例如,当车载娱乐系统中所设置可识别声源数量为2时,当对应的音区的信号能量占比中存在3个音区的信号能量占比均高于预设阈值,则可以将信号能量占比较高的2个音区确定为声源所在的音区。
[0102]
进一步地,车载娱乐系统可以基于所确定的声源的音区准确确定唤醒方向,从而对于其他方向的语音进行抑制,以提高唤醒率和识别率。
[0103]
基于以上内容的描述,本技术提供了一种车载声源定位方法,首先通过车载娱乐系统获取车内无材料遮挡的目标位置部署的多个麦克风所接收的多路时域信号,其中多路时域信号和多个麦克风一一对应,然后将多路时域信号分别进行傅里叶变换,获得对应的多路频域信号,将获得的多路频域信号输入预测模型,获得车内各音区分别的信号能量占比,从而根据在各音区的信号能量占比确定车载声源所述的音区。
[0104]
如此,车载娱乐系统可以根据预测模型预测获得声源信号在车内各音区分别的信号能量占比,根据信号能量占比确定声源所述的音区,从而避免麦克风阵列的位置对于声源定位的影响。
[0105]
并且,麦克风所部署的位置无材料遮挡,因此可以避免识别结果受到周围材料的影响,从而能够提高声源定位的准确度,提高用户的交互体验。
[0106]
图7是根据一示例性公开实施例示出的一种车载声源定位装置的示意图,如图7所示,所述车载声源定位装置700包括:
[0107]
通信模块702,用于获取车内目标位置部署的多个麦克风接收的多路时域信号,所述目标位置无材料遮挡,所述多路时域信号与所述多个麦克风一一对应;
[0108]
变换模块704,用于将所述多路时域信号分别进行傅里叶变换,获得多路频域信号;
[0109]
预测模块706,用于输入所述多路频域信号至预测模型,获得车内各音区的信号能量占比,所述音区表示车内空间被划分的区域;
[0110]
定位模块708,用于根据车内各音区的所述信号能量占比,确定所述车载声源所属的音区。
[0111]
一种可能的实现方式中,所述预测模型通过利用第一类型的样本数据、第二类型的样本数据和第三类型的样本数据进行模型训练得到,所述第一类型的样本数据中的声源属于相位相同且幅度不同的音区,所述第二类型的样本数据中的声源属于幅度相同且相位不同的音区,所述第三类型的样本数据中的声源属于幅度不同且相位不同的音区。
[0112]
一种可能的实现方式中,所述第一类型的样本数据中的相位信息被设置为掩膜,所述第二类型的样本数据中幅度信息被设置为掩膜。
[0113]
一种可能的实现方式中,所述预测模型通过对复数u型网络进行训练得到。
[0114]
一种可能的实现方式中,所述目标位置为顶灯位置,所述顶灯位置部署有至少2个麦克风,所述车内空间被划分为四音区或五音区。
[0115]
一种可能的实现方式中,所述车内空间容纳有n排座位,所述n大于或等于3,所述目标位置为相邻两排座位的中间位置,每个中间位置部署有至少2个麦克风,所述车内空间被划分为2n个音区或2n+1个音区。
[0116]
进一步地,本技术实施例还提供了一种车载声源定位设备,包括:处理器、存储器、系统总线;
[0117]
所述处理器以及所述存储器通过所述系统总线相连;
[0118]
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述车载声源定位方法的任一种实现方法。
[0119]
进一步地,本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述车载声源定位方法的任一种实现方法。
[0120]
进一步地,本技术实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述车载声源定位方法的任一种实现方法。
[0121]
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0122]
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处
参见方法部分说明即可。
[0123]
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0124]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1