一种车载传声器的功能复用方法

文档序号:31359837发布日期:2022-08-31 14:22阅读:74来源:国知局
一种车载传声器的功能复用方法

1.本发明涉及自动驾驶技术领域,特别涉及一种车载传声器的功能复用方法。


背景技术:

2.目前车内的路噪主动控制系统的传声器和车载智能语音系统的传声器分属两套系统,相互独立,路噪主动控制系统的传声器用于拾取误差信号,为减少线束设计,通常采用a2b线束的数字传声器采集误差信号,并反馈给主动控制系统的算法进行迭代控制;而智能语音系统的传声器用于拾取乘车人的语音信号,通常采用模拟传声器,并设计成阵列形式,采用基于信号处理的阵列算法拾取语音,用于进行说话人定位及拾取语音,这种方法无法处理与语音同方向的噪声干扰,定位及识别效果欠佳,同时,两套传声器还增加了汽车的成本。


技术实现要素:

3.为了克服现有技术存在的不足,本发明提供了一种车载传声器的功能复用方法,所述技术方案如下:
4.本发明提供了一种车载传声器的功能复用方法,包括以下步骤:
5.s1、将路噪主动控制系统中的传声器采集的声音信号输出至触发模块;
6.s2、若所述触发模块在所述声音信号中检测出唤醒指令信号,则将所述声音信号输出至车载智能语音系统,并执行步骤s3,若持续一段时间内未检测出语音信号,停止将所述声音信号输出至车载智能语音系统;
7.s3、对所述声音信号进行降采样率处理以适配所述车载智能语音系统的语音识别模块。
8.进一步地,所述路噪主动控制系统与所述车载智能语音系统共用一套传声器,所述传声器包括多个分布式传声器,所述分布式传声器分别对应设置在每个车内座位附近,所述声音信号由所述分布式传声器采集,所述声音信号包括车内多个位置监测到的声音信息;在对所述声音信号进行降采样率处理之前,先利用所述声音信号进行语音定位。
9.进一步地,所述语音定位包括以下步骤:
10.a1、从所述声音信号的数据集中抽取多组声音数据形成多个样本集,以作为不同的训练数据集;
11.a2、对所述训练数据集分别进行多种特征工程处理,以得到对应的特征向量组合;
12.a3、分区模块利用不同的数据选取模式对将所述特征向量组合按照车内座位分布进行定位分类,以得到车内各个座位发出声音的概率值;
13.a4、将最大的概率值对应的座位判断为说话人座位,将所述说话人座位对应的分布式传声器采集到的声音信号输出至所述语音识别模块。
14.进一步地,所述语音识别模块对来自不同座位标号的声音信号赋予相同或不同的车辆控制权限。
15.进一步地,所述传声器采集到的信号特征类型包括均值特征、最小值特征、绝对值和均值的特征组合、绝对值和最小值的特征组合中的一种或多种。
16.进一步地,所述分区模块包括第一分区模块、第二分区模块和分类层模块,所述第一分区模块包括a区分器和b区分器,所述第二分区模块包括多个区分层,每个区分层包括c区分器、d区分器、e区分器、f区分器;将多个第二分区模块进行关联排序以形成多级结构的第二分区模块,所述第二分区模块的数量等于采用的信号特征类型的个数,前一级第二分区模块的输出作为后一级第二分区模块的输入;所述分类层模块包括多个区分器;
17.一个训练数据集的特征向量组合对应形成一个特征空间,所述a区分器、c区分器和d区分器均将在完整的特征空间中无放回地随机选取信号特征作为分区判断条件,所述b区分器、e区分器、f区分器均将在不完整的特征空间中无放回地根据指标选择特征作为分区判断条件;
18.将进行不同的特征向量组合先后经过所述第一分区模块、多级结构的第二分区模块和分类层模块处理,以输出车内各个座位发出声音的概率值。
19.进一步地,每一个特征向量组合经过所述第一分区模块处理后均会对应得到一个模型训练特征向量;
20.将第一个模型训练特征向量输出至第一级第二分区模块处理,在所述第一级第二分区模块处理中,其每个区分层的输出结果都会拼接上第一个模型训练特征向量,以作为下一个区分层的输入;
21.所述第一级第二分区模块的输出结果拼接上第一个模型训练特征向量,以输入至第二级第二分区模块,在所述第二级第二分区模块处理中,其每个区分层的输出结果都会拼接上第二个模型训练特征向量,以作为下一个区分层的输入,以此类推,得到最后一级第二分区模块的输出结果,将其拼接上最后一个模型训练特征向量一同输入至分类层模块,以得到车内各个座位发出声音的概率值。
22.进一步地,将所述a区分器、c区分器和d区分器记作第一类区分器,所述第一类区分器的设计包括以下步骤:
23.b1、所述第一类区分器包含x个子区分器,每个子区分器将在完整的特征空间中无放回地随机选取信号特征作为分区判断条件;
24.b2、设计度量所述训练数据集纯度的指标,记作purity,
[0025][0026][0027]
其中,s表示训练数据集对应的特征空间大小,ci表示属于特征空间中第i个类别的样本数;
[0028]
b3、根据所述指标purity来计算选取特征分区后每个子区间的样本纯度,当所述样本纯度或者子区分器的深度满足相应要求时,停止在该子区间上随机选取特征继续分区;
[0029]
b4、重复步骤b1-b3,直至构建完成x个子区分器。
[0030]
进一步地,将所述b区分器、e区分器和f区分器记作第二类区分器,所述第二类区
分器的设计包括以下步骤:
[0031]
c1、所述第二类区分器包含y个子区分器,每个子区分器将在特征空间的随机特征子空间中无放回地根据指标选择特征作为分区判断条件;
[0032][0033][0034]
其中,index表示指标,s表示训练数据集的特征空间大小,ci表示属于特征空间中第i个类别的样本数,对选取的所有特征计算对应指标,每次都选择指标值最小的特征作为分区的判断条件;
[0035]
c2、当子区间的样本数或者子区分器的深度满足相应要求时,停止在该子区间上随机选取特征继续分区;
[0036]
c3、重复步骤c1-c2,直至构建完成y个子区分器。
[0037]
进一步地,所述声音信号一直实时输出至所述路噪主动控制系统,所述触发模块对所述声音信号进行实时检测,若检测出预设的唤醒指令信号,则将检测出的时间节点随后的一段预设时间内的声音信号自动输出至所述车载智能语音系统,待预设时间结束然后自动停止输出至所述车载智能语音系统,以等待下一次的触发。
[0038]
本发明提供的技术方案带来的有益效果如下:将车载路噪主动控制系统的传声器与车载智能语音系统传声器进行拾音功能的复用,减少车载传声器数量,降低汽车的成本。
附图说明
[0039]
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0040]
图1是本发明实施例提供的车载传声器的功能复用方法中车载路噪主动控制系统示意图;
[0041]
图2是本发明实施例提供的车载传声器的功能复用方法中传声器拾音功能复用的信号传输设计示意图;
[0042]
图3是本发明实施例提供的车载传声器的功能复用方法中传声器的语音信号处理流程示意图;
[0043]
图4是本发明实施例提供的车载传声器的功能复用方法中均值处理后的语音信号区分度效果图;
[0044]
图5是本发明实施例提供的车载传声器的功能复用方法中最小值处理后的语音信号区分度效果图;
[0045]
图6是本发明实施例提供的车载传声器的功能复用方法中绝对值和均值的比值处理后的语音信号区分度效果图;
[0046]
图7是本发明实施例提供的车载传声器的功能复用方法中绝对值和最小值的比值处理后的语音信号区分度效果图;
[0047]
图8是本发明实施例提供的车载传声器的功能复用方法中定位算法框架示意图;
[0048]
图9是本发明实施例提供的车载传声器的功能复用方法中第一分区模块结构示意图;
[0049]
图10是本发明实施例提供的车载传声器的功能复用方法中第二分区模块结构示意图。
[0050]
其中,附图标记如下所示:100-第一a2b传输线路,101-第二a2b传输线路,102-加速度计,103-分布式传声器,104-车机系统,105-路噪主动控制系统的控制器。
具体实施方式
[0051]
为了使本技术领域的人员更好地理解本发明方案,更清楚地了解本发明的目的、技术方案及其优点,以下结合具体实施例并参照附图对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是,附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。除此,本发明的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0052]
在本发明的一个实施例中,提供了一种车载传声器的功能复用方法,其特征在于,包括以下步骤:
[0053]
s1、将路噪主动控制系统中的传声器采集的声音信号输出至触发模块;
[0054]
s2、若所述触发模块在所述声音信号中检测出唤醒指令信号,则将所述声音信号输出至车载智能语音系统,并执行步骤s3,若持续一段时间内未检测出语音信号,停止将所述声音信号输出至车载智能语音系统;
[0055]
s3、对所述声音信号进行降采样率处理以适配所述车载智能语音系统的语音识别模块。
[0056]
其中,所述语音信号是指人说话声音信号,如果在声音信号中监测不到人说话声,就自然会停止将后续的声音信号输出至车载智能语音系统。例如,所述触发模块被触发将所述声音信号输出至车载智能语音系统,随后5秒内并没有在所述声音信号中发现语音信号,则判定为默认取消语音识别,触发模块停止将后续的声音信号输出至车载智能语音系统。需要说明的是,触发模块能够检测出于与所述唤醒指令信号相同或相似的声音信号,例如这两个信号的相似度高于80%,则触发模块被触发。
[0057]
在上个实施例中,如果车内两个人触发了车载智能语音系统,发出相关控制指令后便进行了连续交谈,容易造成后续交谈的声音信号一直进入车载智能语音系统进行运算识别,大大增加了其运算负担,为了减少车载智能语音系统的运算压力,本实施例进行了改进,对所述声音信号进入车载智能语音系统的单次时间做了限制。所述声音信号一直实时输出至所述路噪主动控制系统,所述触发模块对所述声音信号进行实时检测,若检测出预
设的唤醒指令信号,则将检测出的时间节点随后的一段预设时间内的声音信号自动输出至所述车载智能语音系统,待预设时间结束然后自动停止输出至所述车载智能语音系统,以等待下一次的触发。例如,唤醒指令信号为“张三、张三”的声音信号,并且需要该声音信号在2秒内连续出现两次“张三”,才能够触发所述触发模块,使得该时间节点后面的10s声音信号进入车载智能语音系统,10s结束后,后续的声音信号会停止进入车载智能语音系统,需要再次检测到合格的唤醒指令信号才会相应触发语音识别运算。本实施例大大减小了车载智能语音系统的运算压力。
[0058]
在本发明的一个实施例中,按照路噪主动控制系统的传声器线束设计规格及布放位置,进行车载智能语音系统的传声器的拾音功能复用,因为路噪主动控制系统对传声器的位置要求比车载智能语音系统对传声器的位置要求高,所以优先选择车载路噪主动控制系统的传声器线束设计规格及布放位置,使得生产改造工作量更小。路噪主动控制系统的部分传声器线束设计及布放位置如图1所示,四个分布式传声器103对应设置在四个车座附近,分布式传声器103均通过第一a2b传输线路100接入车机系统104中,四个加速度计102分别设置在四个轮胎附近,加速度计102均通过第二a2b传输线路101接入路噪主动控制系统的控制器105。
[0059]
为了节约了车上的音频信号线束设计,路噪主动控制系统的传声器采用a2b线束结构连接。传声器功能复用的信号传输设计如图2所示,图2中的sensor为路噪主动控制系统所需的加速度传感器,mic为传声器。传声器采集的信号通过车机系统分为两路信号,一路信号作为路噪主动控制系统的误差信号传入算法进行计算,另一路信号作为语音信号的输入通路传送给车载智能语音系统,以完成语音系统任务,此传输通路设置触发模块,所述触发模块相当于一个触发开关,当触发开关检测到正确的唤醒指令信号,则打开此通路,将信号输入至车载智能语音系统进行识别,当触发开关不能检测到语音信号或者检测到的唤醒指令信号不正确,则设置关闭此通路,认为此时的信号为噪声信号,非有用的语音信号,不输入车载智能语音系统进行语音任务。
[0060]
传统的车载智能语音系统的传声器为模拟信号设备,设置16khz采样率采样进行语音任务,而本实施例的路噪主动控制系统中的传声器为数字信号设备,其采样率为48khz,采集的信号具有更高的精度和还原度,参见图3,对信号进行特征工程设计,将设计的特征组合作为说话人定位的算法输入,完成定位判断后,将信号降采样到16khz通过传输通路输入到车机系统中的车载智能语音系统,以进行智能语音任务。通过降采样率处理输出,以适配车载智能语音系统。采样率太高需要的算力要求和存储空间太大,所以一般降到16khz,以减少语音识别不必要的负担。
[0061]
在本发明的一个实施例中,所述路噪主动控制系统与所述车载智能语音系统共用一套传声器,节省了传声器的成本,所述传声器包括多个分布式传声器,所述分布式传声器分别对应设置在每个车内座位附近,例如在座位的底下、顶部或者内部等等位置,所述声音信号由所述分布式传声器采集,所述声音信号包括车内多个位置监测到的声音信息;例如,车内有四个座位,每个车内座位底下均设置一个分布式传声器,一个人说话的语音信号会同时被四个分布式传声器采集到,在触发模块处接收的声音信号包括四个分布式传声器分别采集到的信号。
[0062]
在对所述声音信号进行降采样率处理之前,先利用多组声音信号进行语音定位。
由于路噪主动控制系统的传声器是分布式单通道布放,无法采用传统的基于传声器阵列的算法进行说话人定位,因而本实施例定位方法重新进行了设计,以区分车内主要座位的说话人位置,利用a2b传声器的高采样率信号设计语音信号的特征工程,并采用机器学习中分类任务的思想解决说话人定位问题。
[0063]
其中,所述语音定位包括以下步骤:
[0064]
a1、从所述声音信号的数据集中抽取多组声音数据形成多个样本集,以作为不同的训练数据集;
[0065]
a2、对所述训练数据集分别进行多种特征工程处理,以得到对应的特征向量组合;
[0066]
a3、分区模块利用不同的数据选取模式对将所述特征向量组合按照车内座位分布进行定位分类,以得到车内各个座位发出声音的概率值;
[0067]
a4、将最大的概率值对应的座位判断为说话人座位,将所述说话人座位对应的分布式传声器采集到的声音信号输出至所述语音识别模块。
[0068]
同等条件下,离说话人位置越近,采集的信号就会清晰,干扰越少,本实施例利用语音定位找到最适合的一组信号,对其进行降采样率处理后输出至语音识别模块进行语音识别,以提高识别准确率。
[0069]
在步骤a2中,在特征工程处理中,传声器采集到的信号特征类型包括均值特征、最小值特征、绝对值和均值的特征组合、绝对值和最小值的特征组合中的一种或多种。
[0070]
具体地,各类型的信号特征计算步骤如下:
[0071]
(1)均值特征处理
[0072]
a.将采样率为48khz的声音信号数据进行分帧处理,设置帧长m为1200个采样点,帧移k为480个,相关表达式如下:
[0073][0074]
其中,t是帧索引值,i是说话人位置的索引值,j是传声器位置的索引值,z为帧数,表示传声器j采集到的i位置说话人在t帧处的语音向量。
[0075]
b.对分帧后的声音向量进行均值操作,
[0076][0077]
c.将进行均值处理后的每帧声音数据添加到形状为[1,z]的数组中,经过均值处理后的四个座位传声器采集到的语音信号区分度效果如图4所示,图例中a、b、c、d分别表示车内四个座位,aa表示a座位说话人发出语音,a座位的传声器拾取的信号,ab表示a座位说话人发出语音,b座位传声器拾取的信号,以此类推。
[0078]
(2)最小值特征处理
[0079]
a.对分帧后的每帧的声音向量进行求最小值操作
[0080][0081]
b.将进行最小值处理后的每帧语音数据添加到形状为[1,z]的数组中,经过最小值计算后的四个座位传声器采集到的语音信号区分度效果如图5所示。
[0082]
(3)绝对值和均值的特征组合
[0083]
a.对每一帧声音向量做绝对值操作后进行均值运算
[0084][0085]
b.将进行绝对值和均值的特征组合计算后的每帧语音数据添加到形状为[1,z]的数组中,经过绝对值和均值的特征组合计算后的四个座位传声器采集到的语音信号区分度效果如图6所示。
[0086]
(4)绝对值和最小值的特征组合
[0087]
a.对每一帧语音向量去绝对值后求最小值
[0088][0089]
b.将进行绝对值和最小值的特征组合计算后的每帧语音数据添加到形状为[1,z]的数组中,经过绝对值和最小值的特征组合计算后的四个座位传声器采集到的语音信号区分度效果如图7所示。
[0090]
在步骤a3中,参见图8,所述分区模块包括第一分区模块、第二分区模块和分类层模块,参见图9,所述第一分区模块包括a区分器和b区分器,参见图10,所述第二分区模块包括多个区分层,每个区分层包括c区分器、d区分器、e区分器、f区分器;将多个第二分区模块进行关联排序以形成多级结构的第二分区模块,所述第二分区模块的数量等于采用的信号特征类型的个数,信号特征类型的个数优选等于车位座位的数量,前一级第二分区模块的输出作为后一级第二分区模块的输入;所述分类层模块包括多个区分器;
[0091]
一个训练数据集的特征向量组合对应形成一个特征空间,所述a区分器、c区分器和d区分器均将在完整的特征空间中无放回地随机选取信号特征作为分区判断条件,所述b区分器、e区分器、f区分器均将在不完整的特征空间中无放回地根据指标选择特征作为分区判断条件;将进行不同的特征向量组合先后经过所述第一分区模块、多级结构的第二分区模块和分类层模块处理,以输出车内各个座位发出声音的概率值。
[0092]
其中,各区分器的设计步骤大致分为以下两类:
[0093]
(1)将所述a区分器、c区分器和d区分器记作第一类区分器,所述第一类区分器的设计包括以下步骤:
[0094]
b1、所述第一类区分器包含x个子区分器,每个子区分器将在完整的特征空间中无放回地随机选取信号特征作为分区判断条件;
[0095]
b2、设计度量所述训练数据集纯度的指标,记作purity,
[0096][0097][0098]
其中,s表示训练数据集对应的特征空间大小,ci表示特征空间中属于第i个类别的样本数;
[0099]
b3、根据所述指标purity来计算选取特征分区后每个子区间的样本纯度,当所述样本纯度或者子区分器的深度满足相应要求时,停止在该子区间上随机选取特征继续分区;
[0100]
b4、重复步骤b1-b3,直至构建完成x个子区分器。
[0101]
(2)将所述b区分器、e区分器和f区分器记作第二类区分器,所述第二类区分器的设计包括以下步骤:
[0102]
c1、所述第二类区分器包含y个子区分器,每个子区分器将在特征空间的随机特征子空间中无放回地根据指标选择特征作为分区判断条件;
[0103][0104][0105]
其中,index表示指标,s表示训练数据集的特征空间大小,ci表示在特征空间中属于第i个类别的样本数,对选取的所有特征计算对应指标,每次都选择指标值最小的特征作为分区的判断条件;
[0106]
c2、当子区间的样本数或者子区分器的深度满足相应要求时,停止在该子区间上随机选取特征继续分区;
[0107]
c3、重复步骤c1-c2,直至构建完成y个子区分器。
[0108]
每一个特征向量组合经过所述第一分区模块处理后均会对应得到一个模型训练特征向量;将第一个模型训练特征向量输出至第一级第二分区模块处理,在所述第一级第二分区模块处理中,其每个区分层的输出结果都会拼接上第一个模型训练特征向量,以作为下一个区分层的输入;
[0109]
所述第一级第二分区模块的输出结果拼接上第一个模型训练特征向量,以输入至第二级第二分区模块,在所述第二级第二分区模块处理中,其每个区分层的输出结果都会拼接上第二个模型训练特征向量,以作为下一个区分层的输入,以此类推,得到最后一级第二分区模块的输出结果,将其拼接上最后一个模型训练特征向量一同输入至分类层模块,以得到车内各个座位发出声音的概率值。
[0110]
在步骤a4中,每个座位都有对应的座位标号,所述语音识别模块对来自不同座位标号的声音信号赋予相同或不同的车辆控制权限。所述语音识别模块对识别出的语音指令会根据定位的座位权限来判断是否执行车内关联的语音控制功能。例如,a座位作为驾驶位,b座位作为副驾驶位,c和d为后排位,a座位拥有所有的语音控制权限,例如语音控制播放音乐、打电话、开灯、自动驾驶等等控制,而c和d座位仅拥有语音控制播放音乐的控制权限。通过座位区别控制权限,以避免其他人的语音误操作,提高车内语音控制的安全性。
[0111]
下面以一个具体的实例说明定位操作步骤:
[0112]
步骤1数据预处理
[0113]
步骤1.1从采样率均为48khz的声音数据集中有放回的随机抽取四组原始数据集的70%的样本,作为算法的训练数据集,分别记作d1,d2,d3,d4。
[0114]
步骤1.2将选取的四组训练数据集每组都分别进行上述四种特征工程处理
[0115]
x
nm
=featurizationm(dn),n=1,...,4,m=1,...,4
[0116]
其中,featurization(*)表示对数据集进行特征工程处理,n表示训练数据集的标签,m表示上述四种特征工程处理方法标签。
[0117]
步骤1.3当n一定时,将经过四种特征工程处理得到的特征向量进行联合
[0118][0119]
其中,
[0120]
步骤2构建第一分区模块
[0121]
步骤2.1第一分区模块的作用是对声音信号中的语音信号按照车内座位进行定位分析,模块1包含a区分器和b区分器,分别记作classifiera和classifierb。
[0122]
步骤2.2构建a区分器
[0123]
步骤2.2.1a区分器包含n1(n1=30)个子区分器,每个子区分器在完整的特征空间中无放回的随机选取信号特征作为分区的判断条件;
[0124]
步骤2.2.2设计度量语音样本集合纯度的指标purity
[0125][0126]
其中,s表示训练数据集对应的特征空间大小,ci表示在特征空间中属于第i个类别的样本数;
[0127]
步骤2.2.3根据步骤2.2.2所描述的指标purity来计算选取特征分区后每个子区间的样本纯度,当purity<0.1或者子区分器的深度deep>10时停止在该子区间上随机选取特征继续分区;
[0128]
步骤2.2.4重复步骤2.2.1-2.2.3,直至构建完成n1个子区分器。
[0129]
步骤2.3构建b区分器
[0130]
步骤2.3.1b区分器包含n2(n2=30)个子区分器,每个子区分器在原始特征空间的随机特征子空间(特征子空间的大小为)中无放回的根据指标index选择特征作为分区的判断条件,
[0131][0132]
其中,s表示训练数据集对应的特征空间大小,ci表示在特征空间中属于第i个类别的样本数,对选取的所有特征计算index,每次都选择index值最小的特征作为分区的判断条件;
[0133]
步骤2.3.2当子区间的样本数小于的1%或者子区分器的深度deep>10时停止在该子区间上随机选取特征继续分区;
[0134]
步骤2.3.3重复步骤2.3.1-2.3.2,直至构建完成n2个子区分器。
[0135]
步骤3特征提取
[0136]
步骤3.1对经过步骤1.3处理后的特征向量采用3
×
3的正方形窗口进行扫描,得到四组形状为[2(z-2),3,3]的特征向量以获得更多的特征样本,从而保留特征间的时序关系。
[0137]
步骤3.2将四组特征向量分别输入第一分区模块进行四分类任务,
[0138][0139]
其中,partitionmodel1(*)表示第一分区模块,k为第一分区模块中分类器的索引值(k=1时表示步骤2.2所述的a区分器,k=2时表示步骤2.3所述的
b区分器)。
[0140]
步骤3.3当n一定时,将out
nk
变换形状,并进行联合,得到后续模型训练所需要的特征向量,
[0141][0142][0143]
其中,
[0144]
步骤4构建第二分区模块
[0145]
步骤4.1第二分区模块包含m个区分层,例如m=8,区分层记作level,每个level包含c区分器、d区分器、e区分器、f区分器,其中,c区分器和d区分器的结构相同,e区分器和f区分器的结构相同)。
[0146]
步骤4.2构建c区分器
[0147]
步骤4.2.1c区分器包含n3(n3=51)个子区分器,每个子区分器在完整的特征空间s中无放回的随机选取特征作为分区的判断条件。
[0148]
步骤4.2.2设计度量样本集合纯度的指标purity,
[0149][0150]
步骤4.2.3根据步骤4.2.2所描述的指标purity来计算选取特征分区后每个子区间的样本纯度,当purity<0.1或者子区分器的深度deep>15时停止在该子区间上随机选取特征继续分区。
[0151]
步骤4.2.4重复步骤4.2.1-4.2.3,直至构建完成n3个子区分器。
[0152]
步骤4.3构建d区分器,其步骤和构建c区分器的步骤相同,直至构建完成n4(n4=51)个子区分器。
[0153]
步骤4.4构建e区分器
[0154]
步骤4.4.1e区分器包含n5(n5=51)个子区分器,每个子区分器在原始特征空间的随机特征子空间(特征子空间的大小为)中无放回的根据指标index选择特征作为分区的判断条件
[0155][0156]
其中,对选取的所有特征计算index,每次都选择index值最小的特征作为分区的判断条件;
[0157]
步骤4.4.2当子区间的样本数小于的1%或者子区分器的深度deep>15时停止在该子区间上随机选取特征继续分区;
[0158]
步骤4.4.3重复步骤4.4.1-4.4.2,直至构建完成n5个子区分器。
[0159]
步骤4.5步骤4.3构建f区分器,其步骤和构建e区分器的步骤相同,直至构建完成n6(n6=51)个子区分器。
[0160]
步骤5模型训练
[0161]
步骤5.1将步骤3.3得到的outputn分别输入到四级结构相同的第二分区模块中,
其中四级第二分区模块分别对应步骤3.3的四个特征向量,且每级第二分区模块都有n层结构,
[0162][0163]
其中,partitionmodel2(*)表示第二分区模块,s是步骤4.1描述的每级第二分区模块中level的索引值,n既表示特征向量的标签又表示四级第二分区模块的标签,l是第二分区模块中每个level中分类器的索引值,例如l=1时表示步骤4.2所述c区分器,l=2时表示步骤4.3所述d区分器,l=3时表示步骤4.4所述e区分器,l=4时表示步骤4.5所述f区分器。
[0164]
步骤5.2当n和s一定时,将4个partitionmodel2输出的结果进行联合
[0165][0166]
其中,
[0167]
步骤5.3将步骤5.2中每个level的输出都和步骤3.3得到的特征向量对应的进行联合
[0168][0169]
其中,
[0170]
步骤5.4当步骤3.3中的第一个特征向量在第一级partitionmodel2进行完步骤5.1-步骤5.3后,得到输出然后将该输出输入到二级partitionmodel2进行步骤5.1-步骤5.3,以此类推,直到步骤3.3的四个特征向量全部在对应的四级partitionmodel2完成步骤5.1-步骤5.3,得到形状为[(16+16(z-2)),1]的特征向量
[0171]
步骤5.5将步骤5.4输出的特征向量输入到由步骤4描述的c区分器、d区分器、e区分器、f区分器四个区分器组合形成的分类层模块,进行最后的分类任务,
[0172][0173]
其中,classifierlayer(*)表示该步骤描述的分类层,h表示classifielrayer中分类器的索引值,其中,h=1时表示步骤4.2所述的c区分器,h=2时表示步骤4.3所述的d区分器,h=3时表示步骤4.4所述的e区分器,h=4时表示步骤4.5所述的f区分器,q是四个类别的标签。
[0174]
步骤5.6对步骤5.5得出的四组四个类别的概率值分别求平均值
[0175][0176]
其中,
[0177]
步骤5.7取步骤5.6输出的四个类别的概率值中的最大值
[0178]
result=max(resultq)
[0179]
其中,是最终输出的分类结果即说话人位置,其与座位标号对应。
[0180]
在本发明的一个实施例中,为了降低语音定位的运算量,所述触发模块设有人声判别单元,所述人声判别单元用于判断所述声音信号中是否有人声特征。所述触发模块在所述声音信号中检测到,在进入语音识别模块之前,先进入人声判别模块根据人声的特征进行判断,若判断是人声,再将所述声音信号进行定位运算,以避免非语音信号进行定位运算,即避免对无效信号进行定位。
[0181]
本发明提供的车载传声器的功能复用方法将车载路噪主动控制系统的传声器与车载智能语音系统传声器进行拾音功能的复用,在保证两套系统功能的前提下,减少车载传声器数量,减少了车内系统的线束,降低汽车的成本;并且基于分布式传声器安装布设实现了车内说话人的定位功能,提升定位准确率,提升说话人定位功能的抗干扰能力和鲁棒性。本发明有效解决了当噪声来源与说话人同向时,现有系统对说话人的定位准确性低,鲁棒性不理想的问题。
[0182]
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1