一种车载语音增强方法、装置、存储介质及设备与流程

文档序号：33035039发布日期：2023-01-24 19:16阅读：24来源：国知局

1.本技术涉及语音处理技术领域，尤其涉及一种车载语音增强方法、装置、存储介质及设备。

背景技术：

2.随着人们生活水平的提高和社会经济的快速发展，汽车的使用率逐渐增高，越来越多的汽车走进了人们的生活，为人们生活的各个方面都带来了极大的便利。其中，语音交互系统也已在智能汽车上普及。
3.目前，通常是根据座椅位置进行车辆多个音区划分，比如将包含主驾座位、副驾座位、主后座位、副后座位的四座车划分成四音区等，再通过定向波束或语音分离模型获得多路音区对应的说话人音频送入后端唤醒，然后对比唤醒结果来获得唤醒人的位置，进而完成后续对目标说话人的识别。但当车辆处于高速行车开窗、多个说话人干扰等低信噪比的场景下，会产生唤醒率低的问题，且即使唤醒后也会出现定位错误的现象，导致车载用户的语音交互体验较差。

技术实现要素：

4.本技术实施例的主要目的在于提供一种车载语音增强方法、装置、存储介质及设备，能够根据车载辅助信息对说话人的语音进行增强，从而能够提升唤醒、定位和识别效果，进而提高用户在行车状态下的语音交互体验。
5.本技术实施例提供了一种车载语音增强方法，包括：
6.获取目标车辆的车载辅助信息，以及获取所述目标车辆上各个音区车载用户的目标语音信息；
7.利用所述车载辅助信息对所述目标语音信息进行增强处理，得到增强后的目标语音信息；
8.根据所述增强后的目标语音信息，对所述车载用户和/或目标车辆进行预设操作处理，得到处理结果。
9.一种可能的实现方式中，所述目标车辆的车载辅助信息包括目标车辆的座位信息；所述利用所述车载辅助信息对所述目标语音信息进行增强处理，得到增强后的目标语音信息，包括：
10.将所述目标语音信息进行傅里叶变换，得到转换后的目标语音信息；
11.利用所述目标车辆的座位信息和所述转换后的目标语音信息构建组合向量，并将所述组合向量输入至预先构建的语音增强模型，预测得到所述目标车辆上各个音区的目标语音信息的权重；
12.将所述权重与对应的目标语音信息分别进行相乘计算，并对得到的计算结果进行反傅里叶变换，得到增强后的目标语音信息。
13.一种可能的实现方式中，所述利用所述目标车辆的座位信息和所述转换后的目标
语音信息构建组合向量，包括：
14.将所述目标车辆的座位信息对应的向量和所述转换后的目标语音信息对应的向量进行拼接，得到拼接后的向量作为组合向量；或者，通过门控的方式，利用所述目标车辆的座位信息和所述转换后的目标语音信息构建组合向量。
15.一种可能的实现方式中，所述目标车辆的车载辅助信息包括目标车辆的车速信息和车窗状态信息；所述利用所述车载辅助信息对所述目标语音信息进行增强处理，得到增强后的目标语音信息，包括：
16.将所述目标语音信息进行傅里叶变换，得到转换后的目标语音信息；
17.利用所述目标车辆的车速信息和车窗状态信息以及所述转换后的目标语音信息构建组合向量，并将所述组合向量输入至预先构建的语音增强模型，预测得到所述目标车辆上各个音区的目标语音信息的权重；
18.将所述权重与对应的目标语音信息分别进行相乘计算，并对得到的计算结果进行反傅里叶变换，得到增强后的目标语音信息。
19.一种可能的实现方式中，所述利用所述目标车辆的车速信息和车窗状态信息以及所述转换后的目标语音信息构建组合向量，包括：
20.将所述目标车辆的车速信息对应的向量和车窗状态信息对应的向量以及所述转换后的目标语音信息对应的向量进行拼接，得到拼接后的向量作为组合向量；或者，通过门控的方式，利用所述目标车辆的车速信息和车窗状态信息以及所述转换后的目标语音信息构建组合向量。
21.一种可能的实现方式中，所述语音增强模型包括卷积神经网络cnn、循环神经网络rnn、实数或复数网络中的至少一种。
22.一种可能的实现方式中，所述将所述组合向量输入至预先构建的语音增强模型，预测得到所述目标车辆上各个音区的目标语音信息的权重，包括：
23.将所述组合向量输入至预先构建的语音增强模型，计算各个音区采集的目标语音信息的频域信号与预设音区采集的带噪音频的频域信号之间的比值，作为各个音区的目标语音信息的权重。
24.一种可能的实现方式中，所述根据所述增强后的目标语音信息，对所述车载用户和/或目标车辆进行预设操作处理，得到处理结果，包括：
25.根据所述增强后的目标语音信息，唤醒所述目标车辆的预设器件，并对发出唤醒语音的车载用户进行定位和识别处理，得到处理结果。
26.本技术实施例还提供了一种车载语音增强装置，包括：
27.获取单元，用于获取目标车辆的车载辅助信息，以及获取所述目标车辆上各个音区车载用户的目标语音信息；
28.增强单元，用于利用所述车载辅助信息对所述目标语音信息进行增强处理，得到增强后的目标语音信息；
29.处理单元，用于根据所述增强后的目标语音信息，对所述车载用户和/或目标车辆进行预设操作处理，得到处理结果。
30.一种可能的实现方式中，所述目标车辆的车载辅助信息包括目标车辆的座位信息；所述增强单元包括：
31.第一变换子单元，用于将所述目标语音信息进行傅里叶变换，得到转换后的目标语音信息；
32.第一预测子单元，用于利用所述目标车辆的座位信息和所述转换后的目标语音信息构建组合向量，并将所述组合向量输入至预先构建的语音增强模型，预测得到所述目标车辆上各个音区的目标语音信息的权重；
33.第一计算子单元，用于将所述权重与对应的目标语音信息分别进行相乘计算，并对得到的计算结果进行反傅里叶变换，得到增强后的目标语音信息。
34.一种可能的实现方式中，所述第一预测子单元具体用于：
35.将所述目标车辆的座位信息对应的向量和所述转换后的目标语音信息对应的向量进行拼接，得到拼接后的向量作为组合向量；或者，通过门控的方式，利用所述目标车辆的座位信息和所述转换后的目标语音信息构建组合向量。
36.一种可能的实现方式中，所述目标车辆的车载辅助信息包括目标车辆的车速信息和车窗状态信息；所述增强单元包括：
37.第二变换子单元，用于将所述目标语音信息进行傅里叶变换，得到转换后的目标语音信息；
38.第二预测子单元，用于利用所述目标车辆的车速信息和车窗状态信息以及所述转换后的目标语音信息构建组合向量，并将所述组合向量输入至预先构建的语音增强模型，预测得到所述目标车辆上各个音区的目标语音信息的权重；
39.第二计算子单元，用于将所述权重与对应的目标语音信息分别进行相乘计算，并对得到的计算结果进行反傅里叶变换，得到增强后的目标语音信息。
40.一种可能的实现方式中，所述第二预测子单元具体用于：
41.将所述目标车辆的车速信息对应的向量和车窗状态信息对应的向量以及所述转换后的目标语音信息对应的向量进行拼接，得到拼接后的向量作为组合向量；或者，通过门控的方式，利用所述目标车辆的车速信息和车窗状态信息以及所述转换后的目标语音信息构建组合向量。
42.一种可能的实现方式中，所述语音增强模型包括卷积神经网络cnn、循环神经网络rnn、实数或复数网络中的至少一种。
43.一种可能的实现方式中，所述第一预测子单元或第二预测子单元具体用于：
44.将所述组合向量输入至预先构建的语音增强模型，计算各个音区采集的目标语音信息的频域信号与预设音区采集的带噪音频的频域信号之间的比值，作为各个音区的目标语音信息的权重。
45.一种可能的实现方式中，所述处理单元具体用于：
46.根据所述增强后的目标语音信息，唤醒所述目标车辆的预设器件，并对发出唤醒语音的车载用户进行定位和识别处理，得到处理结果。
47.本技术实施例还提供了一种车载语音增强设备，包括：处理器、存储器、系统总线；
48.所述处理器以及所述存储器通过所述系统总线相连；
49.所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述车载语音增强方法中的任意一种实现方式。
50.本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存
储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述车载语音增强方法中的任意一种实现方式。
51.本技术实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述车载语音增强方法中的任意一种实现方式。
52.本技术实施例提供的一种车载语音增强方法、装置、存储介质及设备，首先获取目标车辆的车载辅助信息，以及获取目标车辆上各个音区车载用户的目标语音信息，然后利用车载辅助信息对目标语音信息进行增强处理，得到增强后的目标语音信息；接着，根据增强后的目标语音信息，对车载用户和/或目标车辆进行预设操作处理，得到处理结果。可见，本技术是先根据车载辅助信息对车辆上各个音区车载用户的语音进行增强，再利用增强后的语音进行后续车辆唤醒和用户定位及识别等预设操作处理，从而能够提升唤醒、定位和识别效果，进而提高了用户在目标车辆行车状态下的语音交互体验。
附图说明
53.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
54.图1为本技术实施例提供的将包含主驾座位、副驾座位、主后座位、副后座位的四座车划分成四音区的示意图；
55.图2为本技术实施例提供的一种车载语音增强方法的流程示意图；
56.图3为本技术实施例提供的一种车载语音增强装置的组成示意图。
具体实施方式
57.随着科技的不断发展，语音交互系统已在智能汽车上普及。为了实现车内多个说话人与语音设备更好的信息交互，通常是先根据座椅位置进行车辆多个音区划分，比如将包含主驾座位、副驾座位、主后座位、副后座位的四座车划分成四音区，如图1所示，再通过定向波束或语音分离模型获得多路音区对应的说话人音频进行后端唤醒等，然后通过对比唤醒结果，以获得车辆上唤醒人的位置，进而完成后续对目标说话人的识别。但当车辆处于高速行车且开窗或者车辆上多个说话人干扰等低信噪比的场景下，均会产生唤醒率低的问题，且即使唤醒成功，也会出现唤醒人定位错误的现象，进而导致车载用户的语音交互体验较差。
58.为解决上述缺陷，本技术提供了一种车载语音增强方法，首先获取目标车辆的车载辅助信息，以及获取目标车辆上各个音区车载用户的目标语音信息，然后利用车载辅助信息对目标语音信息进行增强处理，得到增强后的目标语音信息；接着，根据增强后的目标语音信息，对车载用户和/或目标车辆进行预设操作处理，得到处理结果。可见，本技术是先根据车载辅助信息对车辆上各个音区车载用户的语音进行增强，再利用增强后的语音进行后续车辆唤醒和用户定位及识别等预设操作处理，从而能够提升唤醒、定位和识别效果，进而提高了用户在目标车辆行车状态下的语音交互体验。
59.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例
中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
60.第一实施例
61.参见图2，为本实施例提供的一种车载语音增强方法的流程示意图，该方法包括以下步骤：
62.s201：获取目标车辆的车载辅助信息，以及获取目标车辆上各个音区车载用户的目标语音信息。
63.在本实施例中，将需要进行车载语音增强的任一车辆定义为目标车辆，并将目标车辆上各个音区车载用户发出的语音信息定义为待增强的目标语音信息。需要说明的是，本实施例不限制目标语音信息的语种类型，例如目标语音可以是中文构成的语音或英文构成的语音等；同时，本实施例也不限制目标语音的长度，比如，目标语音可以是一句话或一段话等。
64.实际应用中，由于车载语音交互场景相对家居等交互场景，具有用户位置固定(如主驾座位、副驾座位等)，用户数目与车型(如四座车、七座车等)相关的特点。在车辆行驶过程中，噪声的主要来源通常是行车状态下产生的风噪、胎噪等，并且，在不同的车速下会呈现不同的噪声等级，且与车窗开关状态相关，比如，在车窗关闭状态下，车辆会实现一定程度的被动降噪效果。
65.由此，本技术在对车载用户的目标语音信息进行增强时，充分考虑了目标车辆的车载辅助信息，其中，车载辅助信息包括但不限于目标车辆的座位信息、目标车辆的车速信息和车窗状态信息等。并且，在获取到目标车辆的车载辅助信息后，还可以利用现有或未来出现的向量转换方式，将目标车辆的车载辅助信息转换为对应的车载辅助信息表征向量。该表征向量的具体格式可根据实际情况设定，本实施例对此不进行限定，比如表征向量可以为一个4维的向量等，用以执行后续步骤s202。
66.需要说明的是，本技术对目标车辆上各个音区车载用户的目标语音信息的获取方式也不做限定，例如，以图1所示的包含四音区的目标车辆为例，车载座位包含了主驾座位、副驾座位、主后座位、副后座位，可以预先在各个座位对应的车顶位置安装一个麦克风，用于收集各个音区车载用户发出的语音信息，作为该音区车载用户的目标语音信息。
67.还需要说明的是，本技术对目标车辆的车载辅助信息包含的具体内容及其获取方式不做限定，可以根据车载辅助信息的内容，选择对应的获取方式，例如，当目标车辆的车载辅助信息包括目标车辆的座位信息时，可以采用监测安全带佩戴状态、采用压力传感器检测座椅状态、通过人体红外检测传感器或车载摄像头获取相应位置的人体活动信息等，来获取目标车辆的座位信息。
68.s202：利用车载辅助信息对目标语音信息进行增强处理，得到增强后的目标语音信息。
69.在本实施例中，通过步骤s201获取到目标车辆的车载辅助信息，以及获取到目标车辆上各个音区车载用户的目标语音信息后，为了提高车载用户的语音交互体验，进一步可以利用车载辅助信息对目标语音信息进行增强处理，得到增强后的目标语音信息，用以执行后续步骤s203。
70.具体来讲，一种可选的实现方式是，目标车辆的车载辅助信息可以包括目标车辆的座位信息，则本步骤s202的实现过程可以包括：首先，将目标语音信息进行傅里叶变换，得到转换后的目标语音信息，然后，利用目标车辆的座位信息和转换后的目标语音信息构建组合向量，并将该组合向量输入至预先构建的语音增强模型，预测得到目标车辆上各个音区的目标语音信息的权重，接着，可以将各权重与对应的音区的目标语音信息分别进行相乘计算，并对得到的计算结果进行反傅里叶变换，得到增强后的目标语音信息，用以执行后续步骤s203。
71.在本实现方式中，对于目标车辆内用户的数据以及目标车辆的座位信息的获取方式不做限定，并且，在获取到目标车辆的座位信息后，可以根据目标车辆的音区划分，将目标车辆的座位信息转换为对应维度的表征向量。例如，可以将四座车的目标车辆的座位信息转换为4维的表征向量，或者，将七座车的目标车辆的座位信息转换为7维的表征向量等。且各个维度的取值对应表征了各个音区的座位信息(即，是否存在车载用户)。
72.举例说明：以图1所示的包含四音区的目标车辆为例，在利用监测安全带佩戴状态、采用压力传感器检测座椅状态、通过人体红外检测传感器或车载摄像头获取相应位置的人体活动信息等方式，确定出目标车辆的车载用户是位于主驾座位和副驾座位的情况，则可以将目标车辆的座位信息转换为对应的4维表征向量：information_position＝[1,1,0,0]，类似的，当确定出车载用户是位于主驾座位和主后座位的情况，则可以将目标车辆的座位信息转换为对应的4维表征向量：information_position＝[1,0,1,0]。
[0073]
在此基础上，为了提高车载用户的语音交互体验，在获取到目标车辆上各个音区车载用户的目标语音信息后，可以对其进行傅里叶变换，得到转换后的频域的目标语音信息。
[0074]
举例说明：仍以图1所示的包含四音区的目标车辆为例，假设预先在主驾座位、副驾座位、主后座位、副后座位这四个音区各自对应的车顶位置均安装一个麦克风，可将其分别定义为第1个麦克风、第2个麦克风、第3个麦克风以及第4个麦克风，则进一步可以将获取到的各个音区车载用户的带噪的目标语音信息定义为：
[0075]
yi＝si1+si2+si3+si4+ni
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0076]
其中，yi表示第i个音区的第i个麦克风采集到的车载用户的目标语音信息；si1、si2、si3、si4分别表示位于主驾座位、副驾座位、主后座位、副后座位这四个音区的四个车载用户发出的声音到达第i个麦克的信号；ni表示噪声到达第i个麦克的信号。
[0077]
例如，对于y1＝s11+s12+s13+s14+n1，则表示主驾座位所在的音区的麦克风采集到的车载用户的目标语音信息，依次类推，y2＝s21+s22+s23+s24+n2、y3＝s31+s32+s33+s34+n3、y4＝s41+s42+s43+s44+n4则分别表示副驾座位、主后座位、副后座位各自所在的音区的麦克风采集到的车载用户的目标语音信息。
[0078]
再将上述公式表示的语音信息进行傅里叶变换，可以得到转换后的频域的目标语音信息，如下公式(2)所示：
[0079]
yi＝si1+si2+si3+si4+ni
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0080]
进一步的，可以利用现有或未来出现的向量组合方式，对目标车辆的座位信息对应的4维表征向量和转换后的频域的目标语音信息(即yi)进行向量融合，以构建组合向量，并将其定义为feature。具体的，可以将目标车辆的座位信息对应的向量和转换后的目标语
音信息对应的向量进行拼接，得到拼接后的向量作为组合向量为：feature＝[y1,y2,y3,y4,information_position]；或者，也可以通过门控的形式作用于语音增强模型的输入层或中间层，引导模型在利用麦克之间幅度差和相位差的同时，利用座位辅助信息，更好地进行语音分离，实现目标车辆的座位信息和转换后的目标语音信息的向量组合。
[0081]
再将得到的组合向量(feature)输入至预先构建的语音增强模型，计算各个音区采集的目标语音信息的频域信号与预设音区采集的带噪音频的频域信号之间的比值，作为各个音区的目标语音信息的权重，从而能够预测得到目标车辆上四个音区的目标语音信息的权重，并将其定义为mask，且mask可以表示为[f1,f2,f3,f4]，其中，f1,f2,f3,f4分别表示四个音区(即主驾座位、副驾座位、主后座位、副后座位各自所在的音区)的目标语音信息的权重。
[0082]
预设音区可根据实际情况(如实际目标车辆车上麦克的布放位置)进行设定，本技术实施例对此不进行限定，即，预设音区可以选择主驾座位、副驾座位、主后座位、副后座位各自所在的音区中的任意一个。
[0083]
特别地，当只有一个用户时，以该用户为主驾座位用户为例，则预设音区可设定为主驾座位所在的音区，且s12＝s13＝s14＝0，则f1＝1,f2＝f3＝f4＝0，即模型输入的组合向量(feature)为：[y1,y2,y3,y4,1,0,0,0]，模型输出向量可以接近为：[1,0,0,0]；当存在两个用户时，以这两个用户为主驾座位用户和副驾座位用户为例，且预设音区仍设定为主驾座位所在的音区，则s12＝s14＝0,f2＝f4＝0，即模型输入的组合向量(feature)为：[y1,y2,y3,y4,1,0,1,0]，模型输出向量可以为：[f1,0,f3,0]。
[0084]
进而可以将目标车辆上四个音区的目标语音信息的权重[f1,f2,f3,f4]与对应的转换后的频域的目标语音信息[y1,y2,y3,y4]分别进行相乘计算，并对得到的计算结果进行反傅里叶变换，得到增强后的目标语音信息，并分别定义为y1’、y2’、y3’、y4’。
[0085]
另一种可选的实现方式，目标车辆的车载辅助信息还可以包括目标车辆的车速信息和车窗状态信息，则本步骤202的实现过程可以包括：首先，将目标语音信息进行傅里叶变换，得到转换后的目标语音信息，然后，利用目标车辆的车速信息和车窗状态信息以及转换后的目标语音信息构建组合向量，并将该组合向量输入至预先构建的语音增强模型，预测得到目标车辆上各个音区的目标语音信息的权重，接着，可以将各权重与对应的音区的目标语音信息分别进行相乘计算，并对得到的计算结果进行反傅里叶变换，得到增强后的目标语音信息，用以执行后续步骤s203。
[0086]
在本实现方式中，对于目标车辆的车速信息和车窗状态信息的获取方式不做限定，并且，在获取到目标车辆的车速信息和车窗状态信息后，可以将其分别转换为对应维度的表征向量。例如，可以将目标车辆的车速信息转换为4维的表征向量，且各个维度的取值对应表征了目标车辆处于静止状态(0km/h)、低速状态(0～40km/h)、中速(40～80km/h)状态、高速状态(80km/h以上)；以及将车窗状态信息转换为4维的表征向量等，且各个维度的取值对应表征了各个音区的车窗开启状态(即，是否开启对应音区的车窗)。
[0087]
举例说明：仍以图1所示的包含四音区的目标车辆为例，在利用车载速度仪获取到车速信息，确定出目标车辆处于静止状态时，则可以将目标车辆的车速信息转换为4维表征向量：information_speed＝[1，0，0，0]，类似的，在利用车载速度仪获取到车速信息，确定出目标车辆处于高速状态时，则可以将目标车辆的车速信息转换为4维表征向量：
information_speed＝[0，0，0，1]。
[0088]
在通过检测车窗开启状态获取到车窗状态信息，确定出目标车辆仅主驾车窗开启时，则可以将目标车辆的车窗状态信息转换为对应的4维表征向量：information_window＝[1，0，0，0]，类似的，在通过检测车窗开启状态获取到车窗状态信息，确定出目标车辆的主驾和副驾的车窗均开启时，则可以将目标车辆的车窗状态信息转换为4维表征向量：information_window＝[1，1，0，0]。
[0089]
在此基础上，为了提高车载用户的语音交互体验，在获取到目标车辆上各个音区车载用户的目标语音信息后，仍可以词语上述公式(1)和(2)对其进行傅里叶变换，得到转换后的频域的目标语音信息，在此不再赘述。需要说明的屙屎，后续仍以图1所示的包含四音区的目标车辆为例进行介绍。
[0090]
进一步的，可以利用现有或未来出现的向量组合方式，对目标车辆的车速信息和车窗状态信息对应的4维表征向量和转换后的频域的目标语音信息(即yi)进行向量融合，以构建组合向量，并将其定义为feature。具体的，可以将目标车辆的车速信息对应的向量和车窗状态信息对应的向量以及转换后的目标语音信息对应的向量进行拼接，得到拼接后的向量作为组合向量为：feature＝[y1,y2,y3,y4,information_speed，information_window]；或者，也可以通过门控的形式作用于语音增强模型的输入层或中间层，引导模型在利用麦克之间幅度差和相位差的同时，利用座位辅助信息，更好地进行语音分离，实现目标车辆的座位信息和转换后的目标语音信息的向量组合。
[0091]
再将得到的组合向量(feature)输入至预先构建的语音增强模型，计算各个音区采集的目标语音信息的频域信号与预设音区采集的带噪音频的频域信号之间的比值，作为各个音区的目标语音信息的权重，从而能够预测得到目标车辆上四个音区的目标语音信息的权重，并将其定义为mask，且mask可以表示为[f1,f2,f3,f4]，其中，f1,f2,f3,f4分别表示四个音区(即主驾座位、副驾座位、主后座位、副后座位各自所在的音区)的目标语音信息的权重。
[0092]
需要说明的是，此处的预设音区也可根据实际情况(如实际目标车辆车上麦克的布放位置)进行设定，本技术实施例对此不进行限定，但通常会选取未开窗的座位所在的音区作为预设音区，即，选取最佳信噪比的音区作为预设音区，以减少噪声对于语音增强结果的影响。
[0093]
例如，在只有主驾车窗开启的情况下，根据实际麦克风位置分布，可以得出靠近主驾处麦克的噪声能量相对其他远离主驾麦克的噪声能量强，此时可以选取主驾所在的音区作为预设音区，这样可以获得麦克位置分布带来的信噪比收益。
[0094]
或者，也可以在左右音区中间扶手处安装辅助麦克风，当靠近车窗的麦克风的信噪比过低时，在模型输入的组合向量中将该音区的麦克风采集的语音信息加入。
[0095]
进而可以将目标车辆上四个音区的目标语音信息的权重[f1,f2,f3,f4]与对应的转换后的频域的目标语音信息[y1,y2,y3,y4]分别进行相乘计算，并对得到的计算结果进行反傅里叶变换，得到增强后的目标语音信息，并分别定义为y1’、y2’、y3’、y4’。
[0096]
需要说明的是，上述语音增强过程均是以目标车辆为四座车进行说明，但本技术不限定车辆的具体组成，比如目标车辆也可以为七座车或其他车型，对于其他车型的语音增强过程，可参考上述四座车的车载语音增强过程实现，在此不再一一赘述。
[0097]
接下来，本实施例将对上述步骤中提及的语音增强模型的构建过程进行介绍，其中，一种可选的实现方式是，语音增强模型的构建过程具体可以包括：首先获取样本车辆的样本车载辅助信息，以及获取样本车辆上各个音区车载用户的样本语音信息，然后利用样本车载辅助信息、样本语音信息和目标损失函数，对初始语音增强模型进行训练，得到语音增强模型。
[0098]
具体来讲，在本实现方式中，为了构建语音增强模型，需要预先进行大量的准备工作，首先，需要收集大量的样本车辆的车载辅助信息以及各个音区车载用户的语音信息，分别作为样本车载辅助信息(包括样本座位信息、样本车速信息、样本车窗状态信息)和样本语音信息，用以构成模型训练数据。例如，可以预先收集大量的样本车辆的不用情况下座位信息，比如四座的样本车辆上存在一个用户和多个用户的各自不同用户数量及相应的座位信息，同理还需要预先收集大量的样本车辆在不同情况下的车速信息(包括静止状态、低速状态、中速、高速状态)和车窗状态信息(即不同座位车窗的开启状态)，以及这些情况下且在样本车辆上车载用户允许的情况下，样本车辆的各个音区车载用户发出的语音信息共同构成模型训练数据，并人工标注出这些情况下样本语音信息对应的权重识别结果。接着，可以根据这些样本车载辅助信息、样本语音信息、样本语音信息对应的权重识别结果以及目标损失函数(具体函数不做限定，可根据实际情况和经验值进设定)，对初始语音增强模型进行训练，进而生成语音增强模型。
[0099]
其中，一种可选的实现方式是，初始语音增强模型可以为(但不限于)卷积神经网络(convolutional neural networks，简称cnn)、循环神经网络(recurrent neural network，简称rnn)、实数或复数网络中的至少一种。
[0100]
具体地，在进行模型训练时，可以依次从训练数据中提取一种目标车辆运行情况下的样本车载辅助信息(如样本座位信息)和样本语音信息，再将样本语音信息进行傅里叶变换，转换为频域的样本语音信息，并将样本车载辅助信息和转换后的频域的样本语音信息分别转换为对应的表征向量，在将得到二者的表征向量进行融合后作为模型输入，对应的权重识别结果作为输出，进行多轮模型训练，并将每轮训练得到的权重识别结果与对应的人工标注结果进行比较，并根据二者的差异对模型参数进行更新，直至满足预设的条件，比如目标损失函数的取值很小且基本不变，则停止模型参数的更新，完成语音增强模型的训练，生成一个训练好的语音增强模型。
[0101]
在此基础上，在根据样本车载辅助信息和样本语音信息训练生成语音增强模型后，进一步的，还可以利用验证车载辅助信息和验证语音信息对生成的语音增强模型进行验证。具体验证过程可以包括下述步骤(1)-(3)：
[0102]
步骤(1)：获取验证车辆的验证车载辅助信息，以及获取验证车辆上各个音区车载用户的验证语音信息。
[0103]
在本实施例中，为了实现对语音增强模型进行验证，首先需要获取验证车辆的验证车载辅助信息(包括验证座位信息、验证车速信息、验证车窗状态信息)，以及获取验证车辆上各个音区车载用户的验证语音信息，如可以将四座的验证车辆上存在一个用户和多个用户的各自不同用户数量及相应的座位信息，同理还可以预先收集大量的验证车辆在不同情况下的车速信息(包括静止状态、低速状态、中速、高速状态)和车窗状态信息(即不同座位车窗的开启状态)，分别作为验证座位信息车速信息和验证车窗状态信息，并在验证车辆
上车载用户允许的情况下，采集到各个音区不同车载用户发出的1000条语音数据作为验证语音信息，其中，验证车载辅助信息和验证语音信息指的是可以用来进行语音增强模型验证的车载辅助信息和语音信息，在获取到这些验证验证车载辅助信息和验证语音信息及每条验证语音信息对应的权重识别标签后，可继续执行后续步骤(2)。
[0104]
步骤(2)：将利用验证车载辅助信息和转换后的频域的验证语音信息构建的验证组合向量输入语音增强模型，获得验证语音信息对应的权重预测结果。
[0105]
通过步骤(1)获取到验证车载辅助信息和验证语音信息后，进一步的，可以先将验证语音信息进行傅里叶变换，转换为频域的验证语音信息，再将验证车载辅助信息和转换后的频域的验证语音信息分别转换为对应的表征向量，并将得到二者的表征向量进行融合后输入语音增强模型，获得验证语音信息对应的权重预测结果，用以执行后续步骤(3)。
[0106]
步骤(3)：当验证语音信息的权重预测结果与验证语音信息对应的权重标记结果不一致时，将验证语音信息和验证车载辅助信息分别重新作为样本语音信息和样本车载辅助信息，对语音增强模型进行更新。
[0107]
通过步骤(2)获得验证语音信息的权重预测结果后，若验证语音信息的权重预测结果与验证语音信息对应的真实权重识别结果(如人工标注的权重标记结果)不一致，则可以将验证语音信息和验证车载辅助信息分别重新作为样本语音信息和样本车载辅助信息，对语音增强模型进行参数更新。
[0108]
通过上述实施例，可以利用验证车载辅助信息和验证语音信息对语音增强模型进行有效验证，当验证语音信息的权重预测结果与验证语音信息对应的真实权重识别结果(如人工标注的权重标记结果)不一致时，可以及时调整更新语音增强模型，进而有助于提高语音增强模型的预测精度和准确性。
[0109]
s203：根据增强后的目标语音信息，对车载用户和/或目标车辆进行预设操作处理，得到处理结果。
[0110]
在本实施例中，通过步骤s202得到增强后的目标语音信息后，进一步可以根据该增强后的目标语音信息，唤醒目标车辆的预设器件(如唤醒车载空调或车载音频播放器等等)，并对发出唤醒语音(如“太热了，请打开空调”)的车载用户进行定位和识别的预设操作处理，如可以对比唤醒结果与各音区增强语音的能量，选取能量最大的音区内的用户定位为目标唤醒人，并进一步实现语音识别，得到目标说话人的识别结果。从而能够提升唤醒、定位和识别效果，进而提高用户在行车状态下的语音交互体验。
[0111]
这样，通过执行上述步骤s201-s203，能够结合车载座位信息、车速信息和车窗信息实现车辆分音区的语音增强，进而能够在后续处理中大幅度提升唤醒和定位效果，进一步提高了用户在行车状态下的语音交互体验。
[0112]
综上，本实施例提供的一种车载语音增强方法，首先获取目标车辆的车载辅助信息，以及获取目标车辆上各个音区车载用户的目标语音信息，然后利用车载辅助信息对目标语音信息进行增强处理，得到增强后的目标语音信息；接着，根据增强后的目标语音信息，对车载用户和/或目标车辆进行预设操作处理，得到处理结果。可见，本技术是先根据车载辅助信息对车辆上各个音区车载用户的语音进行增强，再利用增强后的语音进行后续车辆唤醒和用户定位及识别等预设操作处理，从而能够提升唤醒、定位和识别效果，进而提高了用户在目标车辆行车状态下的语音交互体验。
[0113]
第二实施例
[0114]
本实施例将对一种车载语音增强装置进行介绍，相关内容请参见上述方法实施例。
[0115]
参见图3，为本实施例提供的一种车载语音增强装置的组成示意图，该装置300包括：
[0116]
获取单元301，用于获取目标车辆的车载辅助信息，以及获取所述目标车辆上各个音区车载用户的目标语音信息；
[0117]
增强单元302，用于利用所述车载辅助信息对所述目标语音信息进行增强处理，得到增强后的目标语音信息；
[0118]
处理单元303，用于根据所述增强后的目标语音信息，对所述车载用户和/或目标车辆进行预设操作处理，得到处理结果。
[0119]
在本实施例的一种实现方式中，所述目标车辆的车载辅助信息包括目标车辆的座位信息；所述增强单元302包括：
[0120]
第一变换子单元，用于将所述目标语音信息进行傅里叶变换，得到转换后的目标语音信息；
[0121]
第一预测子单元，用于利用所述目标车辆的座位信息和所述转换后的目标语音信息构建组合向量，并将所述组合向量输入至预先构建的语音增强模型，预测得到所述目标车辆上各个音区的目标语音信息的权重；
[0122]
第一计算子单元，用于将所述权重与对应的目标语音信息分别进行相乘计算，并对得到的计算结果进行反傅里叶变换，得到增强后的目标语音信息。
[0123]
在本实施例的一种实现方式中，所述第一预测子单元具体用于：
[0124]
将所述目标车辆的座位信息对应的向量和所述转换后的目标语音信息对应的向量进行拼接，得到拼接后的向量作为组合向量；或者，通过门控的方式，利用所述目标车辆的座位信息和所述转换后的目标语音信息构建组合向量。
[0125]
在本实施例的一种实现方式中，所述目标车辆的车载辅助信息包括目标车辆的车速信息和车窗状态信息；所述增强单元302包括：
[0126]
第二变换子单元，用于将所述目标语音信息进行傅里叶变换，得到转换后的目标语音信息；
[0127]
第二预测子单元，用于利用所述目标车辆的车速信息和车窗状态信息以及所述转换后的目标语音信息构建组合向量，并将所述组合向量输入至预先构建的语音增强模型，预测得到所述目标车辆上各个音区的目标语音信息的权重；
[0128]
第二计算子单元，用于将所述权重与对应的目标语音信息分别进行相乘计算，并对得到的计算结果进行反傅里叶变换，得到增强后的目标语音信息。
[0129]
在本实施例的一种实现方式中，所述第二预测子单元具体用于：
[0130]
将所述目标车辆的车速信息对应的向量和车窗状态信息对应的向量以及所述转换后的目标语音信息对应的向量进行拼接，得到拼接后的向量作为组合向量；或者，通过门控的方式，利用所述目标车辆的车速信息和车窗状态信息以及所述转换后的目标语音信息构建组合向量。
[0131]
在本实施例的一种实现方式中，所述语音增强模型包括卷积神经网络cnn、循环神
经网络rnn、实数或复数网络中的至少一种。
[0132]
在本实施例的一种实现方式中，所述第一预测子单元或第二预测子单元具体用于：
[0133]
将所述组合向量输入至预先构建的语音增强模型，计算各个音区采集的目标语音信息的频域信号与预设音区采集的带噪音频的频域信号之间的比值，作为各个音区的目标语音信息的权重。
[0134]
在本实施例的一种实现方式中，所述处理单元303具体用于：
[0135]
根据所述增强后的目标语音信息，唤醒所述目标车辆的预设器件，并对发出唤醒语音的车载用户进行定位和识别处理，得到处理结果。
[0136]
进一步地，本技术实施例还提供了一种车载语音增强设备，包括：处理器、存储器、系统总线；
[0137]
所述处理器以及所述存储器通过所述系统总线相连；
[0138]
所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述车载语音增强方法的任一种实现方法。
[0139]
进一步地，本技术实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述车载语音增强方法的任一种实现方法。
[0140]
进一步地，本技术实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述车载语音增强方法的任一种实现方法。
[0141]
通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本技术各个实施例或者实施例的某些部分所述的方法。
[0142]
需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。
[0143]
还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0144]
对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术
将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄远芳胡郁
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

上一篇：一种基于感知无线电的基站调控方法及系统
上一篇：一种便携式热电偶/压力传感器仿真监测试验器的制作方法