本技术涉及车辆,特别涉及一种用于语音交互的降噪模型的训练方法、语音交互方法、电子设备及计算机可读存储介质。
背景技术:
1、在相关技术中,车辆语音控制中的降噪模型是确保交互准确性的核心模块,该模型可分离用户语音中的人声与环境噪声(如引擎声、风噪、多人对话等),从而可保障用户语音的精准识别。然而,降噪模型对用户语音进行处理的过程中,可能将语音中的人声识别为噪声从而将其抑制,导致降噪后的语音无法被转换为有效的车控指令,影响车辆的语音控制效果及用户的车辆驾乘体验。
技术实现思路
1、本技术提供一种用于语音交互的降噪模型的训练方法、语音交互方法、电子设备及计算机可读存储介质。
2、本技术实施方式提供一种用于语音交互的降噪模型的训练方法,所述方法包括:
3、获取语音请求样本;
4、对所述语音请求样本进行语音识别,确定第一语音识别结果;
5、根据语音请求样本和所述第一语音识别结果进行模型训练,确定所述降噪模型。
6、如此,在本技术实施方式中,可在获取到语音请求样本的情况下,对语音请求样本进行语音识别以确定第一语音识别结果,进而在降噪模型的训练过程中,根据语音请求样本和所述第一语音识别结果进行降噪模型的训练,使得降噪模型的训练可通过语音请求样本的语音识别结果进行,从而在一定程度上保障语音请求样本的第一语音识别结果与模型降噪能力的适配,进而可在一定程度上改善降噪模型对语音请求进行处理时抑制语音请求中的人声,导致处理后语音请求难以被识别为有效的语音指令或文本的情况,由此可在一定程度上保障降噪模型处理后的语音请求被识别为有效的语音指令或文本,使得用户可通过语音准确地控制车辆,用户与车辆的语音交互体验得以保障。
7、在本技术某些实施方式中,所述第一语音识别结果包括语音请求样本的第一声学嵌入向量,所述根据语音请求样本和所述语音识别结果进行模型训练,确定所述降噪模型,包括:
8、根据待训练模型,对所述语音请求样本进行降噪处理,确定降噪语音请求样本及所述降噪语音请求样本的第二声学嵌入向量;
9、根据所述语音请求样本、所述降噪语音请求样本、所述第一声学嵌入向量以及所述第二声学嵌入向量,对所述待训练模型进行训练,确定所述降噪模型。
10、如此,在本技术实施方式中,可根据待训练模型对语音请求样本进行降噪处理,确定降噪语音请求样本及降噪语音请求样本的第二声学嵌入向量,及根据语音请求样本、降噪语音请求样本、第一声学嵌入向量以及第二声学嵌入向量,对待训练模型进行训练以确定降噪模型,使得待训练模型可基于语音请求样本、降噪语音请求样本、第一声学嵌入向量以及第二声学嵌入向量进行训练,一定程度上使待训练模型的训练效果得到保障。
11、在本技术某些实施方式中,所述根据所述语音请求样本、所述降噪语音请求样本、所述第一声学嵌入向量以及所述第二声学嵌入向量,对所述待训练模型进行训练,确定所述降噪模型,包括:
12、根据所述语音请求样本和所述降噪语音请求样本之间的差异,确定第一损失函数值;
13、根据所述第一声学嵌入向量和所述第二声学嵌入向量之间的差异,确定第二损失函数值;
14、根据所述第一损失函数值和所述第二损失函数值对所述待训练模型进行训练,确定所述降噪模型。
15、如此,在本技术实施方式中,可根据语音请求样本和降噪语音请求样本之间的差异确定第一损失函数值,及根据第一声学嵌入向量和第二声学嵌入向量之间的差异确定第二损失函数值,及根据第一损失函数值和第二损失函数值对待训练模型进行训练以确定降噪模型,由此在一定程度上保障待训练模型的训练效果,进而可保障训练得到的降噪模型的模型性能。
16、在本技术某些实施方式中,所述获取语音请求样本,包括:
17、根据预设噪声数据和第一语音请求,确定所述语音请求样本。
18、如此,在本技术实施方式中,可根据预设噪声数据和第一语音请求确定语音请求样本,由此保障语音请求样本与降噪模型训练的适配,一定程度上保障了降噪模型的稳健训练。
19、在本技术某些实施方式中,所述预设噪声数据包括多个,所述根据预设噪声数据和第一语音请求,确定所述语音请求样本,包括:
20、对所述预设噪声数据进行语音识别,确定第二语音识别结果;
21、根据所述第二语音识别结果,确定多个所述预设噪声数据中的目标噪声数据;
22、根据所述目标噪声数据和所述第一语音请求,确定所述语音请求样本。
23、如此,在本技术实施方式中,可对预设噪声数据进行语音识别,确定第二语音识别结果,及根据第二语音识别结果,确定多个预设噪声数据中的目标噪声数据,再根据目标噪声数据和第一语音请求以确定语音请求样本,由此实现语音样本的确定。
24、在本技术某些实施方式中,所述第二语音识别结果包括与所述预设噪声数据相对应的语义单元,所述根据所述第二语音识别结果,确定多个所述预设噪声数据中的目标噪声数据,包括:
25、将多个所述预设噪声数据中,与预设数量内的语义单元相对应的所述预设噪声数据确定为所述目标噪声数据。
26、如此,在本技术实施方式中,可将多个预设噪声数据中,与预设数量内的语义单元相对应的预设噪声数据确定为目标噪声数据,由此减少噪声数据中能够与语音单元相对应的人声部分,从而在一定程度上降低模型训练过程中,将人声作为学习为噪声的情况出现,由此可在一定程度上降低降噪模型对于人声的抑制,从而保障降噪模型对于语音请求的处理效果,经降噪模型处理后的语音请求能够被准确地识别为车辆控制指令或文本。
27、在本技术某些实施方式中,所述根据所述目标噪声数据和所述第一语音请求,确定所述语音请求样本,包括:
28、对所述第一语音请求和预设冲击响应信号进行叠加处理,确定第二语音请求,
29、对所述第二语音请求进行预设处理,确定第三语音请求,其中,所述预设处理包括增益调整处理、语速调整处理、音高调整处理及滤波处理中的至少一种;
30、对所述第三语音请求与所述目标噪声数据进行叠加处理,确定所述语音请求样本。
31、如此,在本技术实施方式中,可对第一语音请求和预设冲击响应信号进行叠加处理,确定第二语音请求,及对第二语音请求进行预设处理以确定第三语音请求,及对第三语音请求与目标噪声数据进行叠加处理以确定语音请求样本,由此实现语音请求样本的确定,及可在一定程度上保障语音请求样本对于降噪模型训练过程中的有效。
32、本技术实施方式提供一种语音交互方法,用于车辆,所述方法包括:
33、获取当前语音请求;
34、根据降噪模型,对所述当前语音请求进行降噪处理,确定降噪语音请求,其中,所述降噪模型根据上述的用于语音交互的降噪模型的训练方法训练得到;
35、根据所述降噪语音请求控制所述车辆,以完成所述语音交互。
36、如此,在本技术实施方式中,可通过降噪模型消除当前语音请求中的噪声,从而确定降噪语音请求,进而使车辆可根据降噪语音请求准确识别用户发出的声音,从而稳健地控制车辆以与用户交互,由此可保障用户对于车辆语音交互功能的使用体验。以及,在训练降噪模型时,可在获取到语音请求样本的情况下,对语音请求样本进行语音识别以确定第一语音识别结果,进而在降噪模型的训练过程中,根据语音请求样本和所述第一语音识别结果进行降噪模型的训练,使得降噪模型的训练可通过语音请求样本的语音识别结果进行,从而在一定程度上保障语音请求样本的第一语音识别结果与模型降噪能力的适配,进而可在一定程度上改善降噪模型对语音请求进行处理时抑制语音请求中的人声,导致处理后语音请求难以被识别为有效的语音指令或文本的情况,由此可在一定程度上保障降噪模型处理后的语音请求被识别为有效的语音指令或文本,使得用户可通过语音准确地控制车辆,用户与车辆的语音交互体验得以保障。
37、本技术实施方式提供一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现上述的用于语音交互的降噪模型的训练方法,或实现上述的语音交互方法。
38、本技术实施方式提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,实现上述的用于语音交互的降噪模型的训练方法,或实现上述的语音交互方法。
39、本技术实施方式提供的电子设备和计算机可读存储介质,可在获取到语音请求样本的情况下,对语音请求样本进行语音识别以确定第一语音识别结果,进而在降噪模型的训练过程中,根据语音请求样本和所述第一语音识别结果进行降噪模型的训练,使得降噪模型的训练可通过语音请求样本的语音识别结果进行,从而在一定程度上保障语音请求样本的第一语音识别结果与模型降噪能力的适配,进而可在一定程度上改善降噪模型对语音请求进行处理时抑制语音请求中的人声,导致处理后语音请求难以被识别为有效的语音指令或文本的情况,由此可在一定程度上保障降噪模型处理后的语音请求被识别为有效的语音指令或文本,使得用户可通过语音准确地控制车辆,用户与车辆的语音交互体验得以保障。
40、本技术的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实施方式的实践了解到。