本技术涉及语音命令的自学习方法、设备及存储介质,属于计算机。
背景技术:
1、目前,各种语音识别技术已经成熟的应用在各种智能家电中,例如智能冰箱、智能音箱等。智能家电在识别到用户发出的语音命令后,能够实现语音命令对应的功能。然而,采用固定单一的语音命令显得呆板生硬,难以满足不同口音、语种的用户需求,因此,对智能家电自学习语音命令的需求日益增加。
2、传统的语音命令的自学习方法,包括:接收用户在自学习过程中发出的命令词语音,并识别得到命令词语音中的命令词,设置这个命令词发音形式。
3、然而,传统的语音命令的自学习方法中,为了保证学习命令词的准确率,在自学习过程中对环境噪声的要求较严格,在有噪声的环境下进行语音命令的自学习容易造成自学习失败,或者自学习结果不稳定,导致在识别自学习的语音命令时识别率较低的问题。
技术实现思路
1、本技术提供了语音命令的自学习方法、设备及存储介质,可以解决在有噪声的环境下进行语音命令的自学习容易造成自学习失败,或者自学习结果不稳定,导致在识别自学习的语音命令时识别率较低的问题。
2、本技术提供如下技术方案:
3、第一方面,提供了一种语音命令的自学习方法,所述方法包括:
4、响应于接收到的自学习语音指令,获取预设声纹模板;
5、将所述自学习语音指令与所述预设声纹模板进行声纹对比,得到第一对比结果;
6、在所述第一对比结果指示所述自学习语音指令的发出人为目标用户的情况下,监听自学习命令词语音;
7、在监听到所述自学习命令词语音的情况下,基于所述预设声纹模板对所述自学习命令词语音进行声纹降噪,得到降噪命令词语音;
8、对所述降噪命令词语音进行人声提取,得到包含语音命令词的第一目标音频;
9、从所述第一目标音频中提取得到所述语音命令词;
10、将所述语音命令词确定为待监听命令词并监听所述待监听命令词。
11、可选地,所述从所述第一目标音频中提取得到所述语音命令词,包括:
12、对所述第一目标音频进行人声识别,得到识别结果;
13、在所述识别结果指示所述第一目标音频的发出人为所述目标用户的情况下,从所述第一目标音频中提取得到所述语音命令词。
14、可选地,在所述识别结果未指示所述第一目标音频的发出人为所述目标用户的情况下,所述方法还包括:
15、将所述第一目标音频与所述预设声纹模板进行声纹对比,得到第二对比结果;
16、在所述第二对比结果指示所述第一目标音频的发出人为所述目标用户的情况下,从所述第一目标音频中提取得到所述语音命令词。
17、可选地,所述从所述第一目标音频中提取得到所述语音命令词,还包括:
18、对所述第一目标音频进行音频质量检测,得到质量检测结果;
19、在所述质量检测结果指示所述第一目标音频的质量满足预设质量条件的情况下,从所述第一目标音频中提取得到所述语音命令词。
20、可选地,所述质量检测包括信噪比检测和音频能量检测。
21、可选地,所述将所述语音命令词确定为待监听命令词并监听所述待监听命令词,包括:
22、在监听到命令词语音的情况下,对所述命令词语音进行声纹识别,得到所述命令词语音对应的声纹特征;
23、将所述声纹特征与所述预设声纹模板进行对比,得到第三对比结果;
24、在所述第三对比结果指示所述声纹特征与所述预设声纹模板相同的情况下,对所述命令词语音进行命令词识别,得到所述待监听命令词。
25、可选地,所述将所述语音命令词确定为待监听命令词并监听所述待监听命令词,包括:
26、在监听到命令词语音的情况下,基于所述预设声纹模板对所述命令词语音进行声纹降噪,得到降噪候的命令词语音;
27、对所述降噪候的命令词语音进行人声提取,得到包含所述待监听命令词的第二目标音频;
28、从所述第二目标音频中提取得到所述待监听命令词。
29、可选地,所述获取预设声纹模板,包括:
30、响应于接收到的声纹预设指令,监听声纹预设语音;
31、在监听到所述声纹预设语音的情况下,对所述声纹预设语音进行文本识别,得到声纹预设语音对应的语音文本;
32、将所述语音文本与预设声纹文本进行相似度匹配,得到所述语音文本与所述预设声纹文本之间的相似度值;
33、在所述相似度值大于或者等于预设相似度阈值的情况下,对所述声纹预设语音进行声纹识别,得到所述预设声纹模板。
34、第二方面,提供一种电子设备,包括处理器和存储器,所述存储器中存储有程序,所述程序由所述处理器加载并执行,以实现如第一方面所述的语音命令的自学习方法的步骤。
35、第三方面,提供一种计算机可读存储介质,所述存储介质中存储有程序,所述程序被处理器执行时,用于实现如第一方面所述的语音命令的自学习方法的步骤。
36、本技术的有益效果在于:响应于接收到的自学习语音指令,获取预设声纹模板;将自学习语音指令与预设声纹模板进行声纹对比,得到第一对比结果;在第一对比结果指示自学习语音指令的发出人为目标用户的情况下,监听自学习命令词语音;在监听到自学习命令词语音的情况下,基于预设声纹模板对自学习命令词语音进行声纹降噪,得到降噪命令词语音;对降噪命令词语音进行人声提取,得到包含语音命令词的第一目标音频;从第一目标音频中提取得到语音命令词;将语音命令词确定为待监听命令词并监听待监听命令词;可以解决在有噪声的环境下进行语音命令的自学习容易造成自学习失败,或者自学习结果不稳定,导致在识别自学习的语音命令时识别率较低的问题;在监听到自学习命令词语音的情况下,基于预设声纹模板对自学习命令词语音进行声纹降噪,得到降噪命令词语音,并对降噪命令词语音进行人声提取,得到包含语音命令词的第一目标音频,以抑制非注册人的环境噪声和他人的声音,实现对目标用户本人的声音做提取和增强,提高了目标用户身份判断的准确率,降低声纹识别错误的可能性,使得环境中的细微噪声和他人语音噪声也不会干扰到语音命令的自学习流程,从而让目标用户可以处于常见的一般安静环境中进行语音命令的自学习,可以提高在有噪声的环境下进行语音命令的自学习的成功率和学习效果,进而提高在识别自学习的语音命令时的识别率。
37、另外,通过对第一目标音频进行声纹识别,得到第一目标音频对应的声纹特征,并与预设声纹模板进行对比,确定第一目标音频对应的发出人是否为目标用户,可以避免在语音命令的自学习过程中,由他人的声音误触发自学习流程,从而提高了语音命令的自学习的成功率。
38、另外,通过单独使用声纹识别或者联合使用声纹识别和声纹降噪对第一目标音频的发出人进行二次校验,确定发出人时目标用户的情况下,提取语音命令词,这样,可以提高对他人下发的语音命令的拒识别率,提高对目标用户的语音命令词的识别率。
39、另外,在监听待监听命令词的过程中,在监听到命令词语音语的情况下,对命令词语音进行声纹降噪,以增强命令词语音中与目标用户相关的音频并检测是否有待监听命令词,这样,可以提高目标用户的待监听命令词的识别率,同时,过滤了他人发出的命令词语音。
40、另外,在监听到命令词语音语的情况下,对命令词语音进行声纹识别,得到命令词语音对应的声纹特征;将声纹特征与预设声纹模板进行对比,确定命令词语音发出人的身份信息;这样,可以避免响应目标用户外的他人发出的命令词语音,在满足命令词语个性化设置的需求同时,提高了在隐私场景下对命令词语音发出人的身份信息甄别能力。