本申请涉及语音识别,尤其涉及一种语音交互方法、装置、电子设备、车辆及计算机程序产品。
背景技术:
1、随着科技的不断发展,语音识别技术开始应用到各个领域,给人们的工作生活提供方便。例如,通过语音识别技术,用户能够与车机进行语音交互,实现“可见即可说”的功能。在“可见即可说”功能下,用户通过语音就可以操控当前页面可见元素。
2、目前,通过语音操控页面中可见元素的方案依赖于自动语音识别(automaticspeech recognition,asr)技术。语音识别的准确率直接影响着识别所要操控的页面元素的准确性。
3、然而,受限于语音识别技术,当前通过语音操作页面中可见元素的过程中,识别所要操控的页面元素的准确率较低。
技术实现思路
1、有鉴于此,本申请提出一种语音交互方法、装置、电子设备、车辆及计算机程序产品,该方法能够在通过语音操作页面中可见元素的过程中,提升识别所要操控的页面元素的准确率。
2、本申请提出的技术方案具体如下:
3、第一方面,本申请的实施例提供了一种语音交互方法,所述方法包括:
4、在显示交互界面的情况下,基于所述交互界面中的文本信息生成热词库,其中,所述热词库中的每一个热词对应所述交互界面中一个页面元素;在接收到用户的交互语音的情况下,将初始识别结果的音素文本与每一所述热词的音素文本按照相似度进行匹配,得到匹配成功的目标热词,其中,所述初始识别结果为识别所述交互语音得到的文本信息;利用所述目标热词对所述初始识别结果进行纠正,得到纠正结果;基于所述纠正结果控制所述交互界面中相应的页面元素进行响应。
5、可选地,将初始识别结果的音素文本与每一所述热词的音素文本按照相似度进行匹配,得到匹配成功的目标热词之前,所述方法还包括:在目标信息包括目标字符的情况下,按照所述目标字符在第一语种下的发音得到所述目标字符的音素文本,其中,所述目标信息包括:所述初始识别结果或所述热词,所述目标字符包括:字母、符号中的至少一项;将所述目标字符的音素文本拼接到剩余文本信息在所述第一语种下的音素文本,得到所述目标信息的音素文本,其中,所述剩余文本信息包括所述目标信息中除所述目标字符之外的文本信息。
6、可选地,在所述目标字符包括:多个字母组成的第二语种下的单词的情况下,按照所述目标字符在第一语种下的发音得到所述目标字符的音素文本,包括:基于音译词库确定所述目标字符对应的音译结果;其中,所述音译词库包括第二语种下的多个单词以及每一单词在所述第一语种下的音译结果;计算所述目标字符对应的音译结果的音素文本,得到所述目标字符的音素文本。
7、可选地,在所述目标字符包括单个字母或多个字母组成的非单词组合的情况下,按照所述目标字符在第一语种下的发音得到所述目标字符的音素文本,包括:基于每个字母在所述第一语种下的发音,得到每个字母的音素文本;将所述目标字符中各字母的音素文本进行拼接,生成所述目标字符的音素文本。
8、可选地,将初始识别结果的音素文本与每一所述热词的音素文本按照相似度进行匹配,得到匹配成功的目标热词之前,所述方法还包括:在所述初始识别结果或所述热词包括数字的情况下,将数字调整为阿拉伯数字;将所述阿拉伯数字拼接到剩余文本信息在第一语种下的音素文本,得到所述初始识别结果的音素文本或所述热词的音素文本,其中,所述剩余文本信息包括所述初始识别结果中除数字之外的文本信息或所述热词中除数字之外的文本信息。
9、可选地,在所述交互界面中的目标页面元素包括在目标范围内调整参数值的控件的情况下,对应所述目标页面元素的热词包括所述目标范围。
10、可选地,将初始识别结果的音素文本与每一所述热词的音素文本按照相似度进行匹配,得到匹配成功的目标热词,包括:将所述初始识别结果的音素文本分别与每一所述热词的音素文本按照相似度进行匹配;将相似度最高的热词,确定为所述目标热词。
11、可选地,基于所述交互界面中的文本信息生成热词库,包括:根据用户对所述交互界面中的各区域的注意力,在所述交互界面中确定出感兴趣区域;基于所述感兴趣区域中的文本信息生成热词库。
12、第二方面,本申请的实施例提供了一种语音交互装置,所述装置包括:
13、热词库生成模块,用于在显示交互界面的情况下,基于所述交互界面中的文本信息生成热词库,其中,所述热词库中的每一个热词对应所述交互界面中一个页面元素;热词匹配模块,用于在接收到用户的交互语音的情况下,将初始识别结果的音素文本与每一所述热词的音素文本按照相似度进行匹配,得到匹配成功的目标热词,其中,所述初始识别结果为识别所述交互语音得到的文本信息;纠正模块,用于利用所述目标热词对所述初始识别结果进行纠正,得到纠正结果;控制模块,用于基于所述纠正结果控制所述交互界面中相应的页面元素进行响应。
14、第三方面,本申请的实施例提供一种电子设备,包括:存储器和处理器;其中,所述存储器用于存储程序;所述处理器,用于通过运行所述存储器中的程序,实现以上任意一项所述的语音交互方法。
15、第四方面,本申请的实施例提供一种车辆,包括控制器;所述控制器被配置为实现以上任意一项所述的语音交互方法。
16、第五方面,本申请的实施例提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现以上任意一项所述的语音交互方法。
17、第六方面,本申请的实施例提供了一种计算机程序产品或计算机程序,所述计算机程序产品或所述计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中;计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行以上任意一项所述的语音交互方法。
18、本申请提出的语音交互方法,可以在显示交互界面的情况下,基于所述交互界面中的文本信息生成热词库,其中,所述热词库中的每一个热词对应所述交互界面中一个页面元素。进而在接收到用户的交互语音之后,首先在热词库中匹配到目标热词,然后利用目标热词对交互语音的初始识别结果进行纠正。最后利用纠正结果控制交互界面中相应的页面元素进行响应。不仅实现了通过语音操控页面中可见元素的目的。同时,利用目标热词对初始识别结果进行纠正,可以突破语音识别技术的限制,提升识别所要操控的页面元素的准确性。尤其,本申请技术方案将初始识别结果的音素文本与每一所述热词的音素文本按照相似度进行匹配,得到匹配成功的目标热词。可以减少生僻字、不同语种等所造成的影响,从而进一步提升识别所要操控的页面元素的准确性。
1.一种语音交互方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,将初始识别结果的音素文本与每一所述热词的音素文本按照相似度进行匹配,得到匹配成功的目标热词之前,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,在所述目标字符包括:多个字母组成的第二语种下的单词的情况下,按照所述目标字符在第一语种下的发音得到所述目标字符的音素文本,包括:
4.根据权利要求2所述的方法,其特征在于,在所述目标字符包括单个字母或多个字母组成的非单词组合的情况下,按照所述目标字符在第一语种下的发音得到所述目标字符的音素文本,包括:
5.根据权利要求1所述的方法,其特征在于,将初始识别结果的音素文本与每一所述热词的音素文本按照相似度进行匹配,得到匹配成功的目标热词之前,所述方法还包括:
6.根据权利要求1所述的方法,其特征在于,在所述交互界面中的目标页面元素包括在目标范围内调整参数值的控件的情况下,对应所述目标页面元素的热词包括所述目标范围。
7.根据权利要求1-6任一项所述的方法,其特征在于,将初始识别结果的音素文本与每一所述热词的音素文本按照相似度进行匹配,得到匹配成功的目标热词,包括:
8.根据权利要求1-6任一项所述的方法,其特征在于,基于所述交互界面中的文本信息生成热词库,包括:
9.一种语音交互装置,其特征在于,所述装置包括:
10.一种电子设备,其特征在于,包括:存储器和处理器;
11.一种车辆,其特征在于,包括控制器;所述控制器被配置为实现如权利要求1至8中任意一项所述的语音交互方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1至8中任意一项所述的语音交互方法。