语音交互方法、服务器及计算机可读存储介质与流程

文档序号:32515360发布日期:2022-12-10 09:12阅读:78来源:国知局

1.本技术涉及车载语音技术领域,特别涉及一种语音交互方法、服务器及计算机可读存储介质。


背景技术:

2.目前,车载语音技术可以支持用户通过语音在车辆座舱内进行交互,例如控制车辆零部件或与车载系统用户界面中的组件进行交互。例如,用户通过语音控制车载系统的用户界面中的音乐播放器控件打开等。在实际交互场景中,用户通常需要严格按照规定的句式输入语音请求,才能够正常进行语音交互,而用户利用相对自由或接近日常的表述,可能导致语音助手无法识别语音请求,进而导致语音交互不能顺利进行,影响语音交互的流畅性和便捷性。


技术实现要素:

3.本技术提供了一种语音交互方法、服务器及计算机可读存储介质。
4.本技术的语音交互方法,包括:接收车辆转发的语音请求;处理所述语音请求,提取所述语音请求的意图信息和槽位信息,确认根据语义无法直接获取目标位置和/或目标操作对象,其中,所述意图信息包括动作类型,所述槽位信息包括参考点、相对位置信息和/或操作对象;根据所述意图信息和所述槽位信息确定所述语音请求的目标位置和目标操作对象;根据所述目标位置和所述目标操作对象生成与所述语音请求对应的车辆控制指令;将所述车辆控制指令转发至所述车辆以完成所述语音交互。
5.如此,本技术中,在用户通过语音与车载系统用户界面进行交互的过程中,服务器在提取语音请求的意图信息和槽位信息后,无法根据语义直接获取目标位置和目标操作对象时,仍可通过一系列方法确定语音请求的目标位置和目标操作对象,最终生成车辆控制指令。本技术的语音交互方法可识别用户口语化语音请求,完成对目标位置和目标操作对象的定位,而不需要用户进行多轮澄清,提高语音交互的流畅性和便捷性。
6.所述根据所述意图信息和所述槽位信息确定所述语音请求的目标位置和目标操作对象,包括:对所述槽位信息中的参考点进行归一化处理,以将所述参考点对应至车辆座舱内的绝对位置。
7.如此,可将提取到的语音请求中的参考点槽位信息进行归一化处理,使参考点与车辆座舱内相应的绝对位置对应起来,以便后续结合相对位置信息确定目标操作对象的位置范围。
8.所述根据所述意图信息和所述槽位信息确定所述语音请求的目标位置和目标操作对象,包括:根据所述绝对位置和所述相对位置信息确定所述目标位置。
9.如此,可将参考点对应的车辆座舱内的绝对位置与相对位置信息结合,进行目标位置范围的确定。使后续查找目标操作对象的范围限定在目标位置内,过程更为准确和高效。
10.所述方法还包括:在所述槽位信息中缺失所述参考点的情况下,根据所述语音请求的历史对话信息确认所述参考点。
11.如此,当参考点信息模糊时,服务器将搜索历史对话内容,将上条语音请求中的参考点确认为本条语音请求的参考点,使语音交互过程更具连贯性。
12.所述方法还包括:在所述槽位信息中缺失所述参考点的情况下,根据所述语音请求的音区信息确认所述参考点。
13.如此,当参考点信息缺失时,服务器将判断语音请求的音区信息,将用户所在音区作为参考点,使语音交互过程更具连贯性。
14.所述根据所述意图信息和所述槽位信息确定所述语音请求的目标位置和目标操作对象,包括:根据所述相对位置信息确定候选操作对象。
15.如此,服务器可在根据相对位置信息确定的目标位置内,将所有对象确定为候选操作对象。将后续在候选操作对象范围内筛选得到目标操作对象的过程缩小至目标位置范围内进行,提高筛选步骤的高效性。
16.所述根据所述意图信息和所述槽位信息确定所述语音请求的目标位置和目标操作对象,包括:根据所述槽位信息中的操作对象对所述候选操作对象进行第一筛选处理;根据所述意图信息中操作类型对经过第一筛选处理的所述候选操作对象进行第二筛选处理以得到所述目标操作对象。
17.如此,可根据用户语音请求中的意图信息,首先在目标区域内筛选出候选操作对象,再在筛选出的候选操作对象中进行第二次筛选,筛选出其中可操作对象作为目标操作对象,以便融合生成车载系统能够识别并执行的指令。
18.所述方法还包括:在所述槽位信息中缺失所述操作对象的情况下,根据所述语音请求的音区信息确定所述操作对象。
19.如此,当操作对象信息缺失时,服务器将进行模糊匹配,判断语音请求的音区信息,并将用户所在音区范围确认为操作对象的位置范围,据此确定操作对象信息,使语音交互过程更具连贯性。
20.所述根据所述目标位置和所述目标操作对象生成与所述语音请求对应的车辆控制指令,包括:所述车辆的状态信息、所述目标位置和所述目标操作对象,确定对所述目标操作
对象的操作权限;根据所述操作权限生成所述车辆控制指令。
21.如此,可根据车辆的状态信息、目标位置及目标操作对象,确定目标对象的操作权限,并根据权限识别结果生成所述车辆控制指令。使语音交互过程及结果更适应车辆的行驶状态,保障驾驶安全。
22.所述方法还包括:对所述语音请求的意图信息和槽位信息进行存储。
23.如此,可存储语音请求中的意图信息和槽位信息,以便车辆在下轮执行任务过程中,获取历史轮次中执行的信息,得到更具可靠性的语音交互结果。
24.本技术的服务器,包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现上述的方法。
25.本技术的计算机可读存储介质,存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,实现上述的方法。
26.本技术的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实施方式的实践了解到。
附图说明
27.本技术的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:图1是本技术语音交互方法的流程示意图之一;图2是本技术语音交互方法的流程示意图之二;图3是本技术语音交互方法的流程示意图之三;图4是本技术语音交互方法的流程示意图之四;图5是本技术语音交互方法的流程示意图之五。
具体实施方式
28.下面详细描述本技术的实施方式,实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本技术的实施方式,而不能理解为对本技术的实施方式的限制。
29.请参阅图1、图2及图3,本技术提供一种语音交互方法,包括:01:接收车辆转发的语音请求;02:处理语音请求,提取语音请求的意图信息和槽位信息,确认根据语义无法直接获取目标位置和/或目标操作对象;03:根据意图信息和槽位信息确定语音请求的目标位置和目标操作对象;04:根据目标位置和目标操作对象生成与语音请求对应的车辆控制指令;05:将车辆控制指令转发至车辆以完成语音交互。
30.本技术还提供了一种服务器,服务器包括存储器和处理器。本技术的语音交互方法可以由本技术的服务器实现。具体地,存储器中存储有计算机程序,处理器用于接收车辆
转发的语音请求,处理语音请求,提取语音请求的意图信息和槽位信息,并确认根据语义无法直接获取目标位置和/或目标操作对象,以及根据意图信息和槽位信息确定语音请求的目标位置和目标操作对象,根据目标位置和目标操作对象生成与语音请求对应的车辆控制指令,最后将车辆控制指令转发至车辆以完成语音交互。
31.车载系统语音交互功能,可实现用户对车辆的控制。目前,车载系统语音交互功能支持用户通过语音在车辆座舱内进行交互。相关技术中,车载系统语音交互功能能够识别的语音请求通常需要用户严格按照规定的句式进行输入。如图2所示,在语音控制车窗开闭的场景中,若用户输入语音请求的句式符合表达规范,如“打开主驾车窗”,则该语音请求可以被语音助手准确识别。通过自然语言处理,利用意图分类模型和槽位提取模型,最终生成控制对象明确的车辆控制指令。然而,当用户发出相对自由或更接近日常表述的语音请求,如用户发出类似“打开我左边的车窗”的语音请求时,则无法直接识别该语音请求进而生成相应的控制指令,通常需要用户进行多轮澄清后,才能够确认最终的目标,从而生成相应的控制指令,或对用户发出“听不懂”等类似的反馈。
32.如图3所示,本技术中,针对上述场景,对于用户发出的语音请求,例如上例中的“打开我左边车窗”,服务器在接收到车辆转发的该类语音请求后,提取语音请求中的意图信息和槽位信息。其中,意图分类模型对语音请求的内容进行分类预测,得到意图信息为“打开”。此处的意图信息区别于传统自然语言理解模型中的意图信息,分类更少,主要针对用户的动作而不涉及动作实施的对象,如“打开”、“关闭”、“点击”、“切换”等动作类别。
33.槽位提取模型可针对上述实际语音请求“打开我左边车窗”中的位置定位信息进行提取,包括参考点槽位、相对位置信息槽位和/或操作对象的槽位。其中,参考点可作为确定相对位置信息的参考位置,可包括“主驾”“后排”或“屏幕”等,实际场景中用户可能通过更生活化语言表达,则需要按预定规则进行自然语言处理得到参考点对应的车辆座舱内绝对位置。
34.相对位置信息是指语音请求中描述相对于参考点位置的区域位置信息,可包括“左边”、“右侧”、“上边”等。
35.操作对象是指语音请求中一些描述车内零部件以及用户界面部件或区域的自然语言信息,具有执行意图信息描述的相关动作的能力,例如“车窗”、“音量设置按钮”等,且现有自然语言理解模型无法利用位置信息对各操作对象进行区分。对于语音请求“打开我左边的车窗”而言,槽位提取模型可提取到槽位信息包括:参考点槽位“我”,相对位置信息槽位“左边”,操作对象槽位“车窗”。此外,对车载系统用户界面中各语音交互元素的控制,如“点击大屏中间那个按钮”和“把导航设置下面的功能打开”等。
36.可以理解地,在实际的语音交互场景中,用户可能无法完整实现意图信息、参考点信息、相对位置信息和操作对象信息这四个关键信息的准确输入。例如,对于语音请求“打开我左边的车窗”而言,由于口语习惯,主驾用户可能实际输入的语音请求为“打开左边车窗”,“打开车窗”,语音请求中参考点或相对位置不明确。或在实现“打开主驾车窗”动作后,主驾用户接着输入语音请求“再把后边的也关了”,此语音请求中,参考点槽位、相对位置槽位及操作对象槽位的信息均无法直接通过语义获取。
37.在上述场景中,车载系统服务器可通过模糊匹配、权限识别、信息继承等方法,最终明确语音请求的关键信息,即得到确定目标位置和目标操作对象。最后,服务器将得到的
目标位置和目标操作对象,结合语音请求的意图信息,生成可被车辆识别的控制指令,包括对车内零部件及用户界面部件或区域的控制指令。最后将控制指令下发至车辆,并由车辆执行指令动作。
38.本技术的语音交互方法,在确认用户语音请求无法直接根据语义判断目标位置及目标操作对象时,仍可得到目标位置及目标操作对象,进而生成可被车辆识别的控制指令并下发至车辆,使车辆顺利完成语音请求的执行。语音助手可兼容语音请求中更贴近生活的口语化表述方式,使车载语音交互具有更流畅的体验感。
39.综上,本技术中,在用户通过语音与车载系统用户界面进行交互的过程中,服务器在提取语音请求的意图信息和槽位信息后,无法根据语义直接获取目标位置和目标操作对象时,仍可通过一系列方法确定语音请求的目标位置和目标操作对象,最终生成车辆控制指令。本技术的语音交互方法可识别用户口语化语音请求,完成对目标位置和目标操作对象的定位,而不需要用户进行多轮澄清,提高语音交互的流畅性和便捷性。
40.请参阅图4,步骤03包括:031:对槽位信息中的参考点进行归一化处理,以将参考点对应至车辆座舱内的绝对位置。
41.处理器用于对槽位信息中的参考点进行归一化处理,以将参考点对应至车辆座舱内的绝对位置。
42.具体地,在根据语义无法直接获取目标位置和目标操作对象的情况下,服务器可对提取到的槽位信息中的参考点进行归一化处理,即将用户输入的语音请求的槽位信息中参考点与车辆座舱内的绝对位置预定语义规则进行实体归一化。预定语义规则在此不作限定。
43.在一个示例中,用户发出的语音请求为“打开我左边的车窗”时,需要进行归一化过程的包括槽位信息中的参考点“我”。“我”作为参考点,通过识别声音来源信息,定位输入语音请求的用户“我”在车辆座舱中所处的位置。例如,主驾内用户输入语音请求中,参考点的槽位信息为“我”,则将“我”这一槽位信息归一化至“主驾”这一车内绝对位置。
44.如此,可将提取到的语音请求中的参考点槽位信息进行归一化处理,使参考点与车辆座舱内相应的绝对位置对应起来,以便后续结合相对位置信息确定目标操作对象的位置范围。
45.步骤03包括:032:根据绝对位置和相对位置信息确定目标位置。
46.处理器用于根据绝对位置和相对位置信息确定目标位置。
47.请参阅图4,具体地,可以结合归一化得到的参考点绝对位置,并根据相对位置信息,获取目标操作对象对应的位置范围,即目标位置。其中,相对位置信息默认以三维空间的位置表述。当用户的语音请求面向车载系统的用户界面时,不支持三维位置信息的表述,则自动降为二维位置信息的表述。
48.在一个示例中,主驾的用户发出的语音请求为“打开我左边的车窗”时,归一化得到参考点“我”的车内绝对位置为“主驾”。提取语音请求中相对位置信息“左边”,由于该语音请求并非面向车载系统的用户界面,则目标位置范围可确定为,参考点“主驾”的“左侧”包含的三维空间。
49.如此,可将参考点对应的车辆座舱内的绝对位置与相对位置信息结合,进行目标位置范围的确定。使后续查找目标操作对象的范围限定在目标位置内,过程更为准确和高效。
50.请参阅图4及图5,方法还包括:07:在槽位信息中缺失参考点的情况下,根据语音请求的历史对话信息确认参考点。
51.处理器用于在槽位信息中缺失参考点的情况下,根据语音请求的历史对话信息确认参考点。
52.具体地,用户输入语音请求时,因随机性可能造成参考点的缺失。例如,在多轮语音请求场景下,可继承上一条的语义。信息继承的方法可用于,在语音请求中提取到的参考点槽位信息模糊,存在“它”、“这个”等指代词的情况,代表前一轮的语音请求中已经出现过的参考点。此时,服务器应搜索历史对话内容,根据其中的对话信息确认模糊指代词所对应参考点。
53.在一个示例中,中控显示屏处于购物列表的场景下,用户第一轮输入语音请求“帮我点个a商品”,第二轮输入语音请求为“它左边那个我也要”。服务器在第二轮输入的语音请求中,提取到的槽位信息包括“它”和“那个”两个指代词。根据历史对话内容的搜索结果,上轮语音请求中已经出现参考点“a商品”,则可以确认第二轮语音请求中的“它”指代上轮语音请求中的“a商品”。相类似地,针对历史对话内容,可确认语音请求“它左边那个我也要”的目的也是购买商品,则“那个”指代的是购物列表中位于“a商品”“左边”相应的商品。
54.如此,当参考点信息模糊时,服务器将搜索历史对话内容,将上条语音请求中的参考点确认为本条语音请求的参考点,使语音交互过程更具连贯性。
55.请参阅图5,方法还包括:08:在槽位信息中缺失参考点的情况下,根据语音请求的音区信息确认参考点。
56.处理器用于在槽位信息中缺失参考点的情况下,根据语音请求的音区信息确认参考点。
57.具体地,用户输入语音请求时,因随机性可能造成参考点的缺失。此时,服务器将根据语音请求的音区信息确认参考点。
58.在实际场景中,用户输入语音请求“打开左边的车窗”,语音请求中没有关于相对位置信息槽位“左边”相对应的参考点槽位信息。此时根据输入语音请求的音区信息,判断输入语音请求的用户所在的座位作为参考点。例如,当输入语音请求的是主驾用户时,参考点确定为主驾,则语音请求可理解为“打开主驾左边的车窗”。
59.如此,当参考点信息缺失时,服务器将判断语音请求的音区信息,将用户所在音区作为参考点,使语音交互过程更具连贯性。
60.请参阅图4,步骤03包括:033:根据相对位置信息确定候选操作对象。
61.处理器用于根据相对位置信息确定候选操作对象。
62.具体地,在相对位置信息默认指示的三维区域范围内,搜索所有具有执行语音请求动作意图的可操作对象,作为候选对象。其中,相对位置信息默认以三维空间的位置表述。当用户的语音请求面向车载系统的用户界面时,不支持三维位置信息的表述,则自动降
为二维位置信息的表述。
63.在一个示例中,语音请求槽位信息中相对位置信息为“左手边”,则选择参考点左侧范围内的可操作对象,作为候选操作对象。如果参考点为“主驾”,不是位于用户界面上的按键,则确定参考点“主驾”左侧三维空间为目标位置,并选择目标位置范围内所有可操作对象作为为候选操作对象;如果参考点为用户界面中某按键,则确定该按键左侧平面范围为目标位置,并选择其中所有可操作对象为候选操作对象。
64.如此,服务器可在根据相对位置信息确定的目标位置内,将所有对象确定为候选操作对象。将后续在候选操作对象范围内筛选得到目标操作对象的过程缩小至目标位置范围内进行,提高筛选步骤的高效性。
65.请参阅图4,步骤03还包括:034:根据槽位信息中的操作对象对候选操作对象进行第一筛选处理;035:根据意图信息中操作类型对经过第一筛选处理的候选操作对象进行第二筛选处理以得到目标操作对象。
66.处理器用于根据槽位信息中的操作对象对候选操作对象进行第一筛选处理,以及根据意图信息中操作类型对经过第一筛选处理的候选操作对象进行第二筛选处理以得到目标操作对象。
67.具体地,服务器获取目标位置内选出的所有候选操作对象后,可根据语音请求槽位信息中的操作对象信息,候选操作对象进行第一筛选处理。第一筛选处理即利用语义相似度模型,获取相似度较高的数个候选操作对象,例如,可筛选出语义相似度前十位的候选操作对象。第一筛选处理得到相似度较高的候选操作对象的数量,可为所有候选操作对象数量之内的任何数,在此不作限定。
68.进一步地,可根据语音请求的意图信息,在上述步骤中经第一筛选处理得到的相似度较高的候选操作对象范围内,进行第二筛选处理,最终获取目标操作对象。第二筛选处理可根据语音请求的意图信息,选择具有执行语音请求意图能力的操作对象,作为最终的目标操作对象。
69.在一个示例中,例如,“打开”的意图可以用在“车窗”等操作对象上,但“切换”的意图则无法用在“车窗”上,即最终确定的目标操作对象是具有执行语音请求意图能力的操作对象。
70.如此,可根据用户语音请求中的意图信息,首先在目标区域内筛选出候选操作对象,再在筛选出的候选操作对象中进行第二次筛选,筛选出其中可操作对象作为目标操作对象,以便融合生成车载系统能够识别并执行的指令。
71.请参阅图5,方法还包括:09:在槽位信息中缺失操作对象的情况下,根据语音请求的音区信息确定操作对象。
72.处理器用于在槽位信息中缺失操作对象的情况下,根据语音请求的音区信息确定操作对象。
73.具体地,用户输入语音请求时,因随机性可能造成操作对象信息的缺失。此时,服务器将采用模糊匹配的方法,根据语音请求音区来源定位,识别用户所在位置,并确定为目标位置。
74.在一个示例中,用户输入语音请求“播放一个电影”,则该语音请求中槽位信息不包含操作对象。因为车辆中存在前排中控显示屏和后排中控显示屏,服务器可通过判断语音请求发出的音区,得到操作对象的位置范围。例如该语音请求为主驾用户发出,则确定操作对象为前排中控显示屏。
75.如此,当操作对象信息缺失时,服务器将进行模糊匹配,判断语音请求的音区信息,并将用户所在音区范围确认为操作对象的位置范围,据此确定操作对象信息,使语音交互过程更具连贯性。
76.步骤04包括:041:车辆的状态信息、目标位置和目标操作对象,确定对目标操作对象的操作权限;042:根据操作权限生成车辆控制指令。
77.处理器用于车辆的状态信息、目标位置和目标操作对象,确定对目标操作对象的操作权限,以及根据操作权限生成车辆控制指令。
78.车辆的状态信息描述车辆所处的状态,包括车辆所处的档位。如部分自动档的车辆具有停车档。
79.目标操作对象的操作权限是指部分车辆部件的功能可能受到车辆所处状态的限制。例如,为了保证车辆驾驶过程中的安全,当车辆处在行驶状态时,主驾相关的部分娱乐性质的交互功能将受到限制。
80.具体地,在一个实例中,若用户发出的语音请求为“播放一个电影”,该语音请求的意图信息为“播放电影”,则判断目标位置为车载系统的前排或后排的用户界面,目标操作对象为用户界面中控制播放视频功能的控件。进一步地,由于车载系统中播放视频的功能可能对正在行驶的车辆造成安全隐患,则在确定控制播放视频功能的控件为目标操作对象时,使用权限识别方法,触发预设权限限制。
81.在某些示例中,权限限制可以是,当车辆在行驶状态,即车辆未在停车档状态时,前排发出“播放电影”的语音请求,则判断需要开启并播放视频的目标操作对象为前排具有控制播放视频功能的中控显示屏。此时,安全驾驶限制开启,可在生成车辆控制指令前,设置语音消息或用户界面文字弹窗,提醒用户安全驾驶。当车辆处于停车档状态下,则不弹出任何安全警示,生成车辆控制指令。如果通过音区信息,判断发出“播放电影”语音请求的用户位于车辆后排,则无需进行车辆状态的判断,控制后排中控显示屏直接“播放电影”。
82.如此,可根据车辆的状态信息、目标位置及目标操作对象,确定目标对象的操作权限,并根据权限识别结果生成所述车辆控制指令。使语音交互过程及结果更适应车辆的行驶状态,保障驾驶安全。
83.请参阅图4,方法还包括:对语音请求的意图信息和槽位信息进行存储。
84.处理器用于对语音请求的意图信息和槽位信息进行存储。
85.具体地,从用户输入语音请求起,经过一系列语音处理过程,到车辆接收到可识别的控制指令,并完成执行动作为止,称为一轮对话。服务器可在一轮对话结束时,存储本轮语音请求的历史轮次中语音请求的意图信息和槽位信息,为下轮语音交互过程提供历史结果依据。
86.如此,可存储语音请求中的意图信息和槽位信息,以便车辆在下轮执行任务过程中,获取历史轮次中执行的信息,得到更具可靠性的语音交互结果。
87.本技术的计算机可读存储介质,存储有计算机程序,当计算机程序被一个或多个处理器执行时,实现上述的方法。
88.在本说明书的描述中,参考术语“上述”、“具体地”、“进一步地”、“可以理解地”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
89.流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行请求的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术的实施例所属技术领域的技术人员所理解。
90.尽管上面已经示出和描述了本技术的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施方式进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!