本发明涉及人机交互,尤其涉及一种语音交互方法、装置、电子设备、存储介质和程序产品。
背景技术:
1、语音交互是智能汽车中便捷的人机交互方式。当前,用户的提问越来越多样化,不再局限于简单载具控制以及导航功能等,例如,用户提问车外的车是什么品牌或车型,或者用户提问车外的大楼是什么;因此,除了对用户语音数据进行分析和理解以外,还需要借助车外图像等其它模态数据进行理解才能得到回答结果。因此,需要实现多模态交互。
2、目前,先获取用户语音数据,再基于用户语音数据确定所需采集的其它模态数据,再基于用户语音数据和其它模态数据共同确定回答结果,从而实现多模态交互。然而,现有技术中用于确定回答结果的其它模态数据存在滞后性,即该其它模态数据并不准确,导致语音交互的准确性下降,进而影响用户交互体验;例如,用户语音数据的转录文本为“刚刚路过的是什么景区”,若需要获取的其它模态数据为车外图像,此时采集的车外图像是在用户说出完整的“刚刚路过的是什么景区”之后,且对用户语音数据进行语音识别和语音理解之后才采集得到的,因此可能采集的车外图像已经没有涵盖到景区了,导致无法准确得到回答结果。
技术实现思路
1、本发明提供一种语音交互方法、装置、电子设备、存储介质和程序产品,用以解决现有技术中语音交互的准确性低的缺陷,实现高准确性的多模态交互方案。
2、本发明提供一种语音交互方法,包括:
3、在检测到音频数据的语音前端点的情况下,获取与所述语音前端点时间戳一致的采集数据;所述语音前端点表示用户语音数据的起始输入时刻,所述采集数据用于辅助理解所述用户语音数据所表征的问题;
4、基于所述用户语音数据和所述采集数据,确定所述用户语音数据对应的回答结果。
5、根据本发明提供的一种语音交互方法,所述在检测到音频数据的语音前端点的情况下,获取与所述语音前端点时间戳一致的采集数据,包括:
6、在检测到实时输入的音频数据的语音前端点的同时,从已采集数据中获取与所述语音前端点时间戳一致的第一采集数据,和/或,控制采集装置采集与所述语音前端点时间戳一致的第二采集数据,并获取所述第二采集数据;
7、其中,在获取得到所述第一采集数据的情况下,所述采集数据包括所述第一采集数据,在获取得到所述第二采集数据的情况下,所述采集数据包括所述第二采集数据。
8、根据本发明提供的一种语音交互方法,所述基于所述用户语音数据和所述采集数据,确定所述用户语音数据对应的回答结果,包括:
9、在所述用户语音数据的意图识别结果为预设意图识别结果的情况下,基于所述用户语音数据和所述采集数据,综合确定所述用户语音数据对应的回答结果;
10、在所述获取与所述语音前端点时间戳一致的采集数据之后,还包括:
11、在所述用户语音数据的意图识别结果不是预设意图识别结果的情况下,基于所述用户语音数据,确定所述用户语音数据对应的回答结果。
12、根据本发明提供的一种语音交互方法,在所述获取与所述语音前端点时间戳一致的采集数据之后,还包括:
13、在基于所述用户语音数据的意图识别结果确定不需要所述采集数据的情况下,对所述采集数据进行数据后处理;
14、其中,所述数据后处理包括以下至少一种:
15、在所述采集数据中存在需进行数据预处理的数据的情况下,取消所述采集数据的数据预处理过程;
16、删除所述采集数据中可删除的数据。
17、根据本发明提供的一种语音交互方法,所述语音交互方法应用于汽车中的处理器;
18、在所述在检测到音频数据的语音前端点的情况下,获取与所述语音前端点时间戳一致的采集数据之前,还包括:
19、在处于语音唤醒状态,且所述汽车处于行车状态的情况下,实时采集音频数据;
20、对所述音频数据进行语音前端点检测。
21、根据本发明提供的一种语音交互方法,所述用户语音数据是基于如下方式确定:
22、在检测到音频数据的语音前端点的情况下,将所述语音前端点作为起始采集时刻,采集输入的语音数据帧,直至检测到语音后端点停止采集;
23、基于采集的各所述语音数据帧,确定所述用户语音数据;
24、其中,所述语音后端点表示所述用户语音数据的终止输入时刻。
25、本发明还提供一种语音交互装置,包括:
26、数据获取模块,用于在检测到音频数据的语音前端点的情况下,获取与所述语音前端点时间戳一致的采集数据;所述语音前端点表示用户语音数据的起始输入时刻,所述采集数据用于辅助理解所述用户语音数据所表征的问题;
27、回答确定模块,用于基于所述用户语音数据和所述采集数据,确定所述用户语音数据对应的回答结果。
28、本发明还提供一种可移动装置,包括:
29、音频采集装置,所述音频采集装置用于采集音频数据;
30、处理器,所述处理器用于执行如上述任一种所述语音交互方法。
31、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述语音交互方法。
32、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述语音交互方法。
33、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述语音交互方法。
34、本发明提供的语音交互方法、装置、电子设备、存储介质和程序产品,在检测到音频数据的语音前端点的情况下,获取与语音前端点时间戳一致的采集数据,且语音前端点表示用户语音数据的起始输入时刻,从而确保在检测到音频数据的语音前端点的同时,就马上获取与语音前端点时间戳一致的采集数据,从而避免采集数据产生滞后,确保基于用户语音数据和实时的采集数据,准确确定用户语音数据对应的回答结果,从而提高语音交互的准确性,进而提升用户交互体验;且在检测到音频数据的语音前端点的同时,就获取与语音前端点时间戳一致的采集数据,从而及时准备好采集数据,以供后续基于采集数据及时确定回答结果,从而提升语音交互的响应速度;同时,采集数据用于辅助理解用户语音数据所表征的问题,因此基于用户语音数据和采集数据,可以更为准确地确定用户语音数据对应的回答结果。综上,本发明可以及时准确地输出用户语音数据对应的回答结果,从而实现高准确性的多模态交互方案。
1.一种语音交互方法,其特征在于,包括:
2.根据权利要求1所述的语音交互方法,其特征在于,所述在检测到音频数据的语音前端点的情况下,获取与所述语音前端点时间戳一致的采集数据,包括:
3.根据权利要求1所述的语音交互方法,其特征在于,所述基于所述用户语音数据和所述采集数据,确定所述用户语音数据对应的回答结果,包括:
4.根据权利要求1至3中任一项所述的语音交互方法,其特征在于,在所述获取与所述语音前端点时间戳一致的采集数据之后,还包括:
5.根据权利要求1至3中任一项所述的语音交互方法,其特征在于,所述语音交互方法应用于汽车中的处理器;
6.根据权利要求1至3中任一项所述的语音交互方法,其特征在于,所述用户语音数据是基于如下方式确定:
7.一种语音交互装置,其特征在于,包括:
8.一种可移动装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述语音交互方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音交互方法。
11.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音交互方法。