本发明涉及人机交互,尤其涉及一种交互方法、装置、控制设备及存储介质。
背景技术:
1、人机交互是指人类与设备之间进行信息交流和互动的过程。目前的人机交互方式多为语音交互方式,语音交互是基于语音输入的交互模式,用户通过说话就可以得到设备的反馈结果,比如,用户通过语音控制音乐播放设备播放音乐、控制空调调整温度等等。
2、可以理解的是,在进行语音交互时,需要识别用户的语音,然而,环境噪声等因素导致语音识别尤其是长语音识别的准确率明显下降,语音识别的准确率明显下降会导致交互设备做出错误的反馈,可见,现有的语音交互方式交互稳定性不佳,交互稳定性不佳严重影响用户的使用体验。
技术实现思路
1、有鉴于此,本发明提供了一种交互方法、装置、控制设备及存储介质,用以解决现有的语音交互方式交互稳定性不佳,严重影响用户的使用体验的问题,其技术方案如下:
2、第一方面,提供了一种交互方法,包括:
3、获取目标用户的手部图像序列和语音序列;
4、识别所述语音序列中的指令词,并获取所述指令词对应的时间;
5、根据所述手部图像序列以及所述指令词对应的时间,确定所述目标用户发出所述指令词时的手部指向区域;
6、根据所述目标用户发出所述指令词时的手部指向区域,确定交互设备;
7、控制所述交互设备执行所述指令词对应的操作。
8、可选的,所述根据所述手部图像序列以及所述指令词对应的时间,确定所述目标用户发出所述指令词时的手部指向区域,包括:
9、针对所述手部图像序列包含的每帧图像,根据该帧图像确定所述目标用户的手部关键点和手部指向区域,得到该帧图像对应的手部信息;
10、根据所述指令词对应的时间以及所述手部图像序列包含的各帧图像分别对应的手部信息,确定所述目标用户发出所述指令词时的手部指向区域。
11、可选的,所述根据所述手部图像序列以及所述指令词对应的时间,确定所述目标用户发出所述指令词时的手部指向区域,包括:
12、从所述手部图像序列中确定所述指令词对应的时间对应的图像,作为目标图像;
13、从所述手部图像序列中获取由所述目标图像和所述目标图像之后的图像组成的图像序列,作为目标图像序列;
14、针对所述目标图像序列包含的每帧图像,根据该帧图像确定所述目标用户的手部关键点和手部指向区域,得到该帧图像对应的手部信息;
15、根据所述目标图像序列包含的各帧图像分别对应的手部信息,确定所述目标用户发出所述指令词时的手部指向区域。
16、可选的,所述根据该帧图像确定所述目标用户的手部关键点和手部指向区域,包括:
17、根据该帧图像,获取能够表征所述目标用户的手部位置和手部姿态的特征,作为目标特征;
18、根据所述目标特征,预测所述目标用户的手部关键点和手部指向区域。
19、可选的,所述手部图像序列包含的每帧图像包含rgb图像和对应的深度图像;
20、所述根据该帧图像,获取能够表征所述目标用户的手部位置和手部姿态的特征,包括:
21、对该帧图像包含的rgb图像提取rgb图像特征,并对该帧图像包含的深度图像提取深度图像特征;
22、将所述rgb图像特征中部分通道的特征与所述深度图像特征中对应通道的特征交换,得到交换特征后的rgb图像特征和交换特征后的深度图像特征;
23、将所述交换特征后的rgb图像特征与所述交换特征后的深度图像特征融合,得到能够表征所述目标用户的手部位置和手部姿态的特征。
24、可选的,所述根据该帧图像确定所述目标用户的手部关键点和手部指向区域,包括:
25、将该帧图像输入预先训练得到的手部信息预测模型,得到所述手部信息预测模型输出的所述目标用户的手部关键点和手部指向区域;
26、其中,所述手部信息预测模型采用标注有手部关键点和手部指向区域的训练手部图像训练得到。
27、可选的,所述根据所述指令词对应的时间以及所述手部图像序列包含的各帧图像分别对应的手部信息,确定所述目标用户发出所述指令词时的手部指向区域,包括:
28、从所述手部图像序列中确定所述指令词对应的时间对应的图像,作为目标图像;
29、从所述手部图像序列中的所述目标图像开始,寻找首个满足预设条件的图像序列,其中,所述满足预设条件的图像序列为手部关键点稳定的连续m帧图像,m为大于1的整数;
30、将所述首个满足预设条件的图像序列中的一帧图像对应的手部信息中的手部指向区域,确定为所述目标用户发出所述指令词时的手部指向区域。
31、可选的,所述从所述手部图像序列中的所述目标图像开始,寻找首个满足预设条件的图像序列,包括:
32、从所述手部图像序列中获取以所述目标图像为起始图像的连续m帧图像,作为当前候选图像序列;
33、根据当前候选图像序列包含的各帧图像分别对应的手部信息中的手部关键点,确定当前候选图像序列包含的各帧图像分别对应的手部中心点;
34、计算当前候选图像序列包含的各帧图像分别对应的手部中心点的方差;
35、若所述方差小于预设的方差阈值,则确定当前候选图像序列为首个满足预设条件的图像序列;
36、若所述方差大于或等于预设的方差阈值,则从所述手部图像序列中获取以上一候选图像序列中的第2帧图像为起始图像的连续m帧图像,作为当前候选图像序列,并执行所述根据当前候选图像序列包含的各帧图像分别对应的手部信息中的手部关键点,确定当前候选图像序列包含的各帧图像分别对应的手部中心点这一步骤及后续步骤。
37、可选的,所述将所述首个满足预设条件的图像序列中的一帧图像对应的手部信息中的手部指向区域,确定为所述目标用户发出所述指令词时的手部指向区域,包括:
38、将所述首个满足预设条件的图像序列中的最后一帧图像对应的手部信息中的手部指向区域,确定为所述目标用户发出所述指令词时的手部指向区域。
39、第二方面,提供了一种交互装置,包括:多模态数据获取模块、语音信息获取模块、手部指向区域确定模块、交互设备确定模块和控制模块;
40、所述多模态数据获取模块,用于同时获取目标用户的手部图像序列和语音序列;
41、所述语音信息获取模块,用于识别所述语音序列中的指令词,并获取所述指令词对应的时间;
42、所述手部指向区域确定模块,用于根据所述手部图像序列以及所述指令词对应的时间,确定所述目标用户发出所述指令词时的手部指向区域;
43、所述交互设备确定模块,用于根据所述目标用户发出所述指令词时的手部指向区域,确定交互设备;
44、所述控制模块,用于控制所述交互设备执行所述指令词对应的操作。
45、第三方面,提供了一种控制设备,包括:存储器和处理器;
46、所述存储器,用于存储程序;
47、所述处理器,用于执行所述程序,实现上述任一项所述的交互方法的各个步骤。
48、第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的交互方法的各个步骤。
49、本发明提供的交互方法,首先获取目标用户的手部图像序列和语音序列,然后识别语音序列中的指令词,并获取指令词对应的时间,接着根据指令词对应的时间以及手部图像序列,确定目标用户发出指令词时的手部指向区域,然后根据目标用户发出指令词时的手部指向区域,确定交互设备,最后控制交互设备执行指令词对应的操作。本发明提供的交互方法为结合语音的指向交互方法,该交互方法有效利用了不同模态信息(即语音信息、图像信息)的互补性(图像信息不受环境噪声等因素的影响,语音信息能实现较多的交互功能),由于图像信息不受环境噪声等因素的影响,因此,基于图像信息能够准确地确定出交互设备,由于交互方式为指向交互方式,因此,用户只需要发出简单的语音指令即可,即用户发出的语音为短语音,短语音的识别受环境噪声等因素的影响较小,综上,结合语音的指向交互方式相比于单纯基于语音的交互方式受环境噪声等因素的影响程度大大减小,因此,结合语音的指向交互更加稳定,进而,结合语音的指向交互方式能够大大提升用户的交互体验。