本申请涉及语音控制技术,尤其涉及一种关键字识别方法及装置、电子设备、存储介质。
背景技术:
1、语音控制技术越来越广泛地应用在智能设备,极大的提高了人机交互的便捷度和效率。其中语音关键词识别主要采用自然语言处理(natural language processing,nlp)技术对音频数据进行关键词匹配,得到关键词识别的结果。
2、语音关键词识别存在如下两方面的问题:
3、1)声音非常容易受到周围环境以及障碍物的干扰,导致采集到的音频数据质量较差,影响关键词的识别准确率;2)声音本质上是一种波,受性别、年龄以及地域等因素的影响,不同人对相同词语的声波差异明显,同样会影响关键词的识别准确率。
4、因此,提高语音关键字识别准确率,是语音唤醒技术长期面临的一个难题。
技术实现思路
1、本申请实施例期望提供一种关键字识别方法及装置、电子设备、存储介质。
2、本申请的技术方案是这样实现的:
3、第一方面,提供了一种关键字识别方法,包括:
4、获取音频输入装置采集的音频数据,并获取摄像装置采集的图像数据;
5、根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果;
6、根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;
7、根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。
8、第二方面,提供了一种关键字识别装置,包括:
9、第一获取单元,用于获取音频输入装置采集的音频数据,并将所述音频数据发送给语音识别单元;
10、第二获取单元,用于获取摄像装置采集的图像数据,并将所述图像数据发送给图像识别单元;
11、所述图像识别单元,用于根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果,并将所述唇语关键字识别结果发送给语音识别单元;
12、所述语音识别单元,根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。
13、第三方面,提供了一种电子设备,包括:处理器和配置为存储能够在处理器上运行的计算机程序的存储器,
14、其中,所述处理器配置为运行所述计算机程序时,执行前述方法的步骤。
15、第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现前述方法的步骤。
16、本申请实施例中提供了一种关键字识别方法及装置、电子设备、存储介质,该方法包括:获取音频输入装置采集的音频数据,并获取摄像装置采集的图像数据;根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果;根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。如此,在进行语音识别时将输入信号源扩展为二维信号源,第一信号源为音频数据,第二信号源为图像数据,唇语关键字识别结果与语音关键字识别结果结合来确定预定关键字,二者相辅相成,互为补充,提高关键字识别准确率,从而提高人机交互效率。
1.一种关键字识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述语音关键字识别结果包括关键字及其置信度,所述唇语关键字识别结果包括关键字及其置信度;
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的方法,其特征在于,所述坏境参数包括:环境音参数和环境亮度参数;
5.根据权利要求2所述的方法,其特征在于,
6.根据权利要求1所述的方法,其特征在于,进行关键字识别之前,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,所述根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果,包括:
8.一种关键字识别装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备包括:处理器和配置为存储能够在处理器上运行的计算机程序的存储器,
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。