一种关键字识别方法及装置、电子设备、存储介质与流程

文档序号:33956331发布日期:2023-04-26 15:25阅读:69来源:国知局
一种关键字识别方法及装置、电子设备、存储介质与流程

本申请涉及语音控制技术,尤其涉及一种关键字识别方法及装置、电子设备、存储介质。


背景技术:

1、语音控制技术越来越广泛地应用在智能设备,极大的提高了人机交互的便捷度和效率。其中语音关键词识别主要采用自然语言处理(natural language processing,nlp)技术对音频数据进行关键词匹配,得到关键词识别的结果。

2、语音关键词识别存在如下两方面的问题:

3、1)声音非常容易受到周围环境以及障碍物的干扰,导致采集到的音频数据质量较差,影响关键词的识别准确率;2)声音本质上是一种波,受性别、年龄以及地域等因素的影响,不同人对相同词语的声波差异明显,同样会影响关键词的识别准确率。

4、因此,提高语音关键字识别准确率,是语音唤醒技术长期面临的一个难题。


技术实现思路

1、本申请实施例期望提供一种关键字识别方法及装置、电子设备、存储介质。

2、本申请的技术方案是这样实现的:

3、第一方面,提供了一种关键字识别方法,包括:

4、获取音频输入装置采集的音频数据,并获取摄像装置采集的图像数据;

5、根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果;

6、根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;

7、根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。

8、第二方面,提供了一种关键字识别装置,包括:

9、第一获取单元,用于获取音频输入装置采集的音频数据,并将所述音频数据发送给语音识别单元;

10、第二获取单元,用于获取摄像装置采集的图像数据,并将所述图像数据发送给图像识别单元;

11、所述图像识别单元,用于根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果,并将所述唇语关键字识别结果发送给语音识别单元;

12、所述语音识别单元,根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。

13、第三方面,提供了一种电子设备,包括:处理器和配置为存储能够在处理器上运行的计算机程序的存储器,

14、其中,所述处理器配置为运行所述计算机程序时,执行前述方法的步骤。

15、第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,其中,该计算机程序被处理器执行时实现前述方法的步骤。

16、本申请实施例中提供了一种关键字识别方法及装置、电子设备、存储介质,该方法包括:获取音频输入装置采集的音频数据,并获取摄像装置采集的图像数据;根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果;根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。如此,在进行语音识别时将输入信号源扩展为二维信号源,第一信号源为音频数据,第二信号源为图像数据,唇语关键字识别结果与语音关键字识别结果结合来确定预定关键字,二者相辅相成,互为补充,提高关键字识别准确率,从而提高人机交互效率。



技术特征:

1.一种关键字识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述语音关键字识别结果包括关键字及其置信度,所述唇语关键字识别结果包括关键字及其置信度;

3.根据权利要求2所述的方法,其特征在于,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,所述坏境参数包括:环境音参数和环境亮度参数;

5.根据权利要求2所述的方法,其特征在于,

6.根据权利要求1所述的方法,其特征在于,进行关键字识别之前,所述方法还包括:

7.根据权利要求1所述的方法,其特征在于,所述根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果,包括:

8.一种关键字识别装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,所述电子设备包括:处理器和配置为存储能够在处理器上运行的计算机程序的存储器,

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。


技术总结
本申请公开了一种关键字识别方法及装置、电子设备、存储介质,该方法包括:获取音频输入装置采集的音频数据,并获取摄像装置采集的图像数据;根据所述图像数据进行唇语关键字识别,得到唇语关键字识别结果;根据所述音频数据进行语音关键字识别,得到语音关键字识别结果;根据所述唇语关键字识别结果和所述语音关键字识别结果,确定预定关键字。如此,在进行语音识别时将输入信号源扩展为二维信号源,第一信号源为音频数据,第二信号源为图像数据,唇语关键字识别结果与语音关键字识别结果结合来确定预定关键字,二者相辅相成,互为补充,提高关键字识别准确率,从而提高人机交互效率。

技术研发人员:汪迎菊
受保护的技术使用者:哲库科技(上海)有限公司
技术研发日:
技术公布日:2024/1/11
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1