一种关键字识别方法及装置、电子设备、存储介质与流程

文档序号：33956331发布日期：2023-04-26 15:25阅读：69来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本申请涉及语音控制技术，尤其涉及一种关键字识别方法及装置、电子设备、存储介质。

背景技术：

1、语音控制技术越来越广泛地应用在智能设备，极大的提高了人机交互的便捷度和效率。其中语音关键词识别主要采用自然语言处理(natural language processing，nlp)技术对音频数据进行关键词匹配，得到关键词识别的结果。

2、语音关键词识别存在如下两方面的问题：

3、1)声音非常容易受到周围环境以及障碍物的干扰，导致采集到的音频数据质量较差，影响关键词的识别准确率；2)声音本质上是一种波，受性别、年龄以及地域等因素的影响，不同人对相同词语的声波差异明显，同样会影响关键词的识别准确率。

4、因此，提高语音关键字识别准确率，是语音唤醒技术长期面临的一个难题。

技术实现思路

1、本申请实施例期望提供一种关键字识别方法及装置、电子设备、存储介质。

2、本申请的技术方案是这样实现的：

3、第一方面，提供了一种关键字识别方法，包括：

4、获取音频输入装置采集的音频数据，并获取摄像装置采集的图像数据；

5、根据所述图像数据进行唇语关键字识别，得到唇语关键字识别结果；

6、根据所述音频数据进行语音关键字识别，得到语音关键字识别结果；

7、根据所述唇语关键字识别结果和所述语音关键字识别结果，确定预定关键字。

8、第二方面，提供了一种关键字识别装置，包括：

9、第一获取单元，用于获取音频输入装置采集的音频数据，并将所述音频数据发送给语音识别单元；

10、第二获取单元，用于获取摄像装置采集的图像数据，并将所述图像数据发送给图像识别单元；

11、所述图像识别单元，用于根据所述图像数据进行唇语关键字识别，得到唇语关键字识别结果，并将所述唇语关键字识别结果发送给语音识别单元；

12、所述语音识别单元，根据所述音频数据进行语音关键字识别，得到语音关键字识别结果；根据所述唇语关键字识别结果和所述语音关键字识别结果，确定预定关键字。

13、第三方面，提供了一种电子设备，包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

14、其中，所述处理器配置为运行所述计算机程序时，执行前述方法的步骤。

15、第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现前述方法的步骤。

16、本申请实施例中提供了一种关键字识别方法及装置、电子设备、存储介质，该方法包括：获取音频输入装置采集的音频数据，并获取摄像装置采集的图像数据；根据所述图像数据进行唇语关键字识别，得到唇语关键字识别结果；根据所述音频数据进行语音关键字识别，得到语音关键字识别结果；根据所述唇语关键字识别结果和所述语音关键字识别结果，确定预定关键字。如此，在进行语音识别时将输入信号源扩展为二维信号源，第一信号源为音频数据，第二信号源为图像数据，唇语关键字识别结果与语音关键字识别结果结合来确定预定关键字，二者相辅相成，互为补充，提高关键字识别准确率，从而提高人机交互效率。

技术特征：

1.一种关键字识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述语音关键字识别结果包括关键字及其置信度，所述唇语关键字识别结果包括关键字及其置信度；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述坏境参数包括：环境音参数和环境亮度参数；

5.根据权利要求2所述的方法，其特征在于，

6.根据权利要求1所述的方法，其特征在于，进行关键字识别之前，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述图像数据进行唇语关键字识别，得到唇语关键字识别结果，包括：

8.一种关键字识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。

技术总结
本申请公开了一种关键字识别方法及装置、电子设备、存储介质，该方法包括：获取音频输入装置采集的音频数据，并获取摄像装置采集的图像数据；根据所述图像数据进行唇语关键字识别，得到唇语关键字识别结果；根据所述音频数据进行语音关键字识别，得到语音关键字识别结果；根据所述唇语关键字识别结果和所述语音关键字识别结果，确定预定关键字。如此，在进行语音识别时将输入信号源扩展为二维信号源，第一信号源为音频数据，第二信号源为图像数据，唇语关键字识别结果与语音关键字识别结果结合来确定预定关键字，二者相辅相成，互为补充，提高关键字识别准确率，从而提高人机交互效率。

技术研发人员：汪迎菊
受保护的技术使用者：哲库科技（上海）有限公司
技术研发日：
技术公布日：2024/1/11

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汪迎菊
技术所有人：哲库科技（上海）有限公司
我是此专利的发明人

上一篇：一种磁控溅射沉积用旋转镀球转架
上一篇：一种低温分装生物样本装置的制作方法