语音关键词识别方法、装置、电子设备及可读存储介质与流程

文档序号:44126940发布日期:2025-12-23 21:47阅读:18来源:国知局
技术简介:
本发明针对语音关键词识别中语音与文本对齐不准确导致识别率低的问题,提出通过特征提取与编码使音频特征向量与文本数据对齐,结合预设分类器模型匹配关键词特征向量,从而提升识别准确率。
关键词:语音关键词识别,特征对齐

本发明涉及数据处理,具体涉及一种语音关键词识别方法、装置、电子设备及可读存储介质。


背景技术:

1、语音关键词识别是语音识别中的关键技术之一,相关技术中通过语音转换为文本,在从文本中识别关键词,进而确认语音的意图。但在相关技术中,由于语音和关键词属于不同模态,将语音转换为文本时可能存在语音与文本未对齐的情况,导致后续进行关键词识别时存在关键词识别的准确率较低。

2、可见,相关技术中存在关键词识别的准确率较低的问题。


技术实现思路

1、本发明实施例提供一种语音关键词识别方法、装置、电子设备及可读存储介质,以解决相关技术中存在关键词识别的准确率较低的问题。

2、为解决上述问题,本发明是这样实现的:

3、第一方面,本发明实施例提供一种语音关键词识别方法,包括:

4、对待识别的语音数据进行特征提取,得到语音特征;

5、对所述语音特征进行编码,得到所述语音数据对应的音频特征向量,所述音频特征向量与文本数据对齐,所述文本数据为所述语音数据对应的数据;

6、获取多个关键词特征向量,所述多个关键词特征向量中每个关键词特征向量对关键词进行编码得到;

7、基于预设分类器模型计算所述每个关键词特征向量和所述音频特征向量之间的匹配结果,所述预设分类器模型用于将所述多个关键词特征向量分类为与所述音频特征向量匹配或不匹配的关键词特征向量,所述匹配结果用于表征关键词特征向量与所述音频特征向量是否匹配;

8、在所述多个关键词特征向量存在目标关键词特征向量的匹配结果表征所述目标关键词特征向量与所述音频特征向量匹配的情况下,将所述目标关键词特征向量对应的关键词设为所述语音数据的目标关键词。

9、第二方面,本发明实施例还提供一种语音关键词识别装置,包括:

10、提取模块,用于对待识别的语音数据进行特征提取,得到语音特征;

11、编码模块,用于对所述语音特征进行编码,得到所述语音数据对应的音频特征向量,所述音频特征向量与文本数据对齐,所述文本数据为所述语音数据对应的数据;

12、获取模块,用于获取多个关键词特征向量,所述多个关键词特征向量中每个关键词特征向量对关键词进行编码得到;

13、计算模块,用于基于预设分类器模型计算所述每个关键词特征向量和所述音频特征向量之间的匹配结果,所述预设分类器模型用于将所述多个关键词特征向量分类为与所述音频特征向量匹配或不匹配的关键词特征向量,所述匹配结果用于表征关键词特征向量与所述音频特征向量是否匹配;

14、设置模块,用于在所述多个关键词特征向量存在目标关键词特征向量的匹配结果表征所述目标关键词特征向量与所述音频特征向量匹配的情况下,将所述目标关键词特征向量对应的关键词设为所述语音数据的目标关键词。

15、第三方面,本发明实施例还提供一种电子设备,包括收发机和处理器,

16、所述处理器,用于对待识别的语音数据进行特征提取,得到语音特征;

17、所述处理器,还用于对所述语音特征进行编码,得到所述语音数据对应的音频特征向量,所述音频特征向量与文本数据对齐,所述文本数据为所述语音数据对应的数据;

18、所述收发机,用于获取多个关键词特征向量,所述多个关键词特征向量中每个关键词特征向量对关键词进行编码得到;

19、所述处理器,还用于基于预设分类器模型计算所述每个关键词特征向量和所述音频特征向量之间的匹配结果,所述预设分类器模型用于将所述多个关键词特征向量分类为与所述音频特征向量匹配或不匹配的关键词特征向量,所述匹配结果用于表征关键词特征向量与所述音频特征向量是否匹配;

20、所述处理器,还用于在所述多个关键词特征向量存在目标关键词特征向量的匹配结果表征所述目标关键词特征向量与所述音频特征向量匹配的情况下,将所述目标关键词特征向量对应的关键词设为所述语音数据的目标关键词。

21、第四方面,本发明实施例提供一种电子设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现上述第一方面所述的语音关键词识别方法的步骤。

22、第五方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的语音关键词识别方法的步骤。

23、第六方面,本发明还提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行时实现如上述第一方面所述的语音关键词识别方法中的步骤。

24、在本发明实施例中,对待识别的语音数据进行特征提取,得到语音特征;对所述语音特征进行编码,得到所述语音数据对应的音频特征向量,所述音频特征向量与文本数据对齐,所述文本数据为所述语音数据对应的数据;获取多个关键词特征向量,所述多个关键词特征向量中每个关键词特征向量对关键词进行编码得到;基于预设分类器模型计算所述每个关键词特征向量和所述音频特征向量之间的匹配结果,所述预设分类器模型用于将所述多个关键词特征向量分类为与所述音频特征向量匹配或不匹配的关键词特征向量,所述匹配结果用于表征关键词特征向量与所述音频特征向量是否匹配;在所述多个关键词特征向量存在目标关键词特征向量的匹配结果表征所述目标关键词特征向量与所述音频特征向量匹配的情况下,将所述目标关键词特征向量对应的关键词设为所述语音数据的目标关键词。这样,通过对语音数据进行特征提取和编码,使得音频特征向量与文本数据对齐,在通过预设分类器模型计算音频特征向量与关键词特征向量的匹配结果时能够避免音频特征向量与文本数据未对齐导致的关键词识别不准确的问题,进而提高了语音关键词的识别准确率。



技术特征:

1.一种语音关键词识别方法,其特征在于,包括:

2.如权利要求1所述的方法,其特征在于,所述对所述语音特征进行编码,得到所述语音数据对应的音频特征向量,包括:

3.如权利要求2所述的方法,其特征在于,所述基于所述第一音频样本数据对初始音频编码器模型进行训练,得到所述预设音频编码器模型,包括:

4.如权利要求3所述的方法,其特征在于,所述基于音频解码器模型计算所述音频样本特征向量对应的第一损失值,包括:

5.如权利要求1所述的方法,其特征在于,所述预设分类器模型通过如下方式训练得到:

6.如权利要求5所述的方法,其特征在于,所述基于所述第二音频样本向量和所述关键词样本向量对初始分类器模型进行训练,得到所述预设分类器模型,包括:

7.如权利要求5所述的方法,其特征在于,所述获取第二样本数据,包括:

8.如权利要求7所述的方法,其特征在于,所述基于所述n个子文本样本数据生成所述每个批次数据包括的正样本关键词和负样本关键词,包括:

9.如权利要求1所述的方法,其特征在于,所述获取多个关键词特征向量,包括:

10.一种语音关键词识别装置,其特征在于,包括:

11.一种电子设备,其特征在于,包括收发机和处理器,

12.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至9中任一项所述的语音关键词识别方法的步骤。

13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的语音关键词识别方法的步骤。

14.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令被处理器执行时实现如权利要求1至9中任一项所述的语音关键词识别方法的步骤。


技术总结
本发明提供一种语音关键词识别方法、装置、电子设备及可读存储介质,涉及数据处理技术领域,该方法包括:对待识别的语音数据进行特征提取,得到语音特征;对语音特征进行编码,得到语音数据对应的音频特征向量;获取多个关键词特征向量;基于预设分类器模型计算每个关键词特征向量和音频特征向量之间的匹配结果,匹配结果用于表征关键词特征向量与音频特征向量是否匹配;在多个关键词特征向量存在目标关键词特征向量的匹配结果表征目标关键词特征向量与音频特征向量匹配的情况下,将目标关键词特征向量对应的关键词设为语音数据的目标关键词。本发明能提高识别准确率。

技术研发人员:雷涛,杜刚,张晨,杜雪涛,谢仪頔,李岩,周顶,陈祖泉,刘逸哲
受保护的技术使用者:中国移动通信集团设计院有限公司
技术研发日:
技术公布日:2025/12/22
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!