一种关键词识别方法及系统与流程

文档序号:35398856发布日期:2023-09-09 17:24阅读:98来源:国知局

本发明涉及自然语言处理,具体涉及一种关键词识别方法及系统。


背景技术:

1、随着神经网络的发展,语音识别的性能越来越好,基于关键词识别的智能家居系统逐渐的走入到普通大众的生活中,单个关键词模型往往需要海量的数据来拟合,而现在普通大众对关键词存在差异化需求,每个人对关键词的需求不一致。现有的语音识别方法包括基于大规模连续语音识别方法和关键词识别方法。基于大规模连续语音识别方法使用海量数据训练一个通用语音识别模型,通过对音频数据完整的转录,然后从转录文本中抓取关键词。这种方法的优点是可以随意定制关键词,其缺点是需要海量的音频数据,且语音识别模型往往比较大,解码是需要的资源比较大,不适用智能家居领域的应用。关键词识别方法是指针对某一关键词,使用海量数据去拟合关键词,例如“小度小度”、“小爱同学”“hisiri”等。这种方法是对单一关键词有比较好的鲁棒性,识别准确率比较高,其缺点是往往缺少海量的单一命令词数据,不适合对关键词的定制化。


技术实现思路

1、为此,本发明提供一种关键词识别方法及系统,旨在解决现有技术中语音提取关键词无法满足大众对关键词需求存在差异,导致智能家居语音识别准确率低、易误唤醒的问题。

2、为实现以上目的,本发明采用如下技术方案:

3、依据本发明第一方面,本发明提供一种关键词识别方法,所述方法包括:

4、分别构建基于self-attention机制的语音识别模型、关键词编码模型及说话人信息编码模型;

5、基于一般音频数据计算所述语音识别模型的第一损失函数值;以及,基于关键词文本数据及说话人音频数据计算所述关键词编码模型及说话人信息编码模型的第二损失函数值;

6、利用所述第一损失函数值训练所述语音识别模型;以及,利用所述第二损失函数值联合训练所述语音识别模型、关键词编码模型及说话人信息编码模型;直至模型收敛,得到训练好的联合识别模型;

7、利用所述联合识别模型进行关键词识别,得到基于特定说话人的关键词识别结果。

8、可选地,所述分别构建基于self-attention机制的语音识别模型、关键词编码模型及说话人信息编码模型,包括:

9、构建包含6层attention结构的语音识别模型;所述语音识别模型用于识别一般音频数据中的关键词;以及,

10、构建包含4层attention结构的关键词编码模型;所述关键词编码模型用于对关键词文本数据进行特征编码;以及,

11、构建包含4层attention结构的说话人信息编码模型;所述说话人信息编码模型用于对说话人音频数据进行特征编码。

12、可选地,所述基于一般音频数据计算所述语音识别模型的第一损失函数值,包括:

13、将所述一般音频数据输入所述语音识别模型中,在所述语音识别模型的self-attention模块输出所述一般音频数据对应的第一特征向量;

14、将所述第一特征向量输入到所述语音识别模型的第一损失函数asr loss中,并基于所述一般音频数据对应的第一标签数据计算第一损失函数值;

15、其中,所述第一标签数据为所述一般音频数据对应的目标关键词。

16、可选地,所述基于关键词文本数据及说话人音频数据计算所述关键词编码模型及说话人信息编码模型的第二损失函数值,包括:

17、将所述关键词文本数据输入所述关键词编码模型,得到所述关键词文本数据对应的第二特征向量;以及,

18、将所述说话人音频数据输入所述说话人信息编码模型,得到所述说话人音频数据对应的第三特征向量;

19、分别利用cross attention机制计算所述第一特征向量与所述第二特征向量之间的第一关联参数和所述第一特征向量与所述第三特征向量之间的第二关联参数;

20、利用所述第一关联参数和第二关联参数计算第二损失函数bce loss对应的第二损失函数值。

21、可选地,所述将所述关键词文本数据输入所述关键词编码模型,得到所述关键词文本数据对应的第二特征向量,包括:

22、利用预设的第一编码规则对所述关键词文本数据进行编码,将编码后的数据输入所述关键词编码模型的self-attention模块,得到所述关键词文本数据对应的第二特征向量;和/或,

23、所述将所述说话人音频数据输入所述说话人信息编码模型,得到所述说话人音频数据对应的第三特征向量,包括:

24、利用预设的第二编码规则对所述说话人音频数据进行编码,将编码后的数据输入所述说话人信息编码模型的self-attention模块,得到所述说话人音频数据对应的第三特征向量。

25、可选地,所述第一编码规则包括bert、word2vec中至少之一;

26、所述利用预设的第二编码规则对所述说话人音频数据进行编码,包括:

27、针对所述说话人音频数据提取mfcc特征,并利用ubm背景模型提取ivector特征。

28、可选地,所述分别利用cross attention机制计算所述第一特征向量与所述第二特征向量之间的第一关联参数和所述第一特征向量与所述第三特征向量之间的第二关联参数,包括:

29、利用如下公式计算所述第一关联参数和所述第二关联参数:

30、

31、

32、其中, zb为第一关联参数; zc为第一关联参数; ka为第一特征向量; qb为第二特征向量; qc为第三特征向量; va为第一特征向量的复制值; dk为特征维度。

33、可选地,所述利用所述第一关联参数和第二关联参数计算第二损失函数bce loss对应的第二损失函数值,包括:

34、将所述第一关联参数和所述第二关联参数进行拼接;或,对所述第一关联参数和第二关联参数进行加权;

35、将拼接或加权后的所述第一关联参数和所述第二关联参数输入至所述第二损失函数bce loss,并基于所述一般音频数据对应的第二标签数据计算第二损失函数值;

36、其中,所述第二标签数据为所述一般音频数据对应的目标关键词和目标说话人;所述第二损失函数值为0或1。

37、可选地,当所述第二损失函数值为1时,所述一般音频数据、所述关键词文本数据及所述说话人音频数据完全对应;当所述第二损失函数值为0时,所述一般音频数据、所述关键词文本数据及所述说话人音频数据不完全对应;所述利用所述第二损失函数值联合训练所述语音识别模型、关键词编码模型及说话人信息编码模型,包括:

38、基于第二损失函数值为1时对应的所述一般音频数据、所述关键词文本数据及所述说话人音频数据对所述语音识别模型进行联合训练。

39、依据本发明第一方面,本发明提供一种关键词识别系统,所述系统包括:

40、模型构建模块,用于分别构建基于self-attention机制的语音识别模型、关键词编码模型及说话人信息编码模型;

41、参数计算模块,用于基于一般音频数据计算所述语音识别模型的第一损失函数值;以及,基于关键词文本数据及说话人音频数据计算所述关键词编码模型及说话人信息编码模型的第二损失函数值;

42、模型训练模块,用于利用所述第一损失函数值训练所述语音识别模型;以及,利用所述第二损失函数值联合训练所述语音识别模型、关键词编码模型及说话人信息编码模型;直至模型收敛,得到训练好的联合识别模型;

43、模型识别模块,用于利用所述联合识别模型进行关键词识别,得到关键词识别结果。

44、本发明采用以上技术方案,至少具备以下有益效果:

45、通过本发明方案,分别构建基于self-attention机制的语音识别模型、关键词编码模型及说话人信息编码模型;基于一般音频数据计算所述语音识别模型的第一损失函数值;以及,基于关键词文本数据及说话人音频数据计算所述关键词编码模型及说话人信息编码模型的第二损失函数值;利用所述第一损失函数值训练所述语音识别模型;以及,利用所述第二损失函数值联合训练所述语音识别模型、关键词编码模型及说话人信息编码模型;直至模型收敛,得到训练好的联合识别模型;利用所述联合识别模型进行关键词识别,得到基于特定说话人的关键词识别结果。由此,提出一种基于文本信息与说话人信息偏置的关检词识别方法,在一个通用语音识别系统的训练过程中,加入关键词的文本信息与说话人信息,使用关键词文本信息、语音信息、说话人信息三个模态联合训练,有效的抓取语音流中的关键词,同时能很好的控制误唤醒,且关键词的数量不受限制,可以同时训练多个关键词。

46、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。

当前第1页1 2 
当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1