本技术涉及语音识别,尤其涉及一种命令词识别模型的模型训练装置、命令词识别装置及方法。
背景技术:
1、语音命令词识别技术是实现人机语音交互的重要技术,其已被广泛地应用于各类智能设备,比如智能音箱、扫地机器人、语音助手、智能声控开关等。
2、目前,语音命令词识别技术主要包括:将语音序列输入命令词识别模型中,从语音序列的一个语音帧中提取语音特征;对语音特征进行类别预测(即语音帧的分类);基于预测到的语音帧类别检测语音序列中是否有语音命令词出现。
3、在命令词识别模型的训练过程中,语音命令词结尾位置识别不准,会引起语音帧的类别标记不准确。而不准确的语音帧类别标记,会降低语音帧分类模型的精度,从而降低语音命令词的识别精度。
技术实现思路
1、本技术提供一种命令词识别模型的模型训练装置、命令词识别装置及方法,用以解决现有技术中在命令词识别模型的训练过程中,语音命令词结尾位置识别不准,会引起语音帧的类别标记不准确,而不准确的语音帧类别标记,会降低语音帧分类模型的精度,从而降低语音命令词的识别精度的缺陷,实现提升命令词识别模型的精度,从而提升语音命令词的识别精度的目的。
2、第一方面,本技术提供一种命令词识别模型的模型训练装置,包括:
3、样本获取模块,用于获取带标签的语音命令词样本集,所述语音命令词样本集包括第一语音样本数据,所述第一语音样本数据包括正样本语音帧和负样本语音帧;
4、模型训练模块,用于基于所述带标签的语音命令词样本集对初始训练模型进行训练,得到命令词识别模型;其中,在所述训练的过程中,基于所述第一语音样本数据中的所有所述负样本语音帧和一帧目标正样本语音帧进行损失的计算;所述目标正样本语音帧是所述第一语音样本数据中的所有所述正样本语音帧中目标概率对应的正样本语音帧;所述目标概率为所述第一语音样本数据中的所有所述正样本语音帧分别属于多个不同语音命令词的概率中的最大概率。
5、根据本技术提供的一种命令词识别模型的模型训练装置,所述模型训练模块具体用于:
6、分别计算所述第一语音样本数据中的所有所述负样本语音帧的交叉熵损失;
7、计算所述第一语音样本数据中的一帧所述目标正样本语音帧的交叉熵损失;
8、基于所述第一语音样本数据中的所有所述负样本语音帧的交叉熵损失和一帧所述目标正样本语音帧的交叉熵损失,计算出所述第一语音样本数据的损失。
9、根据本技术提供的一种命令词识别模型的模型训练装置,所述语音命令词样本集还包括第二语音样本数据,所述第二语音样本数据包括负样本语音帧;
10、所述模型训练模块还用于:在所述训练的过程中,基于所述第二语音样本数据中的所有所述负样本语音帧进行损失的计算。
11、根据本技术提供的一种命令词识别模型的模型训练装置,所述模型训练模块具体用于:
12、分别计算所述第二语音样本数据中的所有所述负样本语音帧的交叉熵损失;
13、基于所述第二语音样本数据中的所有所述负样本语音帧的交叉熵损失,计算出所述第二语音样本数据的损失。
14、根据本技术提供的一种命令词识别模型的模型训练装置,所述样本获取模块包括:
15、划分单元,用于将无标签的语音命令词样本集中的每条语音样本数据划分为第一数量的语音帧;
16、确定单元,用于在所述语音样本数据包括所述语音命令词的情况下,确定所述语音样本数据的所述预估语音命令词结尾位置对应的激活区间;
17、标记单元,用于在所述语音样本数据包括所述语音命令词的情况下,将所述语音样本数据中处于所述激活区间的所述语音帧标记为所述正样本语音帧,将所述语音样本数据中处于所述非激活区间的所述语音帧标记为所述负样本语音帧,得到所述第一语音样本数据;在所述语音样本数据不包括所述语音命令词的情况下,将所述语音样本数据中的各所述语音帧标记为所述负样本语音帧,得到所述第二语音样本数据;
18、生成单元,用于基于所述第一语音样本数据和所述第二语音样本数据,生成所述带标签的语音命令词样本集。
19、根据本技术提供的一种命令词识别模型的模型训练装置,所述确定单元具体用于:
20、在所述语音样本数据包括所述语音命令词的情况下,将所述语音样本数据中所述预估语音命令词结尾位置对应的目标语音帧、所述目标语音帧之前的第二数量的语音帧以及所述目标语音帧之后的第三数量的语音帧所在的区间确定为所述激活区间。
21、根据本技术提供的一种命令词识别模型的模型训练装置,所述确定单元具体用于:
22、在所述语音样本数据包括所述语音命令词的情况下,将所述语音样本数据中所述预估语音命令词结尾位置对应的目标语音帧和所述目标语音帧之后的第四数量的语音帧所在的区间确定为所述激活区间。
23、根据本技术提供的一种命令词识别模型的模型训练装置,所述样本获取模块还包括:
24、处理单元,用于将所述无标签的语音命令词样本集中的原始语音样本数据进行补零处理或裁剪处理,得到预设长度的所述语音样本数据。
25、第二方面,本技术还提供一种命令词识别装置,包括:
26、获取模块,用于获取待识别的语音数据;
27、识别模块。用于将所述语音数据输入上述第一方面任一种命令词识别模型的模型训练装置所得到的命令词识别模型中,得到所述语音数据的命令词识别结果。
28、第三方面,本技术还提供一种命令词识别模型的模型训练方法,包括:
29、获取带标签的语音命令词样本集,所述语音命令词样本集包括第一语音样本数据,所述第一语音样本数据包括正样本语音帧和负样本语音帧;
30、基于所述带标签的语音命令词样本集对初始训练模型进行训练,得到命令词识别模型;其中,在所述训练的过程中,基于所述第一语音样本数据中的所有所述负样本语音帧和一帧目标正样本语音帧进行损失的计算;所述目标正样本语音帧是所述第一语音样本数据中的所有所述正样本语音帧中目标概率对应的正样本语音帧;所述目标概率为所述第一语音样本数据中的所有所述正样本语音帧分别属于多个不同语音命令词的概率中的最大概率。
31、第四方面,本技术还提供一种命令词识别方法,包括:
32、获取待识别的语音数据;
33、将所述语音数据输入上述第一方面任一种命令词识别模型的模型训练装置所得到的命令词识别模型中,得到所述语音数据的命令词识别结果。
34、第五方面,本技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第三方面所述的命令词识别模型的模型训练方法的步骤,或实现如上述第四方面所述的命令词识别方法的步骤。
35、第六方面,本技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第三方面所述的命令词识别模型的模型训练方法的步骤,或实现如上述第四方面所述的命令词识别方法的步骤。
36、本技术提供的命令词识别模型的模型训练装置、命令词识别装置及方法,首先,获取带标签的语音命令词样本集,该语音命令词样本集包括第一语音样本数据,第一语音样本数据包括正样本语音帧和负样本语音帧;然后,基于带标签的语音命令词样本集对初始训练模型进行训练,得到命令词识别模型;其中,在训练的过程中,基于第一语音样本数据中的所有负样本语音帧和一帧目标正样本语音帧进行损失的计算;也即,命令词识别模型在训练时没有使用每条第一语音样本数据中的所有正样本语音帧的损失,而是使用的目标正样本语音帧的损失,由于目标正样本语音帧是第一语音样本数据中的所有正样本语音帧中目标概率对应的正样本语音帧;目标概率为第一语音样本数据中的所有正样本语音帧分别属于多个不同语音命令词的概率中的最大概率,认为该目标正样本语音帧最有可能是语音命令词结尾位置的语音帧,可以降低对语音帧类别标记的依赖,提升命令词识别模型的精度,从而提升语音命令词的识别精度。