一种语音识别模型训练方法、装置以及电子设备与流程

文档序号：20268230发布日期：2020-04-03 18:40阅读：来源：国知局

技术特征：

1.一种语音识别模型训练方法，其特征在于，所述方法包括：

获得第一语言音频的第一音节标签序列和第二语言音频的第二音节标签序列；

从所述第二音节标签序列中确定多个差异音节标签序列；

根据所述多个差异音节标签序列确定目标差异音节标签序列，其，所述目标差异音节标签序列为所述多个差异音节标签序列的并集；

根据所述目标差异音节标签序列生成第三音节标签序列；

根据所述第一音节标签序列和所述第三音节标签序列进行语音识别模型训练，得到混合语音识别模型。

2.根据权利要求1所述的方法，其特征在于，所述从所述第二音节标签序列中确定多个差异音节标签序列，包括：

根据所述第一语言音频、所述第一音节标签序列、所述第二语言音频、所述第二音节标签序列以及预先训练的第一语音识别模型，从所述第二音节标签序列中确定所述多个差异音节标签序列，其中，所述第一语言识别模型基于所述第一音节标签序列训练得到。

3.根据权利要求1所述的方法，其特征在于，所述多个差异音节标签序列包括第一差异音节标签序列，所述从所述第二音节标签序列中确定多个差异音节标签序列，包括：

将所述第二语言音频输入至所述预先训练的第一语言识别模型，得到连接时序分类峰序列；

根据所述第二音节标签序列和所述连接时序分类峰序列，确定所述第二音节标签序列中的每种第二音节标签的连接时序分类峰正确率；

根据每种第二音节标签的连接时序分类峰正确率，从所述第二音节标签序列中确定所述第一差异音节标签序列。

4.根据权利要求1所述的方法，其特征在于，所述多个差异音节标签序列包括第二差异音节标签序列，所述从所述第二音节标签序列中确定多个差异音节标签序列，包括：

通过所述预先训练的第一语言识别模型对所述第二语言音频和所述第二音节标签序列进行处理，得到连接时序分类维特比序列；

根据所述连接时序分类维特比序列，确定所述第二音节标签序列中的每种第二音节标签的连接时序分类维特比得分；

根据每种第二音节标签的连接时序分类维特比得分，从所述第二音节标签序列中确定所述第二差异音节标签序列。

5.根据权利要求1所述的方法，其特征在于，所述多个差异音节标签序列包括第三差异音节标签序列，所述从所述第二音节标签序列中确定多个差异音节标签序列，包括：

通过所述预先训练的第一语言识别模型对所述第一语言音频和所述第一音节标签序列，以及所述第二语言音频和所述第二音节标签序列分别进行处理，得到第一连接时序分类维特比序列和第二连接时序分类维特比序列；

根据所述第一连接时序分类维特比序列和所述第二连接时序分类维特比序列，确定所述第一音节标签序列中的每种第一音节标签的连接时序分类维特比得分和所述第二音节标签序列中的每种第二音节标签的连接时序分类维特比得分；

根据所述第二音节标签序列中的每种第二音节标签的连接时序分类维特比得分与对应的第一音节标签的连接时序分类维特比得分的差异，从所述第二音节标签序列中确定所述第三差异音节标签序列。

6.根据权利要求3所述的方法，其特征在于，所述根据所述第二音节标签序列和所述连接时序分类峰序列，确定所述第二音节标签序列中的每种第二音节标签的连接时序分类峰正确率，包括：

对所述第二音节标签序列去重，得到去重音节标签序列；

对所述去重音节标签序列去静音帧，得到有效音节标签序列；

对比所述有效音节标签序列和所述连接时序分类峰序列，得到所述有效音节标签序列中的每种有效音节标签的连接时序分类峰正确率。

7.根据权利要求6所述的方法，其特征在于，所述对比所述有效音节标签序列和所述连接时序分类峰序列，得到所述有效音节标签序列中的每种有效音节标签的连接时序分类峰正确率，包括：

对于所述有效音节标签序列中的每种有效音节标签，从所述连接时序分类峰序列中查找与该有效音节标签的位置对应连接时序分类峰；

统计所查找到的连接时序分类峰与该有效音节标签相同的数目；

计算所统计出的数目与该有效音节标签的总数目的比值，得到该有效音节标签的连接时序分类峰正确率。

8.根据权利要求4所述的方法，其特征在于，所述通过所述预先训练的第一语言识别模型对所述第二语言音频和所述第二音节标签序列进行处理，得到连接时序分类维特比序列，包括：

对所述第二音节标签序列去重，得到去重音节标签序列；

对所述去重音节标签序列去静音帧，得到有效音节标签序列；

对所述有效音节标签序列插入空格，得到插空音节标签序列；

将所述第二语言音频和所述插空音节标签序列输入至所述第一语言识别模型，得到所述连接时序分类维特比序列。

9.根据权利要求8所述的方法，其特征在于，所述根据所述连接时序分类维特比序列，确定所述第二音节标签序列中的每种第二音节标签的连接时序分类维特比得分，包括：

对于所述有效音节标签序列中的每种有效音节标签，根据该有效音节标签在所述连接时序分类维特比序列中的位置，确定该有效音节标签的连接时序分类维特比得分。

10.根据权利要求5所述的方法，其特征在于，所述通过所述预先训练的第一语言识别模型对所述第一语言音频和所述第一音节标签序列，以及所述第二语言音频和所述第二音节标签序列分别进行处理，得到第一连接时序分类维特比序列和第二连接时序分类维特比序列，包括：

分别对所述第一音节标签和所述第二音节标签序列去重，得到第一去重音节标签序列和第二去重音节标签序列；

分别对所述第一去重音节标签序列和所述第二去重音节标签序列去静音帧，得到第一有效音节标签序列和第二有效音节标签序列；

分别对所述第一有效音节标签序列和所述第二有效音节标签序列插入空格，得到第一插空音节标签序列和第二插空音节标签序列；

将所述第一语言音频和所述第一插空音节标签序列，以及所述第二语言音频和所述第二插空音节标签序列分别输入至所述第一语言识别模型，得到所述第一连接时序分类维特比序列和所述第二连接时序分类维特比序列。

11.根据权利要求10所述的方法，其特征在于，所述根据所述第一连接时序分类维特比序列和所述第二连接时序分类维特比序列，确定所述第一音节标签序列中的每种第一音节标签的连接时序分类维特比得分和所述第二音节标签序列中的每种第二音节标签的连接时序分类维特比得分，包括：

对于所述第一有效音节标签序列中的每种第一有效音节标签，根据该第一有效音节标签在所述第一连接时序分类维特比序列中的位置，确定该第一有效音节标签的连接时序分类维特比得分；

对于所述第二有效音节标签序列中的每种第二有效音节标签，根据该第二有效音节标签在所述第二连接时序分类维特比序列中的位置，确定该第二有效音节标签的连接时序分类维特比得分。

12.一种语音识别模型训练装置，其特征在于，所述装置包括：

标签序列获取模块，用于获得第一语言音频的第一音节标签序列和第二语言音频的第二音节标签序列；

差异序列确定模块，用于从所述第二音节标签序列中确定多个差异音节标签序列；

目标序列确定模块，用于根据所述多个差异音节标签序列确定目标差异音节标签序列，其中，所述目标差异音节标签序列为所述多个差异音节标签序列的并集；

序列生成模块，根据所述目标差异音节标签序列生成第三音节标签序列；

混合训练模块，用于根据所述第一音节标签序列和所述第三音节标签序列进行语音识别模型训练，得到混合语音识别模型。

13.根据权利要求12所述的装置，其特征在于，所述差异序列确定模块，用于根据所述第一语言音频、所述第一音节标签序列、所述第二语言音频、所述第二音节标签序列以及预先训练的第一语音识别模型，从所述第二音节标签序列中确定所述多个差异音节标签序列，其中，所述第一语言识别模型基于所述第一音节标签序列训练得到。

14.根据权利要求12所述的装置，其特征在于，所述多个差异音节标签序列包括第一差异音节标签序列，所述差异序列确定模块，包括：

第一序列获取模块，用于将所述第二语言音频输入至所述预先训练的第一语言识别模型，得到连接时序分类峰序列；

正确率确定模块，用于根据所述第二音节标签序列和所述连接时序分类峰序列，确定所述第二音节标签序列中的每种第二音节标签的连接时序分类峰正确率；

第一差异序列确定模块，用于根据每种第二音节标签的连接时序分类峰正确率，从所述第二音节标签序列中确定所述第一差异音节标签序列。

15.根据权利要求12所述的装置，其特征在于，所述多个差异音节标签序列包括第二差异音节标签序列，所述差异序列确定模块，包括：

第一维特比序列获取模块，用于通过所述预先训练的第一语言识别模型对所述第二语言音频和所述第二音节标签序列进行处理，得到连接时序分类维特比序列；

第一维特比得分确定模块，用于根据所述连接时序分类维特比序列，确定所述第二音节标签序列中的每种第二音节标签的连接时序分类维特比得分；

第二差异序列确定模块，用于根据每种第二音节标签的连接时序分类维特比得分，从所述第二音节标签序列中确定所述第二差异音节标签序列。

16.根据权利要求12所述的装置，其特征在于，所述多个差异音节标签序列包括第三差异音节标签序列，所述差异序列确定模块，包括：

第二维特比序列获取模块，用于通过所述预先训练的第一语言识别模型对所述第一语言音频和所述第一音节标签序列，以及所述第二语言音频和所述第二音节标签序列分别进行处理，得到第一连接时序分类维特比序列和第二连接时序分类维特比序列；

第二维特比得分确定模块，用于根据所述第一连接时序分类维特比序列和所述第二连接时序分类维特比序列，确定所述第一音节标签序列中的每种第一音节标签的连接时序分类维特比得分和所述第二音节标签序列中的每种第二音节标签的连接时序分类维特比得分；

第三差异序列确定模块，用于根据所述第二音节标签序列中的每种第二音节标签的连接时序分类维特比得分与对应的第一音节标签的连接时序分类维特比得分的差异，从所述第二音节标签序列中确定所述第三差异音节标签序列。

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述权利要求1-11中任意一项的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行所述权利要求1-11中任意一项的方法。

完整全部详细技术资料下载

当前第2页1 2 3