用于度量语音数据库覆盖性的无监督模型训练方法及装置与流程

文档序号：20918451发布日期：2020-05-29 13:50阅读：来源：国知局

技术特征：

1.一种用于度量语音数据库覆盖性的无监督模型训练方法，其特征在于，所述方法包括：

获取训练数据，所述训练数据为语音；

确定语音数据库覆盖性的一个或多个评价因素；

基于所述训练数据对应于所述评价因素是否可通过参数调整控制，划分所述评价因素为可调因素或不可调因素；

确定划分后的每个所述评价因素对应的聚类算法；

通过每个所述评价因素对应的所述聚类算法分别将所述训练数据分类，得到多个子类；

根据每个所述评价因素的所述多个子类，训练评价模型。

2.根据权利要求1所述的用于度量语音数据库覆盖性的无监督模型训练方法，其特征在于，所述确定划分后的每个所述评价因素对应的聚类算法，包括：

若所述评价因素为不可调因素，则确定其对应的聚类算法为基于距离的聚类算法；

若所述评价因素为可调因素，则确定其对应的聚类算法为自适应训练算法。

3.根据权利要求2所述的用于度量语音数据库覆盖性的无监督模型训练方法，其特征在于，所述通过每个所述评价因素对应的所述聚类算法分别将所述训练数据分类，得到多个子类，包括：

若所述评价因素为不可调因素，则提取所述训练数据的特征向量；

根据所述特征向量，采用所述基于距离的聚类算法，将所述训练数据划分为多个子类。

4.根据权利要求3所述的用于度量语音数据库覆盖性的无监督模型训练方法，其特征在于，所述基于距离的聚类算法为k均值聚类算法。

5.根据权利要求2所述的用于度量语音数据库覆盖性的无监督模型训练方法，其特征在于，所述通过每个所述评价因素对应的所述聚类算法分别将所述训练数据分类，得到多个子类，包括：

若所述评价因素为可调因素，则提取所述训练数据的特征向量；

通过所述特征向量，训练高斯混合模型，标注所述训练数据；

根据标注的所述训练数据，将训练数据分为多个子类。

6.根据权利要求5所述的用于度量语音数据库覆盖性的无监督模型训练方法，其特征在于，所述通过所述特征向量，训练高斯混合模型，标注所述训练数据，包括：

通过所述特征向量训练高斯混合模型；

根据所述评价因素，确定控制参数，所述控制参数可调整控制所述训练数据；

遍历所述控制参数的所有取值，对所述训练数据进行变换；

获取变换后的训练数据的特征向量使高斯混合模型似然度最大时的参数值；

根据所述参数值累计似然度；

根据所述参数值变换训练数据，得到新的训练数据，重新训练直到达到停止条件；

将每个训练数据对应的使高斯混合模型似然度最大时的参数值作为所述训练数据的标注值。

7.根据权利要求6所述的用于度量语音数据库覆盖性的无监督模型训练方法，其特征在于，所述停止条件包括：迭代次数达到预设阈值，或所述累计似然度与上次迭代中的累计似然度变化率小于预设阈值。

8.根据权利要求1所述的用于度量语音数据库覆盖性的无监督模型训练方法，其特征在于，所述根据每个所述评价因素的所述多个子类，训练评价模型，包括：将每个子类数据分别训练一个或多个所述评价模型，或将多个子类数据整体训练一个所述评价模型。

9.根据权利要求1所述的用于度量语音数据库覆盖性的无监督模型训练方法，其特征在于，所述语音数据库覆盖性的评价因素包括以下一个或多个：发音者的性别、发音者的年龄、发音者的口音、语速、音调、语种、采集设备、采集环境、发音因素或内容主题。

10.一种度量语音数据库覆盖性的方法，其特征在于，所述方法包括，利用如权利要求1-9任一项所述的用于度量语音数据库覆盖性的无监督模型训练方法，得到每个评价因素的评价模型；

获取待评价的语音数据库，其中，所述语音数据库中包括至少一条语音；

通过所述评价因素的评价模型对所述语音数据库中的每条语音进行检测，得到所述语音数据库与所述评价因素相对应的单因素信息熵；

根据所述单因素信息熵，确定所述语音数据库的覆盖度。

11.一种用于度量语音数据库覆盖性的无监督模型训练装置，其特征在于，所述装置包括：

数据获取单元，用于获取训练数据，所述训练数据为语音；

评价因素确定单元，用于确定语音数据库覆盖性的一个或多个评价因素；

划分单元，用于基于所述训练数据对应于所述评价因素是否可通过参数调整控制，划分所述评价因素为可调因素或不可调因素；

算法确定单元，用于确定划分后的每个所述评价因素对应的聚类算法；

分类单元，用于通过每个所述评价因素对应的所述聚类算法分别将所述训练数据分类，得到多个子类；

模型训练单元，用于根据每个所述评价因素的所述多个子类，训练评价模型。

12.根据权利要求11所述的用于度量语音数据库覆盖性的无监督模型训练装置，其特征在于，所述算法确定单元还用于：

当所述评价因素为不可调因素时，确定其对应的聚类算法为基于距离的聚类算法；

当所述评价因素为可调因素时，确定其对应的聚类算法为自适应训练算法。

13.根据权利要求12所述的用于度量语音数据库覆盖性的无监督模型训练装置，其特征在于，所述分类单元还用于：

当所述评价因素为不可调因素时，提取所述训练数据的特征向量；

根据所述特征向量，采用所述基于距离的聚类算法，将所述训练数据划分为多个子类。

14.根据权利要求13所述的用于度量语音数据库覆盖性的无监督模型训练装置，其特征在于，所述基于距离的聚类算法为k均值聚类算法。

15.根据权利要求12所述的用于度量语音数据库覆盖性的无监督模型训练装置，其特征在于，所述分类单元还用于：

当所述评价因素为可调因素时，提取所述训练数据的特征向量；

通过所述特征向量，训练高斯混合模型，标注所述训练数据；

根据标注的所述训练数据，将训练数据分为多个子类。

16.根据权利要求15所述的用于度量语音数据库覆盖性的无监督模型训练装置，其特征在于，所述通过所述特征向量，训练高斯混合模型，标注所述训练数据，包括：

通过所述特征向量训练高斯混合模型；

根据所述评价因素，确定控制参数，所述控制参数可调整控制所述训练数据；

遍历所述控制参数的所有取值，对所述训练数据进行变换；

获取变换后的训练数据的特征向量使高斯混合模型似然度最大时的参数值；

根据所述参数值累计似然度；

根据所述参数值变换训练数据，得到新的训练数据，重新训练直到达到停止条件；

将每个训练数据对应的使高斯混合模型似然度最大时的参数值作为所述训练数据的标注值。

17.根据权利要求16所述的用于度量语音数据库覆盖性的无监督模型训练装置，其特征在于，所述停止条件包括：迭代次数达到预设阈值，或所述累计似然度与上次迭代中的累计似然度变化率小于预设阈值。

18.根据权利要求11所述的用于度量语音数据库覆盖性的无监督模型训练装置，其特征在于，所述模型训练装置还用于：将每个子类数据分别训练一个或多个所述评价模型，或将多个子类数据整体训练一个所述评价模型。

19.根据权利要求11所述的用于度量语音数据库覆盖性的无监督模型训练装置，其特征在于，所述语音数据库覆盖性的评价因素包括以下一个或多个：发音者的性别、发音者的年龄、发音者的口音、语速、音调、语种、采集设备、采集环境、发音因素或内容主题。

20.一种度量语音数据库覆盖性的装置，其特征在于，所述装置包括，评价模型获取单元，用于利用如权利要求1-9任一项所述的用于度量语音数据库覆盖性的无监督模型训练方法，得到每个评价因素的评价模型；

语音数据库获取单元，用于获取待评价的语音数据库，其中，所述语音数据库中包括至少一条语音；

检测单元，用于通过所述评价因素的评价模型对所述语音数据库中的每条语音进行检测，得到所述语音数据库与所述评价因素相对应的单因素信息熵；

评价单元，用于根据所述单因素信息熵，确定所述语音数据库的覆盖度。

21.一种电子设备，其特征在于，包括：

存储器，用于存储指令；以及

处理器，用于调用所述存储器存储的指令执行如权利要求1至9中任一项所述的用于度量语音数据库覆盖性的无监督模型训练方法。

22.一种计算机可读存储介质，其特征在于，存储有指令，所述指令被处理器执行时，执行如权利要求1至9中任一项所述的用于度量语音数据库覆盖性的无监督模型训练方法。

技术总结
本公开是关于一种用于度量语音数据库覆盖性的无监督模型训练方法，所述方法包括：获取训练数据，所述训练数据为语音；确定语音数据库覆盖性的一个或多个评价因素；基于训练数据是否可通过参数调整控制，划分评价因素为可调因素或不可调因素；确定划分后的每个评价因素对应的聚类算法；通过每个评价因素对应的聚类算法分别将训练数据分类，得到多个子类；根据每个所述评价因素的多个子类，训练评价模型。该方法可以根据用户需要设定不同的评价要素度量相应的语音数据库，通过对评价因素的区分，有针对性地抽取不同的特征、选用合适的算法，同时可以利用无监督数据进行模型训练，降低了数据标注所引入的成本。

技术研发人员：李科;张卫强;黄宇凯;郝玉峰;宋琼
受保护的技术使用者：北京海天瑞声科技股份有限公司;清华大学
技术研发日：2020.04.20
技术公布日：2020.05.29

完整全部详细技术资料下载

当前第2页1 2