音质异常数据检测方法、装置、电子设备及存储介质与流程

文档序号：20154324发布日期：2020-03-24 20:24阅读：来源：国知局

技术特征：

1.一种音质异常数据检测方法，其特征在于，包括：

接收用户语音数据，确定所述用户语音数据中的有声段语音数据和无声段语音数据；

提取所述有声段语音数据中的有声段声学特征，提取所述无声段语音数据中的无声段声学特征；

将所述有声段声学特征输入训练好的有声段产生式模型，得到所述用户语音数据的有声段检测结果，将所述无声段声学特征输入训练好的无声段产生式模型，得到所述用户语音数据的无声段检测结果；所述有声段产生式模型采用正常有声段样本进行训练，所述无声段产生式模型采用正常无声段样本进行训练；

根据所述有声段检测结果和所述无声段检测结果确定所述用户语音数据是否为音质异常数据。

2.根据权利要求1所述的方法，其特征在于，所述有声段产生式模型包括有声段神经网络模型，所述无声段产生式模型包括无声段神经网络模型；所述将所述有声段声学特征输入训练好的有声段产生式模型，得到所述用户语音数据的有声段检测结果，将所述无声段声学特征输入训练好的无声段产生式模型，得到所述用户语音数据的无声段检测结果，包括：

将所述有声段声学特征输入训练好的有声段神经网络模型，得到所述用户语音数据的有声段编码误差，将所述无声段声学特征输入训练好的无声段神经网络模型，得到所述用户语音数据的无声段编码误差；

所述根据所述有声段检测结果和所述无声段检测结果确定所述用户语音数据是否为音质异常数据，包括：

若所述有声段编码误差大于第一阈值，并且所述无声段编码误差大于第二阈值，确定所述用户语音数据为音质异常数据；

若所述有声段编码误差小于所述第一阈值，或者所述无声段编码误差小于所述第二阈值，确定所述用户语音数据为音质正常数据。

3.根据权利要求2所述的方法，其特征在于，所述有声段神经网络模型包括第一有声段编码网络、第二有声段编码网络和有声段解码网络；所述将所述有声段声学特征输入训练好的有声段神经网络模型，得到所述用户语音数据的有声段编码误差，包括：

将所述有声段声学特征输入所述第一有声段编码网络，得到第一有声段编码；

将所述第一有声段编码输入所述有声段解码网络，得到有声段恢复特征；

将所述有声段恢复特征输入所述第二有声段编码网络，得到第二有声段编码；

计算所述第一有声段编码和所述第二有声段编码的均方误差，将所述第一有声段编码和所述第二有声段编码的均方误差作为所述用户语音数据的有声段编码误差。

4.根据权利要求2或3所述的方法，其特征在于，所述无声段神经网络模型包括第一无声段编码网络、第二无声段编码网络和无声段解码网络；所述将所述无声段声学特征输入训练好的无声段神经网络模型，得到所述用户语音数据的无声段编码误差，包括：

将所述无声段声学特征输入所述第一无声段编码网络，得到第一无声段编码；

将所述第一无声段编码输入所述无声段解码网络，得到无声段恢复特征；

将所述无声段恢复特征输入所述第二无声段编码网络，得到第二无声段编码；

计算所述第一无声段编码和所述第二无声段编码的均方误差，将所述第一无声段编码和所述第二无声段编码的均方误差作为所述用户语音数据的无声段编码误差。

5.根据权利要求2～4任一项所述的方法，其特征在于，所述有声段产生式模型包括有声段高斯混合模型，所述无声段产生式模型包括无声段高斯混合模型；所述将所述有声段声学特征输入训练好的有声段产生式模型，得到所述用户语音数据的有声段检测结果，将所述无声段声学特征输入训练好的无声段产生式模型，得到所述用户语音数据的无声段检测结果，包括：

将所述有声段声学特征输入训练好的有声段高斯混合模型，得到所述用户语音数据的有声段产生概率，将所述无声段声学特征输入训练好的无声段高斯混合模型，得到所述用户语音数据的无声段产生概率；

所述根据所述有声段检测结果和所述无声段检测结果确定所述用户语音数据是否为音质异常数据，包括：

若所述有声段产生概率小于第三阈值，并且所述无声段产生概率小于第四阈值，确定所述用户语音数据为音质异常数据；

若所述有声段产生概率大于所述第三阈值，或者所述无声段产生概率大于所述第四阈值，确定所述用户语音数据为音质正常数据。

6.根据权利要求5所述的方法，其特征在于，所述接收用户语音数据之前，所述方法还包括：

从训练数据集中获取正常语音样本，从所述正常语音样本中提取有声段语音样本和无声段语音样本；

将所述有声段语音样本输入有声段产生式模型，得到有声段训练结果；根据所述有声段训练结果对所述有声段产生式模型的模型参数进行优化；

将所述无声段语音样本输入无声段产生式模型，得到无声段训练结果；根据所述无声段训练结果对所述无声段产生式模型的模型参数进行优化。

7.根据权利要求6所述的方法，其特征在于，所述根据所述有声段训练结果对所述有声段产生式模型的模型参数进行优化，包括：

基于所述有声段语音样本与所述有声段训练结果计算有声段训练的损失函数，根据所述有声段训练的损失函数对所述有声段产生式模型的模型参数进行优化；

所述根据所述无声段训练结果对所述无声段产生式模型的模型参数进行优化，包括：

基于所述无声段语音样本与所述无声段训练结果计算无声段训练的损失函数，根据所述无声段训练的损失函数对所述无声段产生式模型的模型参数进行优化。

8.根据权利要求7所述的方法，其特征在于，所述根据所述有声段训练的损失函数对所述有声段产生式模型的模型参数进行优化之后，所述方法还包括：

在所述有声段训练的损失函数符合第一预设条件的情况下，确定所述有声段产生式模型为训练好的有声段产生式模型；

所述根据所述无声段训练的损失函数对所述无声段产生式模型的模型参数进行优化之后，所述方法还包括：

在所述无声段训练的损失函数符合第二预设条件的情况下，确定所述无声段产生式模型为训练好的无声段产生式模型。

9.根据权利要求8所述的方法，其特征在于，所述确定所述有声段产生式模型为训练好的有声段产生式模型之后，所述方法还包括：

从虚警训练数据集中获取有声段训练语音样本，将所述有声段训练语音样本输入所述训练好的有声段产生式模型，得到训练语音样本的有声段编码误差或有声段产生概率；

将所述虚警训练数据集中的第一预设数量的训练语音样本的有声段编码误差按照从高到低排序后排名为第一预设阈值的有声段编码误差作为目标有声段编码误差，所述第一预设阈值为所述第一预设数量与第一预设虚警率之积；或者，

将所述虚警训练数据集中的第二预设数量的训练语音样本的有声段产生概率按照从低到高排序后排名为第二预设阈值的有声段产生概率作为目标有声段产生概率，所述第二预设阈值为所述第二预设数量与第二预设虚警率之积；

其中，所述目标有声段编码误差为所述第一阈值，所述目标有声段产生概率为所述第三阈值。

10.根据权利要求8所述的方法，其特征在于，所述确定所述无声段产生式模型为训练好的无声段产生式模型之后，所述方法还包括：

从所述虚警训练数据集中获取无声段训练语音样本，将所述无声段训练语音样本输入所述训练好的无声段产生式模型，得到训练语音样本的无声段编码误差或无声段产生概率；

将所述虚警训练数据集中的第三预设数量的训练语音样本的无声段编码误差按照从高到低排序后排名为第三预设阈值的无声段编码误差作为目标无声段编码误差，所述第三预设阈值为所述第三预设数量与第三预设虚警率之积；或者，

将所述虚警训练数据集中的第四预设数量的训练语音样本的无声段产生概率按照从低到高排序后排名为第四预设阈值的无声段产生概率作为目标无声段产生概率，所述第四预设阈值为所述第四预设数量与第四预设虚警率之积；

其中，所述目标无声段编码误差为所述第二阈值，所述目标无声段产生概率为所述第四阈值。

11.一种音质异常数据检测装置，其特征在于，包括：

接收单元，用于接收用户语音数据；

确定单元，用于确定所述用户语音数据中的有声段语音数据和无声段语音数据；

提取单元，用于提取所述有声段语音数据中的有声段声学特征，提取所述无声段语音数据中的无声段声学特征；

检测单元，用于将所述有声段声学特征输入训练好的有声段产生式模型，得到所述用户语音数据的有声段检测结果，将所述无声段声学特征输入训练好的无声段产生式模型，得到所述用户语音数据的无声段检测结果；所述有声段产生式模型采用正常有声段样本进行训练，所述无声段产生式模型采用正常无声段样本进行训练；

判别单元，用于根据所述有声段检测结果和所述无声段检测结果确定所述用户语音数据是否为音质异常数据。

12.一种电子设备，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1～10任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1～10任一项所述的方法。

完整全部详细技术资料下载

当前第2页1 2 3