本发明涉及语音处理,尤其涉及一种程度可控的深度学习语音处理模型构建方法及装置。
背景技术:
1、当今,随着人工智能的发展,基于深度学习的语音处理模型的应用场景越来越广泛,该领域的研究以及应用也进一步扩展。因深度学习模型具有学习、推理等强大能力,语音处理模型在身份识别、声音信息提取、语音脱敏等各种场景下得到大量应用。
2、然而,目前的语音处理模型在处理语音数据时,处理的结果准确性并不高,因为在语音处理时存在处理程度不可控的缺点,灵活性不足的问题。
技术实现思路
1、针对现有技术中存在的问题,本发明实施例提供一种程度可控的深度学习语音处理模型构建方法及装置。
2、本发明实施例提供一种程度可控的深度学习语音处理模型构建方法,包括:
3、获取语音数据,确定所述语音数据的处理类型,并根据所述处理类型获取对应类型的数据库,获取所述数据库中的原始数据及处理后数据;
4、根据所述处理类型获取对应的目标控制系数,根据所述目标控制系数及原始数据得到目标数据;
5、根据所述原始数据及处理后数据确定对应的实际控制系数,将所述原始数据、控制系数、处理后数据及目标数据输入到神经网络模型进行训练,得到训练后的神经网络模型,所述训练包括以所述实际控制系数和处理后数据为训练反馈,使训练结果趋近于所述目标数据;
6、接收到待检测语音数据时,根据所述待检测语音数据的处理类型确定对应的训练后的神经网络模型,并将所述待检测语音数据输入神经网络模型,得到所述神经网络模型输出的待检测语音数据对应控制系数。
7、在其中一个实施例中,所述方法还包括:
8、通过所述原始数据及实际控制系数得到对应的语音特征,所述卷积神经网络的n个一维卷积层依次对所述语音特征进行降采样,得到对应的降采样矩阵;
9、通过所述卷积神经网络的n个一维卷积层依次对所述降采样矩阵进行升采样,得到一维卷积函数;
10、通过所述一维卷积函数得到训练后数据,将所述训练后数据与处理后数据进行数据对比,得到对比结果,以所述实际控制系数和处理后数据为训练反馈,重复步骤a、b、c,直至所述对比结果趋近于所述目标控制系数。
11、在其中一个实施例中,所述方法还包括:
12、对进行降采样的n个一维卷积层与进行升采样的n个一维卷积层进行对应标号,并在相同标号的一维卷积层之间设置短路模块。
13、在其中一个实施例中,所述方法还包括:
14、获取语音数据对应的数据范围,将所述训练后的神经网络模型与所述处理类型及数据范围对应保存。
15、在其中一个实施例中,所述处理类型,包括:
16、身份识别、声音信息提取、语音脱敏。
17、本发明实施例提供一种程度可控的深度学习语音处理模型构建装置,包括:
18、第一获取模块,用于获取语音数据,确定所述语音数据的处理类型,并根据所述处理类型获取对应类型的数据库,获取所述数据库中的原始数据及处理后数据;
19、第二获取模块,用于根据所述处理类型获取对应的目标控制系数,根据所述目标控制系数及原始数据得到目标数据;
20、训练模块,用于根据所述原始数据及处理后数据确定对应的实际控制系数,将所述原始数据、控制系数、处理后数据及目标数据输入到神经网络模型进行训练,得到训练后的神经网络模型,所述训练包括以所述实际控制系数和处理后数据为训练反馈,使训练结果趋近于所述目标数据;
21、接收模块,用于接收到待检测语音数据时,根据所述待检测语音数据的处理类型确定对应的训练后的神经网络模型,并将所述待检测语音数据输入神经网络模型,得到所述神经网络模型输出的待检测语音数据对应控制系数。
22、在其中一个实施例中,所述装置还包括:
23、降采样模块,用于通过所述原始数据及实际控制系数得到对应的语音特征,所述卷积神经网络的n个一维卷积层依次对所述语音特征进行降采样,得到对应的降采样矩阵;
24、升采样模块,用于通过所述卷积神经网络的n个一维卷积层依次对所述降采样矩阵进行升采样,得到一维卷积函数;
25、对比模块,用于通过所述一维卷积函数得到训练后数据,将所述训练后数据与处理后数据进行数据对比,得到对比结果,以所述实际控制系数和处理后数据为训练反馈,重复步骤a、b、c,直至所述对比结果趋近于所述目标控制系数。
26、在其中一个实施例中,所述装置还包括:
27、短路设置模块,用于对进行降采样的n个一维卷积层与进行升采样的n个一维卷积层进行对应标号,并在相同标号的一维卷积层之间设置短路模块。
28、本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述程度可控的深度学习语音处理模型构建方法的步骤。
29、本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述程度可控的深度学习语音处理模型构建方法的步骤。
30、本发明实施例提供的一种程度可控的深度学习语音处理模型构建方法及装置,获取语音数据,确定语音数据的处理类型,并根据处理类型获取对应类型的数据库,获取数据库中的原始数据及处理后数据;根据处理类型获取对应的目标控制系数,根据目标控制系数及原始数据得到目标数据;根据原始数据及处理后数据确定对应的实际控制系数,将原始数据、控制系数、处理后数据及目标数据输入到神经网络模型进行训练,得到训练后的神经网络模型,训练包括以实际控制系数和处理后数据为训练反馈,使训练结果趋近于目标数据;接收到待检测语音数据时,根据待检测语音数据的处理类型确定对应的训练后的神经网络模型,并将待检测语音数据输入神经网络模型,得到神经网络模型输出的待检测语音数据对应控制系数。这样能够使语音数据处理时,对语音处理的程度具有可控性,在应用上也更为灵活。
1.一种程度可控的深度学习语音处理模型构建方法,其特征在于,包括:
2.根据权利要求1所述的程度可控的深度学习语音处理模型构建方法,其特征在于,所述将原始数据、控制系数、处理后数据及目标数据输入到神经网络模型进行训练,包括:
3.根据权利要求2所述的程度可控的深度学习语音处理模型构建方法,其特征在于,所述神经网络模型,还包括:
4.根据权利要求1所述的程度可控的深度学习语音处理模型构建方法,其特征在于,所述得到训练后的神经网络模型之后,还包括:
5.根据权利要求1所述的程度可控的深度学习语音处理模型构建方法,其特征在于,所述处理类型,包括:
6.一种程度可控的深度学习语音处理模型构建装置,其特征在于,所述装置包括:
7.根据权利要求6中所述的程度可控的深度学习语音处理模型构建装置,其特征在于,所述装置还包括:
8.根据权利要求7中所述的程度可控的深度学习语音处理模型构建装置,其特征在于,所述装置还包括:
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述程度可控的深度学习语音处理模型构建方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至5任一项所述程度可控的深度学习语音处理模型构建方法的步骤。