本发明涉及语音处理,尤其涉及一种歌唱转换方法、系统、终端及存储介质。
背景技术:
1、目前由于普通用户无法唱出专业的歌曲,普通用户希望通过输入语音和专业歌手的歌曲,输出普通用户的音色唱出专业歌手的歌曲,因此,歌唱转换方法越来越受人们所重视。
2、现有的歌唱转换过程中,一般是直接对输入语音进行调域处理,以达到歌唱转换的效果,但由于直接对输入语音进行调域处理,导致歌唱转换效果较差。
技术实现思路
1、本发明实施例的目的在于提供一种歌唱转换方法、系统、终端及存储介质,旨在解决现有的歌唱转换效果较差的问题。
2、本发明实施例是这样实现的,一种歌唱转换方法,所述方法包括:
3、分别提取输入语音和参考歌曲的音素边界,得到输入边界和参考边界,并分别获取所述输入语音的语音输入特征和所述参考歌曲的参考基频;
4、根据所述输入边界和所述参考边界对所述参考基频进行采样,得到采样基频,并将所述采样基频和所述语音输入特征输入训练后的神经网络声码器;
5、根据训练后的所述神经网络声码器对所述采样基频和所述语音输入特征进行歌唱转换,得到歌唱输出语音。
6、优选的,所述根据所述输入边界和所述参考边界对所述参考基频进行采样,包括:
7、将所述输入边界和所述参考边界中的音素时长进行时长匹配;
8、根据时长匹配结果将所述输入边界的音素时长、所述参考边界的音素时长和所述参考边界的音素时长对应的所述参考基频进行组合,得到基频采样组;
9、针对各基频采样组,根据所述输入边界的音素时长对相对应的所述参考基频进行上下采样,得到所述采样基频。
10、优选的,所述将所述采样基频和所述语音输入特征输入训练后的神经网络声码器之前,还包括:
11、将样本基频和样本语音输入所述神经网络声码器中的生成器,并根据所述生成器对所述样本基频和所述样本语音进行语音生成,得到生成语音;
12、将所述生成语音输入所述神经网络声码器中的多子带多尺度判别器进行语音判别,得到语音判别结果;
13、获取所述样本基频和所述样本语音对应的歌唱标准音频,并根据所述歌唱标准音频和所述语音判别结果确定模型损失;
14、根据所述模型损失对所述神经网络声码器进行参数更新,直至所述神经网络声码器收敛,得到训练后的所述神经网络声码器。
15、优选的,所述根据所述生成器对所述样本基频和所述样本语音进行语音生成,包括:
16、根据所述生成器中的各残差网络对所述样本基频和所述样本语音进行卷积处理,并根据所述生成器中的上采样等网络对卷积处理后的所述样本基频和所述样本语音进行上采样;
17、根据所述生成器中的自适应滤波器对上采样后的所述样本基频和所述样本语音进行滤波,得到所述生成语音。
18、优选的,所述分别提取输入语音和参考歌曲的音素边界,包括:
19、分别对所述输入语音和所述参考歌曲进行音素对齐,得到第一对齐结果和第二对齐结果;
20、根据所述第一对齐结果和所述第二对齐结果,将各音素的对齐结果进行合并,得到所述输入边界和所述参考边界。
21、优选的,所述分别获取所述输入语音的语音输入特征和所述参考歌曲的参考基频,包括:
22、依序对所述输入语音进行预加重、分帧和加窗,并对加窗结果中的各短时分析窗进行快速福利叶变换,得到频谱;
23、将各频谱输入梅尔滤波组进行滤波,得到所述语音输入特征,并根据差函数获取所述参考歌曲的参考基频。
24、本发明实施例的另一目的在于提供一种歌唱转换系统,所述系统包括:
25、边界提取模块,用于分别提取输入语音和参考歌曲的音素边界,得到输入边界和参考边界,并分别获取所述输入语音的语音输入特征和所述参考歌曲的参考基频;
26、采样模块,用于根据所述输入边界和所述参考边界对所述参考基频进行采样,得到采样基频,并将所述采样基频和所述语音输入特征输入训练后的神经网络声码器;
27、歌唱转换模块,用于根据训练后的所述神经网络声码器对所述采样基频和所述语音输入特征进行歌唱转换,得到歌唱输出语音。
28、优选的,所述采样模块还用于:
29、将所述输入边界和所述参考边界中的音素时长进行时长匹配;
30、根据时长匹配结果将所述输入边界的音素时长、所述参考边界的音素时长和所述参考边界的音素时长对应的所述参考基频进行组合,得到基频采样组;
31、针对各基频采样组,根据所述输入边界的音素时长对相对应的所述参考基频进行上下采样,得到所述采样基频。
32、本发明实施例的另一目的在于提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
33、本发明实施例的另一目的在于提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
34、本发明实施例,通过输入边界和参考边界对参考基频进行采样,能有效地利用参考歌曲的音素边界直接对输入语音中相同音素边界的基频进行控制,无需进行对输入语音进行调域处理,通过训练后的神经网络声码器对采样基频和语音输入特征进行歌唱转换,以达到以参考歌曲的基频作为条件,自动实现歌唱转换,提高了歌唱转换效果。
1.一种歌唱转换方法,其特征在于,所述方法包括:
2.如权利要求1所述的歌唱转换方法,其特征在于,所述根据所述输入边界和所述参考边界对所述参考基频进行采样,包括:
3.如权利要求1所述的歌唱转换方法,其特征在于,所述将所述采样基频和所述语音输入特征输入训练后的神经网络声码器之前,还包括:
4.如权利要求3所述的歌唱转换方法,其特征在于,所述根据所述生成器对所述样本基频和所述样本语音进行语音生成,包括:
5.如权利要求1所述的歌唱转换方法,其特征在于,所述分别提取输入语音和参考歌曲的音素边界,包括:
6.如权利要求1至5任一所述的歌唱转换方法,其特征在于,所述分别获取所述输入语音的语音输入特征和所述参考歌曲的参考基频,包括:
7.一种歌唱转换系统,其特征在于,所述系统包括:
8.如权利要求7所述的歌唱转换系统,其特征在于,所述采样模块还用于:
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。