本发明涉及音频转换领域,尤其涉及一种语音合成方法、装置、计算机设备及存储介质。
背景技术:
1、随着深度学习技术的发展,利用基于深度学习技术的语音合成声码器算法将低比特率音频合成高质量语音变得可行。然而,这种声码器算法依赖于高性能处理器每秒钟数百亿次的浮点运算。也就是说,声码器算法的计算复杂度较高。
2、受电池性能等因素限制,移动终端无法装配高性能处理器。因而,较高的计算复杂度限制了语音合成声码器算法在移动终端的应用。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种语音合成方法、装置、计算机设备及存储介质,以降低声码器算法的计算复杂度。
2、一种语音合成方法,包括:
3、获取声码器输入数据和上一刻隐状态,所述声码器输入数据包括上一刻语音和当前语音的梅尔谱;
4、通过自回归编码器处理所述上一刻隐状态和所述声码器输入数据,生成所述当前语音的当前隐状态;
5、通过全连接层处理所述当前隐状态,生成连接层函数;
6、通过二叉树分类器处理所述连接层函数,生成所述当前语音的类别,以根据所述当前语音的类别生成当前合成语音。
7、一种语音合成装置,包括:
8、获取数据模块,用于获取声码器输入数据和上一刻隐状态,所述声码器输入数据包括上一刻语音和当前语音的梅尔谱;
9、隐状态模块,用于通过自回归编码器处理所述上一刻隐状态和所述声码器输入数据,生成所述当前语音的当前隐状态;
10、连接层模块,用于通过全连接层处理所述当前隐状态,生成连接层函数;
11、语音类别模块,用于通过二叉树分类器处理所述连接层函数,生成所述当前语音的类别,以根据所述当前语音的类别生成当前合成语音。
12、一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述语音合成方法。
13、一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述语音合成方法。
14、上述语音合成方法、装置、计算机设备及存储介质,先通过自回归编码器获得当前语音的当前隐状态,再经过两层全连接层和二叉树分类器处理,得到当前语音的类别。由于使用的二叉树分类器可以大大减少语音类别的计算次数,同时大幅降低权值矩阵的维度,因而可以大幅减少声码器的计算复杂度。并且,经过主观测听试验,通过本发明合成的语音,并未降低合成语音的质量。
1.一种语音合成方法,其特征在于,包括:
2.如权利要求1所述的语音合成方法,其特征在于,所述通过自回归编码器处理所述上一刻隐状态和所述声码器输入数据,生成所述当前语音的当前隐状态,包括:
3.如权利要求2所述的语音合成方法,其特征在于,所述第一编码器包括:
4.如权利要求2所述的语音合成方法,其特征在于,所述第二编码器包括:
5.如权利要求2所述的语音合成方法,其特征在于,所述第三编码器包括:
6.如权利要求2所述的语音合成方法,其特征在于,所述当前隐状态编码器包括:
7.如权利要求1所述的语音合成方法,其特征在于,所述连接层函数包括:
8.一种语音合成装置,其特征在于,包括:
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述语音合成方法。
10.一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至7中任一项所述语音合成方法。