语音合成方法、系统、电子设备及存储介质

文档序号:33477568发布日期:2023-03-15 10:51阅读:88来源:国知局
技术特征:
1.一种语音合成方法,其特征在于,该方法基于预训练的语音合成模型实现,所述语音合成模型包括文本编码器模块、时长预测模块、解码器模块,所述方法包括:获取音素序列,并输入至所述语音合成模型;通过所述文本编码器模块将所述音素序列转换成均值序列,并输入至所述时长预测模块;通过所述时长预测模块将所述均值序列扩展复制,得到拓展后的均值序列;通过所述解码器模块将拓展后的均值序列去噪并转换为梅尔谱,以输出合成后的语音。2.根据权利要求1所述的语音合成方法,其特征在于,所述通过所述解码器模块将拓展后的均值序列去噪,包括:对扩展后的均值序列进行采样,得到随机数;通过所述解码器模块对所述随机数进行去噪。3.根据权利要求2所述的语音合成方法,其特征在于,所述对扩展后的均值序列进行采样,包括:对所述均值序列进行拆分,得到所述均值序列对应的多个子序列;在每次采样过程中,从均值序列的子序列中随机采样。4.根据权利要求2项所述的语音合成方法,其特征在于,所述解码器模块基于u-net模型训练得到,且所述u-net模型中的卷积网络为深度可分离卷积网络;所述对扩展后的均值序列进行采样,包括:通过所述解码器模块对扩展后的均值序列进行采样,以获取随机数。5.根据权利要求2所述的语音合成方法,其特征在于,所述通过所述解码器模块对所述随机数进行去噪,包括:将所述随机数输入解码器模块,获取微分方程的准确解;对所述准确解的积分进行近似求解,获取所述微分方程的解,以实现去噪;其中,所述微分方程如下:其中,t为0-1之间的自然数,
µ
是噪声的先验分布的均值,s是神经网络,βt是一个线性函数,yt=xt
‑µ
,xt是经过t步去噪的样本;所述微分方程的准确解,公式如下:其中,
λ表示对数信噪比,i为单位矩阵,βs为线性函数,表示数据分布标准差,表示数据分布方差,为λt的反函数,为的对应的噪声值,λs是s时刻的λ;为t步数噪声的标准差,ys为s时刻的带噪样本,s表示神经网络,t表示步数。6.根据权利要求1所述的语音合成方法,其特征在于,所述通过所述解码器模块将拓展后的均值序列去噪并转换为梅尔谱,包括:通过所述解码器模块对当前采样的随机数逐个进行去噪操作并进行转换,得到对应的梅尔谱片段;将每个所述梅尔谱片段单独合成并对外输出,以播放合成语音。7.根据权利要求1所述的语音合成方法,其特征在于,所述通过所述时长预测模块将所述均值序列扩展复制,包括:通过所述时长预测模块对所述均值序列的每个音素时长进行预测;根据所预测的时长,将所述均值序列进行扩展复制。8.一种电子设备,其特征在于,所述电子设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的语音合成方法的步骤。9.一种语音合成系统,其特征在于,包括文本录入设备,与文本录入设备相连的语音合成设备,其中,所述语音合成设备用于执行所述权利要求1至7中任一项所述的语音合成方法的步骤。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的语音合成方法的步骤。

技术总结
本申请涉及语音合成技术领域,尤其涉及一种语音合成方法、系统、电子设备及存储介质。该语音合成方法基于预训练的语音合成模型实现,语音合成模型包括文本编码器模块、时长预测模块、解码器模块,方法包括:获取音素序列,并输入至语音合成模型;通过文本编码器模块将音素序列转换成均值序列,并输入至时长预测模块;通过时长预测模块将均值序列扩展复制,得到拓展后的均值序列;通过解码器模块将拓展后的均值序列去噪并转换为梅尔谱,以输出合成后的语音。本申请的语音合成方法,可以将语音转换成均值序列并去噪,经过去噪操作后,提高了语音合成速度,加快了解码器的运算速度,使得基于去噪扩散概率模型的语音合成模型能够应用在实际场景中。实际场景中。实际场景中。


技术研发人员:陈杰 康世胤 吴志勇
受保护的技术使用者:清华大学深圳国际研究生院
技术研发日:2023.02.07
技术公布日:2023/3/14
当前第2页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!