端到端的语音合成方法、装置及存储介质与流程

文档序号:20268217发布日期:2020-04-03 18:40阅读:来源:国知局

技术特征:

1.一种端到端的语音合成方法,其特征在于,包括:

获取待处理文本;

基于所述待处理文本,生成所述待处理文本对应的拼音序列;

基于所述拼音序列,得到对应的音素序列,其中所述音素包括声母和带调韵母;

基于所述音素序列,得到编码序列;

将所述编码序列输入端到端的语音合成模型,得到所述待处理文本对应的声波数据;

合成所述声波数据,得到所述待处理文本对应的语音数据。

2.根据权利要求1所述的端到端的语音合成方法,其特征在于,所述基于所述待处理文本,生成所述待处理文本对应的拼音序列,包括:

基于所述待处理文本,转换得到纯字文本;

基于所述纯字文本,生成所述拼音序列。

3.根据权利要求2所述的端到端的语音合成方法,其特征在于,所述基于所述纯字文本,生成所述拼音序列,包括:

对所述纯字文本进行分词,得到分词文本;

基于所述分词文本,生成所述拼音序列。

4.根据权利要求3所述的端到端的语音合成方法,其特征在于,所述基于所述分词文本,生成所述拼音序列,包括:

根据所述分词文本进行发音预测,得到所述拼音序列。

5.一种端到端的语音合成模型训练方法,其特征在于,所述端到端的语音合成模型用于如权利要求1-4任一项所述的端到端的语音合成方法,所述端到端的语音合成模型训练方法包括:

获取训练集,其中所述训练集包括多个文本以及与所述多个文本对应的多个语音;

将所述语音转换为标准声波数据;

将所述文本输入所述端到端的语音合成模型,得到待测声波数据;

根据所述标准声波数据和所述待测声波数据,训练所述端到端的语音合成模型。

6.一种端到端的语音合成装置,其特征在于,包括:

获取模块,用于获取待处理文本;

生成模块,用于基于所述待处理文本,生成所述待处理文本对应的拼音序列;

模型数据生成模块,用于基于所述拼音序列,得到对应的音素序列,其中所述音素包括声母和带调韵母,且基于所述音素序列,得到编码序列;

声波数据生成模块,用于将所述编码序列输入端到端的语音合成模型,得到所述待处理文本对应的声波数据;

合成模块,用于合成所述声波数据,得到所述待处理文本对应的语音数据。

7.一种端到端的语音合成模型训练装置,其特征在于,所述端到端的语音合成模型用于如权利要求1-4任一项所述的端到端的语音合成方法,所述端到端的语音合成模型训练装置包括:

获取模块,用于获取训练集,其中所述训练集包括多个文本以及与所述多个文本对应的多个语音;

转换模块,用于将所述语音转换为标准声波数据;

数据生成模块,用于将所述文本输入所述端到端的语音合成模型,得到待测声波数据;

训练模块,用于根据所述标准声波数据和所述待测声波数据,训练所述端到端的语音合成模型。

8.一种电子设备,其中,所述电子设备包括:

存储器,用于存储指令;以及

处理器,用于调用所述存储器存储的指令执行权利要求1-4中任一项所述的端到端的语音合成方法以及权利要求5所述的端到端的语音合成模型训练方法。

9.一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,执行权利要求1-4中任一项所述的端到端的语音合成方法以及权利要求5所述的端到端的语音合成模型训练方法。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1