端到端的语音合成方法、装置及存储介质与流程

文档序号：20268217发布日期：2020-04-03 18:40阅读：来源：国知局

技术特征：

1.一种端到端的语音合成方法，其特征在于，包括：

获取待处理文本；

基于所述待处理文本，生成所述待处理文本对应的拼音序列；

基于所述拼音序列，得到对应的音素序列，其中所述音素包括声母和带调韵母；

基于所述音素序列，得到编码序列；

将所述编码序列输入端到端的语音合成模型，得到所述待处理文本对应的声波数据；

合成所述声波数据，得到所述待处理文本对应的语音数据。

2.根据权利要求1所述的端到端的语音合成方法，其特征在于，所述基于所述待处理文本，生成所述待处理文本对应的拼音序列，包括：

基于所述待处理文本，转换得到纯字文本；

基于所述纯字文本，生成所述拼音序列。

3.根据权利要求2所述的端到端的语音合成方法，其特征在于，所述基于所述纯字文本，生成所述拼音序列，包括：

对所述纯字文本进行分词，得到分词文本；

基于所述分词文本，生成所述拼音序列。

4.根据权利要求3所述的端到端的语音合成方法，其特征在于，所述基于所述分词文本，生成所述拼音序列，包括：

根据所述分词文本进行发音预测，得到所述拼音序列。

5.一种端到端的语音合成模型训练方法，其特征在于，所述端到端的语音合成模型用于如权利要求1-4任一项所述的端到端的语音合成方法，所述端到端的语音合成模型训练方法包括：

获取训练集，其中所述训练集包括多个文本以及与所述多个文本对应的多个语音；

将所述语音转换为标准声波数据；

将所述文本输入所述端到端的语音合成模型，得到待测声波数据；

根据所述标准声波数据和所述待测声波数据，训练所述端到端的语音合成模型。

6.一种端到端的语音合成装置，其特征在于，包括：

获取模块，用于获取待处理文本；

生成模块，用于基于所述待处理文本，生成所述待处理文本对应的拼音序列；

模型数据生成模块，用于基于所述拼音序列，得到对应的音素序列，其中所述音素包括声母和带调韵母，且基于所述音素序列，得到编码序列；

声波数据生成模块，用于将所述编码序列输入端到端的语音合成模型，得到所述待处理文本对应的声波数据；

合成模块，用于合成所述声波数据，得到所述待处理文本对应的语音数据。

7.一种端到端的语音合成模型训练装置，其特征在于，所述端到端的语音合成模型用于如权利要求1-4任一项所述的端到端的语音合成方法，所述端到端的语音合成模型训练装置包括：

获取模块，用于获取训练集，其中所述训练集包括多个文本以及与所述多个文本对应的多个语音；

转换模块，用于将所述语音转换为标准声波数据；

数据生成模块，用于将所述文本输入所述端到端的语音合成模型，得到待测声波数据；

训练模块，用于根据所述标准声波数据和所述待测声波数据，训练所述端到端的语音合成模型。

8.一种电子设备，其中，所述电子设备包括：

存储器，用于存储指令；以及

处理器，用于调用所述存储器存储的指令执行权利要求1-4中任一项所述的端到端的语音合成方法以及权利要求5所述的端到端的语音合成模型训练方法。

9.一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在由处理器执行时，执行权利要求1-4中任一项所述的端到端的语音合成方法以及权利要求5所述的端到端的语音合成模型训练方法。

完整全部详细技术资料下载

当前第2页1 2 3