1.一种端到端的语音合成方法,其特征在于,包括:
获取待处理文本;
基于所述待处理文本,生成所述待处理文本对应的拼音序列;
基于所述拼音序列,得到对应的音素序列,其中所述音素包括声母和带调韵母;
基于所述音素序列,得到编码序列;
将所述编码序列输入端到端的语音合成模型,得到所述待处理文本对应的声波数据;
合成所述声波数据,得到所述待处理文本对应的语音数据。
2.根据权利要求1所述的端到端的语音合成方法,其特征在于,所述基于所述待处理文本,生成所述待处理文本对应的拼音序列,包括:
基于所述待处理文本,转换得到纯字文本;
基于所述纯字文本,生成所述拼音序列。
3.根据权利要求2所述的端到端的语音合成方法,其特征在于,所述基于所述纯字文本,生成所述拼音序列,包括:
对所述纯字文本进行分词,得到分词文本;
基于所述分词文本,生成所述拼音序列。
4.根据权利要求3所述的端到端的语音合成方法,其特征在于,所述基于所述分词文本,生成所述拼音序列,包括:
根据所述分词文本进行发音预测,得到所述拼音序列。
5.一种端到端的语音合成模型训练方法,其特征在于,所述端到端的语音合成模型用于如权利要求1-4任一项所述的端到端的语音合成方法,所述端到端的语音合成模型训练方法包括:
获取训练集,其中所述训练集包括多个文本以及与所述多个文本对应的多个语音;
将所述语音转换为标准声波数据;
将所述文本输入所述端到端的语音合成模型,得到待测声波数据;
根据所述标准声波数据和所述待测声波数据,训练所述端到端的语音合成模型。
6.一种端到端的语音合成装置,其特征在于,包括:
获取模块,用于获取待处理文本;
生成模块,用于基于所述待处理文本,生成所述待处理文本对应的拼音序列;
模型数据生成模块,用于基于所述拼音序列,得到对应的音素序列,其中所述音素包括声母和带调韵母,且基于所述音素序列,得到编码序列;
声波数据生成模块,用于将所述编码序列输入端到端的语音合成模型,得到所述待处理文本对应的声波数据;
合成模块,用于合成所述声波数据,得到所述待处理文本对应的语音数据。
7.一种端到端的语音合成模型训练装置,其特征在于,所述端到端的语音合成模型用于如权利要求1-4任一项所述的端到端的语音合成方法,所述端到端的语音合成模型训练装置包括:
获取模块,用于获取训练集,其中所述训练集包括多个文本以及与所述多个文本对应的多个语音;
转换模块,用于将所述语音转换为标准声波数据;
数据生成模块,用于将所述文本输入所述端到端的语音合成模型,得到待测声波数据;
训练模块,用于根据所述标准声波数据和所述待测声波数据,训练所述端到端的语音合成模型。
8.一种电子设备,其中,所述电子设备包括:
存储器,用于存储指令;以及
处理器,用于调用所述存储器存储的指令执行权利要求1-4中任一项所述的端到端的语音合成方法以及权利要求5所述的端到端的语音合成模型训练方法。
9.一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由处理器执行时,执行权利要求1-4中任一项所述的端到端的语音合成方法以及权利要求5所述的端到端的语音合成模型训练方法。