端到端语音变换系统及方法、存储介质、电子装置与流程

文档序号:37587509发布日期:2024-04-18 12:16阅读:6来源:国知局
端到端语音变换系统及方法、存储介质、电子装置与流程

本技术涉及数据处理,具体而言,涉及一种端到端语音变换系统及方法、存储介质、电子装置。


背景技术:

1、目前,相关技术中的声音转换的主要方式是先通过自动语音识别(automaticspeech recognition,简称为asr)技术对待转换的语音进行识别并提取巴科斯范式(backus-naur form,简称为bnf)特征,进一步通过从文本到语音(text to speech,简称为tts)技术对基于上述识别内容与bnf特征进行语音合成处理进而得到目标语音。上述过程受限于asr的识别准确度与效率,在实际处理过程中无论是声音转换的准确性亦或实时性均不理想。对此,相关技术进一步提出了端到端的声音转换方式,即不通过asr进行语音识别而直接对待转换语音实现音色转换,进而得到目标语音,但是,现有的端到端的声音转换方式在音色的转换上存在较多不足,不能理想地复刻目标说话人的音色。

2、针对相关技术中,端到端的声音转换方式在音色的转换上存在较多不足,不能理想地复刻目标说话人的音色的问题,相关技术中尚未提出有效的解决方案。


技术实现思路

1、本技术实施例提供了一种端到端语音变换系统及方法、存储介质、电子装置,以至少解决相关技术中端到端的声音转换方式在音色的转换上存在较多不足,不能理想地复刻目标说话人的音色的问题。

2、在本技术的一个实施例中,提供了一种端到端语音变换系统,所述系统包括:

3、音频特征编码模块,配置为获取目标说话人的目标语音样本,并根据所述目标语音样本的风格类别,提取所述目标语音样本的目标音频特征;

4、风格特征编码模块,配置为获取所述目标语音样本的第一风格特征,并根据所述第一风格特征确定所述目标语音样本的第二风格特征;其中,所述第一风格特征用于指示所述目标语音样本的静态声音特性,所述第二风格特征用于指示在预设时长内对所述第一风格特征的特征偏置量与增益量的预测值;

5、音色转换模块,所述音色转换模块包括:

6、特征编码单元,配置为将所述目标音频特征与所述第二风格特征进行融合,以得到联合编码特征;以及,根据所述目标音频特征提取隐式特征;

7、特征解码单元,配置为根据所述联合编码特征与所述隐式特征生成所述目标语音样本的预估值;

8、音频预估单元,配置为根据所述目标语音样本的预估值与所述目标语音样本的真实值训练第一损失函数;其中,所述第一损失函数用于指示所述目标语音样本的预估值相对于真实值的损失;

9、对齐预估单元,配置为将所述联合编码特征与所述隐式特征进行对齐处理以计算对齐矩阵,并根据对齐矩阵训练第二损失函数,所述第二损失函数用于指示所述联合特征与所述隐式特征之间的离散度;

10、鉴别单元,配置为根据所述目标语音样本的预估值与所述真实值的差异确定鉴别结果,并根据所述鉴别结果训练第三损失函数;

11、所述音色转换模块还配置为,根据所述第一损失函数、第二损失函数、第三损失函数得到训练后的音色转换模块,并通过训练后的音色转换模块将待处理语音转换为目标说话人对应的目标语音。

12、在一实施例中,所述音频编码模块还配置为,通过以下步骤训练得到:

13、使用第一训练样本进行训练第一聚类模型,其中,所述第一训练样本包括多个说话人的语音样本,且多个说话人的语音样本对应不同的风格类型;所述第一聚类模型用于对所述第一训练样本进行聚类,并根据聚类结果确定所述第一训练样本对应的类别标签;

14、使用第二训练样本训练第二聚类模型,其中,所述第二训练样本包括多个说话人的语音样本,且多个说话人的语音样本对应不同的风格类型;所述第二聚类模型用于对所述第二训练样本进行聚类,并根据聚类结果确定所述第二训练样本对应的类别标签;所述第一聚类模型和所述第二聚类模型采用不同结构的特征提取器,以从不同的维度进行聚类;

15、将第三训练样本同时输入训练后的所述第一聚类模型、训练后的所述第二聚类模型以及初始音频特征编码模块,其中,所述第三训练样本包含多个说话人的语音样本;

16、根据所述初始音频特征编码模块的损失函数训练所述初始音频特征编码模块,同时根据所述第一聚类模型和所述第二聚类模型输出的真实类别标签和所述初始音频特征编码模块输出的预测类别标签,训练所述初始音频特征编码模块至收敛,得到所述音频特征编码模块,其中,所述音频特征编码模块用于根据语音的风格类型进行音频特征的提取。

17、在一实施例中,所述风格特征编码模块包括:

18、频谱处理单元,由一全连接层构成,配置为提取所述目标语音样本的梅尔谱特征,并转换为特征序列;

19、时序处理单元,包括一门控卷积层与一残差层,配置为获取所述特征序列的时序信息;

20、注意力单元,配置为根据所述特征序列的时序信息,在多个第一预设时长内分别提取所述特征序列对应的所述第一风格特征,在第二预设时长中,将多个所述第一预设时长内提取的多个所述第一风格特征进行平均化处理,得到风格信息,其中,所述第二预设时长包括多个所述第一预设时长;

21、风格自适应单元,配置为根据所述风格信息预测所述第一风格特征的特征偏置量与增益量,并将预测得到的所述第一风格特征的特征偏置量与增益量作为所述目标语音样本的所述第二风格特征。

22、在一实施例中,所述特征编码单元还配置为,将通过训练后的所述音频特征编码模块提取的所述目标音频特征与通过训练后的所述风格编码模块提取的所述第二风格特征进行融合,得到所述联合编码特征,并根据所述目标音频特征的真实梅尔谱特征提取对应的所述隐式特征;

23、所述特征解码单元还配置为,根据生成的所述目标语音样本的预估值确定所述目标音频特征对应的预估的梅尔谱特征;

24、所述音频预估单元还配置为,根据所述目标音频特征的真实梅尔谱特征和所述目标音频特征对应的预估的梅尔谱特征训练训练所述第一损失函数;其中,所述第一损失函数用于指示所述目标音频特征对应的预估的梅尔谱特征相对于所述目标音频特征对应的预估的梅尔谱特征的损失;

25、在一实施例中,所述鉴别单元还配置为,分别针对所述特征解码单元、所述特征解码单元、所述音频预估单元以及所述对齐预估单元进行对抗训练,并根据所述对抗训练的结果训练所述第三损失函数。

26、在本技术的另一个实施例中,还提供了一种端到端语音变换方法,包括:

27、获取待转换的原始语音与目标说话人的目标语音样本;

28、通过音频特征编码模块识别所述目标语音样本的风格类别,并根据所述目标语音样本的风格类别提取所述目标语音样本的目标音频特征;其中,所述目标音频特征包含所述目标语音样本的文本特征、韵律特征和音色特征;

29、通过所述音频特征编码模块提取所述原始语音的原始音频特征,其中,所述原始音频特征包含所述原始语音的文本特征、韵律特征和音色特征;

30、通过风格特征编码模块获取所述目标语音样本的第一风格特征,并根据所述第一风格特征确定所述目标语音样本的第二风格特征;其中,所述第一风格特征用于指示所述目标语音样本的静态声音特性,所述第二风格特征用于指示在预设时长内对所述第一风格特征的特征偏置量与增益量的预测值;

31、将所述原始语音的原始音频特征、所述目标语音样本的目标音频特征和所述目标语音样本的第二风格特征输入音色转换模块,通过所述音色转换模块对三者进行融合映射得到联合编码特征,对所述联合编码特征进行标准流化操作后解码,得到与所述目标说话人的说话风格对应的目标语音特征,并基于所述目标语音特征对所述原始语音进行转换,得到目标语音;

32、其中,所述音色转换模块的训练过程为,根据所述联合编码特征与所述隐式特征生成所述目标语音样本的预估值;根据所述目标语音样本的预估值与所述目标语音样本的真实值训练第一损失函数;其中,所述第一损失函数用于指示所述目标语音样本的预估值相对于真实值的损失;将所述联合编码特征与所述隐式特征进行对齐处理以计算对齐矩阵,并根据对齐矩阵训练第二损失函数,所述第二损失函数用于指示所述联合特征与所述隐式特征之间的离散度;根据所述目标语音样本的预估值与所述真实值的差异确定鉴别结果,并根据所述鉴别结果训练第三损失函数,根据所述第一损失函数、第二损失函数、第三损失函数得到训练后的音色转换模块。

33、在一实施例中,所述通过风格特征编码模块获取所述目标语音样本的第一风格特征,并根据所述第一风格特征确定所述目标语音样本的第二风格特征,包括:

34、提取所述目标语音样本的梅尔谱特征,并转换为特征序列;

35、获取所述特征序列的时序信息;

36、根据所述特征序列的时序信息,在多个第一预设时长内分别提取所述特征序列对应的所述第一风格特征,在第二预设时长中,将多个所述第一预设时长内提取的多个所述第一风格特征进行平均化处理,得到风格向量,其中,所述第二预设时长包括多个所述第一预设时长;

37、根据所述风格向量预测所述第一风格特征的特征偏置量与增益量,并将预测得到的所述第一风格特征的特征偏置量与增益量作为所述目标语音样本的第二风格特征。

38、在本技术的一个实施例中,还提出了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

39、在本技术的一个实施例中,还提出了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

40、通过本技术实施例提供的端到端语音变换系统,包括音频特征编码模块,风格特征编码模块和音色转换模块,在训练过程中获取目标说话人的目标语音样本,并根据所述目标语音样本的风格类别,提取所述目标语音样本的目标音频特征;获取所述目标语音样本的第一风格特征,并根据所述第一风格特征确定所述目标语音样本的第二风格特征;其中,所述第一风格特征用于指示所述目标语音样本的静态声音特性,所述第二风格特征用于指示在预设时长内对所述第一风格特征的特征偏置量与增益量的预测值;根据第一损失函数、第二损失函数、第三损失函数得到训练后的音色转换模块,并通过训练后的音色转换模块将待处理语音转换为目标说话人对应的目标语音,解决了相关技术中相关技术中端到端的声音转换方式在音色的转换上存在较多不足,不能理想地复刻目标说话人的音色的问题,通过音频特征编码模块识别目标语音样本的风格类别,并将原始语音的原始音频特征、目标语音样本的目标音频特征和目标语音样本的第二风格特征进行融合映射,可以有效识别目标说话人的说话风格,并将待转换的原始语音按照目标说话人的说话风格进行转换,有效复刻目标说话人的音色。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1