语音转换方法及语音转换模型的训练方法、电子设备和存储介质与流程

文档序号:36484184发布日期:2023-12-25 17:55阅读:130来源:国知局
技术简介:
本发明针对现有语音转换技术中编码方式单向不可逆、限制语音生成应用的问题,提出双语义编码器结构与非自回归重建方案。通过预训练模型提取语义特征,结合位置无关交叉注意力模块引入引用语音音色信息,利用判别器进行波形重建,提升生成语音质量与目标音色匹配度。
关键词:语音转换,音色迁移

本申请实施例涉及语音生成任务领域,特别是涉及一种语音转换方法及语音转换模型的训练方法、电子设备和存储介质。


背景技术:

1、相关技术中,voice conversion(vc,语音转换)处理的问题是输入一段声音,输出另外一段声音,但这两段声音有些不同,一般希望保留声音的内容,改变说话人的音色。

2、最早执行zero-shot voice conversion(零样本语音转换)的工作使用的是auto-encoder(自动编码器)架构,通过精心设计的bottleneck(瓶颈层)来分离语音中的内容信息和身份信息,这些相关技术中使用的引用身份信息多是用speaker embedding(说话人嵌入)来表示,提取speaker embedding有很多方式,包括使用预训练身份编码器和从后验分布中采样,还有许多工作致力于改进提取speaker embedding的方法。

3、另一类分离语音中身份和内容信息的方法是使用normalizing flow(标准化流),利用可逆的流来去除身份信息,再在正向解码过程中添加speaker embedding得到转换后的语音。

4、还有一类方法是通过使用自监督语义特征来实现信息分离,如vq-wav2vec和hubert特征,很多之前的方案表明这些特征只包含少量的身份信息,相关技术将这些特征引入auto-encoder架构,或是用复杂的自回归语言模型,或是使用vocoder(判别器);提供身份信息同样是依靠speaker embedding。

5、发明人认为,该方案的编码方式是单向的,即无法通过编码后的结果恢复原来的编码,这使得其只能用于语音识别等特定任务中,而无法用于例如语音生成任务中。


技术实现思路

1、本发明实施例提供了一种语音转换方法及语音转换模型的训练方法、电子设备和存储介质,用于至少解决上述技术问题之一。

2、第一方面,本发明实施例提供了一种语音转换方法,包括:使用预训练模型从源语音中提取语义特征;从引用语音中提取梅尔频谱特征,并使用一层卷积神经网络对所述梅尔频谱特征进行编码得到引用特征;将所述语义特征经过两个语义编码器,其中,两个语义编码器之间还包括辅助特征适配器,所述辅助特征适配器用于根据第一个语义编码器的输出进行ppe的预测;利用判别器对第二个语义编码器的输出进行上采样得到最终语音;其中,每个语义编码器均包括两个构词块,每个构词块包括自注意力模块、交叉注意力模块、卷积层和投影层,所述交叉注意力模块用于引入所述引用特征。

3、第二方面,本发明实施例提供了一种语音转换型的训练方法,其中,所述语音转换模型包括预训练模型,两个语义编码器,辅助特征适配器以及判别器,包括:将同一说话人的单个语音篇章分成第一片段和第二片段,其中,所述第一片段为从随机起点开始剪切的长度在预设长度阈值内随机变化的片段,所述第二片段为所述单个语音篇章中除了所述第一片段后剩余的部分;从所述第一片段中提取用于提供说话人信息的梅尔频谱;将所述第二片段输入至预训练模型以提取语义特征;使用第一个语义编码器的输出预测ppe,将真实ppe添加至所述第一个语义编码器的输出中,以辅助重建波形;计算判别器损耗并利用所述判别器损耗训练所述语音转换模型

4、第三方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项语音转换方法或语音转换模型的训练方法。

5、第四方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项语音转换方法或语音转换模型的训练方法。

6、第五方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项语音转换方法或语音转换模型的训练方法。

7、本申请的方案通过强大的位置无关交叉注意机制从引用语音中学习并纳入说话人音色,然后以非自回归的方式从hubert语义特征重建波形,以简洁设计增强了其训练稳定性和语音转换性能。进一步地,本申请地方案在生成高质量语音方面具有优越性,与目标引用语音的相似度更高,即使是非常短的引用语音也不例外。



技术特征:

1.一种语音转换方法,包括:

2.根据权利要求1所述的方法,其中,所述预训练模型为hubert模型。

3.根据权利要求1所述的方法,其中,所述判别器为hifigan。

4.根据权利要求1所述的方法,其中,所述交叉注意力模块为与位置无关的交叉注意力模块。

5.一种语音转换模型的训练方法,其中,所述语音转换模型包括预训练模型,两个语义编码器,辅助特征适配器以及判别器,包括:

6.根据权利要求5所述的方法,其中,所述判别器为hifigan,所述判别器损耗为真实波形与合成波形之间的重建损耗、hifigan的鉴别器中间输出的l1特征匹配损失、第二个语义编码器的输出与目标梅尔频谱图之间的l1距离、以l1形式计算的真实ppe与辅助特征适配器输出的ppe之间的损失以及l2形式的对抗损失的加权和。

7.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6任一项所述方法的步骤。

8.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至6任一项所述方法的步骤。


技术总结
本发明公开语音转换方法及语音转换模型的训练方法、电子设备和存储介质,其中语音转换方法包括:使用预训练模型从源语音中提取语义特征;从引用语音中提取梅尔频谱特征,并使用一层卷积神经网络对所述梅尔频谱特征进行编码得到引用特征;将所述语义特征经过两个语义编码器,其中,两个语义编码器之间还包括辅助特征适配器,所述辅助特征适配器用于根据第一个语义编码器的输出进行PPE的预测;利用判别器对第二个语义编码器的输出进行上采样得到最终语音;其中,每个语义编码器均包括两个构词块,每个构词块包括自注意力模块、交叉注意力模块、卷积层和投影层,所述交叉注意力模块用于引入所述引用特征。

技术研发人员:俞凯,李俊杰,郭奕玮,陈谐
受保护的技术使用者:思必驰科技股份有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!