1.一种用于通过多说话者神经文本到语音(tts)合成来生成语音的方法,包括:
接收文本输入;
通过至少一个说话者模型,提供目标说话者的说话者潜在空间信息;
通过声学特征预测器,基于所述文本输入和所述说话者潜在空间信息来预测至少一个声学特征;以及
通过神经声码器,基于所述至少一个声学特征和所述说话者潜在空间信息来生成与所述文本输入相对应的语音波形。
2.根据权利要求1所述的方法,其中,所述至少一个说话者模型包括单个说话者模型。
3.根据权利要求1所述的方法,其中,所述至少一个说话者模型包括第一说话者模型和第二说话者模型,并且所述提供包括:
通过所述第一说话者模型来提供第一说话者潜在空间信息;以及
通过所述第二说话者模型来提供第二说话者潜在空间信息。
4.根据权利要求3所述的方法,其中,
所述预测包括:基于所述文本输入和所述第一说话者潜在空间信息来预测所述至少一个声学特征,并且
所述生成包括:基于所述至少一个声学特征和所述第二说话者潜在空间信息来生成所述语音波形。
5.根据权利要求1所述的方法,其中,所述提供包括:
基于所述目标说话者的语料库来生成所述目标说话者的说话者嵌入向量;或者
从说话者嵌入向量数据库中选择所述目标说话者的说话者嵌入向量。
6.根据权利要求1所述的方法,还包括:
通过第一神经网络,基于所述至少一个声学特征来生成至少一个经变换的声学特征;以及
通过第二神经网络,基于所述说话者潜在空间信息来生成经变换的说话者潜在空间信息,并且
其中,所述生成语音波形包括:基于所述至少一个经变换的声学特征和所述经变换的说话者潜在空间信息的组合来生成所述语音波形。
7.根据权利要求1所述的方法,还包括:
基于所述目标说话者的语料库来分别更新所述至少一个说话者模型、所述声学特征预测器和所述神经声码器中的至少一项;和/或
基于所述目标说话者的所述语料库来联合更新所述至少一个说话者模型、所述声学特征预测器和所述神经声码器中的任何两项或更多项。
8.根据权利要求3所述的方法,还包括:
基于所述目标说话者的语料库来联合更新所述第一说话者模型和所述声学特征预测器;和/或
基于所述目标说话者的所述语料库来联合更新所述第二说话者模型和所述神经声码器。
9.根据权利要求1所述的方法,其中,
所述至少一个说话者模型、所述声学特征预测器和所述神经声码器中的至少一项是基于多个说话者的多个语料库来分别预训练的,和/或
所述至少一个说话者模型、所述声学特征预测器和所述神经声码器中的任何两项或更多项是基于所述多个说话者的所述多个语料库来联合预训练的。
10.根据权利要求3所述的方法,其中,
所述第一说话者模型和所述声学特征预测器是基于多个说话者的多个语料库来联合预训练的,和/或
所述第二说话者模型和所述神经声码器是基于所述多个说话者的所述多个语料库来联合预训练的。
11.根据权利要求9或10所述的方法,其中,
所述多个语料库是基于内容覆盖、说话者多样性和风格多样性中的至少一项来准备的。
12.一种多说话者神经文本到语音(tts)系统,包括:
说话者信息提取器,被配置用于通过至少一个说话者模型来提供目标说话者的说话者潜在空间信息;
声学特征预测器,被配置用于基于文本输入和所述说话者潜在空间信息来预测至少一个声学特征;以及
神经声码器,被配置用于基于所述至少一个声学特征和所述说话者潜在空间信息来生成与所述文本输入相对应的语音波形。
13.根据权利要求12所述的多说话者神经tts系统,其中,所述至少一个说话者模型包括:
第一说话者模型,被配置用于提供所述说话者潜在空间信息中的第一说话者潜在空间信息;以及
第二说话者模型,被配置用于提供所述说话者潜在空间信息中的第二说话者潜在空间信息。
14.根据权利要求13所述的多说话者神经tts系统,其中,
所述声学特征预测器被配置用于基于所述文本输入和所述第一说话者潜在空间信息来预测所述至少一个声学特征,并且
所述神经声码器被配置用于基于所述至少一个声学特征和所述第二说话者潜在空间信息来生成所述语音波形。
15.根据权利要求12所述的多说话者神经tts系统,其中,
所述至少一个说话者模型、所述声学特征预测器和所述神经声码器中的至少一项是基于多个说话者的多个语料库来分别预训练的,和/或
所述至少一个说话者模型、所述声学特征预测器和所述神经声码器中的任何两项或更多项是基于所述多个说话者的所述多个语料库来联合预训练的。
16.根据权利要求13所述的多说话者神经tts系统,其中,
所述第一说话者模型和所述声学特征预测器是基于多个说话者的多个语料库来联合预训练的,和/或
所述第二说话者模型和所述神经声码器是基于所述多个说话者的所述多个语料库来联合预训练的。
17.根据权利要求12所述的多说话者神经tts系统,其中,
所述至少一个说话者模型、所述声学特征预测器和所述神经声码器中的至少一项是基于所述目标说话者的语料库来分别更新的,和/或
所述至少一个说话者模型、所述声学特征预测器和所述神经声码器中的任何两项或更多项是基于所述目标说话者的所述语料库来联合更新的。
18.根据权利要求13所述的多说话者神经tts系统,其中,
所述第一说话者模型和所述声学特征预测器是基于所述目标说话者的语料库来联合更新的,和/或
所述第二说话者模型和所述神经声码器是基于所述目标说话者的所述语料库来联合更新的。
19.一种用于通过多说话者神经文本到语音(tts)合成来生成语音的装置,包括:
文本输入接收模块,用于接收文本输入;
说话者潜在空间信息提供模块,用于通过至少一个说话者模型,提供目标说话者的说话者潜在空间信息;
声学特征预测模块,用于通过声学特征预测器,基于所述文本输入和所述说话者潜在空间信息来预测至少一个声学特征;以及
语音波形生成模块,用于通过神经声码器,基于所述至少一个声学特征和所述说话者潜在空间信息来生成与所述文本输入相对应的语音波形。
20.一种用于通过多说话者神经文本到语音(tts)合成来生成语音的装置,包括:
至少一个处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述至少一个处理器:
接收文本输入,
通过至少一个说话者模型,提供目标说话者的说话者潜在空间信息,
通过声学特征预测器,基于所述文本输入和所述说话者潜在空间信息来预测至少一个声学特征,以及
通过神经声码器,基于所述至少一个声学特征和所述说话者潜在空间信息来生成与所述文本输入相对应的语音波形。