并行神经文本到语音转换的制作方法

文档序号：24689733发布日期：2021-04-16 10:17阅读：来源：国知局

技术特征：
1.用于使用包括编码器和非自回归解码器的文本到语音tts系统从输入文本合成语音的计算机实现的方法，所述方法包括：使用所述tts系统的包括一个或多个卷积层的编码器将所述输入文本编码成包括一组键表示和一组值表示的隐藏表示；使用所述tts系统的所述非自回归解码器对所述隐藏表示进行解码，所述非自回归解码器包括：注意力块，所述注意力块使用位置编码和所述一组键表示来为每个时间步生成上下文表示，所述上下文表示作为输入被提供给多个解码器块中的第一解码器块；以及所述多个解码器块，其中解码器块包括：非因果卷积块，如果所述非因果卷积块是多个解码器块中的所述第一解码器块，则接收所述上下文表示作为输入，如果所述非因果卷积块是多个解码器块中的第二解码器块或后续解码器块，则接收从先前解码器块输出的解码器块作为输入，并输出包括查询和中间输出的解码器块输出；以及注意力块，所述注意力块使用位置编码和从所述非因果卷积块输出的查询来计算与所述中间输出组合以创建用于解码器块的解码器块输出的上下文表示；以及使用一组解码器块输出来生成表示所述输入文本的一组音频表示帧。2.如权利要求1所述的计算机实现的方法，其中，所述多个解码器块的所述注意力块通过执行以下步骤来计算上下文表示：使用来自所述解码器块的所述非因果卷积块的每时间步查询和来自所述编码器的每时间步键表示来计算注意力权重；以及从所述编码器获得作为一个或多个值表示的加权平均的上下文表示。3.如权利要求1所述的计算机实现的方法，其中，所述多个解码器块的所述注意力块包括执行以下步骤的注意力掩蔽层：对于来自所述非因果卷积块的查询，在以目标位置为中心的固定窗口上计算注意力权重的柔性最大值，其中所述目标位置被计算为与所述查询的时间步索引相关。4.如权利要求1所述的计算机实现的方法，其中，所述注意力块使用所述位置编码来影响注意力对齐加权。5.如权利要求1所述的计算机实现的方法，其中，所述tts系统还包括声码器，并且所述方法还包括：使用所述声码器将所述一组音频表示帧转换为表示所述输入文本的合成语音的信号。6.如权利要求5所述的计算机实现的方法，其中，所述声码器包括经无蒸馏地训练的声码器解码器，所述声码器解码器包括逆自回归流(iaf)。7.如权利要求6所述的计算机实现的方法，其中，无蒸馏地训练所述声码器解码器的步骤包括：使用所述声码器的编码器来引导所述声码器解码器的训练，并且与所述声码器解码器一起训练所述编码器。8.如权利要求5所述的计算机实现的方法，其中，还包括：完全并行实现所述tts系统。9.非暂时性计算机可读介质或媒介，包括一个或多个指令序列，所述一个或多个指令
序列在由一个或多个处理器执行时使得执行以下步骤：使用包括文本到语音(tts)系统的一个或多个卷积层的编码器将输入文本编码成包括一组键表示和一组值表示的隐藏表示；使用所述tts系统的非自回归解码器对所述隐藏表示进行解码，所述非自回归解码器包括：注意力块，所述注意力块使用位置编码和所述一组键表示来为每个时间步生成上下文表示，所述上下文表示作为输入被提供给多个解码器块中的第一解码器块；以及所述多个解码器块，其中解码器块包括：非因果卷积块，如果所述非因果卷积块是多个解码器块中的所述第一解码器块，则接收所述上下文表示作为输入，如果所述非因果卷积块是多个解码器块中的第二解码器块或后续解码器块，则接收从先前解码器块输出的解码器块作为输入，并输出包括查询和中间输出的解码器块输出；以及注意力块，所述注意力块使用位置编码和从所述非因果卷积块输出的查询来计算与所述中间输出组合以创建用于解码器块的解码器块输出的上下文表示；以及使用一组解码器块输出来生成表示所述输入文本的一组音频表示帧。10.如权利要求9所述的非暂时性计算机可读介质或媒介，其中，所述多个解码器块的所述注意力块通过执行以下步骤来计算上下文表示：使用来自所述解码器块的所述非因果卷积块的每时间步查询和来自所述编码器的每时间步键表示来计算注意力权重；以及从所述编码器获得作为一个或多个值表示的加权平均的上下文表示。11.如权利要求9所述的非暂时性计算机可读介质或媒介，其中，所述多个解码器块的所述注意力块包括执行以下步骤的注意力掩蔽层：对于来自所述非因果卷积块的查询，在以目标位置为中心的固定窗口上计算注意力权重的柔性最大值，其中所述目标位置被计算为与所述查询的时间步索引相关。12.如权利要求9所述的非暂时性计算机可读介质或媒介，其中，还包括一个或多个指令序列，所述一个或多个指令序列在由一个或多个处理器执行时使得执行以下步骤：使用声码器将所述一组音频表示帧转换为表示所述输入文本的合成语音的信号。13.如权利要求12所述的非暂时性计算机可读介质或媒介，其中，所述声码器包括经无蒸馏地训练的声码器解码器，所述声码器解码器包括经无蒸馏地训练的逆自回归流(iaf)。14.如权利要求13所述的非暂时性计算机可读介质或媒介，其中，无蒸馏地训练所述声码器解码器的步骤包括：使用所述声码器的编码器来引导所述声码器解码器的训练，并且与所述声码器解码器一起训练所述编码器。15.计算系统，包括：一个或多个处理器；以及非暂时性计算机可读介质或媒介，包括一个或多个指令序列，所述一个或多个指令序列在由一个或多个处理器执行时使得执行以下步骤：使用包括文本到语音(tts)系统的一个或多个卷积层的编码器将输入文本编码成包括一组键表示和一组值表示的隐藏表示；
使用所述tts系统的非自回归解码器对所述隐藏表示进行解码，所述非自回归解码器包括：注意力块，所述注意力块使用位置编码和所述一组键表示来为每个时间步生成上下文表示，所述上下文表示作为输入被提供给多个解码器块中的第一解码器块；以及所述多个解码器块，其中解码器块包括：非因果卷积块，如果所述非因果卷积块是多个解码器块中的所述第一解码器块，则接收所述上下文表示作为输入，如果所述非因果卷积块是多个解码器块中的第二解码器块或后续解码器块，则接收从先前解码器块输出的解码器块作为输入，并输出包括查询和中间输出的解码器块输出；以及注意力块，所述注意力块使用位置编码和从所述非因果卷积块输出的查询来计算与所述中间输出组合以创建用于解码器块的解码器块输出的上下文表示；以及使用一组解码器块输出来生成表示所述输入文本的一组音频表示帧。16.如权利要求15所述的计算系统，其中，所述多个解码器块的所述注意力块通过执行以下步骤来计算上下文表示：使用来自所述解码器块的所述非因果卷积块的每时间步查询和来自所述编码器的每时间步键表示来计算注意力权重；以及从所述编码器获得作为一个或多个值表示的加权平均的上下文表示。17.如权利要求15所述的计算系统，其中，所述多个解码器块的所述注意力块包括执行以下步骤的注意力掩蔽层：对于来自所述非因果卷积块的查询，在以目标位置为中心的固定窗口上计算注意力权重的柔性最大值，其中所述目标位置被计算为与所述查询的时间步索引相关。18.如权利要求15所述的计算系统，其中，所述tts系统还包括声码器，以及其中，所述非暂时性计算机可读介质或媒介还包括一个或多个指令序列，所述一个或多个指令序列在由一个或多个处理器执行时使得执行以下步骤：使用声码器将所述一组音频表示帧转换为表示所述输入文本的合成语音的信号。19.如权利要求18所述的计算系统，其中，所述声码器包括声码器解码器，所述声码器解码器包括逆自回归流(iaf)，所述声码器解码器通过使用所述声码器的编码器来引导所述声码器解码器的训练而被无蒸馏地训练，并且所述编码器与所述声码器解码器一起被训练。20.如权利要求18所述的计算系统，还包括：完全并行执行所述tts系统。

完整全部详细技术资料下载

当前第2页1 2 3