语音合成的可学习速度控制的制作方法

文档序号：31833606发布日期：2022-10-18 20:01阅读：来源：国知局

技术特征：
1.一种合成具有一种或多种速度的语音的方法，其特征在于，包括：由计算机对与一个或多个音位相关联的、与说话语音相对应的上下文进行编码；由所述计算机基于已编码的上下文将所述一个或多个音位与一个或多个目标声学帧对准；由所述计算机利用经过对准的音位和所述目标声学帧递归地生成一个或多个梅尔语谱图特征；及由所述计算机使用生成的梅尔语谱图特征合成与所述说话语音相对应的给定速度的语音样本。2.根据权利要求1所述的方法，其特征在于，所述编码包括：接收所述一个或多个音位的序列；及输出一个或多个隐藏状态的序列，所述序列包含与接收的音位的序列相关联的按顺序排列的表示。3.根据权利要求2所述的方法，其特征在于，将所述一个或多个音位与一个或多个目标声学帧对准包括：将输出的所述隐藏状态的序列与所述说话语音对应的信息进行串接；使用全连接层对经过串接的输出序列进行降维；基于每个音位的速率来对经过降维的输出序列进行扩展；及将经过扩展的输出序列与所述目标声学帧对准。4.根据权利要求3所述的方法，其特征在于，进一步包括：将一个或多个帧对准的隐藏状态与帧级别、均方根误差值及与每个帧的相对位置进行串接。5.根据权利要求4所述的方法，其特征在于，通过对一个或多个输入音位和一个或多个声学特征执行强制对准以获得每个音位的速率。6.根据权利要求1所述的方法，其特征在于，利用经过对准的帧生成所述一个或多个梅尔语谱图特征包括：利用与所述一个或多个目标声学帧对准的一个或多个已编码隐藏状态计算注意力上下文；及对计算的注意力上下文应用卷积组+高速网络+双向门控递归神经网络cbhg技术。7.根据权利要求6所述的方法，其特征在于，与所述梅尔语谱图相关联的损失值被最小化。8.根据权利要求1所述的方法，其特征在于，生成所述一个或多个梅尔语谱图特征是由递归神经网络执行的。9.根据权利要求8所述的方法，其特征在于，所述递归神经网络的输入包括所述一个或多个音位的序列、所述一个或多个音位中每个音位的速率、均方根误差值以及说话者的标识。10.根据权利要求1所述的方法，其特征在于，所述语音样本是在没有并行数据并且没有改变所述说话语音的内容的情况下合成的。11.一种用于合成具有一种或多种速度的语音的计算机系统，其特征在于，所述计算机系统包括：一个或多个计算机可读非易失性存储介质，用于存储计算机程序代码；以及
一个或多个计算机处理器，用于访问所述计算机程序代码并且按照所述计算机程序代码的指示进行操作，所述计算机程序代码包括：编码代码，用于使所述一个或多个计算机处理器对与一个或多个音位相关联的、与说话语音相对应的上下文进行编码；对准代码，用于使所述一个或多个计算机处理器基于已编码的上下文将所述一个或多个音位与一个或多个目标声学帧对准；生成代码，用于使所述一个或多个计算机处理器利用经过对准的音位和所述目标声学帧递归地生成一个或多个梅尔语谱图特征；以及合成代码，用于使所述一个或多个计算机处理器使用生成的梅尔语谱图特征合成与所述说话语音相对应的给定速度的语音样本。12.根据权利要求11所述的计算机系统，其特征在于，所述编码代码包括：接收代码，用于使所述一个或多个计算机处理器接收所述一个或多个音位的序列；以及输出代码，用于使所述一个或多个计算机处理器输出一个或多个隐藏状态的序列，所述序列包含与接收的音位的序列相关联的按顺序排列的表示。13.根据权利要求12所述的计算机系统，其特征在于，所述对准代码包括：串接代码，用于使所述一个或多个计算机处理器将输出的所述隐藏状态的序列与所述说话语音对应的信息进行串接；应用代码，用于使所述一个或多个计算机处理器使用全连接层对串接的输出序列应用降维；扩展代码，用于使所述一个或多个计算机处理器基于每个音位的速率来对经过降维的输出序列进行扩展；以及对准代码，用于使所述一个或多个计算机处理器将经过扩展的输出序列与所述目标声学帧对准。14.根据权利要求13所述的计算机系统，其特征在于，所述串接代码用于使所述一个或多个计算机处理器将一个或多个帧对准的隐藏状态与帧级别、均方根误差值及与每个帧的相对位置进行串接。15.根据权利要求14所述的计算机系统，其特征在于，通过对一个或多个输入音位和一个或多个声学特征执行强制对准以获得每个音位的速率。16.根据权利要求11所述的计算机系统，其特征在于，所述生成代码包括：计算代码，用于使所述一个或多个计算机处理器利用与所述一个或多个目标声学帧对准的一个或多个已编码隐藏状态计算注意力上下文；以及应用代码，用于使所述一个或多个计算机处理器对计算的注意力上下文应用卷积组+高速网络+双向门控递归神经网络cbhg技术。17.根据权利要求11所述的计算机系统，其特征在于，所述生成所述一个或多个梅尔语谱图特征是由递归神经网络执行的。18.根据权利要求17所述的计算机系统，其特征在于，所述递归神经网络的输入包括所述一个或多个音位的序列、所述一个或多个音位中每个音位的速率、均方根误差值以及说话者的标识。
19.根据权利要求11所述的计算机系统，其特征在于，所述语音样本是在没有并行数据并且没有改变所述说话语音的内容的情况下合成的。20.一种非易失性计算机可读介质，其上存储有用于合成具有一种或多种速度的语音的计算机程序，其特征在于，所述计算机程序用于使一个或多个计算机处理器：对与一个或多个音位相关联的、与说话语音相对应的上下文进行编码；基于已编码的上下文将所述一个或多个音位与一个或多个目标声学帧对准；利用经过对准的音位和所述目标声学帧递归地生成一个或多个梅尔语谱图特征；及使用生成的梅尔语谱图特征合成与所述说话语音相对应的给定速度的语音样本。

技术总结
提供了一种合成具有一种或多种速度的语音的方法、计算机程序和计算机系统。对与一个或多个音位相关联的、与说话语音相对应的上下文进行编码。基于已编码的上下文将所述一个或多个音位与一个或多个目标声学帧对准。利用经过对准的音位和所述目标声学帧递归地生成一个或多个梅尔语谱图特征；及使用生成的梅尔语谱图特征合成与所述说话语音相对应的给定速度的语音样本。度的语音样本。

技术研发人员：俞承柱俞栋
受保护的技术使用者：腾讯美国有限责任公司
技术研发日：2021.02.18
技术公布日：2022/10/17

完整全部详细技术资料下载

当前第2页1 2