本技术涉及人工智能及音频,特别是涉及一种文本朗读风格生成模型的训练方法、文本朗读风格生成方法、计算机设备和存储介质。
背景技术:
1、随着人工智能及音频技术的发展,出现了获取文本朗读风格信息的相关技术,文本朗读风格在整体上可以包括高兴、生气、悲伤、惊讶、害怕、厌恶等情感类别及各情感类别对应的情感强度,文本朗读风格信息可用于提升语音合成系统的语音表现力。
2、在目前技术中提供的用于获取文本朗读风格信息的相关方法中,需要以特定说话人在录音棚录制的音频数据为基础进行模型训练及文本朗读风格信息预测,其存在文本朗读风格受限于特定说话人而影响语音合成系统的语音表现力的问题。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种文本朗读风格生成模型的训练方法、文本朗读风格生成方法、计算机设备和存储介质。
2、第一方面,本技术提供了一种文本朗读风格生成模型的训练方法。所述方法包括:
3、获取多个文本朗读音频句样本及多个句文本样本,其中一所述文本朗读音频句样本和一所述句文本样本具有对应关系;
4、获取所述多个文本朗读音频句样本的多个音频特征,以及获取所述多个文本朗读音频句样本的平均说话人朗读特征;
5、将所述多个句文本样本输入待训练的文本编码器,获取所述待训练的文本编码器输出的分别对应于每个所述句文本样本的第一文本朗读风格预测信息;
6、将所述多个文本朗读音频句样本的多个音频特征以及所述平均说话人朗读特征输入待训练的音频编码器,获取所述待训练的音频编码器输出的分别对应于每个所述文本朗读音频句样本的第二文本朗读风格预测信息;
7、基于各第一文本朗读风格预测信息与各第二文本朗读风格预测信息的相似度,训练所述待训练的文本编码器和待训练的音频编码器;当具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度大于或等于第一相似度阈值,且不具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度小于第二相似度阈值时,得到经训练的文本编码器作为文本朗读风格生成模型。
8、在其中一个实施例中,所述获取多个文本朗读音频句样本及多个句文本样本,包括:
9、获取文本朗读音频数据和对应的文本数据;所述文本朗读音频数据和对应的文本数据来自文本朗读音频发布平台;根据所述文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本;根据所述多个文本朗读音频句样本以及所述对应的文本数据,获取每个所述文本朗读音频句样本对应的句文本样本。
10、在其中一个实施例中,所述根据所述文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本,包括:对所述文本朗读音频数据进行音量均衡处理,得到音量均衡处理后的文本朗读音频数据;根据所述音量均衡处理后的文本朗读音频数据,获取满足预设音频句时长条件的多个文本朗读音频句样本。
11、在其中一个实施例中,所述获取多个文本朗读音频句样本及多个句文本样本,包括:获取文本朗读音频数据和对应的文本数据;所述文本朗读音频数据和对应的文本数据来自文本朗读音频发布平台;根据所述对应的文本数据,获取多个句文本样本;根据所述多个句文本样本以及所述文本朗读音频数据,获取所述多个文本朗读音频句样本。
12、在其中一个实施例中,所述根据所述多个句文本样本以及所述文本朗读音频数据,获取所述多个文本朗读音频句样本,包括:对所述文本朗读音频数据进行音量均衡处理,得到音量均衡处理后的文本朗读音频数据;根据所述多个句文本样本以及所述音量均衡处理后的文本朗读音频数据,获取所述多个文本朗读音频句样本。
13、在其中一个实施例中,所述获取文本朗读音频数据,包括:获取来自所述文本朗读音频发布平台的原始文本朗读音频数据;确定所述原始文本朗读音频数据的语种分布信息、说话人特性信息和伴奏信息;若根据所述语种分布信息判断所述原始文本朗读音频数据满足预设的语种分布条件,且根据所述说话人特性信息判断所述原始文本朗读音频数据满足预设的说话人条件,以及根据所述伴奏信息确定所述原始文本朗读音频数据满足预设的伴奏条件,则将所述原始文本朗读音频数据确定为所述文本朗读音频数据。
14、在其中一个实施例中,所述获取所述多个文本朗读音频句样本的平均说话人朗读特征,包括:根据所述多个文本朗读音频句样本的平均基频和/或平均语速,得到所述多个文本朗读音频句样本的平均说话人朗读特征;其中所述平均基频由所述多个文本朗读音频句样本的多个基频序列进行平均处理后得到,所述平均语速由所述多个文本朗读音频句样本对应的朗读总时长及所述多个句文本样本对应的文本总字数得到。
15、在其中一个实施例中,所述将所述多个句文本样本输入待训练的文本编码器,包括:针对所述多个句文本样本中的每一句文本样本,按照第一预设比例对句文本样本中的文本内容进行掩模处理,得到多个掩模处理后的句文本样本;将所述多个掩模处理后的句文本样本输入待训练的文本编码器;和/或,所述将所述多个文本朗读音频句样本的多个音频特征以及所述平均说话人朗读特征输入待训练的音频编码器,包括:针对所述多个音频特征中的每一音频特征,按照第二预设比例对音频特征中的特征内容进行掩模处理,得到多个掩模处理后的音频特征;将所述多个文本朗读音频句样本的多个掩模处理后的音频特征以及所述平均说话人朗读特征输入待训练的音频编码器。
16、第二方面,本技术提供了一种文本朗读风格生成方法。所述方法包括:获取待朗读的文本;将所述待朗读的文本输入经训练的文本朗读风格生成模型;所述经训练的文本朗读风格生成模型根据如上任一实施例所述的方法训练得到;获取所述经训练的文本朗读风格生成模型输出的所述待朗读的文本对应的文本朗读风格信息。
17、第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
18、获取多个文本朗读音频句样本及多个句文本样本,其中一所述文本朗读音频句样本和一所述句文本样本具有对应关系;获取所述多个文本朗读音频句样本的多个音频特征,以及获取所述多个文本朗读音频句样本的平均说话人朗读特征;将所述多个句文本样本输入待训练的文本编码器,获取所述待训练的文本编码器输出的分别对应于每个所述句文本样本的第一文本朗读风格预测信息;将所述多个文本朗读音频句样本的多个音频特征以及所述平均说话人朗读特征输入待训练的音频编码器,获取所述待训练的音频编码器输出的分别对应于每个所述文本朗读音频句样本的第二文本朗读风格预测信息;基于各第一文本朗读风格预测信息与各第二文本朗读风格预测信息的相似度,训练所述待训练的文本编码器和待训练的音频编码器;当具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度大于或等于第一相似度阈值,且不具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度小于第二相似度阈值时,得到经训练的文本编码器作为文本朗读风格生成模型。
19、第四方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
20、获取待朗读的文本;将所述待朗读的文本输入经训练的文本朗读风格生成模型;所述经训练的文本朗读风格生成模型根据如上任一实施例所述的方法训练得到;获取所述经训练的文本朗读风格生成模型输出的所述待朗读的文本对应的文本朗读风格信息。
21、第五方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
22、获取多个文本朗读音频句样本及多个句文本样本,其中一所述文本朗读音频句样本和一所述句文本样本具有对应关系;获取所述多个文本朗读音频句样本的多个音频特征,以及获取所述多个文本朗读音频句样本的平均说话人朗读特征;将所述多个句文本样本输入待训练的文本编码器,获取所述待训练的文本编码器输出的分别对应于每个所述句文本样本的第一文本朗读风格预测信息;将所述多个文本朗读音频句样本的多个音频特征以及所述平均说话人朗读特征输入待训练的音频编码器,获取所述待训练的音频编码器输出的分别对应于每个所述文本朗读音频句样本的第二文本朗读风格预测信息;基于各第一文本朗读风格预测信息与各第二文本朗读风格预测信息的相似度,训练所述待训练的文本编码器和待训练的音频编码器;当具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度大于或等于第一相似度阈值,且不具有对应关系的第一文本朗读风格预测信息与第二文本朗读风格预测信息的相似度小于第二相似度阈值时,得到经训练的文本编码器作为文本朗读风格生成模型。
23、第六方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
24、获取待朗读的文本;将所述待朗读的文本输入经训练的文本朗读风格生成模型;所述经训练的文本朗读风格生成模型根据如上任一实施例所述的方法训练得到;获取所述经训练的文本朗读风格生成模型输出的所述待朗读的文本对应的文本朗读风格信息。
25、上述文本朗读风格生成模型的训练方法、文本朗读风格生成方法、计算机设备和存储介质,获取多个文本朗读音频句样本及多个句文本样本,其中一文本朗读音频句样本和句文本样本具有对应关系,获取该多个文本朗读音频句样本的多个音频特征,以及获取多个文本朗读音频句样本的平均说话人朗读特征,将该多个句文本样本输入待训练的文本编码器,获取其输出的分别对应于每个句文本样本的第一文本朗读风格预测信息,以及将多个文本朗读音频句样本的多个音频特征以及平均说话人朗读特征输入待训练的音频编码器,获取其输出的分别对应于每个文本朗读音频句样本的第二文本朗读风格预测信息,基于各第一、第二文本朗读风格预测信息的相似度训练文本编码器和音频编码器,当具有对应关系的第一与第二文本朗读风格预测信息的相似度大于或等于第一相似度阈值,且不具有对应关系的第一与第二文本朗读风格预测信息的相似度小于第二相似度阈值时,得到经训练的文本编码器作为文本朗读风格生成模型。该方案的训练数据可以来自文本朗读音频发布平台,不依赖于特定说话人在录音棚录制的音频数据,可显著节约训练数据获取成本,及提取平均说话人朗读特征进行基于跨模态的模型训练,一方面使经训练模型预测的文本朗读风格信息可以更好地与说话人风格解耦,将该文本朗读风格信息接入到不同说话人的语音合成系统中也可得到更加一致的情感表现,提升语音合成系统的语音表现力,另一方面在模型应用时仅需输入待朗读的文本便可获得文本朗读风格信息,便于接入语音合成系统指导其合成高表现力的语音。