语音合成处理方法及其装置、设备、介质与流程

文档序号:36937608发布日期:2024-02-02 22:05阅读:50来源:国知局
语音合成处理方法及其装置、设备、介质与流程

本技术涉及语音合成,尤其涉及一种语音合成处理方法及其相应的装置、计算机设备、计算机可读存储介质。


背景技术:

1、随着时代的发展,个性化语音合成的需求不断增加。这种技术可以为智能家居、智能医疗和智能客服等领域提供更加智能、个性化的语音服务。通过定制化的语音效果,个性化语音合成可以提升用户体验、增强品牌形象,并为用户提供更加智能、高效的服务。随着技术的进步,个性化语音合成的应用场景将进一步拓展,为人们的生活和工作带来更多便利和创新。

2、传统技术中,通常采用个性化语音合成模型以输入文本合成对应个性化语音,为了使得个性化语音合成模型具备这样的能力,需要预先对该个性化合成模型进行训练,而训练所需的音频数据通常由录音人录制而成,然而普遍录音人都不具备专业录音棚这样安静的录音环境条件,导致录制出的音频数据的音质低,存在噪声、咬字不清、人声发音不清楚等问题,进而受限于使用这样的音频数据训练出的个性化语音合成模型的能力有限,无法合成高质量的个性化语音。

3、鉴于传统技术的不足,本技术人长期从事相关领域的研究,为解决数据库信息处理领域业内难题,故另辟蹊径。


技术实现思路

1、本技术的首要目的在于解决上述问题至少之一而提供一种语音合成处理方法及其相应的装置、计算机设备、计算机可读存储介质。

2、为满足本技术的各个目的,本技术采用如下技术方案:

3、适应本技术的目的之一而提供的一种语音合成处理方法,包括如下步骤:

4、获取多个第一文本及其相对应的音色素材语音数据,根据所述第一文本的音素序列及其中各个音素在该第一文本的音色素材语音数据中的时长信息、音高、音量,构造出第一训练集;

5、获取多个第二文本及其相对应的音频数据进行语音增强处理后得到的个性化语音数据,根据所述第二文本的音素序列及其中各个音素在该第二文本的个性化语音数据中的时长信息、音高、音量,构造出第二训练集;

6、采用所述第一训练集预训练语音合成模型至收敛状态,获得基础语音合成模型;

7、采用所述第二训练集微调训练所述基础语音合成模型至收敛状态,获得个性化语音合成模型。

8、进一步的实施例中,获取多个第二文本及其相对应的音频数据进行语音增强处理后得到的个性化语音数据,包括如下步骤:

9、响应语音录制事件,获取所述语音录制事件对应产生的音频数据;

10、采用预设的语音识别模型识别所述音频数据,获得所述音频数据中人声发音相对应的第二文本。

11、进一步的实施例中,获取多个第一文本及其相对应的音色素材语音数据,包括如下步骤:

12、根据多个预设语种,获取每个预设语种相对应的多个第一文本;

13、采用预设的语音生成模型,根据指定的音色生成所述第一文本的音色素材语音数据。

14、进一步的实施例中,根据所述第一文本的音素序列及其中各个音素在该第一文本的音色素材语音数据中的时长信息、音高、音量,构造出第一训练集,包括如下步骤:

15、获取所述第一文本、该第一文本的音色素材语音数据、发音词典;

16、对所述第一文本进行文本预处理,根据所述发音词典对文本预处理后的第一文本进行字音转换,获得相应的音素序列;

17、将所述音素序列中各个音素与在所述音色素材语音数据中的语音数据片段进行对齐,获得各个音素在该音色素材语音数据中的时长信息。

18、进一步的实施例中,获取多个第二文本及其相对应的音频数据进行语音增强处理后得到的个性化语音数据,包括如下步骤:

19、对所述第二文本的音频数据进行语音降噪处理,获得第一增强语音数据;

20、对所述第一增强语音数据进行人声增强处理,获得第二增强语音数据;

21、对所述第二增强语音数据进行语音切分处理,获得第三增强语音数据;

22、对所述第三语音增强数据进行音量均衡处理,获得个性化语音数据。

23、进一步的实施例中,对所述第二增强语音数据进行语音切分处理,获得第三增强语音数据,包括如下步骤:

24、识别出第二增强语音数据中的静音片段;

25、以所述静音片段为界,对所述第二增强语音数据进行切分,获得相应的多个人声发音的语音数据片段;

26、保留每个所述语音数据片段前后对应预设时长的静音片段而提取出各个所述语音数据片段,构成第三增强语音数据。

27、进一步的实施例中,获得个性化语音合成模型之后,包括如下步骤:

28、响应个性化语音合成请求,获取个性化语音合成请求携带的提交文本;

29、对所述提交文本进行合法性校验,当确认该提交文本通过合法性校验时,确定出该提交文本对应的音素序列,采用所述个性化语音合成模型根据音素序列合成相应的个性化语音。

30、另一方面,适应本技术的目的之一而提供的一种语音合成处理装置,包括第一训练集构造模块、第二训练集构造模块、模型预训练模块以及模型微调训练模块,其中,第一训练集构造模块,用于获取多个第一文本及其相对应的音色素材语音数据,根据所述第一文本的音素序列及其中各个音素在该第一文本的音色素材语音数据中的时长信息、音高、音量,构造出第一训练集;第二训练集构造模块,用于获取多个第二文本及其相对应的音频数据进行语音增强处理后得到的个性化语音数据,根据所述第二文本的音素序列及其中各个音素在该第二文本的个性化语音数据中的时长信息、音高、音量,构造出第二训练集;模型预训练模块,用于采用所述第一训练集预训练语音合成模型至收敛状态,获得基础语音合成模型;模型微调训练模块,用于采用所述第二训练集微调训练所述基础语音合成模型至收敛状态,获得个性化语音合成模型。

31、进一步的实施例中,所述第二训练集构造模块,包括:事件响应子模块,用于响应语音录制事件,获取所述语音录制事件对应产生的音频数据;语音识别子模块,用于采用预设的语音识别模型识别所述音频数据,获得所述音频数据中人声发音相对应的第二文本。

32、进一步的实施例中,所述第一训练集构造模块,包括:多语种获取子模块,用于根据多个预设语种,获取每个预设语种相对应的多个第一文本;语音生成子模块,用于采用预设的语音生成模型,根据指定的音色生成所述第一文本的音色素材语音数据。

33、进一步的实施例中,所述第一训练集构造模块,包括:数据获取子模块,用于获取所述第一文本、该第一文本的音色素材语音数据、发音词典;音色序列确定子模块,用于对所述第一文本进行文本预处理,根据所述发音词典对文本预处理后的第一文本进行字音转换,获得相应的音素序列;音文对齐子模块,用于将所述音素序列中各个音素与在所述音色素材语音数据中的语音数据片段进行对齐,获得各个音素在该音色素材语音数据中的时长信息。

34、进一步的实施例中,所述第二训练集构造模块,包括:语音降噪子模块,用于对所述第二文本的音频数据进行语音降噪处理,获得第一增强语音数据;人声增强子模块,用于对所述第一增强语音数据进行人声增强处理,获得第二增强语音数据;语音切分子模块,用于对所述第二增强语音数据进行语音切分处理,获得第三增强语音数据;音量均衡子模块,用于对所述第三语音增强数据进行音量均衡处理,获得个性化语音数据。

35、进一步的实施例中所述语音切分子模块,包括:静音识别单元,用于识别出第二增强语音数据中的静音片段;片段切分单元,用于以所述静音片段为界,对所述第二增强语音数据进行切分,获得相应的多个人声发音的语音数据片段;片段提取单元,用于保留每个所述语音数据片段前后对应预设时长的静音片段而提取出各个所述语音数据片段,构成第三增强语音数据。

36、进一步的实施例中,所述模型微调训练模块之后,包括:请求响应子模块,用于响应个性化语音合成请求,获取个性化语音合成请求携带的提交文本;语音合成子模块,用于对所述提交文本进行合法性校验,当确认该提交文本通过合法性校验时,确定出该提交文本对应的音素序列,采用所述个性化语音合成模型根据音素序列合成相应的个性化语音。

37、又一方面,适应本技术的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本技术所述的语音合成处理方法的步骤。

38、又一方面,适应本技术的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的语音合成处理方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。

39、本技术的技术方案存在多方面优势,包括但不限于如下各方面:

40、本技术通过获取多个第一文本及其相对应的音色素材语音数据,根据第一文本的音素序列及其中各个音素在该第一文本的音色素材语音数据中的时长信息、音高、音量,构造出第一训练集。获取多个第二文本及其相对应的音频数据进行语音增强处理后得到的个性化语音数据,根据第二文本的音素序列及其中各个音素在该第二文本的个性化语音数据中的时长信息、音高、音量,构造出第二训练集。采用第一训练集预训练语音合成模型至收敛状态,获得基础语音合成模型。采用第二训练集微调训练所述基础语音合成模型至收敛状态,获得个性化语音合成模型。一方面,在得出个性化语音合成模型的预训练和微调训练过程中,均建模出音素序列中各个音素与相应的语音中影响音质的核心要素即时长信息、音高、音量之间的关系,使得个性化语音合成模型能够确保合成语音的准确度。另一方面,音频数据经过语音增强处理,能够有效提升音频数据的人声发音的自然度和清晰度,减少音频数据中的干扰语音信号,能够降低第二文本的音频数据的音质门槛,从而相应减低对产出该音频数据的环境条件的要求,并且,依据语音增强处理后的音频数据训练得出的个性化语音合成模型,能够合成高质量的个性化语音。再一方面,由于先对语言合成模型进行预训练至收敛状态,因此在进一步的微调训练只需少量的第二文本及其相对应的个性化语音数据即可,减轻准备训练数据的压力。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1