模型训练方法、模型应用方法和相关装置与流程

文档序号：36339694发布日期：2023-12-13 19:27阅读：33来源：国知局

本技术涉及数据处理领域，特别是涉及一种模型训练方法和相关装置。

背景技术：

1、语音合成技术是当下热门的数据处理技术之一，其作用是模拟真实的语音发音方式，基于输入的文本信息生成对应的语音信息。其中，在使用语音合成技术时，为了使得到的语音信息更加真实、贴合实际需求，语音合成方通常会根据自身的语音合成需求调节语音信息的相关参数。

2、在相关技术中，语音合成技术并不支持语音信息生成过程中的参数调节，语音合成方只能够在语音信息合成后，再调节语音信息的语调、时长等参数。

3、由于这种参数调节方式只能够在音频信息合成后进行，是基于语音信息本身来进行调节的，因此难以参考待合成的文本信息所包含的上下文信息，导致调节后的语音信息容易出现失真问题，语音合成效果较差。

技术实现思路

1、为了解决上述技术问题，本技术提供了一种模型训练方法，使训练得到的模型可以直接基于调节参数和待合成文本合成语音信息，从而使语音信息既可以满足调节需求，又可以贴合待合成文本的文本特点，提高语音合成效果。

2、本技术实施例公开了如下技术方案：

3、第一方面，本技术实施例公开了一种模型训练方法，所述方法包括：

4、获取样本文本信息集合，所述样本文本信息集合包括多个样本文本信息，所述样本文本信息具有对应的样本语音信息和样本调节参数，所述样本语音信息是基于所述样本调节参数生成的；

5、将所述多个样本文本信息分别作为目标样本文本信息，通过初始语音合成模型，根据所述目标样本文本信息生成所述目标样本文本信息对应的语音特征信息，所述语音特征信息用于标识所述目标样本文本信息在语音信息中的发音方式；

6、通过所述初始语音合成模型，根据所述目标样本文本信息对应的目标样本调节参数对所述语音特征信息进行调节，得到调节后的语音特征信息；

7、通过所述初始语音合成模型，根据所述调节后的语音特征信息生成所述目标样本文本信息对应的待定语音信息；

8、根据所述待定语音信息和所述目标样本文本信息对应的目标样本语音信息之间的差异，调节所述初始语音合成模型对应的模型参数，得到语音合成模型，所述语音合成模型用于根据待合成文本信息和所述待合成文本信息对应的调节参数合成语音信息。

9、第二方面，本技术实施例公开了一种模型应用方法，所述方法包括：

10、获取语音合成对象输入的待合成文本信息和所述待合成文本信息对应的调节参数，所述调节参数用于调节所述待合成文本信息在语音信息中的发音方式；

11、将所述待合成文本信息和所述待合成文本信息对应的调节参数输入语音合成模型，通过所述语音合成模型，生成所述待合成文本信息对应的目标语音信息；

12、向所述语音合成对象发送所述目标语音信息。

13、第三方面，本技术实施例公开了一种模型训练装置，所述装置包括获取单元、第一生成单元、第一调节单元、第二生成单元和第二调节单元：

14、所述获取单元，用于获取样本文本信息集合，所述样本文本信息集合包括多个样本文本信息，所述样本文本信息具有对应的样本语音信息和样本调节参数，所述样本语音信息是基于所述样本调节参数生成的；

15、所述第一生成单元，用于将所述多个样本文本信息分别作为目标样本文本信息，通过初始语音合成模型，根据所述目标样本文本信息生成所述目标样本文本信息对应的语音特征信息，所述语音特征信息用于标识所述目标样本文本信息在语音信息中的发音方式；

16、所述第一调节单元，用于通过所述初始语音合成模型，根据所述目标样本文本信息对应的目标样本调节参数对所述语音特征信息进行调节，得到调节后的语音特征信息；

17、所述第二生成单元，用于通过所述初始语音合成模型，根据所述调节后的语音特征信息生成所述目标样本文本信息对应的待定语音信息；

18、所述第二调节单元，用于根据所述待定语音信息和所述目标样本文本信息对应的目标样本语音信息之间的差异，调节所述初始语音合成模型对应的模型参数，得到语音合成模型，所述语音合成模型用于根据待合成文本信息和所述待合成文本信息对应的调节参数合成语音信息。

19、在一种可能的实现方式中，所述第一生成单元具体用于：

20、确定所述目标样本文本信息对应的音素特征信息、语义特征信息和韵律特征信息，所述音素特征信息用于标识所述目标样本文本信息对应的音素组成，所述语义特征信息用于标识所述目标样本文本信息对应的语义，所述韵律特征信息用于标识所述目标样本文本信息对应的发音韵律；

21、根据所述音素特征信息、所述语义特征信息和所述韵律特征信息，生成所述目标样本文本信息对应的语音特征信息。

22、在一种可能的实现方式中，所述样本文本信息具有对应的样本情绪标签，所述初始语音合成模型中包括多个情绪标签分别对应的初始情绪特征信息，所述第一生成单元具体用于：

23、确定所述目标样本文本信息所对应目标样本情绪标签对应的目标初始情绪特征信息；

24、根据所述目标初始情绪特征信息和所述目标样本文本信息，生成所述目标样本文本信息对应的语音特征信息；

25、所述第二调节单元具体用于：

26、根据所述待定语音信息和所述目标样本文本信息对应的目标样本语音信息之间的差异，调节所述初始语音合成模型对应的模型参数和所述目标初始情绪特征信息，得到语音合成模型，所述语音合成模型包括所述多个情绪标签分别对应的情绪特征信息，所述情绪特征信息是通过调节情绪标签对应的初始情绪特征信息得到的，所述语音合成模型用于根据待合成文本信息、所述待合成文本信息对应的调节参数和所述待合成文本信息对应的情绪标签合成语音信息。

27、在一种可能的实现方式中，所述目标样本调节参数包括第一调节参数，所述第一调节参数用于调节所述语音特征信息中包括的第一特征参数，所述第一调节单元具体用于：

28、通过所述初始语音合成模型，根据所述第一调节参数对所述语音特征信息中包括的第一特征参数进行调节，得到调节后的语音特征信息。

29、在一种可能的实现方式中，所述初始语音合成模型包括参数预测部分，所述目标样本调节参数包括第二调节参数，所述第二调节参数用于调节根据所述语音特征信息确定出的第二特征参数，所述语音特征信息中不包括所述第二特征参数，所述目标样本文本信息具有对应的样本第二特征参数；

30、所述装置还包括确定单元：

31、所述确定单元，用于通过所述参数预测部分确定所述语音特征信息对应的待定第二特征参数；

32、所述第一调节单元具体用于：

33、根据所述样本第二特征参数和所述第二调节参数确定待调节第二特征参数；

34、通过所述初始语音合成模型，根据所述待调节第二特征参数对所述语音特征信息进行调节，得到调节后的语音特征信息；

35、所述第二调节单元具体用于：

36、根据所述待定第二特征参数与所述样本第二特征参数之间的差异调节所述参数预测部分对应的模型参数，以及根据所述待定语音信息和所述目标样本文本信息对应的目标样本语音信息之间的差异，调节所述初始语音合成模型中除所述参数预测部分外的模型参数，得到所述语音合成模型。

37、在一种可能的实现方式中，所述目标样本调节参数具有对应的情绪标签，所述第二调节单元具体用于：

38、确定所述情绪标签对应的第一情绪特征参数；

39、根据所述第一目标特征参数对所述样本第二特征参数进行归一化处理；

40、根据所述待定第二特征参数与归一化处理后的所述样本第二特征参数之间的差异，调节所述参数预测部分对应的模型参数，所述语音合成模型中的参数预测部分用于确定语音特征信息对应的归一化处理后的第二特征参数，并根据所述待合成文本信息所对应情绪标签对应的第二情绪特征参数和所述归一化处理后的第二特征参数，确定所述语音特征信息对应的第二特征参数。

41、在一种可能的实现方式中，所述第一调节参数包括拖音控制参数、重音控制参数和打断控制参数中的任意一种或多种的组合，所述拖音控制参数用于调节所述第一特征参数中的拖音参数，所述重音控制参数用于调节所述第一特征参数中的重音参数，所述打断控制参数用于调节所述第一特征参数中的打断参数。

42、在一种可能的实现方式中，所述第二调节参数包括时长控制参数、语调控制参数和起伏控制参数中的任意一种或多种的组合，所述时长控制参数用于调节所述第二特征参数中的时长参数，所述语调控制参数用于调节所述第二特征参数中的语调参数，所述起伏控制参数用于调节所述第二特征参数中的起伏参数。

43、在一种可能的实现方式中，所述第二调节单元具体用于：

44、根据所述待定语音信息生成第一语谱图，以及根据所述目标样本语音信息生成第二语谱图；

45、通过生成对抗网络判别器，确定所述第一语谱图与所述第二语谱图之间的相似参数，所述相似参数用于标识所述第一语谱图与所述第二语谱图之间的差异；

46、根据所述相似参数调节所述初始语音合成模型对应的模型参数得到语音合成模型，根据所述语音合成模型确定出的相似参数大于预设阈值。

47、第四方面，本技术实施例公开了一种模型应用装置，所述装置包括获取单元、生成单元和发送单元：

48、所述获取单元，用于获取语音合成对象输入的待合成文本信息和所述待合成文本信息对应的调节参数，所述调节参数用于调节所述待合成文本信息在语音信息中的发音方式；

49、所述生成单元，用于将所述待合成文本信息和所述待合成文本信息对应的调节参数输入语音合成模型，通过所述语音合成模型，生成所述待合成文本信息对应的目标语音信息；

50、所述发送单元，用于向所述语音合成对象发送所述目标语音信息。

51、在一种可能的实现方式中，所述生成单元具体用于：

52、确定所述待合成文本信息对应的音素特征信息、语义特征信息和韵律特征信息，所述音素特征信息用于标识所述待合成文本信息对应的音素组成，所述语义特征信息用于标识所述待合成文本信息对应的语义，所述韵律特征信息用于标识所述待合成文本信息对应的发音韵律；

53、根据所述音素特征信息、所述语义特征信息和所述韵律特征信息，生成所述待合成文本信息对应的语音特征信息，所述语音特征信息用于标识所述待合成文本信息在语音信息中的发音方式；

54、根据所述待合成文本信息对应的调节参数调节所述语音特征信息；

55、根据调节后的所述语音特征信息生成所述待合成文本信息对应的目标语音信息。

56、在一种可能的实现方式中，所述语音合成模型包括参数调节部分和参数预测部分，所述调节参数包括第一调节参数和第二调节参数，所述第一调节参数用于调节所述语音特征信息中包括的第一特征参数，所述第二调节参数用于调节根据所述语音特征信息确定出的第二特征参数，所述语音特征信息中不包括所述第二特征参数；

57、所述生成单元具体用于：

58、通过所述参数预测部分，根据所述语音特征信息确定所述语音特征信息对应的第二特征参数；

59、根据所述第二调节参数和所述第二特征参数确定待调节第二特征参数；

60、通过所述参数调节部分，根据所述第一调节参数调节所述语音特征信息中包括的第一特征参数，以及根据所述待调节第二特征参数调节所述语音特征信息。

61、在一种可能的实现方式中，所述调节参数包括情绪标签，所述生成单元具体用于：

62、根据所述语音特征信息，确定所述语音特征信息对应的归一化处理后的第二特征参数；

63、根据所述情绪标签对应的情绪特征参数和所述归一化处理后的第二特征参数，确定所述语音特征信息对应的第二特征参数。

64、在一种可能的实现方式中，所述调节参数包括情绪标签和情绪程度参数，所述情绪程度参数用于标识将所述待合成文本信息在语音信息中的发音方式向所述情绪标签标识的情绪进行调节的程度，所述生成单元具体用于：

65、确定所述情绪标签对应的情绪特征信息；

66、根据所述情绪特征信息、所述情绪特征参数、所述音素特征信息、所述语义特征信息和所述韵律特征信息，生成所述待合成文本信息对应的语音特征信息。

67、在一种可能的实现方式中，所述装置还包括展示单元：

68、所述展示单元，用于向所述语音合成对象展示信息输入界面，所述信息输入界面用于输入待合成文本信息和调节参数；

69、所述获取单元具体用于：

70、通过所述信息输入界面获取语音合成对象输入的待合成文本信息和所述待合成文本信息对应的调节参数。

71、第五方面，本技术实施例公开了一种计算机设备，所述计算机设备包括处理器以及存储器：

72、所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

73、所述处理器用于根据所述程序代码中的指令执行第一方面中任意一项所述的模型训练方法，或第二方面中任意一项所述的模型应用方法。

74、第六方面，本技术实施例公开了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行第一方面中任意一项所述的模型训练方法，或第二方面中任意一项所述的模型应用方法。

75、第七方面，本技术实施例公开了一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行第一方面中任意一项所述的模型训练方法，或第二方面中任意一项所述的模型应用方法。

76、由上述技术方案可以看出，在进行模型训练时，先获取用于进行模型训练的样本文本信息集合，该样本文本信息集合包括多个样本文本信息，样本文本信息具有对应的样本语音信息和样本调节参数，其中，样本语音信息是基于该样本文本信息和样本调节参数生成的，即该样本语音信息匹配该调节参数对样本文本信息在语音信息中发音方式的调节。在语音信息合成过程中，将多个样本文本信息分别作为目标样本文本信息，通过初始语音合成模型，先根据该目标样本文本信息生成目标样本文本信息对应的语音特征信息，该语音特征信息用于标识目标样本文本信息在语音信息中的发音方式。从而，通过该目标样本文本信息对应的目标样本调节参数调节该语音特征信息，可以以与该目标样本文本信息对应的目标样本语音信息相同的调节方式调节该目标样本文本信息的发音方式。通过该初始语音合成模型根据调节后的语音特征信息生成该目标样本文本信息对应的待定语音信息，从而，通过待定语音信息和目标样本语音信息之间的差异，能够体现出初始语音合成模型在基于文本信息和调节参数直接合成语音信息时的准确度，进而通过基于该差异对初始语音合成模型进行参数调节得到的语音合成模型，可以实现直接基于待合成文本信息和调节参数，较为准确的合成待合成文本信息对应的语音信息，使该语音信息既符合调节参数对于发音方式调节的需求，又贴合该待合成文本信息整体的语音发音特点，从而在保障对语音信息准确调节的前提下，提高调节后的语音信息的真实性，进而提高语音合成效果。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李广之段志毅杨颖翁超戴北甄帅卞衍尧陆远
技术所有人：深圳市腾讯信息技术有限公司
我是此专利的发明人

上一篇：用于执行车辆功能的方法与流程
上一篇：用于可再充电锂电池的电解质和包括其的可再充电锂电池的制作方法