本技术涉及计算机,尤其涉及一种语音合成方法、装置、电子设备及可读存储介质。
背景技术:
1、语音合成是一种能够根据文本生成音频的技术。为了实现合成效果,首先需要对用户输入的文本信息进行文本数字符号的归一化处理,将包含阿拉伯数字、符号的文本序列转换为可读的纯文本序列,后续通过声学模型、声码器等设备进行音频的合成。但是,一些语言单词复杂多样,同一个意思的词汇因为所处场景不同而需要合成不同的音频,语音合成的纯文本序列往往不能体现,合成的语音存在语法、用法等方面的问题,准确性差。
2、针对上述问题,现有技术往往选择通过加权有限状态转换器(weightedfinitestate acceptors,wfst)的方式构建规则,根据规则对输入的文本进行归一化处理。但是,这些规则或专家知识依赖于大量的语言学知识,语音合成效率低,成本高;而语言学知识不够,生成的规则或专家知识不足时,语音合成结果准确性较低,用户体验较差。
技术实现思路
1、本技术提供了一种语音合成方法、装置、电子设备及可读存储介质。由于本技术提供的语音合成方法在文本归一化动作中引入互相解耦的归一化类型分类器和语言特性分类器,在输入文本的基础上补充了归一化类型分类结果和语言特性分类结果作为额外特征参与归一化文本的生成,在不需要进行大量训练生成规则的前提下得到满足用户需求的语音合成结果,在确保语音合成的准确率和用户体验的前提下,提高了语音合成效率,大幅降低了语音合成成本。
2、第一方面,本技术提供了一种语音合成方法,该方法包括:
3、根据预先设置的归一化类型分类器对输入文本进行归一化类型分类,得到归一化类型分类结果;
4、根据预先设置的语言特性分类器对所述输入文本进行语言特性分类,得到第一语言特性分类结果,其中,所述语言特性分类器与所述归一化类型分类器彼此解耦;
5、根据所述归一化类型分类结果、所述第一语言特性分类结果和所述输入文本进行归一化处理,得到第一文本归一化结果;
6、通过声学模型对所述第一文本归一化结果进行声学特征生成,得到第一声学特征;
7、通过声码器对所述第一声学特征进行语音合成,得到第一语音合成结果。
8、可选的,本技术提供的语音合成方法还包括:
9、对训练语料进行归一化类型信息标注和语言特性信息标注,得到归一化类型标注结果和语言特性标注结果,其中,所述训练语料用于训练所述归一化类型分类器的归一化类型分类能力,还用于训练所述语言特性分类器的语言特性分类能力;
10、将所述训练语料和对应的归一化类型标注结果输入所述归一化类型分类器,得到归一化类型训练结果;
11、将所述训练语料和对应的语言特性标注结果输入所述语言特性分类器,得到语言特性训练结果;
12、根据预先设置的损失函数对所述归一化类型训练结果和所述语言特性训练结果进行损失函数计算,得到损失函数计算结果;
13、根据所述损失函数计算结果调整所述归一化类型分类器和所述语言特性分类器,得到调整后的归一化类型分类器和调整后的语言特性分类器。
14、可选的,本技术提供的语音合成方法还包括:
15、根据预先设置的归一化损失函数对所述归一化类型训练结果进行损失函数计算,得到所述归一化类型损失函数计算结果;
16、根据预先设置的性格类型损失函数对所述语言特性训练结果进行损失函数计算,得到所述性格类型损失函数计算结果;
17、根据预先设置的最小化互信息损失函数对所述归一化类型训练结果和所述语言特性训练结果进行损失函数计算,得到所述最小化互信息损失函数计算结果。
18、可选的,本技术提供的语音合成方法还包括:
19、根据所述性分类器对所述输入文本进行分类处理,得到所述阴阳性分类结果;
20、根据所述格分类器对所述输入文本进行分类处理,得到所述词尾位置分类结果。
21、可选的,本技术提供的语音合成方法还包括:
22、根据所述性分类器对所述俄语输入文本进行处理,得到所述俄语输入文本对应的阴阳性分类结果。
23、可选的,本技术提供的语音合成方法还包括:
24、根据所述语言特性分类结果和所述输入文本进行准确性判断,得到语言特性准确性判断结果;
25、当所述语言特性准确性判断结果为所述语言特性分类器有误时,根据所述语言特性分类结果和所述输入文本对所述语言特性分类器进行修改,得到修改后的语言特性分类器;
26、根据所述修改后的语言特性分类器对所述输入文本进行处理,得到第二语言特性分类结果;
27、根据所述归一化类型分类结果、所述第二语言特性分类结果和所述输入文本进行归一化处理,得到第二文本归一化结果;
28、通过声学模型对所述第二文本归一化结果进行声学特征生成,得到第二声学特征;
29、通过声码器对所述第二声学特征进行语音合成,得到第二语音合成结果。
30、可选的,本技术提供的语音合成方法还包括:
31、将所述归一化类型分类结果和所述第一语言特性分类结果输出显示。
32、第二方面,本技术还提供一种语音合成装置,包括:
33、归一化类型分类模块,用于根据预先设置的归一化类型分类器对输入文本进行归一化类型分类,得到归一化类型分类结果;
34、语言特性分类模块,用于根据预先设置的语言特性分类器对所述输入文本进行语言特性分类,得到语言特性分类结果,其中,所述语言特性分类器与所述归一化类型分类器彼此解耦;
35、第一文本归一化处理模块,用于根据所述归一化类型分类结果、所述语言特性分类结果和所述输入文本进行归一化处理,得到第一文本归一化结果;
36、第一声学特征合成模块,用于根据所述第一文本归一化结果生成第一声学特征;
37、第一语音合成模块,用于通过声码器对所述第一声学特征进行语音合成,得到第一语音合成结果。
38、第三方面,本技术还提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的语音合成方法的步骤。
39、第四方面,本技术实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的语音合成方法的步骤。
40、由于本技术提供的语音合成方法在文本归一化动作中引入互相解耦的归一化类型分类器和语言特性分类器,在输入文本的基础上补充了归一化类型分类结果和语言特性分类结果作为额外特征参与归一化文本的生成,在不需要进行大量训练生成规则的前提下得到满足用户需求的语音合成结果,在确保语音合成的准确率和用户体验的前提下,提高了语音合成效率,大幅降低了语音合成成本。
41、上述说明仅是本技术提供的技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。