本技术涉及金融科技,尤其涉及一种语音合成方法、语音合成装置、电子设备及存储介质。
背景技术:
1、语音合成是指根据给定的输入数据创建出符合要求的自然语言语音的过程。目前,智能语音技术通常应用在金融科技的智能电话客服、智能销售等任务场景中。然而,人类的语音中不仅包含了语言信息,还有一些非语言信息,比如哭、笑、停顿、咳嗽等,这些非语言信息可以用来传达说话人不同的感受以及交流的意图。因此,在合成语音的过程中加入一些非语言信息,可以使得合成的语音更加自然生动,更加接近现实生活中的语音。
2、基于此,相关技术通常是将语音信息和非语言信息采取一定方式拼接起来,从而合成一段包含非语言信息的语音。然而,这种方法并未深入理解语言信息和非语言信息之间的关联,使得合成的语音中语音信息与非语言信息的衔接不够自然,从而降低了合成语音的情感表达不够准确。因此,如何生成情感表达更准确的合成语音,成为了亟待解决的技术问题。
技术实现思路
1、本技术实施例的主要目的在于提出了一种语音合成方法、语音合成装置、电子设备及存储介质,能够生成情感表达更准确的合成语音。
2、为实现上述目的,本技术实施例的第一方面提出了一种语音合成方法,所述方法包括:
3、获取样本数据,所述样本数据包括样本文本、样本情感信息和样本原始梅尔频谱,所述样本情感信息具有样本非语言情感特征,所述样本原始梅尔频谱具有样本对象的样本语音表达特征;
4、将所述样本文本、所述样本情感信息和所述样本原始梅尔频谱输入初始合成模型,所述初始合成模型包括情感检测子模型和频谱生成子模型;
5、基于所述样本情感信息对所述样本原始梅尔频谱进行掩码处理,得到掩码梅尔频谱和样本掩码后梅尔频谱,所述掩码梅尔频谱用于表征所述样本原始梅尔频谱中掩码区域对应的梅尔频谱,所述样本掩码后梅尔频谱用于表征将所述样本原始梅尔频谱中所述掩码区域的梅尔频谱值掩码后得到的梅尔频谱;
6、基于所述情感检测子模型对所述样本情感信息和所述样本原始梅尔频谱进行情感特征检测,得到所述样本掩码后梅尔频谱的样本目标情感特征;
7、基于所述频谱生成子模型对所述样本掩码后梅尔频谱、所述样本目标情感特征和所述样本文本进行频谱生成,得到所述样本对象的预测梅尔频谱;
8、基于所述掩码梅尔频谱、所述预测梅尔频谱和所述样本目标情感特征对所述初始合成模型进行参数调整,得到语音合成模型;
9、基于所述语音合成模型对目标文本、具有目标语音表达特征的目标对象语音和具有目标非语言情感特征的目标情感信息进行语音合成处理,得到具有所述目标语音表达特征和所述目标情感特征的目标合成语音。
10、在一些实施例中,所述基于所述情感检测子模型对所述样本情感信息和所述样本原始梅尔频谱进行情感检测,得到所述样本掩码后梅尔频谱的样本目标情感特征,包括:
11、对所述样本情感信息进行情感检测,得到所述样本非语言情感特征,所述样本非语言情感特征用于指示所述掩码梅尔频谱的情感特征;
12、对所述样本原始梅尔频谱进行情感检测,得到样本语言情感特征;
13、对所述样本非语言情感特征和所述样本语言情感特征进行特征拼接,得到所述样本掩码后梅尔频谱的所述样本目标情感特征。
14、在一些实施例中,所述初始合成模型还包括音素检测子模型,所述基于所述频谱生成子模型对所述样本掩码后梅尔频谱、所述样本目标情感特征和所述样本文本进行频谱生成,得到所述样本对象的预测梅尔频谱,包括:
15、基于所述音素检测子模型对所述样本原始梅尔频谱和所述样本文本进行音素检测,得到样本音素序列;
16、基于所述频谱生成子模型对所述样本掩码后梅尔频谱、所述样本目标情感特征和所述样本音素序列进行频谱生成,得到所述预测梅尔频谱。
17、在一些实施例中,所述基于所述频谱生成子模型对所述样本掩码后梅尔频谱、所述样本目标情感特征和所述样本音素序列进行频谱生成,得到预测梅尔频谱,包括:
18、基于所述样本音素序列对所述样本掩码后梅尔频谱进行时间维度对齐,得到样本对齐后梅尔频谱;
19、基于所述频谱生成子模型对所述样本对齐后梅尔频谱、所述样本目标情感特征和所述样本音素序列进行频谱生成,得到所述预测梅尔频谱。
20、在一些实施例中,所述基于所述频谱生成子模型对所述样本对齐后梅尔频谱、所述样本目标情感特征和所述样本音素序列进行频谱生成,得到所述预测梅尔频谱,包括:
21、基于所述样本音素序列对所述样本目标情感特征进行时间维度对齐,得到样本对齐后情感特征;
22、基于所述频谱生成子模型对所述样本对齐后梅尔频谱、所述样本对齐后情感特征和所述样本音素序列进行频谱生成,得到所述预测梅尔频谱。
23、在一些实施例中,所述初始合成模型还包括声码器,所述基于所述掩码梅尔频谱、所述预测梅尔频谱和所述样本目标情感特征对所述初始合成模型进行参数调整,得到语音合成模型,包括:
24、基于所述掩码梅尔频谱和所述预测梅尔频谱进行频谱损失计算,得到频谱损失值,所述掩码梅尔频谱具有所述样本语音表达特征,所述预测梅尔频谱具有预测语音表达特征,所述频谱损失值用于表征所述样本语音表达特征和所述预测语音表达特征之间的差异程度;
25、基于所述声码器对所述预测梅尔频谱进行频谱转化,得到预测语音;
26、对所述预测语音进行情感特征提取,得到预测情感特征;
27、基于所述预测情感特征和所述样本目标情感特征进行情感特征损失计算,得到情感特征损失值;
28、基于所述频谱损失值和所述情感特征损失值确定模型损失值,并基于所述模型损失值对所述初始合成模型进行参数调整,得到所述语音合成模型。
29、在一些实施例中,所述基于所述频谱损失值和所述情感特征损失值确定模型损失值,包括:
30、对所述掩码梅尔频谱进行频谱特征提取,得到掩码频谱特征;
31、基于所述样本原始梅尔频谱对所述掩码频谱特征进行特征检测,得到掩码特征评分,所述掩码特征评分用于表征所述掩码频谱特征在所述样本原始梅尔频谱中的重要程度;
32、基于所述掩码特征评分确定所述频谱损失值的第一损失权重和所述情感特征损失值的第二损失权重;
33、基于所述频谱损失值、所述第一损失权重、所述情感特征损失值和所述第二损失权重进行加权计算,得到所述模型损失值。
34、为实现上述目的,本技术实施例的第二方面提出了一种语音合成装置,所述装置包括:
35、获取模块,用于获取样本数据,所述样本数据包括样本文本、样本情感信息和样本原始梅尔频谱,所述样本情感信息具有样本非语言情感特征,所述样本原始梅尔频谱具有样本对象的样本语音表达特征;
36、输入模块,用于将所述样本文本、所述样本情感信息和所述样本原始梅尔频谱输入初始合成模型,所述初始合成模型包括情感检测子模型和频谱生成子模型;
37、掩码模块,用于基于所述样本情感信息对所述样本原始梅尔频谱进行掩码处理,得到掩码梅尔频谱和样本掩码后梅尔频谱,所述掩码梅尔频谱用于表征所述样本原始梅尔频谱中掩码区域对应的梅尔频谱,所述样本掩码后梅尔频谱用于表征将所述样本原始梅尔频谱中所述掩码区域的梅尔频谱值掩码后得到的梅尔频谱;
38、情感检测模块,用于基于所述情感检测子模型对所述样本情感信息和所述样本原始梅尔频谱进行情感特征检测,得到所述样本掩码后梅尔频谱的样本目标情感特征;
39、频谱生成模块,用于基于所述频谱生成子模型对所述样本掩码后梅尔频谱、所述样本目标情感特征和所述样本文本进行频谱生成,得到所述样本对象的预测梅尔频谱;
40、参数调整模块,用于基于所述掩码梅尔频谱、所述预测梅尔频谱和所述样本目标情感特征对所述初始合成模型进行参数调整,得到语音合成模型;
41、合成模块,用于基于所述语音合成模型对目标文本、具有目标语音表达特征的目标对象语音和具有目标非语言情感特征的目标情感信息进行语音合成处理,得到具有所述目标语音表达特征和所述目标情感特征的目标合成语音。
42、为实现上述目的,本技术实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如本技术实施例的第一方面提出的任一项所述的方法。
43、为实现上述目的,本技术实施例的第四方面还提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本技术实施例的第一方面提出的任一项所述的方法。
44、本技术实施例提出的语音合成方法、语音合成装置、电子设备及存储介质,首先,获取样本数据,样本数据包括样本文本、样本情感信息和样本原始梅尔频谱,样本情感信息具有样本非语言情感特征,样本原始梅尔频谱具有样本对象的样本语音表达特征;进一步地,将样本文本、样本情感信息和样本原始梅尔频谱输入初始合成模型,初始合成模型包括情感检测子模型和频谱生成子模型;基于语音转化子模型对样本对象语音进行语音转化,得到样本原始梅尔频谱;基于样本情感信息对样本原始梅尔频谱进行掩码处理,得到掩码梅尔频谱和样本掩码后梅尔频谱,掩码梅尔频谱用于表征样本原始梅尔频谱中掩码区域对应的梅尔频谱,样本掩码后梅尔频谱用于表征将样本原始梅尔频谱中掩码区域的梅尔频谱值掩码后得到的梅尔频谱;基于情感检测子模型对样本情感信息和样本原始梅尔频谱进行情感特征检测,得到样本掩码后梅尔频谱的样本目标情感特征;基于频谱生成子模型对样本掩码后梅尔频谱、样本目标情感特征和样本文本进行频谱生成,得到样本对象的预测梅尔频谱;进一步地,基于掩码梅尔频谱、预测梅尔频谱和样本目标情感特征对初始合成模型进行参数调整,得到语音合成模型;进一步地,基于语音合成模型对目标文本、具有目标语音表达特征的目标对象语音和具有目标非语言情感特征的目标情感信息进行语音合成处理,得到具有目标语音表达特征和目标情感特征的目标合成语音。本技术所提供的语音合成方法会结合输入的具有目标非语言情感特征的目标情感信息,生成自然的带有非语言信息的情感化语音。相比于相关技术仅采用拼接的方式生成情感化语音,本技术所构建的语音合成模型可以在语音生成过程中将语言信息(即包含语音内容的信息)和非语音信息(即未包含语音内容的信息)进行融合,根据提供的目标对象语音和目标情感信息,实现对语音情感的更精细控制,从而能够生成情感表达更准确的合成语音。