语音合成模型训练及语音合成方法、装置及语音合成器与流程

文档序号:24659530发布日期:2021-04-13 22:48阅读:198来源:国知局

1.本发明涉及人工智能技术领域,更具体的说,是涉及一种语音合成模型训练及语音合成方法、装置及语音合成器。


背景技术:

2.随着人工智能技术的发展,语音合成技术越来越受到人们的重视,语音合成技术可以应用在人机交互或者将文本转化成自然语言输出等领域,目前采用循环神经网络模型进行语音合成,但利用循环神经网络模型进行语音合成的方式存在合成效率低的问题。
3.基于此,如何提高语音合成效率,成为目前需要解决的技术问题。


技术实现要素:

4.有鉴于此,本发明提供一种语音合成模型训练及语音合成方法、装置及语音合成器,以提高语音合成效率。
5.为实现上述目的,本发明提供如下技术方案:
6.一种语音合成模型训练方法,所述方法包括:
7.获取声学特征训练样本;
8.调用待训练全卷积语音合成模型,对所述声学特征训练样本进行处理,得到离散语音合成结果;
9.将所述离散语音合成结果转化为连续语音合成结果;
10.对所述连续语音合成结果以及声学特征训练样本对应的参考输出语音合成结果进行比较,利用比较结果得到所述待训练全卷积语音合成模型的损失函数;
11.利用所述损失函数对所述待训练全卷积语音合成模型的模型参数进行调整;
12.将参数调整后的全卷积语音合成模型作为待训练全卷积语音合成模型,并返回执行调用待训练全卷积语音合成模型,对所述声学特征训练样本进行处理的步骤,直到满足模型训练终止条件;
13.将满足模型训练终止条件时的模型参数作为所述待训练全卷积语音合成模型的模型参数,得到训练好的全卷积语音合成模型。
14.优选的,所述将所述离散语音合成结果转化为连续语音合成结果包括:
15.获取服从均匀分布的均匀分布采样结果;
16.利用离散语音合成结果以及均匀分布采样结果,得到满足离散多项分布的语音合成概率分布结果;
17.利用连续性函数对所述语音合成概率分布结果进行处理,得到连续语音合成结果。
18.优选的,所述损失函数至少包括:短时傅里叶变换stft损失函数。
19.优选的,所述利用所述损失函数对所述待训练全卷积语音合成模型的模型参数进行调整包括:
20.从所述损失函数中得到所述连续语音合成结果对应的连续语音合成频谱,以及所述参考输出语音合成结果对应的参考输出语音合成频谱;
21.将所述连续语音合成频谱与所述参考输出语音合成频谱进行比较,利用比较结果,得到所述待训练全卷积语音合成模型的模型梯度;
22.沿所述待训练全卷积语音合成模型的模型梯度下降的方向,对所述待训练全卷积语音合成模型的模型参数进行调整。
23.优选的,所述模型训练终止条件至少包括:
24.模型训练次数达到预设次数,或,模型训练时间达到预设时间,或,损失函数满足预设条件。
25.一种语音合成方法,所述方法包括:
26.获取待合成语音对应的声学特征;
27.调用如上所述的语音合成模型训练方法训练得到的全卷积语音合成模型,对所述待合成语音对应的声学特征进行处理,得到语音合成结果。
28.一种语音合成模型训练装置,所述装置包括:
29.样本获取单元,用于获取声学特征训练样本;
30.样本处理单元,用于调用待训练全卷积语音合成模型,对所述声学特征训练样本进行处理,得到离散语音合成结果;
31.转化单元,用于将所述离散语音合成结果转化为连续语音合成结果;
32.损失函数获取单元,用于对所述连续语音合成结果以及声学特征训练样本对应的参考输出语音合成结果进行比较,利用比较结果得到所述待训练全卷积语音合成模型的损失函数;
33.参数调整单元,用于利用所述损失函数对所述待训练全卷积语音合成模型的模型参数进行调整;将参数调整后的全卷积语音合成模型作为待训练全卷积语音合成模型,并返回执行样本处理单元执行的调用待训练全卷积语音合成模型,对所述声学特征训练样本进行处理的步骤,直到满足模型训练终止条件;将满足模型训练终止条件时的模型参数作为所述待训练全卷积语音合成模型的模型参数,得到训练好的全卷积语音合成模型。
34.一种语音合成装置,所述装置包括:
35.声学特征获取单元,用于获取待合成语音对应的声学特征;
36.声学特征处理单元,用于调用如上所述的语音合成模型训练方法训练得到的全卷积语音合成模型,对所述待合成语音对应的声学特征进行处理,得到语音合成结果。
37.一种语音合成器,所述语音合成器至少包括如上所述的语音合成装置。
38.经由上述的技术方案可知,与现有技术相比,本发明提供了一种语音合成模型训练及语音合成方法、装置及语音合成器,本发明中所采用的的语音合成模型是一种全卷积语音合成模型,全卷积语音合成模型可以对多个待合成数据执行并行处理,因此,能够提高语音合成效率。并且,本发明在对全卷积语音合成模型进行训练的过程中,通过调用待训练全卷积语音合成模型,对所述声学特征训练样本进行处理,得到离散语音合成结果,将所述离散语音合成结果转化为连续语音合成结果,由于本发明将离散语音合成结果转化为连续语音合成结果,进而利用连续语音合成结果得到损失函数,才能够利用损失函数对所述待训练全卷积语音合成模型的模型参数进行调整,即对待训练全卷积语音合成模型的模型参
数进行优化,经过模型参数优化,最终得到的训练好的全卷积语音合成模型能够提高语音合成质量。
附图说明
39.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
40.图1为本发明实施例提供的wavernn语音合成器模型的结构示意图;
41.图2为本发明实施例提供的语音合成模型训练方法的流程图;
42.图3为本发明实施例提供的待训练全卷积语音合成模型的具体结构;
43.图4为本发明实施例提供的将所述离散语音合成结果转化为连续语音合成结果方法的流程图;
44.图5为本发明实施例提供的一种语音合成方法的流程图;
45.图6为本申请实施例提供的语音合成模型训练装置的结构框图;
46.图7为本申请实施例提供的语音合成装置的结构框图。
具体实施方式
47.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
48.随着人工智能技术的发展,语音合成技术越来越受到人们的重视,语音合成技术可以应用在人机交互或者将文本转化成自然语言输出等领域,目前采用wavernn语音合成器进行语音合成,参照图1所示的wavernn语音合成器模型,wavernn语音合成器主要采用循环神经网络模型进行语音合成,wavernn语音合成器由多个神经网络层串行连接,进行合成时,上一个神经网络层得到的输出结果都会作为下一个神经网络层的输入,通过串行的逐步计算,才能得到最终的语音合成结果,并且,每个神经网络层每次只能针对一个采样点进行处理,假设每个神经网络层执行语音操作的时间步长为t,那么总时间用时t与时间步长成正比,即t

o(t),很明显,wavernn语音合成器受串行循环结构的限制,导致语音合成速度慢,合成效率低。
49.为了解决上述技术问题,本发明提供了一种语音合成模型训练方法、语音合成方法、装置及服务器,本发明中所采用的的语音合成模型是一种全卷积语音合成模型,全卷积语音合成模型可以对多个待合成数据执行并行处理,因此,能够提高语音合成效率。并且,本发明在对全卷积语音合成模型进行训练的过程中,通过调用待训练全卷积语音合成模型,对所述声学特征训练样本进行处理,得到离散语音合成结果,将所述离散语音合成结果转化为连续语音合成结果,由于本发明将离散语音合成结果转化为连续语音合成结果,进而利用连续语音合成结果得到损失函数,才能够利用损失函数对所述待训练全卷积语音合成模型的模型参数进行调整,即对待训练全卷积语音合成模型的模型参数进行优化,经过
模型参数优化,最终得到的训练好的全卷积语音合成模型能够提高语音合成质量。
50.下面,以具体的实施例对本发明的技术方案进行详细介绍:
51.图2为本发明实施例提供的语音合成模型训练方法的流程图,该方法可应用于服务器,参照图2,所述方法可以包括:
52.步骤s100、获取声学特征训练样本;
53.声学特征训练样本为满足声学特征的,待训练的训练样本,声学特征训练样本中包含的是预设个数的离散声学特征采样点。
54.步骤s110、调用待训练全卷积语音合成模型,对所述声学特征训练样本进行处理,得到离散语音合成结果;
55.需要说明的是,本发明实施例中的待训练全卷积语音合成模型具体可以为ufans全卷积语音合成模型,ufans全卷积语音合成模型具备全卷积以及高感受视野的特点。
56.本发明实施例主要是调用待训练全卷积语音合成模型,对所述声学特征训练样本进行语音合成处理,得到离散语音合成结果,本发明实施例提供的待训练全卷积语音合成模型可以同时对声学特征训练样本中的多个采样点进行处理,例如可以同时对275个采样点进行并行处理,假设待训练全卷积语音合成模型执行语音操作的时间步长为t,那么总时间用时t与时间步长成正比,即很明显,本申请中的待训练全卷积语音合成模型可以对多个待合成数据执行并行处理,总时间用时t减小,语音合成速度快,合成效率高。
57.图3中示出了本发明实施例公开的待训练全卷积语音合成模型的具体结构,待训练全卷积语音合成模型中主要包括:卷积结构a,平均迟化层b,上采样层c以及卷积结构d。
58.步骤s120、将所述离散语音合成结果转化为连续语音合成结果;
59.由于待训练全卷积语音合成模型,对所述声学特征训练样本进行处理,得到的语音合成结果是呈离散化的,而离散化的语音合成结果无法对模型进行优化,例如离散语音合成结果无法求梯度,只有连续的语音合成结果才能够求梯度,因此,需要将离散语音合成结果转化为连续语音合成结果,才能够利用连续语音合成结果对待训练全卷积语音合成模型进行优化。
60.步骤s130、对所述连续语音合成结果以及声学特征训练样本对应的参考输出语音合成结果进行比较,利用比较结果得到所述待训练全卷积语音合成模型的损失函数;
61.声学特征训练样本对应的参考输出语音合成结果是预先依据声学特征训练样本生成的,是声学特征训练样本对应的实际的语音合成结果。连续语音合成结果则是利用待训练全卷积语音合成模型对声学特征训练样本进行处理,得到的语音合成结果,通过对所述连续语音合成结果以及声学特征训练样本对应的参考输出语音合成结果进行比较,能够得到待训练全卷积语音合成模型预测的语音合成结果与声学特征训练样本对应的实际语音合成结果之间的差异。
62.可选的,本发明实施例中采用的损失函数可以包括:stft(short

time fourier transform,短时傅里叶变换)损失函数,本发明实施例并不做具体限定。
63.stft损失函数主要将语音合成结果中的时间序列从时域转化到了频域,得到连续语音合成结果对应的频谱以及参考输出语音合成结果对应的频谱,连续语音合成结果对应的频谱以及参考输出语音合成结果对应的频谱的差,即为待训练全卷积语音合成模型的损
失函数。并且,本发明实施例利用stft损失函数能够降低语音合成结果中高频的噪音,增强合成效果。
64.步骤s140、利用所述损失函数对所述待训练全卷积语音合成模型的模型参数进行调整;
65.通过对待训练全卷积语音合成模型的模型参数进行调整,使得待训练全卷积语音合成模型的损失函数呈现收敛状态,即连续语音合成结果对应的频谱以及参考输出语音合成结果对应的频谱更接近。
66.对所述待训练全卷积语音合成模型的模型参数进行调整的方式具体可以采用梯度反传的方式进行调整,本发明实施例不做具体限定。
67.本发明实施例给出了如下一种利用所述损失函数对所述待训练全卷积语音合成模型的模型参数进行调整包括:
68.从所述损失函数中得到所述连续语音合成结果对应的连续语音合成频谱,以及所述参考输出语音合成结果对应的参考输出语音合成频谱;将所述连续语音合成频谱与所述参考输出语音合成频谱进行比较,利用比较结果,得到所述待训练全卷积语音合成模型的模型梯度;沿所述待训练全卷积语音合成模型的模型梯度下降的方向,对所述待训练全卷积语音合成模型的模型参数进行调整。
69.步骤s150、将参数调整后的全卷积语音合成模型作为待训练全卷积语音合成模型,并返回执行步骤s110,直到满足模型训练终止条件;
70.在每次对待训练全卷积语音合成模型的模型参数进行一次调整后,将参数调整后的全卷积语音合成模型作为待训练全卷积语音合成模型,并返回执行步骤s110,同时本发明实施例还可以将本次训练得到的离散语音合成结果与声学特征训练样本中的离散声学特征采样点进行拼接,将拼接结果作为声学特征训练样本一起输入到待训练全卷积语音合成模型中继续进行训练,直到满足模型训练终止条件。
71.模型训练终止条件至少包括:
72.模型训练次数达到预设次数,或,模型训练时间达到预设时间,或,损失函数满足预设条件,例如损失函数呈现收敛状态等。
73.步骤s160、将满足模型训练终止条件时的模型参数作为所述待训练全卷积语音合成模型的模型参数,得到训练好的全卷积语音合成模型。
74.本发明中所采用的的语音合成模型是一种全卷积语音合成模型,全卷积语音合成模型可以对多个待合成数据执行并行处理,语音合成速度快,因此,能够提高语音合成效率,至少将语音合成器的合成速度在并行环境下提高两个数量级。并且,本发明在对全卷积语音合成模型进行训练的过程中,通过调用待训练全卷积语音合成模型,对所述声学特征训练样本进行处理,得到离散语音合成结果,将所述离散语音合成结果转化为连续语音合成结果,由于本发明将离散语音合成结果转化为连续语音合成结果,进而利用连续语音合成结果得到损失函数,才能够利用损失函数结合梯度反传方式对所述待训练全卷积语音合成模型的模型参数进行调整,即对待训练全卷积语音合成模型的模型参数进行优化,经过模型参数优化,最终得到的训练好的全卷积语音合成模型能够提高语音合成质量。
75.下面给出一种将所述离散语音合成结果转化为连续语音合成结果的具体过程,图4为本发明实施例提供的将所述离散语音合成结果转化为连续语音合成结果方法的流程
图,该方法可应用于服务器,参照图4,所述方法可以包括:
76.步骤s200、获取服从均匀分布的均匀分布采样结果;
77.步骤s210、利用离散语音合成结果以及均匀分布采样结果,得到满足离散多项分布的语音合成概率分布结果;
78.步骤s220、利用连续性函数对所述语音合成概率分布结果进行处理,得到连续语音合成结果。
79.具体的,本发明实施例主要利用gumbel变换方法,首先获取服从均匀分布的均匀分布采样结果z1,...,z
n
,那么利用离散语音合成结果以及均匀分布采样结果,得到满足离散多项分布的语音合成概率分布结果x:
[0080][0081]
利用连续性函数对所述语音合成概率分布结果进行处理,得到连续语音合成结果:x
k

[0082][0083]
其中,p
k
表示离散语音合成结果中的任意一个,z
k
表示服从均匀分布的均匀分布采样结果中的任意一个。
[0084]
通过上述方式,将离散语音合成结果转换成连续语音合成结果,进而利用连续语音合成结果得到损失函数,才能够利用损失函数结合梯度反传方式对所述待训练全卷积语音合成模型的模型参数进行调整,即对待训练全卷积语音合成模型的模型参数进行优化,经过模型参数优化,最终得到的训练好的全卷积语音合成模型能够提高语音合成质量。
[0085]
下面介绍一种语音合成方法,图5为本发明实施例提供的一种语音合成方法的流程图,该方法可应用于服务器,参照图5,所述方法可以包括:
[0086]
步骤s300、获取待合成语音对应的声学特征;
[0087]
步骤s310、调用所述全卷积语音合成模型,对所述待合成语音对应的声学特征进行处理,得到语音合成结果。
[0088]
需要说明的是,本发明实施例中的语音合成方法调用的是以上实施例中介绍的语音合成模型训练方法训练得到的全卷积语音合成模型。
[0089]
需要说明的是,本发明实施例中的全卷积语音合成模型具体可以为ufans全卷积语音合成模型,ufans全卷积语音合成模型具备全卷积以及高感受视野的特点。
[0090]
本发明实施例主要是调用全卷积语音合成模型,对所述声学特征训练样本进行语音合成处理,得到离散语音合成结果,本发明实施例提供的全卷积语音合成模型可以同时对声学特征训练样本中的多个采样点进行处理,本申请中的全卷积语音合成模型可以对多个待合成数据执行并行处理,总时间用时减小,语音合成速度快,合成效率高。
[0091]
并且,在得到离散语音合成结果之后,可以将所述离散语音合成结果转化为连续语音合成结果,便于后续处理。
[0092]
本发明实施例中的全卷积语音合成模型的结构与图3所示的待训练全卷积语音合成模型的具体结构相同。
[0093]
下面对本申请实施例提供的语音合成模型训练装置进行介绍,下文描述的语音合
成模型训练装置可与上文语音合成模型训练方法相互对应参照。
[0094]
图6为本申请实施例提供的语音合成模型训练装置的结构框图,参照图6,所述语音合成模型训练装置包括:
[0095]
样本获取单元600,用于获取声学特征训练样本;
[0096]
样本处理单元610,用于调用待训练全卷积语音合成模型,对所述声学特征训练样本进行处理,得到离散语音合成结果;
[0097]
转化单元620,用于将所述离散语音合成结果转化为连续语音合成结果;
[0098]
损失函数获取单元630,用于对所述连续语音合成结果以及声学特征训练样本对应的参考输出语音合成结果进行比较,利用比较结果得到所述待训练全卷积语音合成模型的损失函数;
[0099]
参数调整单元640,用于利用所述损失函数对所述待训练全卷积语音合成模型的模型参数进行调整;将参数调整后的全卷积语音合成模型作为待训练全卷积语音合成模型,并返回执行样本处理单元执行的调用待训练全卷积语音合成模型,对所述声学特征训练样本进行处理的步骤,直到满足模型训练终止条件;将满足模型训练终止条件时的模型参数作为所述待训练全卷积语音合成模型的模型参数,得到训练好的全卷积语音合成模型。
[0100]
所述转化单元包括:
[0101]
均匀分布采样结果获取单元,用于获取服从均匀分布的均匀分布采样结果;
[0102]
离散概率分布结果获取单元,用于利用离散语音合成结果以及均匀分布采样结果,得到满足离散多项分布的语音合成概率分布结果;
[0103]
连续语音合成结果获取单元,用于利用连续性函数对所述语音合成概率分布结果进行处理,得到连续语音合成结果。
[0104]
所述损失函数至少包括:短时傅里叶变换stft损失函数。
[0105]
所述参数调整单元具体用于:
[0106]
从所述损失函数中得到所述连续语音合成结果对应的连续语音合成频谱,以及所述参考输出语音合成结果对应的参考输出语音合成频谱;
[0107]
将所述连续语音合成频谱与所述参考输出语音合成频谱进行比较,利用比较结果,得到所述待训练全卷积语音合成模型的模型梯度;
[0108]
沿所述待训练全卷积语音合成模型的模型梯度下降的方向,对所述待训练全卷积语音合成模型的模型参数进行调整。
[0109]
所述模型训练终止条件至少包括:
[0110]
模型训练次数达到预设次数,或,模型训练时间达到预设时间,或,损失函数满足预设条件。
[0111]
可选的,本发明实施例还公开一种语音合成装置,图7为本申请实施例提供的语音合成装置的结构框图,参照图7,所述语音合成装置包括:
[0112]
声学特征获取单元700,用于获取待合成语音对应的声学特征;
[0113]
声学特征处理单元710,用于调用如上所述的语音合成模型训练方法训练得到的全卷积语音合成模型,对所述待合成语音对应的声学特征进行处理,得到语音合成结果。
[0114]
可选的,本发明实施例还公开一种语音合成器,所述语音合成器至少包括如上语
音合成装置。
[0115]
本说明书中各个实施例中记载的技术特征可以相互替换或组合,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0116]
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0117]
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd

rom、或技术领域内所公知的任意其它形式的存储介质中。
[0118]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1