情感语音的合成方法、装置、设备及存储介质与流程

文档序号：24411137发布日期：2021-03-26 19:23阅读：141来源：国知局

1.本发明涉及语音合成技术领域，尤其涉及一种情感语音的合成方法、装置、设备及存储介质。

背景技术：

2.随着科技的发展，智能客服中心、聊天机器人、智能音箱等人工智能服务走进我们的日常生活，且发挥着越来越重要的作用。这种人工智能服务器通常涉及到语音合成技术，因此语音合成技术也得到了更为广泛的应用。
3.在现有技术中，语音合成方法主要为基于隐马尔可夫的语音合成方式或者基于神经网络的语音合成方式，这两种语音合成方式虽然可以获得不错的合成语音，但是生成的合成语音平淡、缺乏情感，从而无法获得饱含情感的语音。

技术实现要素：

4.本发明提供了一种情感语音的合成方法、装置、设备及存储介质，用于解决合成语音平淡、缺乏情感的问题，增加合成语音的多样性。
5.本发明第一方面提供了一种情感语音的合成方法，包括：获取待识别语音数据和对应的文本数据；将所述待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征和位置编码，并结合所述梅尔谱特征和所述位置编码在所述情感识别网络中进行处理，生成情感嵌入特征；将所述情感嵌入特征和所述文本数据输入预先训练好的语音合成网络中，生成目标梅尔谱数据；采用神经声码器对所述目标梅尔谱数据进行语音转换，生成目标情感语音。
6.可选的，在本发明第一方面的第一种实现方式中，所述将所述待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征和位置编码，并结合所述梅尔谱特征和所述位置编码在所述情感识别网络中进行处理，生成情感嵌入特征包括：将所述待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征；根据所述梅尔谱特征和预置的位置转换公式，生成位置编码；将所述梅尔谱特征和所述位置编码输入所述情感识别网络的编码器中进行编码，生成情感嵌入特征。
7.可选的，在本发明第一方面的第二种实现方式中，所述将所述待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征包括：对所述待识别语音数据进行加窗处理，生成加窗后的语音数据；对所述加窗后的语音数据进行短时傅里叶变换，生成傅里叶变换后的语音数据；采用梅尔滤波器组对所述傅里叶变换后的语音数据进行处理，生成梅尔谱特征。
8.可选的，在本发明第一方面的第三种实现方式中，所述根据所述梅尔谱特征和预置的位置转换公式，生成位置编码包括：读取梅尔谱特征的长度，并读取梅尔谱特征的位置；基于所述梅尔谱特征的长度和所述梅尔谱特征的位置，生成位置输入值；将所述位置输入向量输入预置的位置转换公式，生成位置编码。
9.可选的，在本发明第一方面的第四种实现方式中，所述将所述梅尔谱特征和所述位置编码输入所述情感识别网络的编码器中进行编码，生成情感嵌入特征包括：将所述梅尔谱特征和所述的位置编码输入所述情感识别网络的多头自注意力层中，结合残差连接，生成初始情感特征向量；将所述初始情感特征向量输入所述情感识别网络的前向传播层中进行卷积，生成情感嵌入特征。
10.可选的，在本发明第一方面的第五种实现方式中，所述将所述情感嵌入特征和所述文本数据输入预先训练好的语音合成网络中，生成目标梅尔谱数据包括：在预先训练好的语音合成网络中，将所述文本数据转换为文本嵌入特征；按照时刻顺序，将所述文本嵌入特征和所述情感嵌入特征进行拼接，生成目标梅尔谱数据。
11.可选的，在本发明第一方面的第六种实现方式中，所述在所述获取待识别语音数据和对应的文本数据之前，所述情感语音的合成方法包括：获取情感语音训练数据、情感标签数据和文本训练数据；采用所述情感语音训练数据和所述情感标签数据，结合层正则化机制进行模型训练，生成预先训练好的情感识别网络，并采用所述情感语音训练数据和所述文本训练数据进行模型训练，生成预先训练好的语音合成网络。
12.本发明第二方面提供了一种情感语音的合成装置，包括：获取模块，用于获取待识别语音数据和对应的文本数据；嵌入特征生成模块，用于将所述待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征和位置编码，并结合所述梅尔谱特征和所述位置编码在所述情感识别网络中进行处理，生成情感嵌入特征；梅尔谱数据生成模块，用于将所述情感嵌入特征和所述文本数据输入预先训练好的语音合成网络中，生成目标梅尔谱数据；语音转换模块，用于采用神经声码器对所述目标梅尔谱数据进行语音转换，生成目标情感语音。
13.可选的，在本发明第二方面的第一种实现方式中，所述嵌入特征生成模块包括：梅尔谱特征生成单元，用于将所述待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征；位置编码生成单元，用于根据所述梅尔谱特征和预置的位置转换公式，生成位置编码；编码单元，用于将所述梅尔谱特征和所述位置编码输入所述情感识别网络的编码器中进行编码，生成情感嵌入特征。
14.可选的，在本发明第二方面的第二种实现方式中，所述梅尔谱特征生成单元还可以具体用于：对所述待识别语音数据进行加窗处理，生成加窗后的语音数据；对所述加窗后的语音数据进行短时傅里叶变换，生成傅里叶变换后的语音数据；采用梅尔滤波器组对所述傅里叶变换后的语音数据进行处理，生成梅尔谱特征。
15.可选的，在本发明第二方面的第三种实现方式中，所述位置编码生成单元还可以具体用于：读取梅尔谱特征的长度，并读取梅尔谱特征的位置；基于所述梅尔谱特征的长度和所述梅尔谱特征的位置，生成位置输入值；将所述位置输入向量输入预置的位置转换公式，生成位置编码。
16.可选的，在本发明第二方面的第四种实现方式中，所述编码单元还可以具体用于：将所述梅尔谱特征和所述的位置编码输入所述情感识别网络的多头自注意力层中，结合残差连接，生成初始情感特征向量；将所述初始情感特征向量输入所述情感识别网络的前向传播层中进行卷积，生成情感嵌入特征。
17.可选的，在本发明第二方面的第五种实现方式中，梅尔谱数据生成模块还可以具
体用于：在预先训练好的语音合成网络中，将所述文本数据转换为文本嵌入特征；按照时刻顺序，将所述文本嵌入特征和所述情感嵌入特征进行拼接，生成目标梅尔谱数据。
18.可选的，在本发明第二方面的第六种实现方式中，情感语音的合成装置还包括：训练数据获取模块，用于获取情感语音训练数据、情感标签数据和文本训练数据；训练模块，用于采用所述情感语音训练数据和所述情感标签数据，结合层正则化机制进行模型训练，生成预先训练好的情感识别网络，并采用所述情感语音训练数据和所述文本训练数据进行模型训练，生成预先训练好的语音合成网络。
19.本发明第三方面提供了一种情感语音的合成设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述情感语音的合成设备执行上述的情感语音的合成方法。
20.本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的情感语音的合成方法。
21.本发明提供的技术方案中，获取待识别语音数据和对应的文本数据；将所述待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征和位置编码，并结合所述梅尔谱特征和所述位置编码在所述情感识别网络中进行处理，生成情感嵌入特征；将所述情感嵌入特征和所述文本数据输入预先训练好的语音合成网络中，生成目标梅尔谱数据；采用神经声码器对所述目标梅尔谱数据进行语音转换，生成目标情感语音。本发明实施例中，通过预先训练好的情感识别网络，结合梅尔谱特征和位置编码生成情感嵌入特征，然后将情感嵌入特征和文本数据进行拼接，生成目标情感语音，解决了合成语音平淡、缺乏情感的问题，增加了合成语音的多样性。
附图说明
22.图1为本发明实施例中情感语音的合成方法的一个实施例示意图；
23.图2为本发明实施例中情感语音的合成方法的另一个实施例示意图；
24.图3为本发明实施例中情感语音的合成装置的一个实施例示意图；
25.图4为本发明实施例中情感语音的合成装置的另一个实施例示意图；
26.图5为本发明实施例中情感语音的合成设备的一个实施例示意图。
具体实施方式
27.本发明实施例提供了一种情感语音的合成方法、装置、设备及存储介质，用于解决合成语音平淡、缺乏情感的问题，增加合成语音的多样性。
28.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
29.为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施
例中情感语音的合成方法的一个实施例包括：
30.101、获取待识别语音数据和对应的文本数据；
31.服务器获取待识别语音数据和与待识别文本数据对应的文本数据。需要强调的是，为进一步保证上述待识别语音数据和文本数据的私密和安全性，上述待识别语音数据和文本数据还可以存储于一区块链的节点中。
32.待识别语音数据为带有情感的待识别语音数据，可以为带有高兴情感的待识别语音数据、带有惊讶情感的待识别语音数据和/或带有愤怒情感的待识别语音数据。服务器在获取带有情感的待识别语音数据时，还获取对应的文本数据，例如带有情感的待识别语音数据为“真的吗！恭喜你！”，服务器在获取“真的吗！恭喜你！”的待识别语音数据时，还获取“真的吗！恭喜你！”的文本数据。
33.可以理解的是，本发明的执行主体可以为情感语音的合成装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
34.102、将待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征和位置编码，并结合梅尔谱特征和位置编码在情感识别网络中进行处理，生成情感嵌入特征；
35.服务器将待识别语音数据输入预先训练好的情感识别网络中，首先生成梅尔谱特征和位置编码，然后在情感识别网络中对该梅尔谱特征和该位置编码进行处理，从而生成情感嵌入特征。
36.服务器将“真的吗！恭喜你！”的待识别语音数据输入预先训练好的情感识别网络中进行计算，生成梅尔谱特征[b1,t1,d1]以及位置编码p，其中，位置编码p基于梅尔谱特征生成，该位置编码p实际上是一个隐藏层输出，服务器再结合梅尔谱特征[b1,t1,d1]以及位置编码p进行计算，生成情感嵌入特征[b2,t2,d2]。
[0037]
103、将情感嵌入特征和文本数据输入预先训练好的语音合成网络中，生成目标梅尔谱数据；
[0038]
服务器将情感嵌入特征和文本数据输入预先训练好的语音合成网络中进行计算，生成目标梅尔谱数据。
[0039]
服务器将[b2,t2,d2]的情感嵌入特征和“真的吗！恭喜你！”的文本数据输入预先训练好的语音合成网络中进行计算，在本实施例中，语音合成网络中包括编码器，在该编码器中，将“真的吗！恭喜你！”的文本数据进行特征提权，生成提取结果，并将该提取结果与情感嵌入特征[b2,t2,d2]进行拼接，生成目标梅尔谱数据[b2,t2,d2+d]。
[0040]
104、采用神经声码器对目标梅尔谱数据进行语音转换，生成目标情感语音。
[0041]
服务器采用神经声码器将目标梅尔谱数据转换为目标情感语音。
[0042]
需要说明的是，在本实施例中，神经声码器为wave glow，目标梅尔谱数据为神经声码器的输入，该输入的帧长为1024，帧移位256，首先将该目标梅尔谱数据输入神经声码器的仿射耦合层中进行缩放和转换，生成情感语音特征，然后对该情感语音特征进行可逆卷积，生成目标情感语音“真的吗！(惊讶情感)恭喜你！(高兴情感)”。
[0043]
本发明实施例中，通过预先训练好的情感识别网络，结合梅尔谱特征和位置编码生成情感嵌入特征，然后将情感嵌入特征和文本数据进行拼接，生成目标情感语音，解决了合成语音平淡、缺乏情感的问题，增加了合成语音的多样性。
[0044]
请参阅图2，本发明实施例中情感语音的合成方法的另一个实施例包括：
[0045]
201、获取情感语音训练数据、情感标签数据和文本训练数据；
[0046]
服务器从大数据平台或者数据库中获取情感语音训练数据、情感标签数据和文本训练数据。
[0047]
需要说明的是，情感语音训练数据可以分为包括噪声的情感语音训练数据和不包括噪声的情感语音训练数据。
[0048]
情感语音训练数据可以为“太过分了”、“真的吗”或者“太好了”之类带有情感的语音训练数据，并获取情感标签数据和文本训练数据，其中“太过分了”的情感语音训练数据对应“愤怒”的情感标签数据，对应“太过分了”的文本训练数据；“真的吗”的情感语音训练数据对应“惊讶”的情感标签数据对应“真的吗”的文本训练数据；“太好了”的情感语音训练数据对应“高兴”的情感标签数据，对应“太好了”的文本训练数据。
[0049]
202、采用情感语音训练数据和情感标签数据，结合层正则化机制进行模型训练，生成预先训练好的情感识别网络，并采用情感语音训练数据和文本训练数据进行模型训练，生成预先训练好的语音合成网络；
[0050]
服务器根据情感语音训练数据和情感标签数据，结合正则化机制进行训练，生成预先训练好的情感识别网络，然后根据情感语音训练数据和文本训练数据进行模型训练，生成预先训练好的语音合成网络。
[0051]
需要说明的是，预先训练好的情感识别网络用于提取情感特征，因此采用情感语音训练数据和情感标签数据训练该情感识别网络；预先训练好的语音合成网络用于合成情感语音，因此采用情感语音训练数据和文本训练数据训练该语音合成网络。虽然上述的训练过程均包括情感语音训练数据，但是在训练情感识别网络时，情感语音训练数据既可以为包括噪声的情感语音训练数据也可以为不包括噪声的情感语音训练数据，但是训练语音合成网络时，需要调用高质量的训练数据进行训练，即不包括噪声的情感语音训练数据。
[0052]
在训练情感识别网络的过程中，服务器结合层正则化机制来训练情感识别网络，主要是在每个子层后面添加层正则化机制，层正则化机制是算出i层的输出在通道维度上的均值和方差，再让i层的输出减去均值，除以方差，使i层的输出均值为0，方差为1。层正则化机制能够使得训练数据的分布一致，使训练的过程具有稳定性。
[0053]
203、获取待识别语音数据和对应的文本数据；
[0054]
服务器获取待识别语音数据和与待识别文本数据对应的文本数据。需要强调的是，为进一步保证上述待识别语音数据和文本数据的私密和安全性，上述待识别语音数据和文本数据还可以存储于一区块链的节点中。
[0055]
待识别语音数据为带有情感的待识别语音数据，可以为带有高兴情感的待识别语音数据、带有惊讶情感的待识别语音数据和/或带有愤怒情感的待识别语音数据。服务器在获取带有情感的待识别语音数据时，还获取对应的文本数据，例如带有情感的待识别语音数据为“真的吗！恭喜你！”，服务器在获取“真的吗！恭喜你！”的待识别语音数据时，还获取“真的吗！恭喜你！”的文本数据。
[0056]
204、将待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征和位置编码，并结合梅尔谱特征和位置编码在情感识别网络中进行处理，生成情感嵌入特征；
[0057]
服务器将待识别语音数据输入预先训练好的情感识别网络中，首先生成梅尔谱特征和位置编码，然后在情感识别网络中对该梅尔谱特征和该位置编码进行处理，从而生成
情感嵌入特征。
[0058]
服务器将“真的吗！恭喜你！”的待识别语音数据输入预先训练好的情感识别网络中进行计算，生成梅尔谱特征[b1,t1,d1]以及位置编码p，其中，位置编码p基于梅尔谱特征生成，该位置编码p实际上是一个隐藏层输出，服务器再结合梅尔谱特征[b1,t1,d1]以及位置编码p进行计算，生成情感嵌入特征[b2,t2,d2]。
[0059]
具体的，服务器将待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征；服务器根据梅尔谱特征和预置的位置转换公式，生成位置编码；服务器将梅尔谱特征和位置编码输入情感识别网络的编码器中进行编码，生成情感嵌入特征。
[0060]
服务器将“真的吗！恭喜你！”的待识别语音数据输入预先训练好的情感识别网络中，首先将“真的吗！恭喜你！”输入训练好的情感识别网络中，进行特征提取，生成梅尔谱特征[b1,t1,d1]；然后服务器对[b1,t1,d1]的梅尔谱特征按照预置的位置转换公式进行位置编码的计算，生成位置编码p；最后服务器将梅尔谱特征[b1,t1,d1]和位置编码p输入情感识别网络的编码器中进行编码，生成情感嵌入特征，其中情感识别网络的编码器包括五个相同的模块和一层长短期记忆人工神经网络层，其中每个模块都包括两个子层，分别为多头自注意力层和前向传播层，在编码器中对[b1,t1,d1]和p进行编码，生成情感嵌入特征[b2,t2,d2]。
[0061]
服务器将待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征包括：
[0062]
首先，服务器对待识别语音数据进行加窗处理，生成加窗后的语音数据；然后，服务器对加窗后的语音数据进行短时傅里叶变换，生成傅里叶变换后的语音数据；最后，服务器采用梅尔滤波器组对傅里叶变换后的语音数据进行处理，生成梅尔谱特征。
[0063]
服务器采用窗函数对“真的吗！恭喜你！”的待识别语音数据进行加窗处理，生成加窗后的语音数据；然后服务器对该加窗后的语音数据进行傅里叶变换，确定加窗后的语音数据的频率和相位，从而生成傅里叶变换后的语音数据；最后服务器采用梅尔滤波器组将傅里叶变换后的语音数据处理为梅尔谱特征。
[0064]
服务器根据梅尔谱特征和预置的位置转换公式，生成位置编码包括：
[0065]
服务器读取梅尔谱特征的长度，并读取梅尔谱特征的位置；服务基于梅尔谱特征的长度和梅尔谱特征的位置，生成位置输入值；服务器将位置输入向量输入预置的位置转换公式，生成位置编码。
[0066]
在本实施例中，预置的位置转换公式为
[0067][0068][0069]
其中，pos为梅尔谱特征的位置，2i表示偶数的维度，2i+1表示奇数的维度，d
mode
表示梅尔谱特征的位置对应的预置维度向量，例如256。
[0070]
例如，服务器读取梅尔谱特征的长度为5，梅尔谱特征的位置为0，然后服务器基于“5”的梅尔谱特征的长度和“0”的梅尔谱特征的位置，确定位置输入值为[0,1,2,3,4]，然后将位置输入值[0,1,2,3,4]基于上述公式进行计算，生成位置编码p。需要说明的是，在本实施例中p只是一个指代词，并不为具体的位置编码数据。
[0071]
服务器将梅尔谱特征和位置编码输入情感识别网络的编码器中进行编码，生成情感嵌入特征包括：
[0072]
服务器将梅尔谱特征和的位置编码输入情感识别网络的多头自注意力层中，结合残差连接，生成初始情感特征向量；服务器将初始情感特征向量输入情感识别网络的前向传播层中进行卷积，生成情感嵌入特征。
[0073]
服务器首先将梅尔谱特征[b1,t1,d1]输入多头自注意力层进行计算，结合残差连接生成初始情感特征向量，其中多头自注意力层设计的公式如下所示：
[0074][0075]
head
i
＝attention(qw
iq
,kw
ik
,kw
iv
)
[0076]
c
t
＝multihead(q,k,v)＝concat(head1,
…
,head
h
)w
o
；
[0077]
其中，q,k,v为输入，即梅尔谱特征，d
k
为预置维度向量，例如256，head
i
为第i个头，在多头自注意力层中的每一次计算为一个头，如果进行4次attention(qw
iq
,kw
ik
,kv
v
)计算，则生成4个头，w
iq
,kw
ik
,kw
iv
为权重，该权重是在训练过程生成的，concat指将多个头沿着最后一个维度拼接在一起，例如，这四个头的维度向量都是[b
t
,t
t
,d
t
]，服务器则将他们拼接到一起，生成初始情感特征向量[b
t
,t
t
,4d
t
]，w
o
为提前学习好的参数。在生成初始情感特征向量之后，将该初始情感特征向量和梅尔谱特征输入对应的前向传播层中进行卷积，生成第一模块情感特征向量，由于该编码器包括五个相同的模块，因此按照上述的计算方式进行五次计算，将最后一个模块的输出结果输入一层长短期记忆人工神经网络层，从而生成情感嵌入特征[b2,t2,d2]。
[0078]
需要说明的是，残差连接是将每个多头自注意力层的输入又添加至输出中，作为下一层前向传播层的输入，在第一个多头自注意力层中就是在初始情感特征向量的基础上加入梅尔谱特征，从而生成前向传播层的输入。从而提高生成情感嵌入特征的关联性。
[0079]
205、将情感嵌入特征和文本数据输入预先训练好的语音合成网络中，生成目标梅尔谱数据；
[0080]
服务器将情感嵌入特征和文本数据输入预先训练好的语音合成网络中进行计算，生成目标梅尔谱数据。
[0081]
服务器将[b2,t2,d3]的情感嵌入特征和“真的吗！恭喜你！”的文本数据输入预先训练好的语音合成网络中进行计算，在本实施例中，语音合成网络中包括编码器，在该编码器中，将“真的吗！恭喜你！”的文本数据进行特征提权，生成提取结果，并将该提取结果与情感嵌入特征[b2,t2,d2]进行拼接，生成目标梅尔谱数据[b2,t2,d2+d]。
[0082]
具体的，服务器在预先训练好的语音合成网络中，将文本数据转换为文本嵌入特征；服务器按照时刻顺序，将文本嵌入特征和情感嵌入特征进行拼接，生成目标梅尔谱数据。
[0083]
服务器在预先训练好的语音合成网络中，首先将文本数据按照时刻顺序转换为与情感嵌入特征形式相同的文本嵌入特征，然后服务器按照时刻顺序将文本嵌入特征和情感嵌入特征进行拼接，生成目标梅尔谱数据。在本实施例中，例如情感嵌入特征为[b2,t2,d2]，文本嵌入特征为[b2,t2,d3]，服务器则基于时刻顺序将[b2,t2,d2]与[b2,t2,d]进行拼接，生成目标梅尔谱数据为[b2,t2,d2+d]。在其他实施例中，若情感嵌入特征维度为[b2,d2]，服务
器则将该情感嵌入特征扩展为[b2,1,d2]，然后再对该情感嵌入特征与本钱嵌入特征进行拼接。
[0084]
206、采用神经声码器对目标梅尔谱数据进行语音转换，生成目标情感语音。
[0085]
服务器采用神经声码器将目标梅尔谱数据转换为目标情感语音。
[0086]
需要说明的是，在本实施例中，神经声码器为wave glow，目标梅尔谱数据为神经声码器的输入，该输入的帧长为1024，帧移位256，首先将该目标梅尔谱数据输入神经声码器的仿射耦合层中进行缩放和转换，生成情感语音特征，然后对该情感语音特征进行可逆卷积，生成目标情感语音“真的吗！(惊讶情感)恭喜你！(高兴情感)”。
[0087]
本发明实施例中，通过预先训练好的情感识别网络，结合梅尔谱特征和位置编码生成情感嵌入特征，然后将情感嵌入特征和文本数据进行拼接，生成目标情感语音，解决了合成语音平淡、缺乏情感的问题，增加了合成语音的多样性。
[0088]
上面对本发明实施例中情感语音的合成方法进行了描述，下面对本发明实施例中情感语音的合成装置进行描述，请参阅图3，本发明实施例中情感语音的合成装置一个实施例包括：
[0089]
待识别数据获取模块301，用于获取待识别语音数据和对应的文本数据；
[0090]
嵌入特征生成模块302，用于将所述待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征和位置编码，并结合所述梅尔谱特征和所述位置编码在所述情感识别网络中进行处理，生成情感嵌入特征；
[0091]
梅尔谱数据生成模块303，用于将所述情感嵌入特征和所述文本数据输入预先训练好的语音合成网络中，生成目标梅尔谱数据；
[0092]
语音转换模块304，用于采用神经声码器对所述目标梅尔谱数据进行语音转换，生成目标情感语音。
[0093]
本发明实施例中，通过预先训练好的情感识别网络，结合梅尔谱特征和位置编码生成情感嵌入特征，然后将情感嵌入特征和文本数据进行拼接，生成目标情感语音，解决了合成语音平淡、缺乏情感的问题，增加了合成语音的多样性。
[0094]
请参阅图4，本发明实施例中情感语音的合成装置的另一个实施例包括：
[0095]
待识别数据获取模块301，用于获取待识别语音数据和对应的文本数据；
[0096]
嵌入特征生成模块302，用于将所述待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征和位置编码，并结合所述梅尔谱特征和所述位置编码在所述情感识别网络中进行处理，生成情感嵌入特征；
[0097]
梅尔谱数据生成模块303，用于将所述情感嵌入特征和所述文本数据输入预先训练好的语音合成网络中，生成目标梅尔谱数据；
[0098]
语音转换模块304，用于采用神经声码器对所述目标梅尔谱数据进行语音转换，生成目标情感语音。
[0099]
可选的，嵌入特征生成模块302包括：
[0100]
梅尔谱特征生成单元3021，用于将所述待识别语音数据输入预先训练好的情感识别网络中，生成梅尔谱特征；
[0101]
位置编码生成单元3022，用于根据所述梅尔谱特征和预置的位置转换公式，生成位置编码；
[0102]
编码单元3023，用于将所述梅尔谱特征和所述位置编码输入所述情感识别网络的编码器中进行编码，生成情感嵌入特征。
[0103]
可选的，梅尔谱特征生成单元3021还可以具体用于：
[0104]
对所述待识别语音数据进行加窗处理，生成加窗后的语音数据；
[0105]
对所述加窗后的语音数据进行短时傅里叶变换，生成傅里叶变换后的语音数据；
[0106]
采用梅尔滤波器组对所述傅里叶变换后的语音数据进行处理，生成梅尔谱特征。
[0107]
可选的，位置编码生成单元3022还可以具体用于：
[0108]
读取梅尔谱特征的长度，并读取梅尔谱特征的位置；
[0109]
基于所述梅尔谱特征的长度和所述梅尔谱特征的位置，生成位置输入值；
[0110]
将所述位置输入向量输入预置的位置转换公式，生成位置编码。
[0111]
可选的，编码单元3023还可以具体用于：
[0112]
将所述梅尔谱特征和所述的位置编码输入所述情感识别网络的多头自注意力层中，结合残差连接，生成初始情感特征向量；
[0113]
将所述初始情感特征向量输入所述情感识别网络的前向传播层中进行卷积，生成情感嵌入特征。
[0114]
可选的，梅尔谱数据生成模块303还可以具体用于：
[0115]
在预先训练好的语音合成网络中，将所述文本数据转换为文本嵌入特征；
[0116]
按照时刻顺序，将所述文本嵌入特征和所述情感嵌入特征进行拼接，生成目标梅尔谱数据。
[0117]
可选的，情感语音的合成装置还包括：
[0118]
训练数据获取模块305，用于获取情感语音训练数据、情感标签数据和文本训练数据；
[0119]
训练模块306，用于采用所述情感语音训练数据和所述情感标签数据，结合层正则化机制进行模型训练，生成预先训练好的情感识别网络，并采用所述情感语音训练数据和所述文本训练数据进行模型训练，生成预先训练好的语音合成网络。
[0120]
本发明实施例中，通过预先训练好的情感识别网络，结合梅尔谱特征和位置编码生成情感嵌入特征，然后将情感嵌入特征和文本数据进行拼接，生成目标情感语音，解决了合成语音平淡、缺乏情感的问题，增加了合成语音的多样性。
[0121]
上面图3和图4从模块化功能实体的角度对本发明实施例中的情感语音的合成装置进行详细描述，下面从硬件处理的角度对本发明实施例中情感语音的合成设备进行详细描述。
[0122]
图5是本发明实施例提供的一种情感语音的合成设备的结构示意图，该情感语音的合成设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，cpu)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对情感语音的合成设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在情感语音的合成设备500上执行存储介质530中的一系列指令操作。
[0123]
情感语音的合成设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如windows serve，mac os x，unix，linux，freebsd等等。本领域技术人员可以理解，图5示出的情感语音的合成设备结构并不构成对情感语音的合成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
[0124]
本发明还提供一种情感语音的合成设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述情感语音的合成方法的步骤。
[0125]
本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述情感语音的合成方法的步骤。
[0126]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0127]
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0128]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read
‑
only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0129]
以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：梁爽;陈闽川;马骏;王少军
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人

上一篇：一种用于高温除尘设备的壁流式陶瓷膜滤芯组件的制作方法
上一篇：一种适用于户外作业的光纤熔接机的制作方法