语音合成方法、装置、计算机设备和存储介质与流程

文档序号:32249703发布日期:2022-11-19 00:55阅读:88来源:国知局
语音合成方法、装置、计算机设备和存储介质与流程

1.本技术涉及语音处理技术领域,特别是涉及一种语音合成方法、装置、计算机设备和存储介质。


背景技术:

2.随着语音处理技术的发展,出现了语音合成技术。语音合成技术能够将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出,从而实现计算机设备的语音通信。
3.传统的基于自回归的语音合成模型需要大量的训练数据,如果训练数据不够多,语音合成模型进行声谱预测时容易出现解码提前结束或者无法结束的情况,造成声谱预测错误,从而导致无法准确进行语音合成。


技术实现要素:

4.基于此,有必要针对上述技术问题,提供一种能够提高准确性的语音合成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
5.第一方面,本技术提供了一种语音合成方法。所述方法包括:
6.通过对中文文本对应的音素特征信息进行编码,确定待预测声谱的编码段;
7.在每轮迭代预测中,确定本轮预测的所述编码段对应的当前声谱特征、以及本轮预测所述当前声谱特征时使用的注意力权重;
8.在所述注意力权重达到预设权重阈值的情况下,基于所述当前声谱特征的长度对所述编码段对应的预设解码次数进行调整,得到调整后的预设解码次数;
9.在迭代预测的轮数达到所述预设解码次数的情况下,停止迭代,并将所述当前声谱特征确定为所述编码段对应的目标声谱特征;所述目标声谱特征用于合成所述中文文本对应的语音。
10.在其中一个实施例中,所述通过对中文文本对应的音素特征信息进行编码,确定待预测声谱的编码段包括:
11.确定中文文本对应的音素特征信息;
12.对所述音素特征信息进行编码,得到所述中文文本对应的文本编码序列;
13.按照预设时间步,从文本编码序列中确定待进行声谱预测的编码段。
14.在其中一个实施例中,所述方法还包括:
15.在迭代预测的轮数未达到所述预设解码次数的情况下,将下一轮作为本轮,返回确定本轮预测的所述编码段对应的当前声谱特征、以及本轮预测所述当前声谱特征时使用的注意力权重的步骤继续执行。
16.在其中一个实施例中,所述方法还包括计算注意力权重的步骤;所述计算注意力权重的步骤包括:
17.在每轮迭代预测中,确定本轮预测当前声谱特征时使用的当前注意力向量;
18.基于所述当前注意力向量与所述编码段之间的相似度,计算所述当前注意力向量对应的注意力权重;所述注意力权重用于指示对所述注意力向量进行特征提取以得到当前特征向量;所述当前特征向量用于预测当前声谱特征。
19.在其中一个实施例中,所述在所述注意力权重达到预设权重阈值的情况下,基于所述当前声谱特征的长度对所述编码段对应的预设解码次数进行调整,得到调整后的预设解码次数包括:
20.在所述注意力权重达到预设权重阈值的情况下,确定所述编码段对应的解码轮次偏移值;
21.根据所述解码轮次偏移值和所述当前声谱特征的长度,对所述编码段对应的预设解码次数进行调整,得到调整后的预设解码次数。
22.在其中一个实施例中,所述方法还包括:
23.基于所述当前声谱特征预测所述编码段对应的结束标识信息;
24.在所述结束标识信息无法满足预设结束条件的情况下,将迭代预测的轮数与所述预设解码次数进行比对,并执行所述在迭代预测的轮数与所述预设解码次数相匹配的情况下,停止迭代的步骤。
25.在其中一个实施例中,所述方法还包括:
26.在所述结束标识信息满足预设结束条件的情况下,停止迭代,并将所述当前声谱特征确定为所述编码段对应的目标声谱特征。
27.第二方面,本技术还提供了一种语音合成装置。所述装置包括:
28.编码模块,用于通过对中文文本对应的音素特征信息进行编码,确定待预测声谱的编码段;
29.解码模块,在每轮迭代预测中,确定本轮预测的所述编码段对应的当前声谱特征、以及本轮预测所述当前声谱特征时使用的注意力权重;在所述注意力权重达到预设权重阈值的情况下,基于所述当前声谱特征的长度对所述编码段对应的预设解码次数进行调整,得到调整后的预设解码次数;在迭代预测的轮数达到所述预设解码次数的情况下,停止迭代,并将所述当前声谱特征确定为所述编码段对应的目标声谱特征;所述目标声谱特征用于合成所述中文文本对应的语音。
30.在其中一个实施例中,所述编码模块,还用于确定中文文本对应的音素特征信息;对所述音素特征信息进行编码,得到所述中文文本对应的文本编码序列;按照预设时间步,从文本编码序列中确定待进行声谱预测的编码段。
31.在其中一个实施例中,所述解码模块,还用于在迭代预测的轮数未达到所述预设解码次数的情况下,将下一轮作为本轮,返回确定本轮预测的所述编码段对应的当前声谱特征、以及本轮预测所述当前声谱特征时使用的注意力权重的步骤继续执行。
32.在其中一个实施例中,所述解码模块,还用于在每轮迭代预测中,确定本轮预测当前声谱特征时使用的当前注意力向量;基于所述当前注意力向量与所述编码段之间的相似度,计算所述当前注意力向量对应的注意力权重;所述注意力权重用于指示对所述注意力向量进行特征提取以得到当前特征向量;所述当前特征向量用于预测当前声谱特征。
33.在其中一个实施例中,所述解码模块,还用于在所述注意力权重达到预设权重阈值的情况下,确定所述编码段对应的解码轮次偏移值;根据所述解码轮次偏移值和所述当
前声谱特征的长度,对所述编码段对应的预设解码次数进行调整,得到调整后的预设解码次数。
34.在其中一个实施例中,所述解码模块,还用于基于所述当前声谱特征预测所述编码段对应的结束标识信息;在所述结束标识信息无法满足预设结束条件的情况下,将迭代预测的轮数与所述预设解码次数进行比对,并执行所述在迭代预测的轮数与所述预设解码次数相匹配的情况下,停止迭代的步骤。
35.在其中一个实施例中,所述解码模块,还用于在所述结束标识信息满足预设结束条件的情况下,停止迭代,并将所述当前声谱特征确定为所述编码段对应的目标声谱特征。
36.第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本技术所述方法各实施例中的步骤。
37.第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本技术所述方法各实施例中的步骤。
38.第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本技术所述方法各实施例中的步骤。
39.上述语音合成方法、装置、计算机设备、存储介质和计算机程序产品,通过对中文文本对应的音素特征信息进行编码,确定待预测声谱的编码段;在每轮迭代预测中,确定本轮预测的编码段对应的当前声谱特征、以及本轮预测当前声谱特征时使用的注意力权重;在注意力权重达到预设权重阈值的情况下,基于当前声谱特征的长度对编码段对应的预设解码次数进行调整,得到调整后的预设解码次数;在迭代预测的轮数达到预设解码次数的情况下,停止迭代,并将当前声谱特征确定为编码段对应的目标声谱特征;目标声谱特征用于合成中文文本对应的语音。通过在每轮迭代预测中,根据注意力权重和当前声谱特征的长度调整预设解码次数,以实现在迭代预测的轮数达到所述预设解码次数的情况下,控制迭代预测结束,从而能够得到准确的目标声谱特征以提高语音合成的准确性。
附图说明
40.图1为一个实施例中语音合成方法的应用环境图;
41.图2为一个实施例中语音合成方法的流程示意图;
42.图3为一个实施例中声谱预测模型的示意图;
43.图4为一个实施例中语音合成装置的结构框图;
44.图5为一个实施例中计算机设备的内部结构图;
45.图6为另一个实施例中计算机设备的内部结构图。
具体实施方式
46.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
47.本技术实施例提供的语音合成方法,可以应用于如图1所示的应用环境中。其中,
终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。服务器104可以通过对中文文本对应的音素特征信息进行编码,确定待预测声谱的编码段;服务器104可以在每轮迭代预测中,确定本轮预测的编码段对应的当前声谱特征、以及本轮预测当前声谱特征时使用的注意力权重;服务器104可以在注意力权重达到预设权重阈值的情况下,基于所述当前声谱特征的长度对编码段对应的预设解码次数进行调整,得到调整后的预设解码次数;服务器104可以在迭代预测的轮数达到预设解码次数的情况下,停止迭代,并将当前声谱特征确定为编码段对应的目标声谱特征;目标声谱特征用于合成中文文本对应的语音。可以理解,终端102可以展示基于目标特征合成的语音。
48.其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
49.在一个实施例中,如图2所示,提供了一种语音合成方法,本实施例以该方法应用于服务器进行举例说明,可以理解的是,该方法也可以应用于终端,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
50.步骤202,通过对中文文本对应的音素特征信息进行编码,确定待预测声谱的编码段;在每轮迭代预测中,确定本轮预测的编码段对应的当前声谱特征、以及本轮预测当前声谱特征时使用的注意力权重。
51.其中,音素特征信息用于指示中文文本中包含的语音特征。可以理解,音素是根据语音的自然属性划分出来的最小语音单位,是语音中最小的发音单元,中文文本中包括多种音素特征,比如声母、韵母、标点符号、声调和轻声等特征,这些特征共同决定了中文文本对应的语音结构,即,如何发出中文文本对应的语音。编码段是中文文本对应的部分编码信息。可以理解,对中文文本对应的音素特征信息进行编码可以得到中文文本对应的编码信息,编码段实质上是编码信息中的一段信息。当前声谱特征中包括编码段对应的声学特征,比如声波的频率信息和振幅信息。注意力权重是预测编码段对应的当前声谱特征过程中的中间数据。可以理解,注意力机制,是模仿人类注意力而提出的一种解决问题的方法,核心目标是通过给神经网络的部分节点分配不同的权重,以便从众多信息中选择出对当前任务目标更关键的信息。注意力权重可以指示信息的关键程度,以提取出关键特征。语音合成(text to speech)是将输入的中文文本转换成语音。
52.具体地,服务器可以获取中文文本对应的音素特征信息,并通过对音素特征信息进行编码,确定待预测声谱的编码段。可以理解,每轮迭代预测中为了预测当前声谱特征,会使用到中间数据,注意力权重是在预测当前声谱特征的过程中产生的中间数据。在每轮迭代预测中,服务器可以确定本轮预测的编码段对应的当前声谱特征、以及本轮预测当前声谱特征时使用的注意力权重。
53.在一个实施例中,当前声谱特征可以是梅尔频谱和梅尔倒谱中的至少一种。梅尔频谱(mel bank features),一种语音信号的声学特征,包含丰富的语音信息,常用于语音识别和语音合成中。
54.步骤204,在注意力权重达到预设权重阈值的情况下,基于所述当前声谱特征的长
度对编码段对应的预设解码次数进行调整,得到调整后的预设解码次数。
55.其中,预设权重阈值是针对注意力权重设置的阈值。
56.具体地,当前声谱特征和编码段之间的对齐程度与注意力权重是正相关的关系。可以理解,注意力权重越大,则对齐程度越高。在注意力权重达到预设权重阈值的情况下,可以判定当前声谱特征与编码段在一定程度上对齐了,此时,服务器可以对编码段对应的预设解码次数进行调整,得到调整后的预设解码次数。其中,调整后的预设解码次数相较于之前的预设解码次数更大。
57.在一个实施例中,在注意力权重达到预设权重阈值、且当前声谱特征与编码段之间长度相匹配的情况下,基于所述当前声谱特征的长度对所述编码段对应的预设解码次数进行调整,得到调整后的预设解码次数。
58.在一个实施例中,当前声谱特征与编码段之间长度相匹配可以是指当前声谱特征对应的时域长度大于编码段对应的时域长度。可以理解,不限于时域长度这一种实现方式,频域长度也可以用于确定当前声谱特征与编码段之间长度的匹配情况。
59.步骤206,在迭代预测的轮数达到预设解码次数的情况下,停止迭代,并将当前声谱特征确定为编码段对应的目标声谱特征。
60.其中,目标声谱特征用于合成中文文本对应的语音。
61.具体地,虽然可以认为当前声谱特征与编码段在一定程度上对齐了,但是直接将当前声谱特征输出不够准确,服务器可以继续预测所述编码段对应的当前声谱特征,并在迭代预测的轮数达到预设解码次数的情况下,停止迭代,并将当前声谱特征确定为编码段对应的目标声谱特征。
62.上述语音合成方法中,通过对中文文本对应的音素特征信息进行编码,确定待预测声谱的编码段;在每轮迭代预测中,确定本轮预测的编码段对应的当前声谱特征、以及本轮预测当前声谱特征时使用的注意力权重;在注意力权重达到预设权重阈值的情况下,基于当前声谱特征的长度对编码段对应的预设解码次数进行调整,得到调整后的预设解码次数;在迭代预测的轮数达到预设解码次数的情况下,停止迭代,并将当前声谱特征确定为编码段对应的目标声谱特征;目标声谱特征用于合成中文文本对应的语音。通过在每轮迭代预测中,根据注意力权重和当前声谱特征的长度调整预设解码次数,以实现在迭代预测的轮数达到所述预设解码次数的情况下,控制迭代预测结束,从而能够得到准确的目标声谱特征以提高语音合成的准确性。
63.在一个实施例中,通过对中文文本对应的音素特征信息进行编码,确定待预测声谱的编码段包括:确定中文文本对应的音素特征信息;对音素特征信息进行编码,得到中文文本对应的文本编码序列;按照预设时间步,从文本编码序列中确定待进行声谱预测的编码段。
64.其中,文本编码序列是在预测声谱特征的过程中符合相应格式的中间数据。可以理解,服务器无法直接从音素特征信息预测出声谱特征,通过多次对音素特征信息进行格式转换以提取特征,才能够预测出声谱特征。编码段是文本编码序列中的部分编码序列。
65.具体地,服务器可以确定中文文本中的音素特征信息。服务器可以通过编码器对音素特征信息进行提取并压缩成固定长度的上下文向量,得到中文文本对应的文本编码序列。服务器可以按照预设时间步,从文本编码序列中确定待进行声谱预测的编码段。可以理
解,文本编码序列中包括多个编码段,服务器可以按照时间顺序,先后分别对多个编码段进行声谱预测。
66.在一个实施例中,服务器可以识别237种的音素,包括正常的1至5声调,以及常用的标点符号。其中,声调5表示轻声。
67.在一个实施例中,服务器可以通过查询标准音素字典,得到中文文本对应的音素特征信息。
68.在一个实施例中,编码器包括词编码层、三个卷积层和双向长短期记忆网络层。其中,词编码,是通过一些数据变换或映射将文本转化为计算机可识别处理的数值矩阵,在建模过程中,文本信息由该数值矩阵表示,参与训练和计算。服务器可以通过词编码层将音素特征信息转成文本向量,并通过三个卷积层和双向长短记忆网络层对文本向量进行编码特征提取,得到中文文本对应的文本编码序列。
69.本实施例中,通过确定中文文本对应的音素特征信息,并对音素特征信息进行编码,得到中文文本对应的文本编码序列,再按照预设时间步,从文本编码序列中确定待进行声谱预测的编码段,后续能够对编码段进行声谱预测,从而实现对中文文本的语音合成。
70.在一个实施例中,方法还包括:在迭代预测的轮数未达到预设解码次数的情况下,将下一轮作为本轮,返回确定本轮预测的编码段对应的当前声谱特征、以及本轮预测当前声谱特征时使用的注意力权重的步骤继续执行。
71.具体地,在注意力权重达到预设权重阈值的情况下,需要再多预测一部分,以提高声谱预测的准确性。可以理解,多预测的这部分可以是静音特征。在迭代预测的轮数未达到预设解码次数的情况下,服务器可以将下一轮作为本轮,返回确定本轮预测的编码段对应的当前声谱特征、以及本轮预测当前声谱特征时使用的注意力权重的步骤继续执行。
72.在一个实施例中,在所述注意力权重达到预设权重阈值、且所述当前声谱特征与所述编码段之间长度相匹配的情况下,服务器可以直接对当前声谱特征再预测一部分静音特征,得到目标声谱特征。
73.在一个实施例中,当前声谱特征的长度与迭代预测的轮数相匹配。服务器可以通过比对当前声谱特征的长度和预设解码次数,判断迭代预测的轮数是否达到预设解码次数。可以理解,在经过每轮迭代预测后,当前声谱特征增加的长度是固定的,因此,服务器可以通过确定当前声谱特征的长度,得到迭代预测的轮数。
74.本实施例中,在迭代预测的轮数未达到预设解码次数的情况下,将下一轮作为本轮,返回确定本轮预测的编码段对应的当前声谱特征、以及本轮预测当前声谱特征时使用的注意力权重的步骤继续执行,通过多轮迭代预测,提高声谱预测的准确性。
75.在一个实施例中,方法还包括计算注意力权重的步骤;计算注意力权重的步骤包括:在每轮迭代预测中,确定本轮预测当前声谱特征时使用的当前注意力向量;基于当前注意力向量与编码段之间的相似度,计算当前注意力向量对应的注意力权重;注意力权重用于指示对注意力向量进行特征提取以得到当前特征向量;当前特征向量用于预测当前声谱特征。
76.具体地,在每轮迭代预测中,服务器可以确定本轮预测当前声谱特征时使用的当前注意力向量,通过注意力循环神经网络层计算当前注意力向量与编码段之间的相似度,得到相似度分数,并将相似度分数作为归一化指数函数(softmax函数)的输入,得到当前注
意力向量对应的注意力权重。其中,循环神经网络(recurrent neural network,rnn)是一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。
77.在一个实施例中,服务器可以综合上下文信息和位置两种维度,计算当前注意力向量与编码段之间的相似度分数。可以理解,文本编码序列中包括完整的上下文信息,以及文本编码序列包含相应的序列位置信息。注意力向量中包含的文本内容信息和状态位置信息应与编码段中的上下文信息和序列位置信息一致,二者之间的一致性越高,相似度分数就越高。
78.在一个实施例中,服务器可以通过解码器对编码段进行声谱预测。其中,解码器可以包括预处理层、注意力循环神经网络层和解码循环神经网络层。服务器可以确定上一轮预测出的上一声谱特征,以及上一轮预测时使用的上一注意力向量和上一特征向量。服务器可以将上一声谱特征输入至预处理层,在将预处理层的输出与上一注意力向量进行拼接后,输入至注意力循环神经网络层得到本轮预测需要使用的当前注意力向量。服务器可以在将当前注意力向量和上一特征向量输入至解码循环神经网络层,得到本轮预测需要使用的当前特征向量。
79.在一个实施例中,服务器可以将当前特征向量输入至帧预测网络,得到当前声谱特征。当前声谱特征可以包括至少一帧梅尔频谱。可以理解,服务器可以按照预设频谱帧数,在每轮迭代预测中,预测出预设频谱帧数的梅尔频谱。比如,预设频谱帧数可以是3帧、4帧或5帧。
80.在一个实施例中,服务器可以确定待进行声谱预测的当前编码段。在对当前编码段进行第一轮声谱预测时,服务器可以确定上一轮预测出的上一目标声谱特征对应的上一注意力向量。服务器可以将当前编码段和上一注意力向量输入至注意力循环神经网络层得到本轮预测需要使用的当前注意力向量。
81.本实施例中,在每轮迭代预测中,确定本轮预测当前声谱特征时使用的当前注意力向量;基于当前注意力向量与编码段之间的相似度,计算当前注意力向量对应的注意力权重;后续能够基于注意力权重调整预设解码次数,从而更准确地进行声谱预测,提高语音合成的准确性。
82.在一个实施例中,在注意力权重达到预设权重阈值的情况下,基于所述当前声谱特征的长度对编码段对应的预设解码次数进行调整,得到调整后的预设解码次数包括:在注意力权重达到预设权重阈值的情况下,确定编码段对应的解码轮次偏移值;根据解码轮次偏移值和当前声谱特征的长度,对编码段对应的预设解码次数进行调整,得到调整后的预设解码次数。
83.其中,解码轮次偏移值用于指示预设解码次数的偏移量。
84.具体地,在注意力权重达到预设权重阈值的情况下,服务器可以确定编码段对应的解码轮次偏移值,并将解码轮次偏移值添加至预设解码次数,得到调整后的预设解码次数。
85.在一个实施例中,所有编码段对应的调整前的预设解码次数可以是预设的固定值。服务器可以确定当前声谱特征的长度,并计算解码轮次偏移值与当前声谱特征的长度之间的和,得到调整后的预设解码次数。
86.本实施例中,在注意力权重达到预设权重阈值的情况下,确定编码段对应的解码轮次偏移值;基于解码轮次偏移值对编码段对应的预设解码次数进行调整,得到调整后的预设解码次数,从而基于预设解码次数控制迭代停止,以更准确地进行声谱预测。
87.在一个实施例中,方法还包括:基于当前声谱特征预测编码段对应的结束标识信息;在结束标识信息无法满足预设结束条件的情况下,将迭代预测的轮数与预设解码次数进行比对,并执行在迭代预测的轮数达到预设解码次数的情况下,停止迭代的步骤。
88.其中,结束标识信息用于指示声谱预测结束的概率。
89.具体地,服务器可以确定当前声谱特征对应的当前特征向量,并将当前特征向量输入至线性投影层预测编码段对应的结束标识信息。服务器可以在结束标识信息所指示的结束概率无法达到预设结束阈值的情况下,确定当前声谱特征的长度。可以理解,当前声谱特征的长度可以指示当前声谱特征所处的迭代预测轮数。服务器可以基于当前声谱特征的长度确定直至当前所迭代预测的轮数,将迭代预测的轮数与调整后的预设解码次数进行比对,并执行在迭代预测的轮数达到预设解码次数的情况下,停止迭代的步骤。
90.在一个实施例中,当前声谱特征的长度数值可以与迭代预测的轮数值一致。服务器可以直接比对当前声谱特征的长度和调整后的预设解码次数,在当前声谱特征的长度与调整后的预设解码次数相匹配的情况下,服务器可以执行在迭代预测的轮数达到所述预设解码次数的情况下,停止迭代的步骤。可以理解,相匹配的情况可以是当前声谱特征的长度值与预设解码次数值一致的情况。
91.在一个实施例中,在结束标识信息无法满足预设结束条件的情况下,服务器可以返回在所述注意力权重达到预设权重阈值的情况下,基于所述当前声谱特征的长度对所述编码段对应的预设解码次数进行调整,得到调整后的预设解码次数的步骤以继续迭代。
92.在一个实施例中,服务器可以将当前特征向量分别输入至帧预测网络和线性投影层,以得到当前声谱特征和预测编码段对应的结束标识信息。
93.在一个实施例中,服务器可以在结束标识信息无法满足预设结束条件的情况下,判断注意力权重是否达到预设权重阈值、以及当前声谱特征与编码段之间长度是否相匹配。
94.本实施例中,在结束标识信息无法满足预设结束条件的情况下,将迭代预测的轮数与预设解码次数进行比对,并执行在迭代预测的轮数达到预设解码次数的情况下,停止迭代的步骤,通过结束标识信息和预设解码次数这两个维度的标准,控制迭代停止,提高了声谱预测的准确性。
95.在一个实施例中,方法还包括:在结束标识信息满足预设结束条件的情况下,停止迭代,并将当前声谱特征确定为编码段对应的目标声谱特征。
96.具体地,在结束标识信息满足预设结束条件、且当前声谱特征与当前编码段之间长度相匹配的情况下,服务器可以控制迭代预测停止,并将当前声谱特征确定为编码段对应的目标声谱特征。
97.在一个实施例中,在结束标识信息满足预设结束条件、且当前声谱特征与当前编码段之间长度相匹配的情况下,服务器可以停止迭代,并将当前声谱特征确定为编码段对应的目标声谱特征。
98.本实施例中,在结束标识信息满足预设结束条件的情况下,停止迭代,并将当前声
谱特征确定为编码段对应的目标声谱特征,能够避免在满足预设结束条件时声谱长度过短的问题。
99.在一个实施例中,如图3所示提供了声谱预测模型的示意图。服务器可以通过声谱预测模型对中文文本进行声谱预测。声谱预测模型是一个带有局部敏感注意力机制的序列到序列的生成模型。可以理解,在中文文本到语音合成的任务中,局部敏感注意力机制通过在合理分配序列中每个元素所占的权重,从而使得模型对序列的各个部分的关注程度不同,更关注于与合成内容更密切相关的部分。声谱预测模型包括编码器、解码器,以及后处理网络。编码器包括词编码层、三个卷积层和双向长短期记忆网络层。解码器包括预处理层、注意力循环神经网络层和解码循环神经网络层。后处理网络用于改善频谱重构的结果。频谱重构的结果就是解码器输出的目标声谱特征。
100.服务器可以将解码循环神经网络层输出的当前特征向量分别输入至帧预测网络和线性投影层,得到三帧梅尔频谱和相应的结束标识信息。服务器可以将三帧梅尔频谱中的至少一帧输入至预处理层以进行下一轮迭代,直至迭代结束。服务器可以最终预测出的梅尔频谱输入至后处理网络,预测出一个残差项,并将该残差项叠加至梅尔频谱中,得到改善后的梅尔频谱。
101.应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
102.基于同样的发明构思,本技术实施例还提供了一种用于实现上述所涉及的语音合成方法的语音合成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个语音合成装置实施例中的具体限定可以参见上文中对于语音合成方法的限定,在此不再赘述。
103.在一个实施例中,如图4所示,提供了一种语音合成装置400,包括:编码模块402和解码模块404,其中:
104.编码模块402,用于通过对中文文本对应的音素特征信息进行编码,确定待预测声谱的编码段;
105.解码模块404,在每轮迭代预测中,确定本轮预测的编码段对应的当前声谱特征、以及本轮预测当前声谱特征时使用的注意力权重;在注意力权重达到预设权重阈值的情况下,基于当前声谱特征的长度对编码段对应的预设解码次数进行调整,得到调整后的预设解码次数;在迭代预测的轮数达到预设解码次数的情况下,停止迭代,并将当前声谱特征确定为编码段对应的目标声谱特征;目标声谱特征用于合成中文文本对应的语音。
106.在一个实施例中,编码模块402,还用于确定中文文本对应的音素特征信息;对音素特征信息进行编码,得到中文文本对应的文本编码序列;按照预设时间步,从文本编码序列中确定待进行声谱预测的编码段。
107.在一个实施例中,解码模块404,还用于在迭代预测的轮数未达到预设解码次数的
情况下,将下一轮作为本轮,返回确定本轮预测的编码段对应的当前声谱特征、以及本轮预测当前声谱特征时使用的注意力权重的步骤继续执行。
108.在一个实施例中,解码模块404,还用于在每轮迭代预测中,确定本轮预测当前声谱特征时使用的当前注意力向量;基于当前注意力向量与编码段之间的相似度,计算当前注意力向量对应的注意力权重;注意力权重用于指示对注意力向量进行特征提取以得到当前特征向量;当前特征向量用于预测当前声谱特征。
109.在一个实施例中,解码模块404,还用于在注意力权重达到预设权重阈值的情况下,确定编码段对应的解码轮次偏移值;根据解码轮次偏移值和当前声谱特征的长度,对编码段对应的预设解码次数进行调整,得到调整后的预设解码次数。
110.在一个实施例中,解码模块404,还用于基于当前声谱特征预测编码段对应的结束标识信息;在结束标识信息无法满足预设结束条件的情况下,将迭代预测的轮数与预设解码次数进行比对,并执行在迭代预测的轮数与预设解码次数相匹配的情况下,停止迭代的步骤。
111.在一个实施例中,解码模块404,还用于在结束标识信息满足预设结束条件的情况下,停止迭代,并将当前声谱特征确定为编码段对应的目标声谱特征。上述语音合成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
112.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括处理器、存储器、输入/输出接口(input/output,简称i/o)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储每轮迭代预测出的声谱特征。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音合成方法。
113.在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、移动蜂窝网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种语音合成方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该
计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
114.本领域技术人员可以理解,图5和图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
115.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
116.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
117.在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
118.需要说明的是,本技术所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
119.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-only memory,rom)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(reram)、磁变存储器(magnetoresistive random access memory,mram)、铁电存储器(ferroelectric random access memory,fram)、相变存储器(phase change memory,pcm)、石墨烯存储器等。易失性存储器可包括随机存取存储器(random access memory,ram)或外部高速缓冲存储器等。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(static random access memory,sram)或动态随机存取存储器(dynamic random access memory,dram)等。本技术所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本技术所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
120.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
121.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1