语音合成方法、装置、电子设备及存储介质与流程

文档序号：26586369发布日期：2021-09-10 19:22阅读：129来源：国知局

1.本发明涉及语音合成技术领域，具体而言，涉及一种语音合成方法、装置、电子设备及存储介质。

背景技术：

2.语音合成(text
‑
to
‑
speech，简称tts)是指将用户输入的文字，转换成流畅自然的语音输出，当前，语音合成涉及多个学科技术，如：声学、语言学、数字信号处理、计算机科学等，它是中文信息处理领域的一项前沿技术。
3.近年来，随着端到端语音合成技术的发展，人们对目标说话人跨语种语音合成的需求逐渐变高，相关技术采用了将待合成文本的语言学特征向量和目标说话人的说话人向量进行拼接的方式来实现跨语言语音合成,这种方式的缺陷时：合成出来的音频中目标说话人的音色特征与该目标说话人真实的音色特征相似度较低，合成语音的一致性和自然度差。

技术实现要素：

4.为了解决相关技术存在的缺陷，本发明提供了一种语音合成方法、装置、电子设备及存储介质，以提高合成出来的音频中目标说话人的音色特征与该目标说话人真实的音色特征相似度，提升合成语音的一致性和自然度。
5.本发明的实施例可以这样实现：
6.第一方面，本发明提供一种语音合成方法，所述方法包括：获取待合成文本的音素数据和说话人标识；将所述音素数据和所述说话人标识输入预设的音素特征预测模型，预测目标说话人对应的所述待合成文本的音素特征；所述目标说话人为所述说话人标识对应的说话人；其中，所述音素特征预测模型是根据多个特定说话人的语料数据训练而成，每个所述特定说话人对应有至少一个语言种类，所述目标说话人为所述特定说话人中的一个；所述待合成文本对应的语言种类为全部所述特定说话人对应的语言种类的一种；根据所述目标说话人对应的所述待合成文本的音素特征、所述音素数据、所述说话人标识合成所述待合成文本对应的所述目标说话人音频。
7.第二方面，本发明提供一种语音合成装置，包括：获取模块，用于获取待合成文本的音素数据和说话人标识；预测模块，用于将所述音素数据和所述说话人标识输入预设的音素特征预测模型，预测目标说话人对应的所述待合成文本的音素特征；所述目标说话人为所述说话人标识对应的说话人；其中，所述音素特征预测模型是根据多个特定说话人的语料数据训练而成，每个所述特定说话人对应有至少一个语言种类，所述目标说话人为所述特定说话人中的一个；所述待合成文本对应的语言种类为全部所述特定说话人对应的语言种类的一种；合成模块，用于根据所述目标说话人对应的所述待合成文本的音素特征、所述音素数据、所述说话人标识合成所述待合成文本对应的所述目标说话人音频。
8.第三方面，本发明提供一种电子设备，包括处理器和存储器，所述存储器存储有能
够被所述处理器执行的计算机程序，所述处理器可执行所述计算机程序以实现第一方面所述的方法。
9.第四方面，本发明提供一种存储介质,其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的方法。
10.本发明提供一种语音合成方法、装置、电子设备及存储介质，方法包括：获取待合成文本的音素数据和说话人标识；将音素数据和说话人标识输入预设的音素特征预测模型，预测目标说话人对应的待合成文本的音素特征；目标说话人为说话人标识对应的说话人；其中，音素特征预测模型是根据多个特定说话人的语料数据训练而成，每个特定说话人对应有至少一个语言种类，目标说话人为特定说话人中的一个；待合成文本对应的语言种类为全部特定说话人对应的语言种类的一种；根据目标说话人对应的待合成文本的音素特征、音素数据、说话人标识合成待合成文本对应的目标说话人音频。与现有技术的区别在于，现有技术采用了将待合成文本的语言学特征向量和目标说话人的说话人向量进行拼接的方式来实现跨语言语音合成,这种方式的缺陷时：合成出来的音频中目标说话人的音色特征与该目标说话人真实的音色特征相似度较低，合成语音的一致性和自然度差。而本技术为了使合成的语音的说话人音色与目标说话人的真实音色更加贴近，在进行合成之前，通过音素特征预测模型预测目标说话人针对待合成文本的每个音素的音素特征，以此作为约束条件合成待合成文本的目标说话人音频，以提高合成出来的音频中目标说话人的音色特征与该目标说话人真实的音色特征相似度，提升合成语音的一致性和自然度。
附图说明
11.为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
12.图1为本发明实施例提供的语音合成方法的实现架构图；
13.图2为本发明实施例提供的语音合成方法的示意性流程图；
14.图3为本发明实施例提供的一种用户界面的示意图；
15.图4为本发明实施例提供的另一种语音合成方法的示意性流程图；
16.图5为本发明实施例提供的步骤s204的一种实现方式的示意性流程图；
17.图6为本发明实施例提供的步骤s205的一种实现方式的示意性流程图；
18.图7为本发明实施例提供的一种获得音素特征预测模型的实现方式；
19.图8为本发明实施例提供的步骤s206的一种实现方式的示意性流程图；
20.图9为本发明实施例提供的一个实施例的语音合成装置的功能模块图；
21.图10为本发明实施例提供的一种电子设备结构框图。
具体实施方式
22.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施
例的组件可以以各种不同的配置来布置和设计。
23.因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
24.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。
25.在本发明的描述中，需要说明的是，若出现术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
26.此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。
27.需要说明的是，在不冲突的情况下，本发明的实施例中的特征可以相互结合。
28.语音合成技术解决的主要问题是如何将文字信息转化为语音，涉及语言和语音两部分。tts技术(又称为文语转换技术)隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的，流利的语音波形输出的技术。
29.近年来，随着端到端语音合成技术的发展，人们通常基于同一说话人的大规模双语语料库来学习不同语言间的跨语言映射关系，但是，构建同一说话人的双语语料库是十分困难的，因此，在相关技术提出的语音合成方式，在将文字信息输入给解码器时，加入说话人嵌入表示，也就是目标说话人的语言特征标签，但是通过这种方式合成的目标说话人的语音音色与目标说话人的真实音色相似度低，发音自然度和一致性差。
30.为了解决上述技术问题，本发明基于端到端语音合成系统，提出了一种语音合成方法，该语音合成方法的实现架构图可以参见图1，图1为本发明实施例提供的一种实现架构图。
31.如图1所示，在合成阶段，由于加入了说话人标识，从而可以实现合成指定说话人音色的语音，其次，输入信息中还加入了音素标签向量，也就是每个音素对应的语种，目的是能够让声学模型有监督的学习到不同语言音素声学特征的，实现跨语种合成的效果。也就是说，本方案无需同一说话人的双语语料库，仅需目标说话人的单语语料，以及其他说话人的另一语种的语音语料，便可通过合成出目标说话人的双语语音，例如，合成出用特定说话人1的音色讲语种1至语种n中的任意一个语种。
32.其次，本发明的技术方案设计了音素特征预测模型，该模型可以包括时长预测模型、音高预测模型以及能量预测模型，通过这些子模型可以预测目标说话人针对待合成文本对应的各个音素的音高、能量和发音时长，以此作为合成约束条件合成的语音不仅具有说话人的音色，能有效改善目标说话人在跨语言的发音自然度和一致性的问题。
33.本发明实施例提供的一种语音合成方法，可以基于具备数据处理能力的终端实现，该终端可以是手机、电脑、服务器、云端等。
34.为了方便理解，下面结合相关附图进行详细介绍。
35.请参见图2，图2为本发明实施例提供的语音合成方法的示意性流程图，该方法可
以包括如下步骤：
36.s204、获取待合成文本的音素数据和说话人标识。
37.其中，语音合成之前需要获取待进行语音合成的文本信息，该待合成文本可以是单一语言种类的文本信息，例如，中文文本、英文文本，也可以是跨语种的文本信息，如待合成文本可以是同时包括两个及以上语种的文本信息，例如中文和英文交混合在一起的文本信息，例如“你好，jack”。
38.其中，音素是可以将单词彼此区分开的声音单位。例如，英文单词可以分为44个音素，其中每个音素是一个人说单词时可以发出的不同声音；汉语字、词、句的音素可以根据汉语拼音进行划分，计算系统可以基于文本输入生成人工人类语音。例如，以中文文本为例，待合成文本为“你好”，那么转换后的音素序列为：n,i,h,ao。或者，以英文文本为例，待合成文本为“hello”,则对应的音素序列为he,llo。
39.上述的音素数据指得是待合成文本的音素序列对应的音素嵌入表示，音素嵌入表示指的是将音素序列中的每个音素按照预设的编码规则进行编码，生成的编码序列即为音素嵌入表示。
40.在本技术实施例中，具备数据处理能力的终端在获得待合成文本后，可以根据预设的转换程序将待合成文本转换成音素序列，通常情况下，可以将获得的待合成文本通过查表的方式转换为256维的音素嵌入表示。
41.上述步骤中的目标说话人是该说话人标识对应的说话人，说话人标识是用来区分不同特定说话人的标识或者编码，用户可以自定义特定说话人，各自对应的说话人标识可以是001、002、003。
42.也就是说，当具备数据处理能力的终端获得书说话人标识后，即可将该说话人标识对应的特定说话人作为目标说话人，并合成出由该目标说话人的音色讲该待合成文本的语音。
43.例如，用户想合成用某特定说话人的音色所讲的待合成文本，则可以获得该特定说话人对应的说话人标识，从而在语音合成阶段合成该特定说话人对应的语音特征。
44.s205、将音素数据和说话人标识输入预设的音素特征预测模型，预测目标说话人对应的待合成文本的音素特征。
45.其中，上述的音素特征预测模型是根据多个特定说话人的语音数据训练而成，该语音数据指得是在该特定说话人对应的单语语料库或者双语语料库，包括文本数据与语音数据，每个特定说话人可以对应有至少一个语言种类，目标说话人即为特定说话人中的一个；待合成文本对应的语言种类为全部特定说话人对应的语言种类的一种。
46.例如，特定说话人有说话人1、说话人2，说话人一的母语为汉语，说话人2的母语为英语，音素特征预测模型可以根据说话人1普通话语料和说话人2的英语语料进行训练，从而使训练而成的音素特征预测模型具备以下功能：即合成出用说话人1的音色讲英语，用说话人2的音色讲汉语，从而实现跨语种跨音色的语音合成的效果。
47.其中，上述步骤中的音素特征指得是目标说话人讲某个音素时呈现出来的特征，包括但不限于是音高、能量和发音时长，例如，“你好”的音素序列为n,i,h,ao。针对音素“n”，可以通过音素特征预测模型预测目标说话人发“n”这个音素时的音高、能量和发音时长。
48.s206、根据目标说话人对应的待合成文本的音素特征、音素数据、说话人标识合成待合成文本对应的目标说话人音频。
49.可以理解的是，通过音素特征预测模型可以预测目标说话人在讲待合成文本时，每个音素呈现出的音素特征，进而可以将该音素特征作为约束条件合成用目标说话人的音色来说待合成文本的目标音频。
50.例如，继续以上述说话人1、说话人2为例，假设现在要来合成用说话人1的音色讲英语文本“hello”,那么通过音素特征预测模型可以预测到说话人1针对音素“he”、“llo”各自的发音时长、音高、能量，然后将这些特征作为约束条件，合成出用说话人1的音色讲英语，由于在合成过程中加入音高、能量和发音时长的约束，能够提高目标说话人跨语言语音合成的自然度和一致性。
51.与现有技术的区别在于，现有技术采用了将待合成文本的语言学特征向量和目标说话人的说话人向量进行拼接的方式来实现跨语言语音合成,这种方式的缺陷时：合成出来的音频中目标说话人的音色特征与该目标说话人真实的音色特征相似度较低，合成语音的一致性和自然度差。而本技术为了使合成的语音的说话人音色与目标说话人的真实音色更加贴近，在进行合成之前，通过音素特征预测模型预测目标说话人针对待合成文本的每个音素的音素特征，以此作为约束条件合成待合成文本的目标说话人音频，以提高合成出来的音频中目标说话人的音色特征与该目标说话人真实的音色特征相似度，提升合成语音的一致性和自然度。
52.可选地，为了方便用户进行语音合成操作，下面还给出一种用户界面的实现方式，并给出一种基于这种用户界面获取待合成文本和说话人标识的实现方式，请参见图3和图4，图3为本发明实施例提供的一种用户界面的示意图，图4为本发明实施例提供的另一种语音合成方法的示意性流程图。该方法还可以包括：
53.s200、显示语音合成用户界面。
54.请参见图3所示的用户界面，其中，语音合成用户界面上可以但不限于具有文本录入区域、说话人选择区域；该说话人选择区域内具有全部特定说话人的选择标识，各个界面标识的存在可以简化用户的合成操作流程。
55.s201、当在文本录入区域接收到录入操作指令，将获得的文本确定为待合成文本。
56.其中，录入操作指令可以但不限于通过输入操作触发、通过语音操作触发，例如，用户可以在输入框输入待合成文本，也可以触发界面上语音采集标识，通过语音录入待合成文本。
57.s202、当在说话人选择区接收到选择操作，将被选择的特定说话人对应的编码确定为说话人标识。
58.其中，选择操作可以但不限于通过界面操作触发、通过语音操作触发，例如，用户可以点击说话人对应的选择标识，该选择标识可以是特定说话人对应的图片、编码等，也可以触发界面上语音采集标识采集用户发出的特定说话人的编码的方式获得。
59.可选地，基于上述用户界面，下面还给出一种预览目标音频的实现方式，即在用户界面上还可以具有预览标识，则可以输出目标音频对应的语音信息，提高用户体验感。
60.可选地，为了能够为后续音素特征预测模型提供用于预测的音素数据，在获得待合成文本后，下面还给出一种获得音素数据和说话人标识的实现方式，请参见图5，图5为本
发明实施例提供的步骤s204的一种实现方式的示意性流程图，步骤s204可以包括以下子步骤：
61.s204
‑
1、将获得的待合成文本进行音素转换，确定音素嵌入表示向量。
62.s204
‑
2、针对每个音素对应的语言种类，为每个音素配置语言种类标签，获得待合成文本对应的音素标签向量。
63.在本发明实施例中，为了区分音素序列的语种，可以给每一个音素一个语种标签，比如该输入音素为中文音素，语种标签为0；该输入音素为英文音素，语种标签则为1，其他则为2。然后可以将每个音素对应的语种标签嵌入成一个64维的向量表示，这样做的目的是能够让声学模型有监督的学习到不同语言音素声学特征，从而实现跨语种合成的效果。
64.s204
‑
1、将被选择的特定说话人的标识确定为说话人标识。
65.可以理解的是，当选择了一个特定说话人，则可以将该特定说话人对应的编码作为说话人标识，这样一来，当音素特征预测模型获得说话人标识之后，即可根据说话人标识指定的特定说话人进行音素预测，从而可以实现定向语音合成的效果。
66.可选地，在获得音素数据和说话人标识之后，下面还给出一种预测音素特征的实现方式，请参见图6，图6为本发明实施例提供的步骤s205的一种实现方式的示意性流程图，步骤s205可以包括以下子步骤：
67.s205
‑
1、将待合成文本对应的音素数据和说话人标识输入音素特征预测模型，确定目标说话人。
68.s205
‑
2、通过音素特征预测模型的时长预测子模型，获得目标说话人对应的待合成文本的每个音素的时长信息。
69.例如：文本为“你好”，音素为n,i,h,ao，那么根据语音波形可以确定“n,i,h,ao”中“n”对应发音时长为0.1ms
‑
0.15ms，以此类推，可以获得全部音素对应的发音时长。
70.s205
‑
3、通过音素特征预测模型的音高预测子模型，获得目标说话人对应的待合成文本的每个音素的音高信息。
71.可以理解的是，音高(pitch)是语音信号中声音频率的高低，例如，继续以上述文本为“你好”为例，根据语音波形的频谱图可以确定“n”对频率范围是72hz
‑
90hz，以此类推，可以获得全部音素对应的音高信息。
72.s205
‑
4、通过音素特征预测模型的能量预测子模型，获得目标说话人对应的待合成文本的每个音素的能量信息。
73.可以理解的是，根据语音波形可以获得对应的语谱图，语谱图是一种三维频谱，表示语音频谱随时间变化的图形，纵轴是频率，横轴是时间，任意给定频率成分在给定时刻的强弱用相应点的灰度图或色调的浓淡表示，颜色深，表示该点的语音能量越强，每个音素的能量为该音素对应的频率的平方和。
74.可以理解的是，上述的音高预测模型的作用是在合成阶段，通过输入的音素预测音素的音高信息，时长预训模型的作用是在合成阶段，通过输入音素预测该音素的发音时长，能量预测模型的作用是在合成阶段，通过输入的音素预测音素的能量信息，从而可以获得一个目标说话人的待合成文本的音频的约束条件，这样一来，就会使合成的语音的说话人音色与真实音色更加贴近。
75.在一种可选的实现方式中，之所以能够实现合成的语音的说话人音色与真实音色
更加贴近的效果，是因为在训练上述模型的过程中，利用特征说话人的语音数据进行了训练，下面还给出了一种获得音素特征预测模型的方式，请参见图7，图7为本发明实施例提供的一种获得音素特征预测模型的实现方式，其中包括以下步骤：
76.步骤1，获得全部特定说话人的语料数据，语料数据包括音频波形数据和音频波形数据对应的文本。
77.其中，该特定说话人的语料数据可以对应至少一种语种，例如，可以采集同一个说话人的汉语语料、英语语料以及法语语料，由于构建单一说话人的双语语料较为困难，也可以仅仅采集同一个说话人的单语语料。
78.步骤2，针对每个特定说话人，根据音频波形数据获得文本的每个音素对应的时长信息以及与时长信息对应的音高信息和能量信息。
79.可以理解的是，在获得每个特定说话人的语料数据后，首先需要将各个特定说话人对应的音频和文本在音素层面做强制对齐，也就是将每个音素在发音时长上进行对齐，例如：文本为“你好”，音素为n,i,h,ao，那么根据语音波形可以确定“n,i,h,ao”中“n”对应0.1ms
‑
0.15ms这个时间段，以此类推，可以获得全部音素对应的发音时长。还可以然后对不同特定说话人的语音语料进行音频特征提取，包括梅尔谱，线性谱。
80.为了获得音高、能量和发音时长等各个子模型，需要额外提取音高信息和能量信息，然后将提取的音高信息和对应音素用于训练音高预测模型，将能量信息和对应的音素用于训练能量预测模型，将强制对齐得到的时长信息和对应音素用于训练时长模型。
81.步骤3，基于全部特定说话人对应的时长信息、音高信息和能量信息进行模型训练，获得音素特征预测模型。
82.可以理解的是，音高预测模型的作用是在合成阶段，通过输入的音素预测目标说话人对应的音素的音高信息；时长预训模型的作用是在合成阶段，通过输入音素预测目标说话人对应的该音素的发音时长；能量预测模型的作用是在合成阶段，通过输入的音素预测目标说话人对应的音素的能量信息。
83.可选地，下面还给出一种合成目标音频的实现方式，请参见图8，图8为本发明实施例提供的步骤s206的一种实现方式的示意性流程图，步骤s206还可以包括以下步骤：
84.s206
‑
1、将目标说话人对应的待合成文本的音素特征、音素数据以及说话人标识输入预设的声学模型，获得目标说话人对应的待合成文本的声学频谱。
85.s206
‑
2、基于声学频谱进行语音合成，得到目标说话人音频。
86.可以理解的是，上述的声学频谱可以是梅尔谱(melspectrum)，在进行合程阶段，可以将预测的梅尔谱通过神经声码器重构出语音波形。由于有音高、能量和发音时长等约束条件，合成的目标说话人音频的说话人音色与该目标说话的真实音色更加贴近，提升了目标说话人跨语言语音合成自然度和一致性。
87.在一种可能的实现方式中，在获得目标说话人音频之后，为了验证合成的目标说话人音频的说话人音色与该目标说话的真实音色的相似度，可以通过构建说话人分类判别器的方式进行验证，例如可以通过说话人分类判别器将目标说话人的真实音色的音频和该合成的目标说话人音频进行比较，判定是否是同一个说话人。
88.为了实现上述语音合成方法中的各个步骤，下面给出一种语音合成装置的实现方式，请参阅图9，图9为本技术实施例提供的一个实施例的语音合成装置的功能模块图。需要
说明的是，本实施例所提供的语音合成装置，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本实施例部分未提及之处，可参考上述的实施例中相应内容。该语音合成装置30包括：获取模块31、预测模块32和合成模块33。
89.获取模块31，用于获取待合成文本的音素数据和说话人标识。
90.预测模块32，用于将所述音素数据和所述说话人标识输入预设的音素特征预测模型，预测目标说话人对应的所述待合成文本的音素特征；所述目标说话人为所述说话人标识对应的说话人。
91.其中，所述音素特征预测模型是根据多个特定说话人的语料数据训练而成，每个所述特定说话人对应有至少一个语言种类，所述目标说话人为所述特定说话人中的一个；所述待合成文本对应的语言种类为全部所述特定说话人对应的语言种类的一种。
92.合成模块33，用于根据所述目标说话人对应的所述待合成文本的音素特征、所述音素数据、所述说话人标识合成所述待合成文本对应的所述目标说话人音频。
93.可选地，预测模块32，具体用于：将所述待合成文本对应的音素数据和所述说话人标识输入所述音素特征预测模型，确定所述目标说话人；通过所述音素特征预测模型的时长预测子模型，获得所述目标说话人对应的所述待合成文本的每个音素的时长信息；通过所述音素特征预测模型的音高预测子模型，获得所述目标说话人对应的所述待合成文本的每个音素的音高信息；通过所述音素特征预测模型的能量预测子模型，获得所述目标说话人对应的所述待合成文本的每个音素的能量信息。
94.可选地，合成模块33，用于将所述目标说话人对应的所述待合成文本的音素特征、所述音素数据以及所述说话人标识输入预设的声学模型，获得所述目标说话人对应的所述待合成文本的声学频谱；基于所述声学频谱进行语音合成，得到所述目标说话人音频。
95.可选地，该装置还包括交互模块，交互模块，用于显示语音合成用户界面，所述语音合成用户界面上具有文本录入区域、说话人选择区域；所述目标说话人选择区域内具有全部所述特定说话人的选择标识；当在所述文本录入区域接收到录入操作指令，将获得的文本确定为所述待合成文本；当在所述说话人选择区接收到选择操作，将被选择的所述特定说话人对应的编码确定为所述说话人标识。
96.可选地，获取模块31，具体用于获取待合成文本的音素数据和说话人标识，包括：将获得的所述待合成文本进行音素转换，确定音素嵌入表示向量；针对每个所述音素对应的语言种类，为每个所述音素配置语言种类标签，获得所述待合成文本对应的音素标签向量；将被选择的所述特定说话人的标识确定为所述说话人标识。
97.可选地，所述音素特征预测模型是按照以下方式训练的：采集全部所述特定说话人的所述语料数据，所述语料数据包括音频波形数据和所述音频波形数据对应的文本；针对每个所述特定说话人，根据所述音频波形数据获得所述文本的每个音素对应的时长信息以及与所述时长信息对应的音高信息和能量信息；基于全部所述特定说话人对应的时长信息、音高信息和能量信息进行模型训练，获得所述音素特征预测模型。
98.可选地，交互模块，还用于当在所述语音合成用户界面接收到预览操作，输出所述目标音频对应的语音信息。
99.本技术实施例还提供一种电子设备，如图10，图10为本技术实施例提供的一种电子设备结构框图。该电子设备80包括通信接口81、处理器82和存储器83。该处理器82、存储
器83和通信接口81相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器83可用于存储软件程序及模块，如本技术实施例所提供的基于语音合成方法对应的程序指令/模块，处理器82通过执行存储在存储器83内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口81可用于与其他节点设备进行信令或数据的通信。在本发明中该电子设备80可以具有多个通信接口81。
100.其中，存储器83可以是但不限于，随机存取存储器(randomaccessmemory，ram)，只读存储器(readonlymemory，rom)，可编程只读存储器(programmableread
‑
onlymemory，prom)，可擦除只读存储器(erasableprogrammableread
‑
onlymemory，eprom)，电可擦除只读存储器(electricerasableprogrammableread
‑
onlymemory，eeprom)等。
101.处理器82可以是一种集成电路芯片，具有信号处理能力。该处理器可以是通用处理器，包括中央处理器(centralprocessingunit，cpu)、网络处理器(networkprocessor，np)等；还可以是数字信号处理器(digitalsignalprocessing，dsp)、专用集成电路(applicationspecificintegratedcircuit，asic)、现场可编程门阵列(field－programmablegatearray，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
102.可选地，上述模块可以软件或固件(firmware)的形式存储于图10所示的存储器中或固化于该电子设备的操作系统(operatingsystem，os)中，并可由图10中的处理器执行。同时，执行上述模块所需的数据、程序的代码等可以存储在存储器中。
103.本技术实施例提供一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前述实施方式中任一项语音合成方法。该计算机可读存储介质可以是，但不限于，u盘、移动硬盘、rom、ram、prom、eprom、eeprom、磁碟或者光盘等各种可以存储程序代码的介质。
104.以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：游于人;康世胤;陀得意;刘峰
技术所有人：广州虎牙科技有限公司
我是此专利的发明人

上一篇：逆变器监测系统的制作方法
上一篇：一种嵌入式机器学习人工智能数据分析处理系统的制作方法