语音合成模型的建立方法、应用方法、设备及存储介质与流程

文档序号：31778564发布日期：2022-10-12 09:13阅读：113来源：国知局

1.本发明涉及语音合成技术领域，特别涉及一种语音合成模型的建立方法、应用方法、设备及存储介质。

背景技术：

2.目前，在英语的语音合成系统中，有很多端到端的架构都能够达到很好的音质，基本上已经接近真人的发音效果。但是，在非字母序的语言中，例如中文和日文等，很难做到文本作为输入的端到端语音合成，其中包含文本的多样性以及音调的多样性，例如中文普通话有包含轻声在内的5个音调。

技术实现要素：

3.以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
4.本发明实施例提供了一种语音合成模型的建立方法、应用方法、设备及存储介质，旨在提高合成语音的自然度和合成速度。
5.为实现上述目的，本发明实施例的第一方面提出了一种语音合成模型的建立方法，包括：获取初始字符串、初始音素、初始声学特征和基础训练模型，其中，所述基础训练模型包括字符层、音素层和声学特征层；将所述初始字符串输入所述字符层以使所述字符层进行模型训练，并获取所述字符层输出的字符隐变量；将所述初始音素和所述字符隐变量输入所述音素层以使所述音素层进行所述模型训练，并获取所述音素层输出的音素隐变量；将所述初始声学特征和所述音素隐变量输入所述声学特征层以使所述声学特征层进行所述模型训练，得到语音合成模型。
6.在一些实施例中，所述字符层包括第一编码器、第一解码器和第一转换器；所述将所述初始字符串输入所述字符层以使所述字符层进行模型训练，并获取所述字符层输出的字符隐变量包括：将所述初始字符串输入所述第一编码器，得到中间字符串；将所述中间字符串输入所述第一解码器，得到最终字符串；根据所述初始字符串和所述最终字符串得到字符串损失值，并根据所述字符串损失值对所述字符层进行调整；将所述中间字符串输入所述第一转换器，得到所述字符隐变量。
7.在一些实施例中，所述音素层包括第二编码器、第二解码器和第二转换器；所述将所述初始音素和所述字符隐变量输入所述音素层以使所述音素层进行所述模型训练，并获取所述音素层输出的音素隐变量包括：将所述初始音素输入所述第二编码器，得到中间音素；将所述中间音素输入所述第二解码器，得到最终音素；根据所述初始音素和所述最终音素得到音素损失值，并根据所述音素损失值对所述音素层进行调整；将所述字符隐变量输入所述第二编码器对所述音素层进行有监督训练；将所述中间音素输入所述第二转换器，得到音素隐变量。
8.在一些实施例中，所述声学特征层包括第三编码器和第三解码器；所述将所述初
始声学特征和所述音素隐变量输入所述声学特征层以使所述声学特征层进行所述模型训练包括：将所述初始声学特征输入所述第三编码器，得到中间声学特征；将所述中间声学特征输入所述第三解码器，得到最终声学特征；根据所述初始声学特征和所述最终声学特征得到声学特征损失值，并根据所述声学特征损失值对所述声学特征层进行调整；将所述音素隐变量输入所述第三编码器对所述声学特征层进行有监督训练。
9.为实现上述目的，本发明实施例的第二方面提出了一种语音合成模型的应用方法，所述语音合成模型由上述第一方面实施例中任意一项的建立方法建立得到，所述应用方法包括：获取目标字符串或者目标音素；将所述目标字符串或者所述目标音素输入至所述语音合成模型，得到语音频谱。
10.在一些实施例中，包括如下至少之一：在将所述目标字符串输入至所述语音合成模型，得到语音频谱的情况下，所述将所述目标字符串输入至所述语音合成模型，得到语音频谱，包括：将所述目标字符串输入所述语音合成模型，经由所述字符层、所述音素层和所述声学特征层得到语音频谱；在将所述目标音素输入至所述语音合成模型，得到语音频谱的情况下，所述将所述目标音素输入至所述语音合成模型，得到语音频谱，包括：将所述目标音素输入所述语音合成模型，经由所述音素层和所述声学特征层得到所述语音频谱。
11.在一些实施例中，所述字符层设有第一转换器与所述音素层连接，所述音素层设有第二转换器与所述声学特征层连接；在将所述目标字符串输入至所述语音合成模型，得到语音频谱的情况下，所述将所述目标字符串输入所述语音合成模型，经由所述字符层、所述音素层和所述声学特征层得到语音频谱包括：将所述目标字符串输入所述字符层得到字符序列；将所述字符序列输入所述音素层，以使所述音素层输出音素序列，并通过所述第一转换器将所述字符序列和所述音素序列对齐；将所述音素序列输入所述声学特征层，以使所述声学特征层输出声学特征序列，并通过所述第二转换器将所述音素序列和所述声学特征序列对齐；根据所述字符序列、所述音素序列和所述声学特征序列合成所述语音频谱。
12.在一些实施例中，所述音素层设有第二转换器与所述声学特征层连接；在将所述目标音素输入至所述语音合成模型，得到语音频谱的情况下，将所述目标音素输入所述语音合成模型，经由所述音素层和所述声学特征层得到所述语音频谱包括：将所述目标音素输入所述音素层得到音素序列；将所述音素序列输入所述声学特征层，以使所述声学特征层输出声学特征序列，并通过所述第二转换器将所述音素序列和所述声学特征序列对齐；根据所述音素序列和所述声学特征序列合成所述语音频谱。
13.为实现上述目的，本发明实施例的第三方面提出了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行如上第一方面中任意一项所述的语音合成模型的建立方法和/或如上第二方面中任意一项所述的语音合成模型的应用方法。
14.为实现上述目的，本发明实施例的第四方面提出了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如上第一方面中任意一项所述的语音合成模型的建立方法和/或如上第二方面中任意一项所述的语音合成模型的应用方法。
15.本发明实施例的有益效果包括：通过语音合成模型的建立方法建立语音合成模型，建立方法包括获取初始字符串、初始音素、初始声学特征和基础训练模型，其中，基础训
练模型包括字符层、音素层和声学特征层；将初始字符串输入字符层以使字符层进行模型训练，并获取字符层输出的字符隐变量；将初始音素和字符隐变量输入音素层以使音素层进行模型训练，并获取音素层输出的音素隐变量；将初始声学特征和音素隐变量输入声学特征层以使声学特征层进行模型训练，得到语音合成模型。语音合成模型获取目标字符串或者目标音素；将目标字符串或者目标音素输入至语音合成模型，得到语音频谱。提高了语音合成模型合成语音的自然度，并且提升了语音合成模型合成语音的合成速度。
16.本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
17.附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。
18.图1是本发明实施例提供的用于语音合成模型的建立方法和/或语音合成模型的应用方法的系统架构平台的示意图；
19.图2是本发明一个实施例提供的语音合成模型的建立方法的流程图；
20.图3是本发明另一个实施例提供的语音合成模型的建立方法的流程图；
21.图4是本发明另一个实施例提供的语音合成模型的建立方法的流程图；
22.图5是本发明另一个实施例提供的语音合成模型的建立方法的流程图；
23.图6是本发明一个实施例提供的语音合成模型的应用方法的流程图；
24.图7是本发明另一个实施例提供的语音合成模型的应用方法的流程图；
25.图8是本发明另一个实施例提供的语音合成模型的应用方法的流程图；
26.图9是本发明另一个实施例提供的语音合成模型的应用方法的流程图；
27.图10是本发明另一个实施例提供的语音合成模型的应用方法的流程图。
具体实施方式
28.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
29.在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
30.本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
31.需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别
类似的对象，而不必用于描述特定的顺序或先后次序。
32.首先，对本发明中设计的若干名词进行解析：
33.人工智能(artificial intelligence，ai)：是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学；人工智能是计算机科学的一个分支，人工智能企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
34.自然语言处理(natural language processing，nlp)：nlp用计算机来处理、理解以及运用人类语言(如中文、英文等)，nlp属于人工智能的一个分支，是计算机科学与语言学的交叉学科，又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域，它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
35.信息抽取(information extraction，ner)：从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术。信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的，例如句子、段落、篇章，文本信息正是由一些小的具体的单位构成的，例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取，当然，文本信息抽取技术所抽取的信息可以是各种类型的信息。
36.语音合成(speech synthesis)：语音合成，又称文语转换(text to speech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。“让机器像人一样开口说话”与传统的声音回放设备(系统)有着本质的区别。传统的声音回放设备(系统)，如磁带录音机，是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音，从而真正实现让机器“像人一样开口说话”。
37.音素(phoneme)：音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。如〔ma〕包含〔m〕〔a〕两个发音动作，是两个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。如〔ma-mi〕中，两个〔m〕发音动作相同，是相同音素，〔a〕〔i〕发音动作不同，是不同音素。
38.声学特征：指表示语音声学特性的物理量，也是声音诸要素声学表现的统称。如表示音色的能量集中区、共振峰频率、共振峰强度和带宽，以及表示语音韵律特性的时长、基频、平均语声功率等。
39.mae损失函数(mean square error,均方误差)：是回归损失函数中最常用的误差，它是预测值f(x)与目标值y之间差值平方和的均值。
40.注意力机制(attention mechanism)：源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同时忽略其他可见的信息，通过引入注意力机制，将源语言中每个位置的信息都保存下来。在解码过程中生成每一个目标语言的单词时，都通过注意力机制直接从源语言的信息中选择相关的信息作为辅助。这样的方式就可以有效地解决上面的两个问题。一是无需让所有的源语言信息都通过编码向量进行传递，在解码的每一步都可以直接访问源语言的所有位置上的信息；二是源语言的信息可以直接传递到解码过程中的每一步，缩短了信息传递的距离。
41.序列到序列(sequence-to-sequence model)：sequence-to-sequence是一种由双向rnn组成的encoder-decoder神经网络结构，从而满足输入输出序列长度不相同的情况，实现一个序列到另一个序列之间的转换。
42.教师强制(teacher-forcing)：一种网络训练方法，对于开发用于机器翻译，文本摘要，图像字幕的深度学习语言模型以及许多其他应用程序至关重要。它每次不使用上一个state的输出作为下一个state的输入，而是直接使用训练数据的标准答案(ground truth)的对应上一项作为下一个state的输入。
43.现有技术中，在英语的语音合成系统中，有很多端到端的架构都能够达到很好的音质，基本上已经接近真人的发音效果。但是，在非字母序的语言中，例如中文和日文等，很难做到文本作为输入的端到端语音合成，其中包含文本的多样性以及音调的多样性，例如中文普通话有包含轻声在内的5个音调。
44.基于此，本发明实施例提供了一种语音合成模型的建立方法、应用方法、设备及存储介质，通过语音合成模型的建立方法建立语音合成模型，建立方法包括获取初始字符串、初始音素、初始声学特征和基础训练模型，其中，基础训练模型包括字符层、音素层和声学特征层；将初始字符串输入字符层以使字符层进行模型训练，并获取字符层输出的字符隐变量；将初始音素和字符隐变量输入音素层以使音素层进行模型训练，并获取音素层输出的音素隐变量；将初始声学特征和音素隐变量输入声学特征层以使声学特征层进行模型训练，得到语音合成模型。语音合成模型获取目标字符串或者目标音素；将目标字符串或者目标音素输入至语音合成模型，得到语音频谱。提高了语音合成模型合成语音的自然度，并且提升了语音合成模型合成语音的合成速度。
45.本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
46.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
47.本发明实施例的语音合成模型的建立方法和/或语音合成模型的应用方法，涉及人工智能及数字医疗技术领域。本发明实施例提供的语音合成模型的建立方法和/或语音
合成模型的应用方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现语音合成模型的建立方法和/或语音合成模型的应用方法的应用等，但并不局限于以上形式。
48.本发明可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
49.下面结合附图，对本发明实施例作进一步的阐述。
50.如图1所示，图1是本发明实施例提供的用于语音合成模型的建立方法和/或语音合成模型的应用方法的系统架构平台的示意图。
51.本发明实施例的系统架构平台100包括一个或多个处理器110和存储器120，图1中以一个处理器110及一个存储器120为例。
52.处理器110和存储器120可以通过总线或者其他方式连接，图1中以通过总线连接为例。
53.存储器120作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器120可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器120可选包括相对于处理器110远程设置的存储器120，这些远程存储器可以通过网络连接至该系统架构平台100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
54.本领域技术人员可以理解，图1中示出的装置结构并不构成对系统架构平台100的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
55.如图2所示，图2是本发明一个实施例提供的语音合成模型的建立方法的流程图，本发明实施例的语音合成模型的建立方法，包括但不限于步骤s200、步骤s210、步骤s220和步骤s230。
56.步骤s200，获取初始字符串、初始音素、初始声学特征和基础训练模型，其中，基础训练模型包括字符层、音素层和声学特征层；
57.步骤s210，将初始字符串输入字符层以使字符层进行模型训练，并获取字符层输出的字符隐变量；
58.步骤s220，将初始音素和字符隐变量输入音素层以使音素层进行模型训练，并获取音素层输出的音素隐变量；
59.步骤s230，将初始声学特征和音素隐变量输入声学特征层以使声学特征层进行模型训练，得到语音合成模型。
60.在本实施例中，语音合成模型的建立方法包括获取初始字符串、初始音素、初始声学特征和基础训练模型，其中，基础训练模型包括字符层、音素层和声学特征层；将初始字符串输入字符层以使字符层进行模型训练，并获取字符层输出的字符隐变量；将初始音素和字符隐变量输入音素层以使音素层进行模型训练，并获取音素层输出的音素隐变量；将初始声学特征和音素隐变量输入声学特征层以使声学特征层进行模型训练，得到语音合成模型。基础训练模型由三层不同的层构成，每层输入不同的变量并输出对应的变量，提高了模型整体的合成速度和工作效率，并且利用专有层对对应的变量进行输入和输出，提高了模型的准确性。获取初始字符串输入基础训练模型中的字符层，以使字符层进行模型训练，同时获取字符层输出的字符隐变量，将字符层输出的字符隐变量和初始音素输入基础训练模型中的音素层，以使音素层进行模型训练，同时获取音素层输出的音素隐变量，将音素层输出的音素隐变量和初始声学特征输入基础训练模型中的声学特征层，以使声学特征层进行模型训练，并得到语音合成模型。其中，初始字符串、初始音素和初始声学特征是由预设的训练数据集中的文本和音频数据进行预处理提取得到。
61.如图3所示，图3是本发明另一个实施例提供的语音合成模型的建立方法的流程图，本发明实施例的语音合成模型的建立方法，包括但不限于步骤s300、步骤s310、步骤s320和步骤s330。
62.步骤s300，将初始字符串输入第一编码器，得到中间字符串；
63.步骤s310，将中间字符串输入第一解码器，得到最终字符串；
64.步骤s320，根据初始字符串和最终字符串得到字符串损失值，并根据字符串损失值对字符层进行调整；
65.步骤s330，将中间字符串输入第一转换器，得到字符隐变量。
66.在本发明实施例中，字符层包括第一编码器、第一解码器和第一转换器，初始字符串输入字符层即将初始字符串输入第一编码器，得到中间字符串，将中间字符串输入第一解码器，得到最终字符串，实现对字符串的自编码自解码，完成字符串到字符串的重构，并通过mae损失计算初始字符串和最终字符串之间的损失得到字符串损失值，并根据字符串损失值对字符层进行调整，以自监督的方式进行模型训练，采用自回归的方式，提高字符层的模型训练速度及模型预测精度，加快模型的收敛速度，将中间字符串输入第一转换器，得到字符隐变量，第一转换器为基于注意力机制的序列到序列模型，使得字符层的模型更快收敛。
67.另外，字符层采用教师强制模式进行训练，即每一时刻的输出都综合上一时刻的真实结果进行模型训练，提高模型的收敛速度。
68.如图4所示，图4是本发明另一个实施例提供的语音合成模型的建立方法的流程图，本发明实施例的语音合成模型的建立方法，包括但不限于步骤s400、步骤410、步骤s420和步骤s430和步骤s440。
69.步骤s400，将初始音素输入第二编码器，得到中间音素；
70.步骤s410，将中间音素输入第二解码器，得到最终音素；
71.步骤s420，根据初始音素和最终音素得到音素损失值，并根据音素损失值对音素
层进行调整；
72.步骤s430，将字符隐变量输入第二编码器对音素层进行有监督训练；
73.步骤s440，将中间音素输入第二转换器，得到音素隐变量。
74.在本发明实施例中，音素层包括第二编码器、第二解码器和第二转换器，将初始音素输入音素层即将初始音素输入第二编码器，得到中间音素，将中间音素输入第二解码器，得到最终音素，实现对音素的自编码自解码，完成音素到音素的重构，并通过mae损失计算初始音素和最终音素之间的损失得到音素损失值，并根据音素损失值对音素层进行调整，以自监督的方法进行模型训练，采用自回归的方式，提高音素层的模型训练速度及模型预测精度，加快模型的收敛速度，将字符层输出的字符隐变量作为输入，输入至第二编码器对音素层进行有监督训练，提高音素层模型训练的准确性和精度，实现字符层与音素层的对齐。将中间音素输入至第二转换器，得到音素隐变量，第二转换器为基于注意力机制的序列到序列模型，使得音素层的模型更快收敛。
75.另外，音素层采用教师强制模式进行训练，即每一时刻的输出都综合上一时刻的真实结果进行模型训练，提高模型的收敛速度。
76.如图5所示，图5是本发明另一个实施例提供的语音合成模型的建立方法的流程图，本发明实施例的语音合成模型的建立方法，包括但不限于步骤s500、步骤s510、步骤s520和步骤s530。
77.步骤s500，将初始声学特征输入第三编码器，得到中间声学特征；
78.步骤s510，将中间声学特征输入第三解码器，得到最终声学特征；
79.步骤s520，根据初始声学特征和最终声学特征得到声学特征损失值，并根据声学特征损失值对声学特征层进行调整；
80.步骤s530，将音素隐变量输入第三编码器对声学特征层进行有监督训练。
81.在本发明实施例中，声学特征层包括第三编码器和第三解码器，将初始声学特征输入声学特征层即将初始声学特征输入第三编码器，得到中间声学特征，将中间声学特征输入第三解码器，得到最终声学特征，实现对声学特征的自编码自解码，完成声学特征到声学特征的重构，并通过mae损失计算初始声学特征和最终声学特征之间的损失得到声学特征损失值，并根据声学特征损失值对声学特征层进行调整，以自监督的方法进行模型训练，采用自回归的方式，提高声学特征层的模型训练速度及模型预测精度，加快模型的收敛速度，将音素层输出的音素隐变量作为输入，输入至第三编码器对声学特征层进行有监督训练，提高声学特征层模型训练的准确性和精度，实现音素层和声学特征层的对齐。
82.另外，声学特征层采用教师强制模式进行训练，即每一时刻的输出都综合上一时刻的真实结果进行模型训练，提高模型的收敛速度。
83.如图6所示，图6是本发明一个实施例提供的语音合成模型的应用方法的流程图，本发明实施例的语音合成模型的应用方法，包括但不限于步骤s600和步骤s610。
84.步骤s600，获取目标字符串或者目标音素；
85.步骤s610，将目标字符串或者目标音素输入至语音合成模型，得到语音频谱。
86.在本发明实施例中，语音合成模型的应用方法包括获取目标字符串或者目标音素，将目标字符串或者目标音素输入至语音合成模型，得到语音频谱。语音合成模型由上述实施例的语音合成模型的建立方法得到，完成模型训练后的语音合成模型支持字符串或目
标音素的输入，目标字符串的输入可以最大限度的避免多音字以及不同音调等的影响。提高合成语音的自然度和合成速度。
87.如图7和图8所示，图7是本发明另一个实施例提供的语音合成模型的应用方法的流程图，本发明实施例的语音合成模型的应用方法，包括但不限于步骤s700。图8是本发明另一个实施例提供的语音合成模型的应用方法的流程图，本发明实施例的语音合成模型的应用方法，包括但不限于步骤s800。
88.步骤s700，在将目标字符串输入至语音合成模型，得到语音频谱的情况下，将目标字符串输入至语音合成模型，得到语音频谱，包括：将目标字符串输入语音合成模型，经由字符层、音素层和声学特征层得到语音频谱。
89.步骤s800，在将目标音素输入至语音合成模型，得到语音频谱的情况下，将目标音素输入至语音合成模型，得到语音频谱，包括：将目标音素输入语音合成模型，经由音素层和声学特征层得到语音频谱。
90.在本发明实施例中，在将目标字符串输入至语音合成模型，得到语音频谱的情况下，将目标字符串输入至语音合成模型，得到语音频谱，包括：将目标字符串输入语音合成模型，经由字符层、音素层和声学特征层得到语音频谱，目标字符串的输入可以最大限度的避免多音字以及不同音调等的影响，中间的音素层是对字符串进行引导，降低中间信息语义鸿沟，提高合成语音的自然度和合成速度；在将目标音素输入至语音合成模型，得到语音频谱的情况下，将目标音素输入至语音合成模型，得到语音频谱，包括：将目标音素输入语音合成模型，经由音素层和声学特征层得到语音频谱。
91.如图9所示，图9是本发明另一个实施例提供的语音合成模型的应用方法的流程图，本发明实施例的语音合成模型的应用方法，包括但不限于步骤s900、步骤s910、步骤s920和步骤s930。
92.步骤s900，将目标字符串输入字符层得到字符序列；
93.步骤s910，将字符序列输入音素层，以使音素层输出音素序列，并通过第一转换器将字符序列和音素序列对齐；
94.步骤s920，将音素序列输入声学特征层，以使声学特征层输出声学特征序列，并通过第二转换器将音素序列和声学特征序列对齐；
95.步骤s930，根据字符序列、音素序列和声学特征序列合成语音频谱。
96.在本发明实施例中，字符层设有第一转换器与音素层连接，音素层设有第二转换器与声学特征层连接，将目标字符串输入语音合成模型即将目标字符串输入字符层得到字符序列，将字符序列输入音素层，以使音素层输出音素序列，并通过第一转换器件字符序列和音素序列对齐，将音素序列输入声学特征层，以使声学特征层输出声学特征序列，并通过第二转换器将音素序列和声学特征序列对齐，根据字符序列、音素序列和声学特征序列合成语音频谱，提高合成语音的自然度和合成速度。目标字符串的输入可以最大限度的避免多音字以及不同音调等的影响，中间的音素层是对字符序列进行引导，降低中间信息语义鸿沟，提高合成语音的自然度和合成速度。第一转换器为基于注意力机制的序列到序列模型，完成字符序列到音素序列的对齐，使得字符层的模型更快收敛，第二转换器为基于注意力机制的序列到序列模型，完成音素序列到声学特征序列的对齐，使得音素层的模型更快收敛。
97.如图10所示，图10是本发明另一个实施例提供的语音合成模型的应用方法的流程图，本发明实施例的语音合成模型的应用方法，包括但不限于步骤s1000、步骤s1010和步骤1020。
98.步骤s1000，将目标音素输入音素层得到音素序列；
99.步骤s1010，将音素序列输入声学特征层，以使声学特征层输出声学特征序列，并通过第二转换器将音素序列和声学特征序列对齐；
100.步骤s1020，根据音素序列和声学特征序列合成语音频谱。
101.在本发明实施例中，音素层设有第二转换器与声学特征层连接，将目标音素输入音素层得到音素序列，将音素序列输入声学特征层，以使声学特征层输出声学特征序列，并通过第二转换器将音素序列和声学特征序列对齐，根据音素序列和声学特征序列合成语音频谱，提高合成语音的自然度和合成速度。第二转换器为基于注意力机制的序列到序列模型，完成音素序列到声学特征序列的对齐，使得音素层的模型更快收敛。
102.另外，本发明实施例还提供了一种电子设备，该电子设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。
103.处理器和存储器可以通过总线或者其他方式连接。
104.存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
105.需要说明的是，本实施例中的电子设备，可以应用为如上述实施例的语音合成模型的建立方法和/或语音合成模型的应用方法，本实施例中的电子设备与如上述实施例的语音合成模型的建立方法和/或语音合成模型的应用方法具有相同的发明构思，因此这些实施例具有相同的实现原理以及技术效果，此处不再详述。
106.实现如上述实施例的语音合成模型的建立方法和/或语音合成模型的应用方法所需的非暂态软件程序以及指令存储在存储器中，当被处理器执行时，执行如上述实施例的语音合成模型的建立方法和/或语音合成模型的应用方法，例如，执行以上描述的图2中的方法步骤s200至s230、图3中的方法步骤s300至步骤s330、图4中的方法步骤s400至步骤s440、图5中的方法步骤s500至s530、图6中的方法步骤s600至s610、图7中的方法步骤s700、图8中的方法步骤s800、图9中的方法步骤s900至步骤s930、图10中的方法步骤s1000至步骤s1020。
107.以上所描述的电子设备实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
108.此外，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述电子设备实施例中的一个处理器执行，可使得上述处理器执行如上述实施例的语音合成模型的建立方法和/或语音合成模型的应用方法，例如，执行以上描述的图2中的方法步骤
s200至s230、图3中的方法步骤s300至步骤s330、图4中的方法步骤s400至步骤s440、图5中的方法步骤s500至s530、图6中的方法步骤s600至s610、图7中的方法步骤s700、图8中的方法步骤s800、图9中的方法步骤s900至步骤s930、图10中的方法步骤s1000至步骤s1020。
109.本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。
110.本领域技术人员可以理解的是，图2-10中示出的技术方案并不构成对本发明实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。
111.以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
112.本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
113.本发明的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
114.应当理解，在本发明中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“a和/或b”可以表示：只存在a，只存在b以及同时存在a和b三种情况，其中a，b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。
115.在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结
合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
116.上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
117.另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
118.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例的方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-only memory，简称rom)、随机存取存储器(random access memory，简称ram)、磁碟或者光盘等各种可以存储程序的介质。
119.以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张旭龙王健宗
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人

上一篇：一种低温固态储氢装置及方法
上一篇：一种无铬钝化剂及其在镀锌铁塔构件上的钝化处理方法与流程