语音合成方法和装置的制造方法

文档序号：9598795阅读：814来源：国知局

语音合成方法和装置的制造方法
【技术领域】
[0001]本发明涉及语音处理技术领域，尤其涉及一种语音合成方法和装置。
【背景技术】
[0002]语音合成，又称文语转换(Text to Speech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。对于语音合成系统，首先需要对输入的文本进行处理，包括预处理、分词、词性标注、注音、韵律层级预测等，然后再通过声学模型预测声学参数，最后利用声学参数直接通过声码器合成声音，或者从录音语料库中挑选单元进行拼接。
[0003]为了实现上述的根据文本合成语音，需要事先进行数据准备。现有技术中，在准备数据时，通过是以句子为单元生成语料，再挑选合适的发音人对语料进行语音录制。一般要求发音人在语音录制时不加入情感平稳地录制，或者以某种与语料自身的情感无关的特定情感录制。这就会造成准备的数据难以表达语料内容包含的情感方面的信息，从而使得合成语音缺乏情感表现力。

【发明内容】

[0004]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]为此，本发明的一个目的在于提出一种语音合成方法，该方法可以提高合成语音的情感表现力。
[0006]本发明的另一个目的在于提出一种语音合成装置。
[0007]为达到上述目的，本发明第一方面实施例提出的语音合成方法，包括:获取以段落或篇章为单位的文本数据；在发音人朗读所述文本数据时进行录制，得到所述文本数据对应的语音数据，其中，发音人在朗读时结合文本数据的语义进行个人情感表达；生成韵律模型，以及，根据所述文本数据和所述语音数据生成声学模型；在需要进行语音合成时，根据预先生成的韵律模型和声学模型对输入文本进行处理，得到所述输入文本对应的合成语
■~>V.曰ο
[0008]本发明第一方面实施例提出的语音合成方法，通过获取以段落或篇章为单位的文本数据，可以得到存在语义关联的文本数据，通过发音人在朗读时结合文本数据的语义进行个人情感表达，可以得到更具情感的语音数据，从而基于上述的文本数据和语音数据可以生成包含语义和情感信息的声学模型，进而可以生成更具情感表现力的合成语音。
[0009]为达到上述目的，本发明第二方面实施例提出的语音合成装置，包括:获取模块，用于获取以段落或篇章为单位的文本数据；录制模块，用于在发音人朗读所述文本数据时进行录制，得到所述文本数据对应的语音数据，其中，发音人在朗读时结合文本数据的语义进行个人情感表达；生成模块，用于生成韵律模型，以及，根据所述文本数据和所述语音数据生成声学模型；合成模块，用于在需要进行语音合成时，根据预先生成的韵律模型和声学模型对输入文本进行处理，得到所述输入文本对应的合成语音。
[0010]本发明第二方面实施例提出的语音合成装置，通过获取以段落或篇章为单位的文本数据，可以得到存在语义关联的文本数据，通过发音人在朗读时结合文本数据的语义进行个人情感表达，可以得到更具情感的语音数据，从而基于上述的文本数据和语音数据可以生成包含语义和情感信息的声学模型，进而可以生成更具情感表现力的合成语音。
[0011]本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
【附图说明】
[0012]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中:
[0013]图1是本发明一实施例提出的语音合成方法的流程示意图；
[0014]图2是本发明实施例中生成韵律模型的流程示意图；
[0015]图3是本发明实施例中生成声学模型的流程示意图；
[0016]图4是本发明实施例中语音合成的流程示意图；
[0017]图5是本发明另一实施例提出的语音合成装置的结构示意图；
[0018]图6是本发明另一实施例提出的语音合成装置的结构示意图。
【具体实施方式】
[0019]下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0020]图1是本发明一实施例提出的语音合成方法的流程示意图，该方法包括:
[0021]S11:获取以段落或篇章为单位的文本数据。
[0022]与常规采用的以句子为单元的文本数据不同的是，本发明实施例中获取以段落或篇章为单位的文本数据作为训练语料。
[0023]以句子为单元的语料通常是句子之间没有什么联系，基本都是独立的。而本发明实施例中通过以段落甚至篇章为单位获取语料，可以充分利用句子之间的关联性，以蕴含更为丰富的上下文特征信息。
[0024]S12:在发音人朗读所述文本数据时进行录制，得到所述文本数据对应的语音数据，其中，发音人在朗读时结合文本数据的语义进行个人情感表达。
[0025]常规录制过程中，一般要求发音人不加入任何情感，尽可能平稳地录制语音，从而导致语义信息无法融入到语音中。还有些学者，会专门设计少量句子，让发音人以某种情感来朗读，从而造成语义与情感可能存在错位，单个句子没有上下文的铺垫，容易造成情感过于夸张或者生硬，不自然。在本发明实施例中，允许发音人结合文本的语义信息，根据个人理解加入自然的情感表达，从而使得语音中蕴含丰富且自然的情感和语义表达方式。
[0026]S13:生成韵律模型，以及，根据所述文本数据和所述语音数据生成声学模型。
[0027]训练过程中还需要生成韵律模型和声学模型，以用于语音合成时的韵律预测和声学参数生成。
[0028]一些实施例中，在生成韵律模型和/或声学模型时，采用深度神经网络方式，以区分于常规的采用隐马尔可夫和决策树建模生成声学模型的方式。
[0029]深度神经网络具有自动学习能力，通过自动学习历史信息对当前预测的影响，更容易利用类似词向量这种矢量特征，建模性能更高。
[0030]具体的，深度神经网络采用双向长短时记忆(B1-LSTM)网络。B1-LSTM使用长短时记忆(Long-Short Term Memory, LSTM)结构作为其核心建模单元，通过LSTM结构中的状态结构缓存历史的状态信息，并且通过输入门、遗忘门以及输出门对上下文特征信息进行维护，从而实现了长距离上下文特征信息的有效缓存。
[0031]一些实施例中，参见图2，采用深度神经网络，生成韵律模型的流程可以包括:
[0032]S21:获取多个语句文本。
[0033]例如，在获取到上述的以段落或篇章为单位的文本数据后，可以将上述的文本数据分别为多个语句文本；或者，可以获取到其他的标注了韵律层级信息的数据，或者，获取的多个语句文本包括根据上述的文本数据得到的语句文本和其他的标注了韵律层级信息的数据等。
[0034]S22:获取每个语句文本对应的特征向量。
[0035]例如，可以先对每个语句文本进行分词，得到组成语句文本的一个或多个分词。对应每个分词，根据预先建立的词向量库，获取分词对应的词向量，另外还可以获取分词对应的词语长度和词性，从而用词向量+词语长度+词性表征一个分词，作为分词的特征向量，将组成一个语句文本的分词的特征向量进行组合，得到该语句文本的特征向量。
[0036]通过引入词向量，可以增强词语本身的泛化能力，提升韵律模型的鲁棒性。
[0037]S23:采用深度神经网络，根据语句文本对应的特征向量进行建模，生成韵律模型。
[0038]本实施例中，深度神经网络具体采用:使用全连接的前馈神经网络的深度神经网络(De印 Neural Networks，DNN)+Bi_LSTM 网络。B1-LSTM 网络由 LSTM 单元组成，由于 LSTM结构能够维护长距离的历史信息(如，历史的上下文特征信息)，因此特别适合韵律层级标注中的长距离韵律建模。在韵律层级模型训练过程中，将韵律层级预测问题看作对韵律词、韵律短语和语调短语的分类问题，采用DNN加B1-LSTM的网络结构对模型进行训练。语句文本对应的特征向量作为DNN的输入，DNN的输出作为B1-LSTM的输入，B1-LSTM的输出是生成的韵律模型。在生成的韵律模型时对韵律词、韵律短语和语调短语同时进行分类，在误差反向传递的过程体现三种层级结构的相互关系。
[0039]一些实施例中，参见图3，采用深度神经网络生成声学模型的流程可以包括:
[0040]S31:获取所述文本数据的上下文特征信息。
[0041]与常规方式不同的是，本实施例

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李秀林;关勇;康永国;徐扬凯;陈汉英;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人