声学模型的生成方法和装置及语音合成方法和装置的制造方法

文档序号：9454204阅读：529来源：国知局

声学模型的生成方法和装置及语音合成方法和装置的制造方法
【技术领域】
[0001]本发明涉及语音合成技术领域，尤其涉及一种声学模型的生成方法和装置及语音合成方法和装置。
【背景技术】
[0002]语音合成，又称文语转换(Text to Speech)技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。在语音合成时，首先需要对输入的文本进行处理，包括预处理、分词、词性标注、注音、韵律层级预测等，然后通过声学模型生成声学参数，最后利用声学参数直接通过声码器合成声音或者从录音语料库中挑选单元进行拼接。
[0003]现有技术中，声学模型的生成流程耗费时间长，也不能满足个性化需求。

【发明内容】

[0004]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]为此，本发明的一个目的在于提出一种声学模型的生成方法，该方法可以提高生成声学模型的速度，并且可以满足用户的个性化需求。
[0006]本发明的另一个目的在于提出一种声学模型的生成装置。
[0007]本发明的另一个目的在于提出一种语音合成方法。
[0008]本发明的另一个目的在于提出一种语音合成装置。
[0009]为达到上述目的，本发明第一方面实施例提出的声学模型的生成方法，包括:获取个性化数据，所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的；获取预先生成的基准声学模型，所述基准声学模型是根据已有的大规模样本生成的；根据所述个性化数据和所述基准声学模型进行自适应模型训练，生成个性化声学模型。
[0010]本发明第一方面实施例提出的声学模型的生成方法，通过根据个性化数据和基准声学模型进行自适应模型训练，可以降低所需的个性化数据量，从而降低样本采集所需的时间，降低模型生成所需周期，实现模型的快速生成，通过获取个性化数据可以满足个性化需求。
[0011]为达到上述目的，本发明第二方面实施例提出的声学模型的生成装置，包括:第一获取模块，用于获取个性化数据，所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的；第二获取模块，用于获取预先生成的基准声学模型，所述基准声学模型是根据已有的大规模样本生成的；生成模块，用于根据所述个性化数据和所述基准声学模型进行自适应模型训练，生成个性化声学模型。
[0012]本发明第二方面实施例提出的声学模型的生成装置，通过根据个性化数据和基准声学模型进行自适应模型训练，可以降低所需的个性化数据量，从而降低样本采集所需的时间，降低模型生成所需周期，实现模型的快速生成，通过获取个性化数据可以满足个性化需求。
[0013]为达到上述目的，本发明第三方面实施例提出的语音合成方法，包括:对输入文本进行处理，得到处理后的文本；获取预先生成的个性化声学模型；根据所述个性化声学模型和处理后的文本进行声学参数生成；根据生成的声学参数进行语音合成，得到个性化合成语音；其中，所述个性化声学模型采用如本发明第一方面实施例所述的方法生成。
[0014]本发明第三方面实施例提出的语音合成方法，通过采用个性化声学模型，可以生成个性化合成语音，以满足用户个性化语音需求。
[0015]为达到上述目的，本发明第四方面实施例提出的语音合成装置，包括:处理模块，用于对输入文本进行处理，得到处理后的文本；获取模块，用于获取预先生成的个性化声学模型；生成模块，用于根据所述个性化声学模型和处理后的文本进行声学参数生成；合成模块，用于根据生成的声学参数进行语音合成，得到个性化合成语音；其中，所述个性化声学模型采用如本发明第一方面实施例所述的方法生成。
[0016]本发明第四方面实施例提出的语音合成装置，通过采用个性化声学模型，可以生成个性化合成语音，以满足用户个性化语音需求。
[0017]本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
【附图说明】
[0018]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中:
[0019]图1是本发明一实施例提出的声学模型的生成方法的流程示意图；
[0020]图2是本发明另一实施例提出的声学模型的生成方法的流程示意图；
[0021]图3是本发明另一实施例提出的声学模型的生成方法的流程示意图；
[0022]图4是本发明实施例中说话人模型的训练过程和识别过程的示意图；
[0023]图5是本发明另一实施例提出的语音合成方法的流程示意图；
[0024]图6是本发明另一实施例提出的语音合成方法的流程示意图；
[0025]图7是本发明另一实施例提出的声学模型的生成装置的结构示意图；
[0026]图8是本发明另一实施例提出的声学模型的生成装置的结构示意图；
[0027]图9是本发明另一实施例提出的语音合成装置的结构示意图。
【具体实施方式】
[0028]下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0029]图1是本发明一实施例提出的声学模型的生成方法的流程示意图，该方法包括:
[0030]Sll:获取个性化数据，所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的。
[0031]例如，参见图2，获取个性化数据时，可以具体包括:
[0032]S21:获取个性化语音数据。
[0033]个性化语音数据是能够满足用户个性化需求的语音数据。
[0034]个性化语音数据可以仅包括目标发音人的语音数据，或者，可以包括:目标发音人的语音数据和与目标发音人语音相似的相似发音人的语音数据。
[0035]目标发音人的语音数据例如为:用户自己的语音数据、用户的家人或朋友的语音数据，或者，明星的语音数据等。
[0036]通过样本采集可以获取到个性化语音数据。
[0037]与普通声学模型训练时通常采集的几千句样本相比，当个性化语音数据仅是目标发音人的语音数据时，采集的目标发音人的语音数据的样本量在几百句或几十句的规模，当个性化语音数据还包括相似发音人的语音数据时，可以进一步降低目标发音人的语音数据的样本量，例如采集几句。
[0038]S22:对个性化语音数据进行数据加工。
[0039]数据加工例如包括:降噪处理和切分处理等。具体的降噪规则和切分规则可以预先设置。
[0040]S23:对数据加工后的个性化语音数据进行特征提取。
[0041]例如，提取的特征包括:谱、基频、时长等声学特征。
[0042]通过S21-S23可以获取到根据个性化语音数据处理后得到的个性化数据。
[0043]另外，个性化数据还包括个性化文本标注数据，相应的，参见图2，还包括:
[0044]S24:获取个性化文本标注数据。
[0045]其中，个性化文本标注数据是根据与上述的个性化语音数据对应的个性化文本进行标注后得到的。具体的，在采集个性化语音数据时，同时获取相应的个性化文本数据，可以在已有的数据库中查找是否存在个性化文本数据对应的标注数据，如果存在，则可以直接从已有的数据库中获取相应的标注数据作为个性化文本标注数据，如果不存在，则可以采用人工标注或自动标注的方式，获取个性化文本标注数据，自动标注的方式例如结合语音识别、自动边界切分等技术实现。
[0046]文本标注数据例如包括对文本的拼音、韵律层级标注等。
[0047]通过S21-S23以及S24可以实现个性化数据的获取。
[0048]S12:获取预先生成的基准声学模型，所述基准声学模型是根据已有的大规模样本生成的。
[0049]其中，可以采用通常的大规模样本训练的方式生成基准声学模型。
[0050]在模型训练时，为了解决通常采用的决策树模型训练方式存在的参数不够连贯造成的合成语音不自然的问题，本实施例中，采用神经网络进行模型训练，神经网络例如为LSTM网络结构或者双向LSTM网络结构，LSTM(Long-Short Term Memory)是一种时间递推神经网络。相应的，生成的声学模型可以称为神经网络声学模型。
[0051]以神经网络模型训练为例，参见图2，生成基准神经网络声学模型时，可以具体包括:
[0052]S25:获取大规模语音数据。

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李秀林;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人