多音字模型训练方法、语音合成方法及装置的制造方法

文档序号：9580330阅读：1013来源：国知局

多音字模型训练方法、语音合成方法及装置的制造方法
【技术领域】
[0001]本发明涉及语音技术领域，尤其涉及一种用于语音合成的多音字模型训练方法、语音合成方法及装置。
【背景技术】
[0002]语音合成，又称文语转换(Text to Speech)技术，是一种能够将文字信息转化为语音并进行朗读的技术。其涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题是如何将文字信息转化为可听的声音信息。
[0003]在语音合成系统中，将文本信息转换为声音信息的过程为:首先需要对输入的文本进行处理，包括预处理、分词、词性标注、多音字预测、韵律层级预测等，然后再通过声学模型，预测各个单元对应的声学特征，最后利用声学参数直接通过声码器合成声音，或者从录音语料库中挑选单元进行拼接，以生成与文本对应的声音信息。
[0004]其中，多音字预测是整个语音合成系统的基础之一，多音字朗读的正确与否，极大的影响了听者对合成声音语义的理解情况(也即TTS系统的可懂度指标)。如果多音字预测准确率高，可以大大改善用户体验，使合成出来的语音易于理解，听起来也更加自然流畅。因此，如何提高多音字预测的准确性对于语音合成系统是十分重要的。
[0005]相关技术中，多音字预测的方法主要有以下两种方式:
[0006]第一种方式，基于人工总结的规则方法对多音字进行预测。具体地，具有一定语言专业知识的人，针对每个不同的多音字所蕴含的各类语言现象进行归纳总结，整理出一条条规则，再由程序开发人员将这些规则转写成计算机能够理解的代码，并应用于多音字预测。
[0007]第二种方式，基于概率统计模型对多音字进行预测。具体地，人工基于注音词典对样本数据进行标注，并提取样本数据的文本特征，并基于文本特征和人工标注的样本数据对概率统计模型进行训练，以生成全局最优的统计模型，然后通过统计模型对输入的文本进行多音字预测。
[0008]然而，在实现本发明的过程中，发明人发现相关技术存在至少以下问题:
[0009]针对第一种方式来说，⑴耗费人力，且规则总结的周期较长。由于规则之间可能会存在冲突，撰写一个规则后，需要花费精力去验证效果，以防止规则之间产生冲突，进而无法对多音字进行预测。这个过程极其耗时，尤其是在规则繁多的情况下，人工总结出效果很好的一系列规则，可能需要花费几个月的时间。(2)规则存在片面性和局限性问题。早期和后期总结的规则，由于考虑的侧重点发生变化而存在一定的矛盾和不一致性并逐渐造成规则冗余，导致质量逐渐低下，且人工很难发现问题并修正。又或者规则只考虑到了某一类特定条件下的效果，但在其他语境下就会产生不适用的情况。(3)规则存在低扩展性和低健壮性问题。多音字预测问题依赖于分词等前端自然语言处理模块的结果，人工规则只能基于在当前分词结果下进行总结和编写，一旦今后前端分词结果发生了变化，已经总结的规则可能就不适用了。
[0010]针对第二种方式来说，在训练模型的过程中，往往需要大量人工标注的样本数据，人工标注样本数据耗时长，效率低，而且也会有人为的错误造成数据质量的下降，从而影响所训练的模型的多音字预测的效果。

【发明内容】

[0011]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0012]为此，本发明的一个目的在于提出一种用于语音合成的多音字模型训练方法，该方法在训练多音字模型的过程中，无需人工对文本的拼音进行标注，大大减少了多音字模型的训练周期，同时，避免了由人工标注错误而造成训练的多音字模型不准确情况的发生，提高了所训练的多音字模型的准确性。
[0013]本发明的第二个目的在于提出一种语音合成方法。
[0014]本发明的第三个目的在于提出一种用于语音合成的多音字模型训练装置。
[0015]本发明的第四个目的在于提出一种用于语音合成装置。
[0016]为达上述目的，本发明第一方面实施例提出了一种用于语音合成的多音字模型训练方法，包括:对语音数据集合和文本集合进行处理，以生成训练语料集合，其中，所述文本集合与所述语音数据集合对应，所述训练语料集合包括文本和与所述文本对应的拼音序列；提取所述文本的特征信息；以及根据所述特征信息和所述拼音序列对多音字模型进行训练。
[0017]本发明实施例的用于语音合成的多音字模型训练方法，对语音数据集合和文本集合进行处理，以生成训练语料集合，并提取训练语料集合文本的特征信息，以及根据特征信息和拼音序列对多音字模型进行训练，由此，在训练多音字模型的过程中，无需人工对文本的拼音进行标注，大大减少了多音字模型的训练周期，同时，避免了由人工标注错误而造成训练的多音字模型不准确情况的发生，提高了所训练的多音字模型的准确性。
[0018]为达上述目的，本发明第二方面实施例提出了一种使用本发明第一方面实施例所述的多音字模型进行语音合成的方法，包括:获取待合成文本，对所述待合成文本进行分词；对分词后的待合成文本进行词性标注，并通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成所述待合成文本的韵律特征；提取所述待合成文本的特征信息；将所述特征信息输入所述多音字模型，并根据所述多音字模型对所述待合成文本进行多音字预测，以生成所述待合成文本的多音字预测结果；根据所述多音字预测结果和所述韵律特征对所述待合成文本进行注音，以生成所述待合成文本的注音结果；根据所述注音结果、所述韵律特征及所述待测文本的上下文特征对所述待合成文本进行声学预测，以生成所述待合成文本的声学参数序列；以及根据所述声学参数序列生成所述待合成文本的语音合成结果。
[0019]本发明实施例的语音合成方法，获取待合成文本，对待合成文本进行分词，并对分词后的待合成文本进行词性标注，并通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成待合成文本的韵律特征，以及提取待合成文本的特征信息，并将特征信息输入多音字模型，并根据多音字模型对待合成文本进行多音字预测，以生成待合成文本的多音字预测结果，以及根据多音字预测结果和韵律特征对待合成文本进行注音，以生成待合成文本的注音结果，根据注音结果、韵律特征及待测文本的上下文特征对待合成文本进行声学预测，以及根据声学参数序列生成待合成文本的语音合成结果，由此，对待合成文本的多音字进行了准确预测，进而使得合成出的语音更加易于理解，且更加流畅自然，提升了用户体验。
[0020]为达上述目的，本发明第三方面实施例提出了一种用于语音合成的多音字模型训练装置，包括:处理模块，用于对语音数据集合和文本集合进行处理，以生成训练语料集合，其中，所述文本集合与所述语音数据集合对应，所述训练语料集合包括文本和与所述文本对应的拼音序列；提取模块，用于提取所述文本的特征信息；以及训练模块，用于根据所述特征信息和所述拼音序列对多音字模型进行训练。
[0021]本发明实施例的用于语音合成的多音字模型训练装置，通过处理模块对语音数据集合和文本集合进行处理，以生成训练语料集合，并提取模块提取训练语料集合文本的特征信息，以及训练模块根据特征信息和拼音序列对多音字模型进行训练，由此，在训练多音字模型的过程中，无需人工对文本的拼音进行标注，大大减少了多音字模型的训练周期，同时，避免了由人工标注错误而造成训练的多音字模型不准确情况的发生，提高了所训练的多音字模型的准确性。
[0022]为达上述目的，本发明第四方面实施例提出了一种使用本发明第三方面实施例所述的多音字模型进行语音合成的装置，包括:分词模块，用于对所述待合成文本进行分词；词性标注模块，用于对分词后的待合成文本进行词性标注；韵律预测模块，用于通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成所述待合成文本的韵律特征；提取模块，用于提取所述待合成文本的特征信息；多音字预测模块，用于将所述特征信息输入所述多音字模型，并根据所述多音字模型对所述待合成文本进行多音字预测，以生成所述待合成文本的多音字预测结果；注音模块，用于根据所述多音字预测结果和韵律特征对所述待合成文本进行注音，以生成所述待合成文本的注音结果；声学预测模块，用于根据注音结果、韵律特征及待测文本的上下文特征对待合成文本进行声学预测；以及语音合成模块，用于根据所述声学参数序列生成所述待合成文本的语音合成结果。
[0023]本发明实施例的语音合成装置，通过获取模块获取待合成文本，分词模块对待合成文本进行分词，词性标注模块对分词后的待合成文本进行词性标注，然后韵律预测模块通过韵律预测模型对词性标注后的待合成文本进行韵律预测，以生成待合成文本的韵律特征，以及提取模块提取待合成文本的特征信息，并多音字预测模块将特征信息输入多音字模型，并根据多音字模型对待合成文本进行多音字预测，以生成待合成文本的多音字预测结果，以及注音模块根据多音字预测结果和韵律特征对待合成文本进行注音，以生成待合成文本的注音结果，声学预测模块根据注音结果、韵律特征及待测文本的上下文特征对待合成文本进行声学预测，以及根语音合成模块据声学参数序列生成待合成文本的语音合成结果，由此，对待合成文本的多音字进行了准确预测，进而使得合成出的语音更加易于理解，且更加流畅自然，提升了用户体验。
[0024]本发明附加的方

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李秀林;肖朔;白洁;张辉;彭一平;陈杰;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：维语语音识别方法和装置的制造方法
上一篇：用于语音合成的音子切分方法和装置的制造方法