用于语音合成的音子切分方法和装置的制造方法

文档序号：9580329阅读：568来源：国知局

用于语音合成的音子切分方法和装置的制造方法
【技术领域】
[0001]本发明涉及文语转换技术领域，尤其涉及一种用于语音合成的音子切分方法和装置。
【背景技术】
[0002]语音合成，又称文语转换技术，是一种能够将文字信息转化为语音并朗读的技术。语音合成系统性能的主要评价指标主要包括可懂度和流畅度两方面。现有的语音合成系统在可懂度方面已经基本成熟，但是在流畅度方面和人们真实的发音仍然存在一定的差距。为了能够合成更加流畅自然的语音，则需要对音子(比如声母、韵母)的切分具有很高的准确性。如果音子切分错误，可能导致建立的声学模型不可靠，进而导致合成语音时获取到错误的语音片段。
[0003]在数据规模较小时，人工切分是最可靠的。但随着数据规模的增大，人工切分需要的时间越来越长、成本越来越高，采用人工切分方法无法满足快速和低成本构建特色语音合成系统的需求。因此，需要采用自动切分音子的办法。
[0004]目前，主要基于隐马尔可夫声学模型对音子进行切分，首先将训练语料转换为文本，再将文本转换为一维的状态序列，然后根据维特比算法得到最优路径，再从最优路径中获取每个语音帧对应的状态结果，最后根据状态结果对音子进行切分。
[0005]但是，当语料中存在有例如吸气、清嗓子等用单个节点无法准确描述的发音时，上述方法可能会出现切分错误。例如:将吸气对应的发音与它后面的辅音切分成一个语音片段，如图1所示，被圈中的语音片段为吸气的发音，与辅音r 一起，被误切分为同一个语音片段。更严重的，很可能造成跨音子切分错误，即切分给某个音子的语音片段是属于其他音子的。上述错误会造成语音合成系统的性能严重下降。

【发明内容】

[0006]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种用于语音合成的音子切分方法，能够提高切分拼音序列的准确性。
[0007]本发明的第二个目的在于提出一种用于语音合成的音子切分装置。
[0008]为了实现上述目的，本发明第一方面实施例提出了一种用于语音合成的音子切分方法，包括:获取语料文本，并将所述语料文本转换为拼音序列，其中所述拼音序列包括多个音子，每个所述音子具有多个状态；将所述拼音序列对应的语音数据切分为多个语音帧，并获取所述语音帧的声学特征；针对每个所述状态，根据所述声学特征对所述语音帧进行聚类，并生成所述状态对应的多个所述节点；以及基于动态规划算法计算出所述拼音序列对应的最优路径，并根据所述最优路径切分所述拼音序列。
[0009]本发明实施例的用于语音合成的音子切分方法，通过获取语料文本，并将语料文本转换为拼音序列，以及将拼音序列对应的语音数据切分为多个语音帧，并获取语音帧的声学特征，并针对每个状态，根据声学特征对语音帧进行聚类，并生成状态对应的多个节点，以及基于动态规划算法计算出拼音序列对应的最优路径，并根据最优路径切分拼音序列，提高了切分拼音序列的准确性，进而提高了语音合成的声学模型可靠性，最终使文语转换的语音更加流畅自然。
[0010]本发明第二方面实施例提出了一种用于语音合成的音子切分装置，包括:转换模块，用于获取语料文本，并将所述语料文本转换为拼音序列，其中所述拼音序列包括多个音子，每个所述音子具有多个状态；处理模块，用于将所述拼音序列对应的语音数据切分为多个语音帧，并获取所述语音帧的声学特征；生成模块，用于针对每个所述状态，根据所述声学特征对所述语音帧进行聚类，并生成所述状态对应的多个所述节点；以及切分模块，用于基于动态规划算法计算出所述拼音序列对应的最优路径，并根据所述最优路径切分所述拼首序列。
[0011]本发明实施例的用于语音合成的音子切分装置，通过获取语料文本，并将语料文本转换为拼音序列，以及将拼音序列对应的语音数据切分为多个语音帧，并获取语音帧的声学特征，并针对每个状态，根据声学特征对语音帧进行聚类，并生成状态对应的多个节点，以及基于动态规划算法计算出拼音序列对应的最优路径，并根据最优路径切分拼音序列，提高了切分拼音序列的准确性，进而提高了语音合成的声学模型可靠性，最终使文语转换的语音更加流畅自然。
【附图说明】
[0012]图1是现有技术中切分错误的效果示意图；
[0013]图2是根据本发明一个实施例的用于语音合成的音子切分方法的流程图；
[0014]图3是针对某一状态生成对应的多个节点的效果示意图；
[0015]图4是组成二维状态网络的效果示意图；
[0016]图5是最优路径的效果不意图；
[0017]图6是根据本发明一个实施例的切分音子效果不意图。
[0018]图7是根据本发明一个实施例的用于语音合成的音子切分装置的结构示意图。
【具体实施方式】
[0019]下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
[0020]下面参考附图描述本发明实施例的用于语音合成的音子切分方法和装置。
[0021]图2是根据本发明一个实施例的用于语音合成的音子切分方法的流程图。
[0022]如图2所示，用于语音合成的音子切分方法可包括:
[0023]S1、获取语料文本，并将语料文本转换为拼音序列。
[0024]具体地，可从语料库中获取训练语料，再将训练语料转换为对应的语料文本，然后将语料文本转换为拼音序列。其中，语料库中保存了海量的录音数据即训练语料，用于训练语音合成系统。举例来说，训练语料为“他已经三天没吃过东西了，如果今天…”，可将其转换成对应的语料文本，然后再转换为拼音序列“tayijingsantianmeichiguodongxiIesplruguojintian”。其中，拼音序列是由声母、韵母等音子组成的，其中spl代表静音音子。而每个音子又对应多个状态，例如:ing这个音子可具有3个状态。
[0025]S2、将拼音序列对应的语音数据切分为多个语音帧，并获取语音帧的声学特征。
[0026]拼音序列对应的语音数据，可按照一定的时间间隔例如5毫秒切分成多个语音帧，然后获取上述语音帧的声学特征。
[0027]S3、针对每个状态，根据声学特征对语音帧进行聚类，并生成状态对应的多个节点。
[0028]具体地，针对拼音序列中的某一音子中的某一状态，可利用高斯模型描述声学特征，并将声学特征相似的语音帧进行聚类，从而生成与该状态对应的多个节点。如图3所示，某个音子具有3个状态1、2、3，状态2可对应3个节点，节点A、节点B和节点C。
[0029]S4、基于动态规划算法计算出拼音序列对应的最优路径，并根据最优路径切分拼首序列。
[0030]具体地，可按照时间先后顺序将每个状态的多个节点组成一个二维状态网络，然后可基于动态规划算法从二维状态网络中选取最优路径。其中，动态规划算法可包括维特比算法。举例来说，如图4所示，A2和A3为一个音子的第二个和第三个状态，BI为下一音子的第一个状态，其中，A2和A3均具有三个节点，BI具有一个节点，可按照时间先后顺序将上述节点组成一个二维状态网络，即从节点A2至节点BI的所有路径。然后，通过维特比算法选取出最优路径，如图4中粗箭头表示的路径。
[0031]在确定出最优路径之后，可根据最优路径获得每个语音帧对应的状态结果，然后根据状态结果切分拼音序列。举例来说，如图5所示，横轴t表示帧数，纵轴i表示拼音序列，通过横轴与纵轴的交叉点，选取的粗曲线表示最优路径，其中，第I语音帧和第2语音帧对应的状态结果为A2，第3语音帧、第4语音帧和第5语音帧对应的状态结果为A3，第6语音帧和第7语音帧对应的状态结果为BI，而A2和A3属于同一音子，因此从t = 5处切分拼音序列。具体切分效果可如图6描述的例子所示，将表示吸气的语音片段切分到spl这个音子中，避免了图1所示的误切分的情况的发生。
[0032]本发明实施例的用于语音合成的音子切分方法，通过获取语料文本，并将语料文本转换为拼音序列，以及将拼音序列对应的语音数据切分为多个语音帧，并获取语音帧的声学特征，并针对每个状态，根据声学特征对语音帧进行聚类，并生成状态对应的多个节点，以及基于动态规划算法计算出拼音序列对应的最优路径，并根据最优路径切分拼音序列，提高了切分拼音序列的准确性，进而提高了语音合成的声学模型可靠性，最终使文语转换的语音更加流畅自然。
[0033]图7是根据本发明一个实施例的用于语音合成的音子切分装置的结构示意图。
[0034]如图7所示，用于语音合成的音子切分装置可包括:转换模块110、处理模块120、生成模块130和切分模块140。
[0035]转换模块110用于获取语料文本，并将语料文本转换为拼音序列。
[0036]具体地，转换模块110可从语料库中获取训练语料，再将训练语料转换为对应的语料文本，然后将语料文本转换为拼音序列。其中，语料库中保存了海量的录音数据即训练语料，用于训练语音合成系统。举例来说，训练语料

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张辉;李秀林;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：多音字模型训练方法、语音合成方法及装置的制造方法
上一篇：一种弹簧混响模型的制作方法