用于语音合成的音子切分方法和装置的制造方法_2

文档序号：9580329阅读：来源：国知局

为“他已经三天没吃过东西了，如果今天…”，可将其转换成对应的语料文本，然后再转换为拼音序列“tayijingsantianmeichiguodongxiIesplruguojintian^o其中，拼音序列是由声母、韵母等音子组成的，其中spl代表静音音子。而每个音子又对应多个状态，例如:ing这个音子可具有3个状态。
[0037]处理模块120用于将拼音序列对应的语音数据切分为多个语音帧，并获取语音帧的声学特征。
[0038]由于拼音序列对应的语音数据是具有前后顺序的，因此处理模块120可按照一定的时间间隔例如5毫秒将拼音序列对应的语音数据切分成多个语音帧，然后获取上述语音帧的声学特征。
[0039]生成模块130用于针对每个状态，根据声学特征对语音帧进行聚类，并生成状态对应的多个节点。
[0040]具体地，针对拼音序列中的某一音子中的某一状态，生成模块130可利用高斯模型描述声学特征，并将声学特征相似的语音帧进行聚类，从而生成与该状态对应的多个节点。如图3所示，某个音子具有3个状态1、2、3，状态2可对应3个节点，节点A、节点B和节点C。
[0041]切分模块140用于基于动态规划算法计算出拼音序列对应的最优路径，并根据最优路径切分拼音序列。
[0042]具体地，切分模块140可按照时间先后顺序将每个状态的多个节点组成一个二维状态网络，然后可基于动态规划算法从二维状态网络中选取最优路径。其中，动态规划算法可包括维特比算法。举例来说，如图4所示，A2和A3为一个音子的第二个和第三个状态，BI为下一音子的第一个状态，其中，A2和A3均具有三个节点，BI具有一个节点，可按照时间先后顺序将上述节点组成一个二维状态网络，即从节点A2至节点BI的所有路径。然后，通过维特比算法选取出最优路径。
[0043]在确定出最优路径之后，可根据最优路径获得每个语音帧对应的状态结果，然后根据状态结果切分拼音序列。举例来说，如图5所示，横轴t表示帧数，纵轴i表示拼音序列，通过横轴与纵轴的交叉点，选取的粗曲线表示最优路径，其中，第I语音帧和第2语音帧对应的状态结果为A2，第3语音帧、第4语音帧和第5语音帧对应的状态结果为A3，第6语音帧和第7语音帧对应的状态结果为BI，而A2和A3属于同一音子，因此从t = 5处切分拼音序列。具体切分效果可如图6描述的例子所示，将表示吸气的语音片段切分到spl这个音子中，避免了图1所示的误切分的情况的发生。
[0044]本发明实施例的用于语音合成的音子切分装置，通过获取语料文本，并将语料文本转换为拼音序列，以及将拼音序列对应的语音数据切分为多个语音帧，并获取语音帧的声学特征，并针对每个状态，根据声学特征对语音帧进行聚类，并生成状态对应的多个节点，以及基于动态规划算法计算出拼音序列对应的最优路径，并根据最优路径切分拼音序列，提高了切分拼音序列的准确性，进而提高了语音合成的声学模型可靠性，最终使文语转换的语音更加流畅自然。
[0045]在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底” “内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
[0046]此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。
[0047]在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。
[0048]在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。
[0049]在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0050]尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
【主权项】
1.一种用于语音合成的音子切分方法，其特征在于，包括: 获取语料文本，并将所述语料文本转换为拼音序列，其中所述拼音序列包括多个音子，每个所述音子具有多个状态；将所述拼音序列对应的语音数据切分为多个语音帧，并获取所述语音帧的声学特征；针对每个所述状态，根据所述声学特征对所述语音帧进行聚类，并生成所述状态对应的多个所述节点；以及基于动态规划算法计算出所述拼音序列对应的最优路径，并根据所述最优路径切分所述拼首序列。2.如权利要求1所述的方法，其特征在于，所述基于动态规划算法计算出所述拼音序列对应的最优路径，包括: 按照时间先后顺序将每个所述状态的多个所述节点组成二维状态网络；基于动态规划算法从所述二维状态网络中选取所述最优路径。3.如权利要求1所述的方法，其特征在于，所述根据所述声学特征对所述语音帧进行聚类，包括: 利用高斯模型描述所述声学特征，并将声学特征相似的语音帧进行聚类。4.如权利要求1所述的方法，其特征在于，所述根据所述最优路径切分所述拼音序列，包括: 根据所述最优路径获得每个所述语音帧对应的状态结果，并根据所述状态结果切分所述拼首序列。5.如权利要求1所述的方法，其特征在于，所述动态规划算法包括维特比算法。6.一种用于语音合成的音子切分装置，其特征在于，包括: 转换模块，用于获取语料文本，并将所述语料文本转换为拼音序列，其中所述拼音序列包括多个音子，每个所述音子具有多个状态；处理模块，用于将所述拼音序列对应的语音数据切分为多个语音帧，并获取所述语音帧的声学特征；生成模块，用于针对每个所述状态，根据所述声学特征对所述语音帧进行聚类，并生成所述状态对应的多个所述节点；以及切分模块，用于基于动态规划算法计算出所述拼音序列对应的最优路径，并根据所述最优路径切分所述拼音序列。7.如权利要求6所述的装置，其特征在于，所述切分模块，具体用于: 按照时间先后顺序将每个所述状态的多个所述节点组成二维状态网络；基于动态规划算法从所述二维状态网络中选取所述最优路径。8.如权利要求6所述的装置，其特征在于，所述生成模块，具体用于: 利用高斯模型描述所述声学特征，并将声学特征相似的语音帧进行聚类。9.如权利要求6所述的装置，其特征在于，所述切分模块，具体用于: 根据所述最优路径获得每个所述语音帧对应的状态结果，并根据所述状态结果切分所述拼首序列。10.如权利要求6所述的装置，其特征在于，所述动态规划算法包括维特比算法。
【专利摘要】本发明公开了一种用于语音合成的音子切分方法和装置，其中，用于语音合成的音子切分方法，包括：获取语料文本，并将语料文本转换为拼音序列，其中拼音序列包括多个音子，每个音子具有多个状态；将拼音序列对应的语音数据切分为多个语音帧，并获取语音帧的声学特征；针对每个状态，根据声学特征对语音帧进行聚类，并生成状态对应的多个节点；以及基于动态规划算法和二维状态网络计算出拼音序列对应的最优路径，并根据最优路径切分拼音序列。本发明实施例的用于语音合成的音子切分方法和装置，提高了切分拼音序列的准确性，进而提高了语音合成的声学模型可靠性，最终使文语转换的语音更加流畅自然。
【IPC分类】G10L13/08
【公开号】CN105336321
【申请号】CN201510623958
【发明人】张辉, 李秀林
【申请人】百度在线网络技术（北京）有限公司
【公开日】2016年2月17日
【申请日】2015年9月25日

完整全部详细技术资料下载

当前第2页1 2