歌唱合成中基频参数生成方法及系统的制作方法

文档序号：2826118阅读：236来源：国知局

歌唱合成中基频参数生成方法及系统的制作方法
【专利摘要】本发明涉及语音合成处理【技术领域】，公开了一种歌唱合成中基频参数生成方法及系统，所述方法包括：接收待合成简谱信息，所述简谱信息包括：歌词标注、音高标注、时长标注和节奏信息；根据所述音高标注确定各基本合成单元的理论基频参数；根据所述歌词标注确定各基本合成单元的基频参考模型；根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化。利用本发明，不仅可以保证基频参数的稳定性，而且还可以保证基频参数符合发音人的发声特点及基频范围，有效地改善了合成语音的听感。
【专利说明】歌唱合成中基频参数生成方法及系统
【技术领域】
[0001]本发明涉及语音合成处理【技术领域】，具体涉及一种歌唱合成中基频参数生成方法及系统。
【背景技术】
[0002]近年来，歌唱合成系统得到了广泛的研究和应用，其中有基于隐马尔科夫模型(Hidden Markov Model,HMM)的参数合成系统以及基于波形拼接合成的系统。相比于基于波形拼接合成的系统，参数合成方法对训练数据量要求较少且系统规模较小，因而具有较好的实用价值。基于参数合成的歌唱合成系统首先分别确定各基本合成单元(如音节，音素等)的时长参数序列，基频参数序列以及频谱参数序列，随后再根据各参数序列利用参数合成器得到连续歌唱信号。
[0003]作为语音信号最主要影响因素的基频参数，其准确性对歌唱合成效果有着至关重要的作用。目前传统系统主要采用如下两种方式生成:
[0004](I)基于数据驱动的统计模型挑选方法:该方法预先录制歌唱语音训练数据并根据对应简谱标注信息(如歌词标注、音高标注及时长标注等)训练得到各基本合成单元的基于真实数据驱动的基频模型；在接收到歌唱合成请求时，根据简谱标注信息获取各基本合成单元对应的基频模型进而生成相应的基频参数。该方法通过对真实数据的统计模拟得到符合发音人音色特点的基频模型，然而由于建模本身带来的损失、以及基频模型选择的不完全准确性，该方法很难保证最终合成效果的稳定性。
[0005](2)基于规则生成的方法:该方法根据简谱音高标注确定各基本合成单元对应的标准音高，并根据音高基频转换公式直接生成基频参数。这种方法实现简单高效，但由于简谱的标注音高并不一定满足发音人音域分布，从而导致根据标准音高获取的基频参数与发音人频谱参数间存在明显不符现象，影响合成语音的听感。

【发明内容】

[0006]本发明实施例提供一种歌唱合成中基频参数生成方法及系统，以使基频参数更符合发音人的音域范围，并保证最终合成效果的稳定性。
[0007]为此，本发明提供如下技术方案:
[0008]一种歌唱合成中基频参数生成方法，包括:
[0009]接收待合成简谱信息，所述简谱信息包括:歌词标注、音高标注、时长标注和节奏信息；
[0010]根据所述音高标注确定各基本合成单元的理论基频参数；
[0011]根据所述歌词标注确定各基本合成单元的基频参考模型；
[0012]根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化。
[0013]优选地，所述根据所述歌词标注确定各基本合成单元的基频参考模型包括:[0014]对所述歌词标注进行切分，获取各基本合成单元；
[0015]对所述各基本合成单元进行文本解析，获得所述基本合成单元的上下文信息，所述上下文信息包括:音素序列、声调、韵律词、韵律短语；
[0016]获取所述基本合成单元对应的基频二叉决策树；
[0017]根据所述上下文信息在所述基频二叉决策树中进行路径决策，得到对应的叶节
占.[0018]将所述叶节点对应的基频模型作为所述合成单元的基频参考模型。
[0019]优选地，所述方法还包括按以下方式构建各基本合成单元对应的基频二叉决策树:
[0020]采集训练数据并对所述训练数据进行信息标注；
[0021]从所述训练数据中提取各基本语音合成单元对应语音片断的基频参数；
[0022]根据所述基本合成单元对应语音片断的标注信息和基频参数，构建所述基本合成单元对应的基频二叉决策树；
[0023]对所述基频二叉决策树的各节点分别训练得到一个基频模型。
[0024]优选地，所述根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化包括:
[0025]对所述理论基频参数进行升降调处理，得到不同基调下的基频参数；
[0026]计算不同基调下的基频参数与所述基频参考模型的似然度；
[0027]选择具有最大似然度的基频参数作为优化的基频参数。
[0028]优选地，所述根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化包括:
[0029]根据简谱信息中的节奏信息计算各基本合成单元的理论时长；
[0030]根据所述理论时长获取简谱对应的理论基频参数序列；
[0031]获取所述简谱对应的基频参考模型序列；
[0032]根据所述基频参考模型序列对所述理论基频参数序列进行联合优化。
[0033]优选地，所述根据所述基频参考模型序列对所述理论基频参数序列进行联合优化包括:
[0034]分别对所述理论基频参数序列中所有理论基频参数统一升降调处理，得到不同基调下的基频参数序列；
[0035]计算所述不同基调下基频参数序列与所述基频参考模型序列的似然度；
[0036]选择具有最大似然度的基频参数序列作为优化的基频参数序列。
[0037]一种歌唱合成中基频参数生成系统，包括:
[0038]接收模块，用于接收待合成简谱信息，所述简谱信息包括:歌词标注、音高标注、时长标注和节奏信息；
[0039]理论基频参数确定|旲块，用于根据所述首闻标注确定各基本合成单兀的理论基频参数；
[0040]基频参考模型确定模块，用于根据所述歌词标注确定各基本合成单元的基频参考模型；
[0041]优化模块，用于根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化。
[0042]优选地，所述基频参考模型确定模块包括:
[0043]切分单元，用于对所述歌词标注进行切分，获取各基本合成单元；
[0044]解析单元，用于对所述各基本合成单元进行文本解析，获得所述基本合成单元的上下文信息，所述上下文信息包括:音素序列、声调、韵律词、韵律短语；
[0045]二叉决策树获取单元，用于获取所述基本合成单元对应的基频二叉决策树；
[0046]决策单元，用于根据所述上下文信息在所述基频二叉决策树中进行路径决策，得到对应的叶节点；
[0047]输出单元，用于将所述叶节点对应的基频模型作为所述合成单元的基频参考模型。
[0048]优选地，所述系统还包括:
[0049]二叉决策树构建模块，用于构建各基本合成单元对应的基频二叉决策树；所述二叉决策树构建模块包括:
[0050]标注单元，用于采集训练数据并对所述训练数据进行信息标注；
[0051]提取单元，用于从所述训练数据中提取各基本语音合成单元对应语音片断的基频参数；
[0052]构建单元，用于根据所述基本合成单元对应语音片断的标注信息和基频参数，构建所述基本合成单元对应的基频二叉决策树；
[0053]训练单元，用于对所述基频二叉决策树的各节点分别训练得到一个基频模型。
[0054]可选地，所述优化模块包括:
[0055]第一音调处理单元，用于对所述理论基频参数进行升降调处理，得到不同基调下的基频参数；
[0056]第一似然度计算单元，用于计算不同基调下的基频参数与所述基频参考模型的似然度；
[0057]选择单元，用于选择具有最大似然度的基频参数作为优化的基频参数。
[0058]可选地，所述优化模块包括:
[0059]时长计算单元，用于根据简谱信息中的节奏信息计算各基本合成单元的理论时长;
[0060]获取单元，用于根据所述理论时长获取简谱对应的理论基频参数序列；
[0061]模型序列获取单元，用于获取所述简谱对应的基频参考模型序列；
[0062]联合优化单元，用于根据所述基频参考模型序列对所述理论基频参数序列进行联合优化。
[0063]优选地，所述联合优化单元包括:
[0064]第二音调处理单元，用于分别对所述理论基频参数序列中所有理论基频参数统一升降调处理，得到不同基调下的基频参数序列；
[0065]第二似然度计算单元，用于计算所述不同基调下基频参数序列与所述基频参考模型序列的似然度；
[0066]第二选择单元，用于选择具有最大似然度的基频参数序列作为优化的基频参数序列。[0067]本发明实施例提供的歌唱合成中基频参数生成方法及系统，在进行歌唱合成时，首先根据简谱音高标注确定各基本合成单元的理论基频参数，然后根据歌词标注确定各基本合成单元的基频参考模型，根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化，从而可以在最大似然准则指导下选择最符合当前发音人音域范围的基频参数，既保证了基频参数的稳定性，又保证了基频参数符合发音人的发声特点及基频范围，有效地改善了合成语音的听感。
【专利附图】

【附图说明】
[0068]为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
[0069]图1是本发明实施例歌唱合成中基频参数生成方法的流程图；
[0070]图2是本发明实施例中基频二叉决策树示意图；
[0071]图3是本发明实施例中对理论基频参数进行优化的一种流程图；
[0072]图4是本发明实施例中对理论基频参数进行优化的另一种流程图；
[0073]图5是本发明实施例中构建基频二叉决策树的流程图；
[0074]图6是本发明实施例歌唱合成中基频参数生成系统的结构示意图；
[0075]图7是本发明实施例中基频参考模型确定模块的一种结构示意图；
[0076]图8是本发明实施例中优化模块的一种结构示意图；
[0077]图9是本发明实施例中优化模块的另一种结构示意图。
【具体实施方式】
[0078]为了使本【技术领域】的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。
[0079]针对现有的歌唱合成中基频参数生成方法存在的弊端:其中基于统计数据模型的方法很难保证生成基频参数的稳定性，而基于简谱标准音高转换规则的方法很难保证最终生成的基频参数符合合成发音人的基频分布。本发明实施例提供了一种新的歌唱合成中基频参数生成方法及系统，对基于规则的理论基频参数相应于统计基频参考模型进行优化调整，在最大似然准则指导下确定优化的基调进而获得优化的基频参数，有效地解决了传统基频参数生成方法的弊端。
[0080]如图1所示，是本发明实施例歌唱合成中基频参数生成方法的流程图，包括以下步骤:
[0081]步骤101，接收待合成简谱信息，所述简谱信息包括:歌词标注、音高标注、时长标注和节拍信息。
[0082]步骤102，根据所述音高标注确定各基本合成单元的理论基频参数。
[0083]所述基本合成单元可以是音节单元或音素单元等。
[0084]具体地，可以按照下述公式计算得到各基本合成单元对应的理论基频参数:
[0085]F0_rule=440*2(p-69)/12 (I)
[0086]其中，F0_rule为理论基频参数，440表示中央C上A音符发出的频率(单位为Hz)，P为当前简谱标注的音高值与中央C上A音符的距离，单位为半音(在钢琴上相邻的两个键所拥有的音程)。
[0087]步骤103，根据所述歌词标注确定各基本合成单元的基频参考模型。
[0088]可以首先对所述歌词标注进行切分，获取各基本合成单元；并对各基本合成单元进行文本解析，获得该基本合成单元的上下文信息，所述上下文信息包括:音素序列、声调、韵律词、韵律短语；然后，根据所述上下文信息及基本合成单元对应的基频二叉决策树，对该基本合成单兀确定其对应的基频参考|吴型。
[0089]具体地，首先获取当前考察的合成单元对应的基频二叉决策树；然后，根据所述上下文信息在所述基频二叉决策树中进行路径决策，得到对应的叶节点；将所述叶节点对应的基频模型作为所述合成单元的基频参考模型。
[0090]具体地，进行路径决策的过程如下:
[0091]根据所述合成单元的上下文信息，从所述基频二叉决策树的根节点开始依次对各节点分裂问题进行回答；根据回答结果获取一条自上而下的匹配路径；根据所述匹配路径获得叶子节点。
[0092]比如，可以根据预置的基频二叉决策树，如图2所示，从所述基频二叉决策树的根节点开始，根据所述相关信息逐层向下通过对各节点预设问题的答复下推直到叶节点，将所述叶节点对应的基频模型作为所述基本合成单元对应的基频参考模型。
[0093]进一步地，如果采用基于HMM模型的参数合成方法，还可以对基本合成单元的各状态分别构建相应的基频参考模型。
[0094]如图2所示，对应音素单元的各状态(如状态2，3，4，5，6)分别具有对应的基频模型。对此将分别确定基本合成单元各状态的基频参考模型，并按照先后顺序拼接得到对应所述基本合成单兀的基频参考1?型序列。
[0095]在本发明实施例中，利用所述基频二叉决策树实现对基频模型的选择，所述基频二叉决策树可以通过离线构建，具体过程将在后面详细说明。
[0096]步骤104，根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化。
[0097]由于不同发音人音域存在差异，不同人在演唱同一首歌时基调选择可能并不一致，而理论基频参数HLrule是直接根据简谱信息中的音高标注计算得到的，与当前合成发音人的基频范围可能不一致，会导致合成的语音听起来奇怪，影响听感。
[0098]为此，在本发明实施例中，进一步对各基本合成单元在最在似然准则指导下相应于对应的基频参考模型或基频参考模型序列进行升降调优选，获得优化的基频参数。
[0099]如图3所示，是本发明实施例中对理论基频参数进行优化的一种流程图，包括以下步骤:
[0100]步骤301，获取基本合成单元的基频参考模型及理论基频参数。
[0101]步骤302，对所述理论基频参数进行升降调处理，得到不同基调下的基频参数。
[0102]具体地，可以遍历不同的半音bt候选基调(bt e [-N，N])生成新的基频参数R)_newbt:
[0103]F0_newbt=F0_rule*2bt/12 (2)
[0104]其中，N由系统预先设置，考虑到计算量和计算效果，可以设置参数N=15。[0105]由此，得到不同基调下的基频参数，这些基频参数组成了更广音域的基频序列。
[0106]步骤303，计算不同基调下的基频参数与所述基频参考模型的似然度。
[0107]比如，在单高斯的基频参考模型下，其似然度为:
【权利要求】
1.一种歌唱合成中基频参数生成方法，其特征在于，包括: 接收待合成简谱信息，所述简谱信息包括:歌词标注、音高标注、时长标注和节奏信息；根据所述音高标注确定各基本合成单元的理论基频参数；根据所述歌词标注确定各基本合成单元的基频参考模型；根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化。
2.根据权利要求1所述的方法，其特征在于，所述根据所述歌词标注确定各基本合成单元的基频参考模型包括: 对所述歌词标注进行切分，获取各基本合成单元；对所述各基本合成单元进行文本解析，获得所述基本合成单元的上下文信息，所述上下文信息包括:音素序列、声调、韵律词、韵律短语；获取所述基本合成单元对应的基频二叉决策树；根据所述上下文信息在所述基频二叉决策树中进行路径决策，得到对应的叶节点；将所述叶节点对应的基频模型作为所述合成单元的基频参考模型。
3.根据权利要求2所述的方法，其特征在于，所述方法还包括按以下方式构建各基本合成单元对应的基频二叉决策树: 采集训练数据并对所述训练数据进行信息标注；从所述训练数据中提取各基本语音合成单元对应语音片断的基频参数；根据所述基本合成单元对应语音片断的标注信息和基频参数，构建所述基本合成单元对应的基频二叉决策树；对所述基频二叉决策树的各节点分别训练得到一个基频模型。
4.根据权利要求1所述的方法，其特征在于，所述根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化包括: 对所述理论基频参数进行升降调处理，得到不同基调下的基频参数；计算不同基调下的基频参数与所述基频参考模型的似然度；选择具有最大似然度的基频参数作为优化的基频参数。
5.根据权利要求1所述的方法，其特征在于，所述根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化包括: 根据简谱信息中的节奏信息计算各基本合成单元的理论时长；根据所述理论时长获取简谱对应的理论基频参数序列；获取所述简谱对应的基频参考模型序列；根据所述基频参考模型序列对所述理论基频参数序列进行联合优化。
6.根据权利要求5所述的方法，其特征在于，所述根据所述基频参考模型序列对所述理论基频参数序列进行联合优化包括: 分别对所述理论基频参数序列中所有理论基频参数统一升降调处理，得到不同基调下的基频参数序列；计算所述不同基调下基频参数序列与所述基频参考模型序列的似然度；选择具有最大似然度的基频参数序列作为优化的基频参数序列。
7.一种歌唱合成中基频参数生成系统，其特征在于，包括: 接收模块，用于接收待合成简谱信息，所述简谱信息包括:歌词标注、音高标注、时长标注和节奏信息；理论基频参数确定模块，用于根据所述音高标注确定各基本合成单元的理论基频参数；基频参考模型确定模块，用于根据所述歌词标注确定各基本合成单元的基频参考模型；优化模块，用于根据所述基本合成单元的基频参考模型对所述基本合成单元的理论基频参数进行优化。
8.根据权利要求7所述的系统，其特征在于，所述基频参考模型确定模块包括: 切分单元，用于对所述歌词标注进行切分，获取各基本合成单元；解析单元，用于对所述各基本合成单元进行文本解析，获得所述基本合成单元的上下文信息，所述上下文信息包括:音素序列、声调、韵律词、韵律短语；二叉决策树获取单元，用于获取所述基本合成单元对应的基频二叉决策树；决策单元，用于根据所述上下文信息在所述基频二叉决策树中进行路径决策，得到对应的叶节点；输出单元，用于将所述叶节点对应的基频模型作为所述合成单元的基频参考模型。
9.根据权利要求8所述的系统，其特征在于，所述系统还包括: 二叉决策树构建模块，用于构建各基本合成单元对应的基频二叉决策树；所述二叉决策树构建模块包括: 标注单元，用于采集训练数据并对所述训练数据进行信息标注；提取单元，用于从所述训练数据中提取各基本语音合成单元对应语音片断的基频参数；构建单元，用于根据所述基本合成单元对应语音片断的标注信息和基频参数，构建所述基本合成单元对应的基频二叉决策树；训练单元，用于对所述基频二叉决策树的各节点分别训练得到一个基频模型。
10.根据权利要求7所述的系统，其特征在于，所述优化模块包括: 第一音调处理单元，用于对所述理论基频参数进行升降调处理，得到不同基调下的基频参数；第一似然度计算单元，用于计算不同基调下的基频参数与所述基频参考模型的似然度；选择单元，用于选择具有最大似然度的基频参数作为优化的基频参数。
11.根据权利要求7所述的系统，其特征在于，所述优化模块包括: 时长计算单元，用于根据简谱信息中的节奏信息计算各基本合成单元的理论时长；获取单元，用于根据所述理论时长获取简谱对应的理论基频参数序列；模型序列获取单元，用于获取所述简谱对应的基频参考模型序列；联合优化单元，用于根据所述基频参考模型序列对所述理论基频参数序列进行联合优化。
12.根据权利要求11所述的系统，其特征在于，所述联合优化单元包括:第二音调处理单元，用于分别对所述理论基频参数序列中所有理论基频参数统一升降调处理，得到不同基调下的基频参数序列；第二似然度计算单元，用于计算所述不同基调下基频参数序列与所述基频参考模型序列的似然度；第二选择单元，用于选择具有最大似然度的基频参数序列作为优化的基频参数序列。
【文档编号】G10L13/02GK103456295SQ201310336896
【公开日】2013年12月18日申请日期:2013年8月5日优先权日:2013年8月5日
【发明者】孙见青, 凌震华, 何婷婷, 胡郁, 胡国平申请人:安徽科大讯飞信息科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙见青;凌震华;何婷婷;胡郁;胡国平
技术所有人：安徽科大讯飞信息科技股份有限公司
我是此专利的发明人