一种实现合成语音增强的方法及系统的制作方法_3

文档序号：9305371阅读：来源：国知局

应待合成文本的基频参数和/或频谱参数，利用这些语音合成参数及通过初始语音合成模型得到的其它语音合成参数，即可生成连续语音信号。
[0100] 利用上述各语音合成参数生成连续语音信号的过程与现有技术类似，在此不再赘述。
[0101] 由此可见，本发明实施例的方法对传统语音合成模型进行增强处理，在后续的合成任务中，只需使用增强后的语音合成模型得到相应的语音合成参数即可，不会增加运算量，而且可以达到很好的增强效果。
[0102] 如图3所示，是本发明实施例中根据初始语音合成模型和增强模型合成语音的另一种流程图。
[0103] 步骤301，利用初始语音合成模型分别生成对应待合成文本的时长参数、频谱参数和基频参数。
[0104] 步骤302,利用增强模型对频谱参数进行增强处理，得到增强后的频谱参数。
[0105] 具体地，将前面公式（1)中的频谱参数(；代入前面增强处理模型p(yt|xt)中的xt，可得到增强后的频谱参数yt。
[0106] 步骤303,利用对应所述待合成文本的时长参数、基频参数、以及增强后的频谱参数生成连续语音信号。
[0107] 由上述流程可以看出，图3所示流程与图2所示流程不同的是，在该实施例中，先由初始语音合成模型生成对应待合成文本的基频参数、频谱参数、以及时长参数，然后再由相应的增强模型对其中的频谱参数进行增强处理，从而使增强后的语音合成参数更好地体现不同发音人、以及同一发音人发不同音时的声学特性上的细节差异。将这些增强处理后的语音合成参数与通过传统语音合成模型得到的其它语音合成参数结合在一起，通过合成器合成出语音。
[0108] 需要说明的是，在实际应用中，同样可以采用与上述图3类似的流程，利用相应的增强模型对基频参数进行增强处理，得到增强后的基频参数。然后利用对应待合成文本的时长参数、频谱参数、以及增强后的基频参数生成连续语音信号。或者利用针对频谱特性的增强模型对初始语音合成模型生成的频谱参数进行增强处理，同时利用针对基频特性的增强模型对初始语音合成模型生成的基频参数进行增强处理，然后利用初始语音合成模型生成的时长参数、以及增强后的基频参数和频谱参数生成连续语音信号。
[0109] 相应地，本发明实施例还提供一种实现合成语音增强的系统，如图4所示，是该系统的结构示意图。
[0110] 在该实施例中，所述系统包括：
[0111]初始模型建立模块401，用于基于训练数据构建初始语音合成模型，所述训练数据包括文本数据及与所述文本数据对应的语音数据；
[0112] 增强模型建立模块402,用于建立增强模型，所述增强模型用于模拟所述初始语音合成模型生成的合成语音参数与自然语音参数的映射关系；
[0113] 接收模块403,用于接收待合成文本；
[0114] 参数生成模块404,用于根据所述初始语音合成模型和所述增强模型生成对应所述待合成文本的合成语音参数；
[0115] 合成模块405,用于利用所述合成语音参数生成连续语音信号。
[0116] 上述初始模型建立模块401可以使用传统的参数合成方法构建初始语音合成模型，所述初始语音合成模型包括：各基本合成单元对应的二叉决策树、频谱模型、基频模型、时长模型等。比如，可以采用基于HMM的参数合成方法，对于频谱模型，采用GMM来模拟叶节点的频谱分布，其高斯数通常可以参考训练数据规模确定为正整数，比如选择高斯数为1。
[0117] 由于增强模型的设置和优化对合成语音增强效果有着重要的影响，因此，在本发明实施例中，增强模型建立模块402采用基于数据驱动的增强模型设置方式，以自然声学参数作为指导，真实体现不同发音人、以及同一发音人发不同音时声学参数的细节特征，进而提高合成语音增强的效果。
[0118] 上述增强模型建立模块402具体可以包括以下各单元：
[0119] 合成语音参数生成单元，用于根据所述初始语音合成模型生成所有训练数据的合成语音参数；
[0120] 自然语音参数提取单元，用于提取所有训练数据的自然语音参数；
[0121] 拓扑结构确定单元，用于确定增强模型的拓扑结构；
[0122] 训练单元，用于将对应所述训练数据的合成语音参数和自然语音参数的数据对作为训练集合，根据所述拓扑结构进行参数训练，得到增强模型。
[0123] 需要说明的是，在实际应用中，上述增强模型建立模块402可以分别构建针对频谱特性和/或基频特性的增强模型。相应地，在构建针对频谱特性的增强模型时，所述合成语音参数生成单元需要根据初始语音合成模型中的频谱模型生成所有训练的合成频谱参数；自然语音参数提取单元需要提取所有训练数据的自然频谱参数。类似地，在构建针对基频特性的增强模型时，所述合成语音参数生成单元需要根据初始语音合成模型中的基频模型生成所有训练的合成基频参数；自然语音参数提取单元需要提取所有训练数据的自然基频参数。
[0124] 上述参数生成模块404基于增强模型建立模块402建立的增强模型，可以采用多种方式对初始语音合成模型或合成语音参数进行增强，均可以得到很好的增强效果，相应地，参数生成模块404可以有多种具体实现结构，将在后面详细描述。
[0125] 本发明实施例提供的实现合成语音增强的系统，基于统计的方法构建用于模拟传统语音合成模型生成的合成语音参数与自然语音参数的映射关系的增强模型，然后利用该增强模型及传统语音合成模型生成对应待合成文本的合成语音参数，进而利用所述合成语音参数生成连续语音信号。由于所述增强模型是以自然声学参数作为指导，因此可以对不同发音人、以及同一发音人发不同音时声学参数的细节特征有较强的把握，可以抓住特定发音人的特性，使合成语音增强的效果更好。
[0126] 如图5所示，是本发明实施例中参数生成模块的一种具体实现结构示意图。
[0127] 在该实施例中，所述参数生成模块包括：
[0128] 模型增强单元501，用于根据所述增强模型对所述初始语音合成模型中的频谱模型和/或基频模型进行增强处理，得到增强的频谱模型和/或基频模型；
[0129] 增强语音参数生成单元502,用于利用所述增强的频谱模型和/或基频模型生成对应所述待合成文本的频谱参数和/或基频参数；
[0130] 初始语音参数生成单元503,用于利用所述初始语音合成模型生成对应所述待合成文本的除频谱模型和/或基频模型之外的其它语音参数。
[0131] 需要说明的是，在实际应用中，前述增强模型建立模块402可以分别生成针对频谱特性的增强模型及针对基频特性的增强模型，因此，在图5所示实施例中，模型增强单元 501可以单独采用针对频谱特性的增强模型对初始语音合成模型中的频谱模型进行增强处理，或者单独采用针对基频特性的增强模型对初始语音合成模型中的基频模型进行增强处理，也可以综合采用上述两种针对不同特性的增强模型分别对初始语音合成模型中的频谱模型和基频模型进行增强处理。相应地，增强语音参数生成单元502可以利用增强后的频谱模型和/或基频模型得到对应待合成文本的基频参数和/或频谱参数，图4中的合成模块405利用这些语音合成参数及初始语音参数生成单元503得到的其它语音合成参数，即可生成连续语音信号。
[0132] 由此可见，本发明实施例实现合成语音增强的系统对传统语音合成模型进行增强处理，在后续的合成任务中，只需使用增强后的语音合成模型得到相应的语音合成参数即可，不会增加运算量，而且可以达到很好的增强效果。
[0133] 上述模型增强单元501可以通过对模型均值的增强来得到增强的频谱模型和/或基频模型，模型增强单元501的一种具体结构可以包括以下各单元：
[0134] 模型参数获取单元，用于从所述初始语音合成模型中获取频谱模型和/或基频模型的模型参数；
[0135] 模型参数增强单元，用于利用所述增强模型对所述模型参数进行增强处理，得到增强后的模型参数；
[0136] 增强模型生成单元，用于将增强后的模型参数替代对应的频谱模型和/或基频模型的模型参数，得到增强的频谱模型和/或基频模型。
[0137] 如图6所示，是本发明实施例中参数生成模块的另一种具体实现结构示意图。
[0138] 在该实施例中，所述参数生成模块包括：
[0139] 初始语音参数生成单元601，用于利用初始语音合成模型分别生成对应所述待合成文本的时长参数、频谱参数和基频参数；

完整全部详细技术资料下载

当前第3页1 2 3 4