一种实现合成语音增强的方法及系统的制作方法_2

文档序号：9305371阅读：来源：国知局

图说明】
[0057] 为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
[0058] 图1是本发明实施例实现合成语音增强的方法的流程图；
[0059] 图2是本发明实施例中根据初始语音合成模型和增强模型合成语音的一种流程图；
[0060] 图3是本发明实施例中根据初始语音合成模型和增强模型合成语音的另一种流程图；
[0061] 图4是本发明实施例实现合成语音增强的系统的结构示意图；
[0062] 图5是本发明实施例中参数生成模块的一种具体实现结构示意图；
[0063] 图6是本发明实施例中参数生成模块的另一种具体实现结构示意图。
【具体实施方式】
[0064] 为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。
[0065] 由于不同发音人的声学特性存在细节差异，且对于同一个发音人，其在发不同音时，声学特性也存在细节差异。而现有的合成语音增强方法基于人的听感特性等经验知识对生成频谱参数或合成语音进行后滤波处理，没有关注发音人声学参数的细节特性，只能使得增强后的合成语音在总体上符合人的听感，不能获得理想的增强效果。为此，本发明实施例针对现有技术存在的问题，提供一种实现合成语音增强的方法及系统，基于统计的方法构建用于模拟传统语音合成模型生成的合成语音参数与自然语音参数的映射关系的增强模型，然后利用该增强模型及传统语音合成模型生成对应待合成文本的合成语音参数，进而利用所述合成语音参数生成连续语音信号。
[0066] 如图1所示，是本发明实施例实现合成语音增强的方法的流程图，包括以下步骤：[0067] 步骤101，基于训练数据构建初始语音合成模型，所述训练数据包括文本数据及与所述文本数据对应的语音数据。
[0068] 所述初始语音合成模型可以使用传统的参数合成方法进行构建，其包括：各基本合成单元对应的二叉决策树、频谱模型、基频模型、时长模型等。比如，可以采用基于HMM的参数合成方法，对于频谱模型，采用GMM(GaussianMixtureMode,高斯混合模型）来模拟叶节点的频谱分布，其高斯数通常可以参考训练数据规模确定为正整数，比如选择高斯数为 1〇
[0069] 步骤102,建立增强模型，所述增强模型用于模拟所述初始语音合成模型生成的合成语音参数与自然语音参数的映射关系。
[0070] 由于增强模型的设置和优化对合成语音增强效果有着重要的影响，因此，在本发明实施例中，采用基于数据驱动的增强模型设置方式，以自然声学参数作为指导，真实体现不同发音人、以及同一发音人发不同音时声学参数的细节特征，进而提高合成语音增强的效果。
[0071] 增强模型的构建过程如下：
[0072] (1)根据初始语音合成模型生成所有训练数据的合成语音参数；
[0073] (2)提取所有训练数据的自然语音参数；
[0074] (3)确定增强模型的拓扑结构；
[0075] (4)将对应所述训练数据的合成语音参数和自然语音参数的数据对作为训练集合，根据所述拓扑结构进行参数训练，得到增强模型。
[0076] 需要说明的是，在实际应用中，可以分别构建针对频谱特性和/或基频特性的增强模型。比如，针对频谱特性的增强模型，具体的构建过程如下：
[0077] (1)根据初始语音合成模型中的频谱模型生成所有训练数据的合成频谱参数。
[0078] 根据所述频谱模型、以及强制对齐结果，可确定训练数据对应的频谱模型序列。具体地，对于单个基本语音单元，根据强制对齐时长信息将选定的频谱模型进行多次拷贝，获取该基本语音单元的频谱特征系列模型。
[0079] 统计训练数据对应的频谱模型序列的似然度总和，计算如下：
[0080]
(::1)
[0081] 其中W是计算动态参数的窗函数矩阵，Cs为待生成的频谱参数，Ms和Us分别为频谱模型的均值和协方差矩阵。显然频谱模型的似然度总和是目标频谱特征矢量的函数。
[0082] (2)提取所有训练数据的自然频谱参数。
[0083] (3)确定频谱增强模型的拓扑结构。
[0084] 频谱增强模型用于模拟传统语音合成模型生成的频谱参数与自然频谱参数的映射关系，在本发明实施例中，可以采用线性函数的映射模型，也可以采用GMM模型或DNN模型等数学统计模型。一般来说，模型越精细则在数据充分的情况下其模拟效果越好。
[0085] (4)根据所述拓扑结构对频谱增强模型进行参数训练，获取优化的频谱增强模型，即建立合成频谱参数xt与自然频谱参数yt的条件分布p(yt|xt)。
[0086] 针对基频特性的增强模型的构建过程与上述类似，在此不再详细描述。
[0087] 步骤103,在接收到待合成文本后，根据所述初始语音合成模型和所述增强模型生成对应所述待合成文本的合成语音参数。
[0088] 基于上述增强模型，在实际应用中，可以采用多种方式对初始语音合成模型或合成语音参数进行增强，均可以得到很好的增强效果，具体实现过程将在后面详细描述。
[0089] 步骤104,利用所述合成语音参数生成连续语音信号。
[0090] 本发明实施例提供的实现合成语音增强的方法，基于统计的方法构建用于模拟传统语音合成模型生成的合成语音参数与自然语音参数的映射关系的增强模型，然后利用该增强模型及传统语音合成模型生成对应待合成文本的合成语音参数，进而利用所述合成语音参数生成连续语音信号。由于所述增强模型是以自然声学参数作为指导，因此可以对不同发音人、以及同一发音人发不同音时声学参数的细节特征有较强的把握，可以抓住特定发音人的特性，使合成语音增强的效果更好。而且，本发明实施例的方案在实际合成任务中不会增加运算量，有利于产品的实时化。
[0091] 需要说明的是，在实际应用中，根据初始语音合成模型和增强模型生成合成语音参数的方式有多种。比如，可以利用相应的增强模型对初始语音合成模型中的频谱模型和/ 或基频模型进行增强处理，利用增强处理后的频谱模型和/或基频模型生成对应待合成文本的频谱参数和/或基频参数，由初始语音合成模型生成其它语音合成参数，然后利用这些语音合成参数生成连续语音信号。再比如，还可以先利用初始语音合成模型生成对应待合成文本的语音合成参数（包括时长参数、频谱参数、基频参数），然后再利用相应的增强模型对其中的一些语音合成参数（包括频谱参数和/或基频参数）进行增强处理，最后利用这些增强后的语音合成参数及另外一些未增强处理的语音合成参数（主要是时长参数）生成连续语音信号。
[0092] 下面分别举例详细说明本发明实施例中根据初始语音合成模型和增强模型生成合成语音参数的过程。
[0093] 如图2所示，是本发明实施例中根据初始语音合成模型和增强模型生成合成语音参数的一种流程图，包括以下步骤：
[0094] 步骤201，利用初始语音合成模型生成对应待合成文本的时长参数和基频参数。
[0095] 步骤202,根据增强模型对初始语音合成模型中的频谱模型进行增强处理，得到增强的频谱模型。
[0096] 首先，从初始的频谱模型中获取模型参数，比如基于GMM的频谱模型的，记为xt ; 然后利用预先训练好的增强模型，对模型参数xt进行增强处理，即根据P(ytIxt)，求得增强后的模型参数yt;最后用增强后的模型参数yt替换频谱模型的模型参数，得到新的频谱模型，此模型即为增强后的频谱模型。
[0097] 步骤203,利用增强的频谱模型生成对应所述待合成文本的频谱参数。
[0098] 步骤204,利用对应所述待合成文本的时长参数、基频参数、以及频谱参数生成连续语音信号。
[0099] 需要说明的是，在实际应用中，可以分别生成针对频谱特性的增强模型及针对基频特性的增强模型，因此，可以单独采用针对频谱特性的增强模型对初始语音合成模型中的频谱模型进行增强处理，或者单独采用针对基频特性的增强模型对初始语音合成模型中的基频模型进行增强处理，也可以综合采用上述两种针对不同特性的增强模型分别对初始语音合成模型中的频谱模型和基频模型进行增强处理。相应地，利用增强后的频谱模型和/ 或基频模型得到对

完整全部详细技术资料下载

当前第2页1 2 3 4