高表现力的语音合成方法和装置制造方法

文档序号：2828018阅读：138来源：国知局

高表现力的语音合成方法和装置制造方法
【专利摘要】本发明实施例公开了一种高表现力的语音合成方法和装置。所述高表现力的语音合成方法包括：将输入文本进行处理分析，得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文；根据所述状态的上下文，基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型，作为合成语音的高斯声学模型；根据所选择的高斯声学模型生成声学参数，并根据生成的声学参数合成语音，包括利用声码器将声学参数来合成语音或者用声学参数指导声学片段的单元挑选来生成语音。本发明实施例提供的高表现力的语音合成方法和装置提高了合成语音的自然度。
【专利说明】高表现力的语音合成方法和装置

【技术领域】
[0001] 本发明实施例涉及文语转换【技术领域】，尤其涉及一种高表现力的语音合成方法和装直。

【背景技术】
[0002] 语音是人机交流最习惯、最自然的方式。将文字输入转成语音输出的技术称为文语转换（Text-to-SpeechJTS)或语音合成技术。它涉及声学、语言学、数字信号处理多媒体技术等多个领域，是中文信息处理领域的一项前沿技术。
[0003] 由于合成语音的声学参数大都服从高斯分布，所以利用高斯声学模型来生成合成语音的声学参数，进而产生合成语音。图1示出了现有技术提供的基于高斯声学模型的语音合成系统的信号流。参见图1，所述语音合成系统从模型库中选择一个高斯声学模型 101，并基于选择的该高斯声学模型生成声学参数102,进而合成语音。由于语音合成音库的规模往往只有几千到几万句的规模，为了避免过训练，声学模型决策树的叶子节点模型，只能表现统计意义的声学参数，难以区分细致的上下文所带来的差异，因而，造成了合成语音平淡乏味，自然度不高。

【发明内容】

[0004] 有鉴于此，本发明实施例提出一种高表现力的语音合成方法和装置，以提高合成语音的自然度。
[0005] 第一方面，本发明实施例提供了一种高表现力的语音合成方法，所述方法包括：
[0006] 将输入文本进行处理分析，得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文；
[0007] 根据所述状态的上下文，基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型，作为合成语音的高斯声学模型；
[0008] 根据所选择的高斯声学模型生成声学参数，并根据生成的声学参数合成语音。
[0009] 第二方面，本发明实施例提供了一种高表现力的语音合成装置，所述装置包括：
[0010] 上下文获取模块，用于将输入文本进行处理分析，得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文；
[0011] 高斯声学模型选取模块，用于根据所述状态的上下文，基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型，作为合成语音的高斯声学模型；
[0012] 语音合成模块，用于根据所选择的高斯声学模型生成声学参数，并根据生成的声学参数合成语音。
[0013] 本发明实施例提供的高表现力的语音合成方法和装置，通过将输入文本进行处理分析，得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文，根据所述状态的上下文，基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型，作为合成语音的高斯声学模型，根据所选择的高斯声学模型生成声学参数，并根据生成的声学参数合成语音，从而应用维特比算法从组成高斯混合声学模型的多个分量中选取一个高斯声学模型来生成声学参数，提高了合成语音的自然度。

【专利附图】

【附图说明】
[0014] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：
[0015] 图1是现有技术提供的基于高斯声学模型的语音合成系统的信号流示意图；
[0016] 图2是本发明第一实施例提供的高表现力的语音合成方法的流程图；
[0017] 图3是本发明第二实施例提供的高表现力的语音合成方法的流程图；
[0018] 图4是本发明第二实施例提供的基于高斯声学模型的语音合成系统的信号流示意图；
[0019] 图5是本发明第三实施例提供的高表现力的语音合成方法中高斯混合声学模型训练的流程图；
[0020] 图6是本发明第四实施例提供的高表现力的语音合成方法中高斯声学模型选取的流程图；
[0021] 图7是本发明第四实施例提供的最佳路径的示意图；
[0022] 图8是本发明第五实施例提供的高表现力的语音合成装置的结构图。

【具体实施方式】
[0023] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。
[0024] 图2示出了本发明的第一实施例。
[0025] 图2是本发明第一实施例提供的高表现力的语音合成方法的流程图。参见图2,所述高表现力的语音合成方法包括：
[0026] S210,将输入文本进行处理分析，得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文。
[0027] 语音合成系统的任务是通过对用户的输入文本进行处理，合成所述输入文本对应的语音。所述语音由一系列前后依次排列的音子组成。比如，输入文本"小明喜欢读书"就包含音子"x"以及音子"iao"。由不同的音子按照前后顺序依次排列而形成的序列被称为音子序列。
[0028] 所述音子序列中的每个音子又由多个状态组成。每个状态可以具体表征为不同的声学参数。优选的，所述声学参数包括：基频、谱特征以及时长中的至少一个。
[0029] 所述音子包含的每个状态都处于一定的上下文当中。所述状态的上下文是指输入文本中包含的状态在所述音子序列中所处的上下文环境。它可以是在所述输入文本对应的状态序列中所述状态前方的若干个状态，以及在所述输入文本对应的状态序列中所述状态后方的若干个状态，以及相邻音子、音节、声调、韵律位置等上下文信息。可以理解的是，由于所处的语境不同，相同的状态在不同的上下文中会所体现的声学参数会具有不同的概率分布，也即相同的状态在不同的上下文中会对应于不同的高斯概率分布。
[0030] S220,根据所述状态的上下文，基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型，作为合成语音的高斯声学模型。
[0031] 所述声学参数通常服从高斯分布，也就是正态分布。因此，可以使用高斯声学模型来表征所述声学参数的这种随机分布特征。进一步的，为了更为形象的表征所述声学参数的随机分布特征，本实施例使用高斯混合声学模型来表征所述声学参数的随机分布特征。
[0032] 所述高斯混合声学模型具有至少两个分量，并且每个分量相互独立，都服从高斯分布。也就是说，每个分量都是一个独立的、服从高斯分布的随机变量。所述分量具有自己独立的均值和方差。而且，所述分量在所述高斯混合声学模型中具有自己对应的加权值。也就是说，每个分量都是一个独立的高斯声学模型。
[0033] 示例的，所述状态序列中的第n个状态对应的高斯混合声学模型具有如下形式：

【权利要求】
1. 一种高表现力的语音合成方法，其特征在于，包括：将输入文本进行处理分析，得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文；根据所述状态的上下文，基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型，作为合成语音的高斯声学模型；根据所选择的高斯声学模型生成声学参数，并根据生成的声学参数合成语音。
2. 根据权利要求1所述的方法，其特征在于，在将输入文本进行分析处理，得到所述输入文本对应的音子序列以及所述音子序列中各个音子包含的状态的上下文之前，还包括：训练用于获取语料库中不同上下文对应的高斯混合声学模型的决策树；为语料库中不同上下文中的音子序列中音子包含的状态训练包含至少两个高斯声学模型的高斯混合声学模型；统计在不同上下文中所述高斯混合声学模型中各个高斯声学模型之间的转移概率。
3. 根据权利要求2所述的方法，其特征在于，为不同上下文中的音子序列中各个音子包含的状态训练包含至少两个高斯声学模型的高斯混合声学模型包括：对语料库中不同上下文的音子序列中音子包含的状态的语音进行统计，获取语料库中不同上下文的音子序列中音子包含的状态对应的高斯混合声学模型中包含的高斯声学模型的均值、方差以及对应的加权值；将统计得到的均值、方差以及加权值作为所述高斯混合声学模型的参数，生成所述高斯混合声学模型。
4. 根据权利要求2所述的方法，根据所述状态的上下文，基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型，作为合成语音的高斯声学模型包括：根据所述决策树，获取所述状态的上下文中所述状态对应的高斯混合声学模型；将所述高斯混合声学模型中包含的高斯声学模型的加权值作为节点度量，将所述高斯声学模型之间的转移概率作为路径度量，通过求和计算状态序列的不同路径的度量值；将所述度量值最大的一条路径作为所述状态序列的最佳路径；通过路径回溯选取所述状态序列中各个状态对应的高斯声学模型。
5. 根据权利要求1至4任一所述的方法，其特征在于，所述声学参数包括：合成语音的基频、谱特征以及时长中的至少一个。
6. -种高表现力的语音合成装置，其特征在于，包括：上下文获取模块，用于将输入文本进行处理分析，得到所述输入文本对应的音子序列以及所述音子序列中音子包含的状态的上下文；高斯声学模型选取模块，用于根据所述状态的上下文，基于维特比算法从所述状态对应的包含至少两个高斯声学模型的高斯混合声学模型中选择一个高斯声学模型，作为合成语音的高斯声学模型；语音合成模块，用于根据所选择的高斯声学模型生成声学参数，并根据生成的声学参数合成语音。
7. 根据权利要求6所述的装置，其特征在于，还包括：决策树训练模块，用于在将输入文本进行分析处理，得到所述输入文本对应的音子序列以及所述音子序列中各个音子包含的状态的上下文之前，训练用于获取语料库不同上下文对应的高斯混合声学模型的决策树；混合模型训练模块，用于在将输入文本进行分析处理，得到所述输入文本对应的音子序列以及所述音子序列中各个音子包含的状态的上下文之前，为语料库中不同上下文中的音子序列中音子包含的状态训练包含至少两个高斯声学模型的高斯混合声学模型；转移概率统计模块，用于在将输入文本进行分析处理，得到所述输入文本对应的音子序列以及所述音子序列中各个音子包含的状态的上下文之前，统计在不同上下文中所述高斯混合声学模型中各个高斯声学模型之间的转移概率。
8. 根据权利要求7所述的装置，其特征在于，所述混合模型训练模块包括：参数统计单元，用于对语料库中不同上下文的音子序列中音子包含的状态的语音进行统计，获取语料库中不同上下文的音子序列中音子包含的状态对应的高斯混合声学模型中包含的高斯声学模型的均值、方差以及对应的加权值；模型生成单元，用于将统计得到的均值、方差以及加权值作为所述高斯混合声学模型的参数，生成所述高斯混合声学模型。
9. 根据权利要求7所述的装置，其特征在于，所述高斯声学模型选取模块包括：混合模型获取单元，用于根据所述决策树，获取所述状态的上下文中所述状态对应的高斯混合声学模型；度量值求解单元，用于将所述高斯混合声学模型中包含的高斯声学模型的加权值作为节点度量，将所述高斯声学模型之间的转移概率作为路径度量，通过求和计算状态序列的不同路径的度量值；最佳路径获取单元，用于将所述度量值最大的一条路径作为所述状态序列的最佳路径；路径回溯单元，用于通过路径回溯选取所述状态序列中各个状态对应的高斯声学模型。
10. 根据权利要求6至9任一所述的装置，其特征在于，所述声学参数包括：合成语音的基频、谱特征以及时长中的至少一个。
【文档编号】G10L13/08GK104392716SQ201410645715
【公开日】2015年3月4日申请日期:2014年11月12日优先权日:2014年11月12日
【发明者】李秀林, 贾磊, 康永国申请人:百度在线网络技术（北京）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李秀林;贾磊;康永国;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：信息输入方法和装置制造方法
上一篇：基于时域和频域的语音活性检测方法和设备的制作方法