一种基于统计参数的疑问句、感叹句的语音合成方法

文档序号：9889517阅读：483来源：国知局

一种基于统计参数的疑问句、感叹句的语音合成方法
【技术领域】
[0001] 本发明设及一种语音合成方法，尤其设及一种基于统计参数的疑问句、感叹句的语音合成方法。
【背景技术】
[0002] 语气合成是富有表现力的语音合成方法研究中的一个重要方面。语气大体可W分为陈述句、疑问句、祈使句和感叹句等。目前的语音合成系统大多针对陈述句设计，在合成其它语气时，语气的表达效果不明显。如果语音合成系统能够在语气的合成上有较大的突破，那么合成语音的表现力将会进一步提高，人机交互将会更加和谐自然。
[0003] 疑问句、感叹句是自然口语中常见的语言现象。在疑问句W及感叹句合成方面，目前已有的方法在分析了带有情态标记的疑问句的韵律特点之后，通过构建新的韵律模板库和构建新的目标代价函数，在波形拼接合成系统框架下，实现疑问句、感叹句的合成。从实现方法上来说，运种方法有W下几点不足。首先该方法需要在具有文本的情感标记的基础上进行疑问句的韵律分析;其次，需要把语调的变化归结为在关键音节的前后几个位置的变化，不具有一般性;最后，系统采用波形拼接的方法实现语气的合成，会保留运种方法的不足。也有在统计参数语音合成的框架下，用一定的疑问句语料进行训练，实现疑问句的生成。运种方法不需要进行疑问句的韵律分析，采用机器学习的方式来学习疑问语气中的韵律，实现语气的合成，方法更为一般化。但是该方法对疑问句的训练语料量要求较大。而大量的疑问句的训练语料是比较难W获取的。因此，如何用少量的疑问句语料，快速地构建一个疑问句合成系统是本行业需要迫切解决的一个问题。

【发明内容】

[0004] 为了解决上述技术所存在的不足之处，本发明提供了一种基于统计参数的疑问句、感叹句的语音合成方法。
[0005] 为了解决W上技术问题，本发明采用的技术方案是:一种基于统计参数的疑问句、感叹句的语音合成方法，该方法分为W下Ξ个部分：
[0006] 第一部分:通过对陈述句的模型训练，得到陈述句的初始声学模型；
[0007] 获取大规模陈述句的录音语料作为训练语料，训练基于隐半马尔科夫模型的声学模型或者基于深度神经网络的声学模型作为初始声学模型；
[000引初始声学模型采用多空间概率分布-隐半马尔科夫模型进行建模，首先分别通过文本标注和语音信号提取激励参数、谱参数，将基频W及谱参数融合为一个向量，然后加入一阶、二阶动态参数作为多空间概率分布-隐半马尔科夫模型训练的输入，最终得到陈述句的基于多空间概率分布-隐半马尔科夫模型初始声学模型；
[0009] 或者，初始声学模型采用深度神经网络进行建模，使用多任务学习方式，用深度神经网络完成文本到语音声学参数的映射，得到基于深度神经网络的初始声学模型；
[0010] 第二部分:通过对疑问句或感叹句的自适应训练，得到疑问句或感叹句的声学模型；
[0011] 获取小规模的疑问句或感叹句的录音语料作为训练语料，再经过文本标注W及语音信号进行参数提取，然后根据在第一部分中得到的基于多空间概率分布-隐半马尔科夫模型初始声学模型的基础上进行自适应训练，得到疑问句或感叹句的基于多空间概率分布-隐半马尔科夫模型的声学模型；
[0012] 或者根据在第一部分中得到的基于深度神经网络的初始声学模型的基础上进行自适应训练，在基于多任务学习方式的基础上调整深度神经网络模型，得到疑问句或感叹句的基于深度神经网络的声学模型；
[0013] 第Ξ部分:根据疑问句或感叹句的声学模型，实现疑问句或感叹句的语音生成；
[0014] 对于待合成语音的文本，进行文本分析，采用经过第二部分得到的疑问句或感叹句的基于多空间概率分布-隐半马尔科夫模型的声学模型或者基于深度神经网络的声学模型进行语音参数的生成，然后经过语音声码器，最终合成出疑问句或者感叹句的语音。
[0015] 基于深度神经网络的初始声学模型，包括W上、下文相关的文本特征作为深度神经网络的输入，W声学参数作为深度神经网络的输出；上、下文相关文本特征包括音素、音节位置、短语位置;声学参数包括谱、基频、清浊音判决；多任务学习方式的深度神经网络，将清浊音判决作为深度神经网络的第二个学习任务;深度神经网络的输出层中有一个神经元被加上softmax回归模型的soft-max层，输出为清浊音判决;有一个线性变换层，输出为语音参数;运两层平行堆叠在经过预训练的隐层之上。
[0016] 基于多空间概率分布-隐半马尔科夫模型的声学模型，采用基于受限极大似然线性回归和结构化最大后验概率相融合的自适应方法进行训练，该方法包括先采用基于受限极大似然线性回归对基于多空间概率分布-隐半马尔科夫模型的初始声学模型设及的所有模型参数进行大规模调整，再采用结构化最大后验概率对自适应数据中出现的相应模型进行参数的自适应训练。
[0017] 本发明提供了一种在小语料情况下，采用小规模语料快速实现疑问句或感叹句的语音合成方法，解决了相对于陈述句语料，疑问句或感叹句语料较难收集，语料规模较小情况下，得的较高音质W及自然度的合成语音的问题。
【附图说明】
[0018] 下面结合附图和【具体实施方式】对本发明作进一步详细的说明。
[0019] 图1为本发明的流程框图。
[0020] 图2为图1所示语音合成方法中多空间概率分布-隐半马尔科夫模型的训练流程框图。
[0021] 图3为图1所示语音合成方法中整体的深度神经网络学习框图。
[0022] 图4为图1所示语音合成方法中基于多空间概率分布-隐半马尔科夫模型的声学模型的语音合成框图。
【具体实施方式】
[0023] 如图1所示，本发明的具体方法分为W下Ξ部分：
[0024] 第一部分:通过对陈述句的模型训练，得到陈述句的初始声学模型；
[0025] 获取大规模陈述句的录音语料作为训练语料，训练基于隐马尔科夫模型化idden Markov model，HMM的声学模型或者基于深度神经网络化eep化ural Network,D順)的声学模型作为初始声学模型；
[0026] 初始声学模型采用多空间概率分布-隐半马尔科夫模型（Multi-Space Probability Dis1:;r;Lbution-Hidden Semi-Markov Model，MSD-服MM)进行建模，首先分别通过文本标注和语音信号提取激励参数、谱参数，将基频W及谱参数融合为一个向量，然后加入一阶、二阶动态参数作为MSD-HSMM训练的输入，最终得到陈述句的基于MSD-HSMM的初始声学模型；
[0027] 或者，初始声学模型采用深度神经网络进行建模，使用多任务学习方式，用深度神经网络完成文本到语音声学参数的映射，得到基于深度神经网络的初始声学模型；
[0028] 第二部分:通过对疑问句或感叹句的自适应训练，得到疑问句或感叹句的声学模型；
[0029] 获取小规模的疑问句或感叹句的录音语料作为训练语料，再经过文本标注W及语音信号进行参数提取，然后根据在第一部分中得到的基于MSD-HSMM的初始声学模型的基础上进行自适应训练，得到疑问句或感叹句的基于MSD-服MM的声学模型；
[0030] 或者根据在第一部分中得到的基于深度神经网络的初始声学模型的基础上进行自适应训练，在基于多任务学习方式的基础上调整深度神经网络模型，得到疑问句或感叹句的基于深度神经网络的声学模型；
[0031] 第Ξ部分:根据疑问句或感叹句的声学模型，实现疑问句或感叹句的语音生成；
[0032] 对于待合成语音的文本，进行文本分析，采用经过第二部分得到的疑问句或感叹句的基于MSD-HSMM的声学模型或者基于深度神经网络的声学模型进行语音参数的生成，然后经过语音声码器，最终合成出疑问句或者感叹句的语音。
[0033] 基于深度神经网络的初始声学模型，包括W上、下文相关的文本特征作

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐明星;车浩;
技术所有人：北京时代瑞朗科技有限公司;
我是此专利的发明人