一种基于统计参数的疑问句、感叹句的语音合成方法

文档序号:9889517阅读:483来源:国知局
一种基于统计参数的疑问句、感叹句的语音合成方法
【技术领域】
[0001] 本发明设及一种语音合成方法,尤其设及一种基于统计参数的疑问句、感叹句的 语音合成方法。
【背景技术】
[0002] 语气合成是富有表现力的语音合成方法研究中的一个重要方面。语气大体可W分 为陈述句、疑问句、祈使句和感叹句等。目前的语音合成系统大多针对陈述句设计,在合成 其它语气时,语气的表达效果不明显。如果语音合成系统能够在语气的合成上有较大的突 破,那么合成语音的表现力将会进一步提高,人机交互将会更加和谐自然。
[0003] 疑问句、感叹句是自然口语中常见的语言现象。在疑问句W及感叹句合成方面,目 前已有的方法在分析了带有情态标记的疑问句的韵律特点之后,通过构建新的韵律模板库 和构建新的目标代价函数,在波形拼接合成系统框架下,实现疑问句、感叹句的合成。从实 现方法上来说,运种方法有W下几点不足。首先该方法需要在具有文本的情感标记的基础 上进行疑问句的韵律分析;其次,需要把语调的变化归结为在关键音节的前后几个位置的 变化,不具有一般性;最后,系统采用波形拼接的方法实现语气的合成,会保留运种方法的 不足。也有在统计参数语音合成的框架下,用一定的疑问句语料进行训练,实现疑问句的生 成。运种方法不需要进行疑问句的韵律分析,采用机器学习的方式来学习疑问语气中的韵 律,实现语气的合成,方法更为一般化。但是该方法对疑问句的训练语料量要求较大。而大 量的疑问句的训练语料是比较难W获取的。因此,如何用少量的疑问句语料,快速地构建一 个疑问句合成系统是本行业需要迫切解决的一个问题。

【发明内容】

[0004] 为了解决上述技术所存在的不足之处,本发明提供了一种基于统计参数的疑问 句、感叹句的语音合成方法。
[0005] 为了解决W上技术问题,本发明采用的技术方案是:一种基于统计参数的疑问句、 感叹句的语音合成方法,该方法分为W下Ξ个部分:
[0006] 第一部分:通过对陈述句的模型训练,得到陈述句的初始声学模型;
[0007] 获取大规模陈述句的录音语料作为训练语料,训练基于隐半马尔科夫模型的声学 模型或者基于深度神经网络的声学模型作为初始声学模型;
[000引初始声学模型采用多空间概率分布-隐半马尔科夫模型进行建模,首先分别通过 文本标注和语音信号提取激励参数、谱参数,将基频W及谱参数融合为一个向量,然后加入 一阶、二阶动态参数作为多空间概率分布-隐半马尔科夫模型训练的输入,最终得到陈述句 的基于多空间概率分布-隐半马尔科夫模型初始声学模型;
[0009] 或者,初始声学模型采用深度神经网络进行建模,使用多任务学习方式,用深度神 经网络完成文本到语音声学参数的映射,得到基于深度神经网络的初始声学模型;
[0010] 第二部分:通过对疑问句或感叹句的自适应训练,得到疑问句或感叹句的声学模 型;
[0011] 获取小规模的疑问句或感叹句的录音语料作为训练语料,再经过文本标注W及语 音信号进行参数提取,然后根据在第一部分中得到的基于多空间概率分布-隐半马尔科夫 模型初始声学模型的基础上进行自适应训练,得到疑问句或感叹句的基于多空间概率分 布-隐半马尔科夫模型的声学模型;
[0012] 或者根据在第一部分中得到的基于深度神经网络的初始声学模型的基础上进行 自适应训练,在基于多任务学习方式的基础上调整深度神经网络模型,得到疑问句或感叹 句的基于深度神经网络的声学模型;
[0013] 第Ξ部分:根据疑问句或感叹句的声学模型,实现疑问句或感叹句的语音生成;
[0014] 对于待合成语音的文本,进行文本分析,采用经过第二部分得到的疑问句或感叹 句的基于多空间概率分布-隐半马尔科夫模型的声学模型或者基于深度神经网络的声学模 型进行语音参数的生成,然后经过语音声码器,最终合成出疑问句或者感叹句的语音。
[0015] 基于深度神经网络的初始声学模型,包括W上、下文相关的文本特征作为深度神 经网络的输入,W声学参数作为深度神经网络的输出;上、下文相关文本特征包括音素、音 节位置、短语位置;声学参数包括谱、基频、清浊音判决;多任务学习方式的深度神经网络, 将清浊音判决作为深度神经网络的第二个学习任务;深度神经网络的输出层中有一个神经 元被加上softmax回归模型的soft-max层,输出为清浊音判决;有一个线性变换层,输出为 语音参数;运两层平行堆叠在经过预训练的隐层之上。
[0016] 基于多空间概率分布-隐半马尔科夫模型的声学模型,采用基于受限极大似然线 性回归和结构化最大后验概率相融合的自适应方法进行训练,该方法包括先采用基于受限 极大似然线性回归对基于多空间概率分布-隐半马尔科夫模型的初始声学模型设及的所有 模型参数进行大规模调整,再采用结构化最大后验概率对自适应数据中出现的相应模型进 行参数的自适应训练。
[0017] 本发明提供了一种在小语料情况下,采用小规模语料快速实现疑问句或感叹句的 语音合成方法,解决了相对于陈述句语料,疑问句或感叹句语料较难收集,语料规模较小情 况下,得的较高音质W及自然度的合成语音的问题。
【附图说明】
[0018] 下面结合附图和【具体实施方式】对本发明作进一步详细的说明。
[0019] 图1为本发明的流程框图。
[0020] 图2为图1所示语音合成方法中多空间概率分布-隐半马尔科夫模型的训练流程框 图。
[0021] 图3为图1所示语音合成方法中整体的深度神经网络学习框图。
[0022] 图4为图1所示语音合成方法中基于多空间概率分布-隐半马尔科夫模型的声学模 型的语音合成框图。
【具体实施方式】
[0023] 如图1所示,本发明的具体方法分为W下Ξ部分:
[0024] 第一部分:通过对陈述句的模型训练,得到陈述句的初始声学模型;
[0025] 获取大规模陈述句的录音语料作为训练语料,训练基于隐马尔科夫模型化idden Markov model,HMM的声学模型或者基于深度神经网络化eep化ural Network,D順)的声学 模型作为初始声学模型;
[0026] 初始声学模型采用多空间概率分布-隐半马尔科夫模型(Multi-Space Probability Dis1:;r;Lbution-Hidden Semi-Markov Model,MSD-服MM)进行建模,首先分别 通过文本标注和语音信号提取激励参数、谱参数,将基频W及谱参数融合为一个向量,然后 加入一阶、二阶动态参数作为MSD-HSMM训练的输入,最终得到陈述句的基于MSD-HSMM的初 始声学模型;
[0027] 或者,初始声学模型采用深度神经网络进行建模,使用多任务学习方式,用深度神 经网络完成文本到语音声学参数的映射,得到基于深度神经网络的初始声学模型;
[0028] 第二部分:通过对疑问句或感叹句的自适应训练,得到疑问句或感叹句的声学模 型;
[0029] 获取小规模的疑问句或感叹句的录音语料作为训练语料,再经过文本标注W及语 音信号进行参数提取,然后根据在第一部分中得到的基于MSD-HSMM的初始声学模型的基础 上进行自适应训练,得到疑问句或感叹句的基于MSD-服MM的声学模型;
[0030] 或者根据在第一部分中得到的基于深度神经网络的初始声学模型的基础上进行 自适应训练,在基于多任务学习方式的基础上调整深度神经网络模型,得到疑问句或感叹 句的基于深度神经网络的声学模型;
[0031] 第Ξ部分:根据疑问句或感叹句的声学模型,实现疑问句或感叹句的语音生成;
[0032] 对于待合成语音的文本,进行文本分析,采用经过第二部分得到的疑问句或感叹 句的基于MSD-HSMM的声学模型或者基于深度神经网络的声学模型进行语音参数的生成,然 后经过语音声码器,最终合成出疑问句或者感叹句的语音。
[0033] 基于深度神经网络的初始声学模型,包括W上、下文相关的文本特征作
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1