一种基于受限玻尔兹曼机的语音合成方法

文档序号：2829132阅读：597来源：国知局

专利名称：一种基于受限玻尔兹曼机的语音合成方法
技术领域：
本发明涉及信号处理技术领域，尤其涉及一种基于受限玻尔兹曼机的语音合成方法。
背景技术：
目前，语音合成实现文字到语音的转换，是智能人机交互的核心技术之一。基于隐马尔科夫模型(Hidden Markov Model, HMM)的参数语音合成是现阶段一种主流的语音合成方法。该方法在训练时首先提取训练语音数据库中的频谱、基频等声学特征，然后使用统一的HMM框架对声学特征进行建模；在合成时，首先利用训练得到的统计模型基于最大输出概率准则进行各种声学特征的预测，再将预测的声学特征送入参数合成器重构合成语音。该方法可以合成高可懂度与流畅度的语音。但是合成语音的音质往往不够理想，造成整体自然度欠佳。
上述传统基于HMM参数语音合成方法在频谱建模上的不足，是造成合成语音音质不理想的重要原因。具体来说，由于在传统频谱建模中使用的频谱特征往往是一些高层的频谱特征，例如梅尔倒谱(Mel Cepstra)、线谱对(Line Spectral Pairs)等,这些特征都是对原始语音频谱的一种模型化或者近似化表征，在特征提取的过程中已经造成了频谱细节信息的丢失；同时，由于传统频谱建模方法通常使用单高斯分布来描述HMM中每个状态的频谱特征输出概率，在合成阶段基于最大输出概率准则进行频谱特征的预测，由于单高斯分布的均值具有最大的输出概率，因此参数生成结果很接近于模型的均值，而该均值是在训练阶段基于最大似然准则通过对训练样本的平均化来估计得到的，这样造成了预测的频谱特征往往过于平滑，从而影响了最终合成语音的音质。

发明内容
本发明的目的是提供一种基于受限玻尔兹曼机的语音合成方法，该方法能够提高基于HMM的参数语音合成方法中的频谱特征建模精度，从而改善合成语音的音质与自然度。本发明的目的是通过以下技术方案实现的，一种基于受限玻尔兹曼机的语音合成方法，所述方法包括:在模型训练阶段，使用自适应加权谱内插STRAIGHT合成器提取的频谱包络取代高层频谱特征用于频谱建模；利用提取的基频和频谱特征以及每句训练语音对应的文本与上下文信息，依据基于隐马尔科夫模型HMM的参数语音合成方法，进行上下文相关单高斯的HMM训练；在单高斯的HMM训练完成后，利用训练得到的Gaussian-HMM模型对训练数据库中的声学特征序列进行状态切分，得到每个状态对应的起止时间；利用切分得到的各状态起止时间，对提取的训练数据库中的原始频谱包络特征进行切分，收集得到上下文相关HMM模型中各状态对应的频谱包络数据，并使用受限波尔兹曼机RBM来描述各状态对应的频谱包络的分布情况；在语音合成阶段，通过高斯近似进行HMM各状态输出概率的重估，再利用最大输出概率参数生成算法进行每帧合成语音对应的频谱包络特征的预测；利用Gaussian-HMM模型进行基频特征的预测，并将预测得到的所述频谱包络特征与基频特征送入STRAIGHT合成器，生成最终的合成语音。所述通过高斯近似进行HMM各状态输出概率的重估，具体包括:使用单高斯分布Ν(ν; μ，Σ)来拟合逼近受限波尔兹曼机RBM所描述的概率密度函数，其中高斯均值向量μ为:
权利要求
1.一种基于受限玻尔兹曼机的语音合成方法，其特征在于，所述方法包括: 在模型训练阶段，使用自适应加权谱内插STRAIGHT合成器提取的频谱包络取代高层频谱特征用于频谱建模；利用提取的基频和频谱特征以及每句训练语音对应的文本与上下文信息，依据基于隐马尔科夫模型HMM的参数语音合成方法，进行上下文相关单高斯的HMM训练；在单高斯的HMM训练完成后，利用训练得到的Gaussian-HMM模型对训练数据库中的声学特征序列进行状态切分，得到每个状态对应的起止时间；利用切分得到的各状态起止时间，对提取的训练数据库中的原始频谱包络特征进行切分，收集得到上下文相关HMM模型中各状态对应的频谱包络数据，并使用受限波尔兹曼机RBM来描述各状态对应的频谱包络的分布情况；在语音合成阶段，通过高斯近似进行HMM各状态输出概率的重估，再利用最大输出概率参数生成算法进行每帧合成语音对应的频谱包络特征的预测；利用Gaussian-HMM模型进行基频特征的预测，并将预测得到的所述频谱包络特征与基频特征送入STRAIGHT合成器，生成最终的合成语音。
2.根据权利要求1所述基于受限玻尔兹曼机的语音合成方法，其特征在于，所述通过高斯近似进行HMM各状态输出概率的重估，具体包括: 使用单高斯分布Ν(ν; μ，Σ)来拟合逼近受限波尔兹曼机RBM所描述的概率密度函数，其中高斯均值向量U为:
3.根据权利要求1所述基于受限玻尔兹曼机的语音合成方法，其特征在于，所述使用受限波尔兹曼机RBM来描述各状态对应的频谱包络的分布情况，具体包括: 使用受限玻尔兹曼机取代单高斯分布用于表征频谱特征的HMM状态输出概率。
4.根据权利要求1所述基于受限玻尔兹曼机的语音合成方法，其特征在于，所述利用提取的基频和频谱特征以及每句训练语音对应的文本与上下文信息，依据基于隐马尔科夫模型HMM的参数语音合成方法,进行上下文相关单高斯的HMM训练,具体包括: 采用协方差矩阵为对角阵的单高斯分布来描述每个HMM状态的高层频谱特征输出概率；采用多空间概率分布MSD来描述每个HMM状态的基频特征输出概率；采用基于决策树的模型聚类方法实现对于不同上下文相关模型参数的绑定训练。
全文摘要
本发明公开了一种基于受限玻尔兹曼机的语音合成方法。使用自适应加权谱内插STRAIGHT合成器提取的频谱包络取代高层频谱特征用于频谱建模；利用训练得到的Gaussian-HMM模型对训练数据库中的声学特征序列进行状态切分；利用切分得到的各状态起止时间，对提取的训练数据库中的原始频谱包络特征进行切分，收集得到上下文相关HMM模型中各状态对应的频谱包络数据；利用Gaussian-HMM模型进行基频特征的预测，并将预测得到的所述频谱包络特征与基频特征送入STRAIGHT合成器，生成最终的合成语音。该方法能够提高基于HMM的参数语音合成方法中的频谱特征建模精度，从而改善合成语音的音质与自然度。
文档编号G10L13/027GK103226946SQ20131009989
公开日2013年7月31日申请日期2013年3月26日优先权日2013年3月26日
发明者凌震华, 陈凌辉, 戴礼荣申请人:中国科学技术大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：凌震华;陈凌辉;戴礼荣
技术所有人：中国科学技术大学
我是此专利的发明人