一种用于参数化语音合成的基频建模方法

文档序号：8224533阅读：180来源：国知局

一种用于参数化语音合成的基频建模方法
【技术领域】
[0001] 本发明设及一种基频建模方法，特别设及一种用于参数化语音合成的基频建模方法，属于语音合成技术领域。
【背景技术】
[0002] 在参数化语音合成技术中，语音信号由声学参数生成，包括频谱特征和韵律特征。在自然语音中，频谱特征的变化是相对稳定的，因为频谱往往与语义直接相关。而韵律特征属于长时特征，会随着语境和情感的变化出现较大的波动，相关的参数需要由其在各种韵律层级结构中的变化模式描述。但在参数化语音合成技术中，该两类参数都由一种描述短时特征的HMM建模。
[0003] 韵律特征中对于感知影响最大的是基音频率。从人类发音过程中对基频的控制机理来看，仅使用HMM对短时基频建模是不足的。比如在汉语中，声调会受到音调和语调的影响。音调特征携带着语义信息，不同音调的音节具有不同的含义，同时还会受到上下文的影响产生变调现象。语调特征在不同语言中的定义也不同，它决定了生成语音的句式和情绪。该些特性都是由基音频率决定的。
[0004] 因此，使用长时基频模型对HMM的短时基频模型进行补充是符合自然语音产生机理的。长时基频包络受到短时基频波动的影响小，可W用于对语音的韵律进行分析。而且，将长时基频参数与短时HMM相结合，探索其在参数生成W及自适应方面的优势，对于进行多尺度的声学建模具有重要意义。但是，现有的长时基频模型，如化jisaki模型和目标逼近模型，不适用于统计建模。需要一种新的长时基频参数化方法，使得长时基频参数能够与短时声学特征统计模型结合，从而提高合成语音的自然度。

【发明内容】

[0005] 为了改善用于参数语音合成的基频模型，本发明的目的是提供一种基频参数化和统计建模方法，能够对音节的整体基频包络进行可训练的参数化描述，W捕捉目标说话人在不同语境和情绪下的长时基频包络变化，进而提高合成语音的韵律表现力。
[0006] 本发明的目的是通过W下技术方案实现的：
[0007] 一种用于参数化语音合成的基频建模方法，包括W下步骤：
[000引步骤一，基频目标参数s、r和W。估计，包括W下步骤：
[0009] 1. 1提取训练语料的基频；
[0010] 1. 2初始化全局线性变换系数《。；
[0011] 1. 3使用最速下降法估计所有音节的目标参数S和r ;
[0012] 1. 4根据下式计算全局评价指标m ;
[001 引 m 二 I I e I I +1-C ;
[0014] 其中，I |e||为所有音节的均方根误差的平均，C为所有音节的相关系数的平均；
[0015] 1. 5如果m的值较前次迭代减小，使用网格捜索的方法估计《。，转步骤1. 3 ;否则，记录此时所有音节的目标参数s和r，w及全局线性变换系数《。；
[0016] 步骤二，对步骤一得到的目标参数进行统计建模得到音节基频目标模型Au与短时基频模型入f;
[0017] 步骤=，根据下式生成基频包络f :
【主权项】
1. 一种用于参数化语音合成的基频建模方法，其特征在于，包括如下步骤：步骤一，基频目标参数S、r和ω ^估计，包括以下步骤： 1. 1提取训练语料的基频； 1. 2初始化全局线性变换系数ω。； 1. 3使用最速下降法估计所有音节的目标参数s和r ; 1. 4根据下式计算全局评价指标m ; m = I |e| I+1-c ；其中，I |e| I为所有音节的均方根误差的平均，C为所有音节的相关系数的平均； 1. 5如果m的值较前次迭代减小，使用网格搜索的方法估计ω ^，转步骤1. 3 ;否则，记录此时所有音节的目标参数s和r，以及全局线性变换系数ω。；步骤二，对步骤一得到的目标参数进行统计建模得到音节基频目标模型λ 11与短时基频模型λ?; 步骤三，根据下式生成基频包络f :
其中，u为待生成的基频目标，0:为由最大似然方法估计得到的最优值，f为待生成的基频包络，fmax为由最大似然方法估计得到的最优值，q表示由短时基频模型确定的状态序列，表示最优状态序列的估计，λ f为由上述步骤二得到的音节基频目标模型和短时基频模型，〇 f为短时基频残差模型的均值和方差，p ()表示似然度，p (u I q，λ u)表示基频目标似然度，P(f|u，q，Xf)表示基频包络似然度，NO表示基频包络f服从正态分布，为目标估计矩阵，其逆矩阵f 1为目标实现矩阵，A表示如下：
其中，h为离散采样周期。
2. 根据权利要求1所述的一种用于参数化语音合成的基频建模方法，其特征在于：所述步骤I. 3使用最速下降法估计所有音节的目标参数S和r，对于每一个音节，通过下述步骤获取最优s和r : 2. 1初始化s和r ; 2. 2根据下式计算误差ε ; ε = (A^1U-Dt (A^u-f)；其中，f为从原始语料中提取的基频值，Ot表示矩阵转置，u为音节基频目标，通过下式计算： u = st+r ; 其中，t表示由该音节所处时间刻度组成的矢量； 2. 3如果误差ε的变化大于阈值T，根据下式优化s和r:
其中，γ表示迭代步长，In表示长度为N的单位矢量；转步骤2. 2 ;否则，记录该音节此时的s和r。
3. 根据权利要求1或2所述的一种用于参数化语音合成的基频建模方法，其特征在于：将步骤1. 1得到的基频进行对数域转换。
【专利摘要】本发明涉及一种用于参数化语音合成的基频建模方法，能够对音节的整体基频包络进行可训练的参数化描述，以捕捉目标说话人在不同语境和情绪下的长时基频包络变化，进而提高合成语音的韵律表现力；属于语音合成技术领域。本发明方法首先提取训练语料的基频，并对基频目标参数s、r和ω0进行估计；然后对基频目标参数进行统计建模得到音节基频目标模型λu与短时基频模型λf；最后采用最大似然参数生成算法生成基频包络f。对比现有技术，本发明方法不带有明显的说话人总体特征(如性别、年龄等)，但体现有说话人的时效特征(如情绪、语境等)；且本发明方法可以直接用于语音合成，使用本发明方法的语音合成自然度有明显提升。
【IPC分类】G10L13-02, G10L13-047
【公开号】CN104538026
【申请号】CN201510015224
【发明人】谢湘, 那兴宇
【申请人】北京理工大学
【公开日】2015年4月22日
【申请日】2015年1月12日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢湘;那兴宇;
技术所有人：北京理工大学;
我是此专利的发明人

上一篇：语音社交媒体的情绪传播计算方法及系统的制作方法
上一篇：手势到汉藏双语语音转换方法及装置的制造方法