一种用于参数化语音合成的基频建模方法

文档序号:8224533阅读:180来源:国知局
一种用于参数化语音合成的基频建模方法
【技术领域】
[0001] 本发明设及一种基频建模方法,特别设及一种用于参数化语音合成的基频建模方 法,属于语音合成技术领域。
【背景技术】
[0002] 在参数化语音合成技术中,语音信号由声学参数生成,包括频谱特征和韵律特征。 在自然语音中,频谱特征的变化是相对稳定的,因为频谱往往与语义直接相关。而韵律特征 属于长时特征,会随着语境和情感的变化出现较大的波动,相关的参数需要由其在各种韵 律层级结构中的变化模式描述。但在参数化语音合成技术中,该两类参数都由一种描述短 时特征的HMM建模。
[0003] 韵律特征中对于感知影响最大的是基音频率。从人类发音过程中对基频的控制机 理来看,仅使用HMM对短时基频建模是不足的。比如在汉语中,声调会受到音调和语调的影 响。音调特征携带着语义信息,不同音调的音节具有不同的含义,同时还会受到上下文的影 响产生变调现象。语调特征在不同语言中的定义也不同,它决定了生成语音的句式和情绪。 该些特性都是由基音频率决定的。
[0004] 因此,使用长时基频模型对HMM的短时基频模型进行补充是符合自然语音产生机 理的。长时基频包络受到短时基频波动的影响小,可W用于对语音的韵律进行分析。而且, 将长时基频参数与短时HMM相结合,探索其在参数生成W及自适应方面的优势,对于进行 多尺度的声学建模具有重要意义。但是,现有的长时基频模型,如化jisaki模型和目标逼 近模型,不适用于统计建模。需要一种新的长时基频参数化方法,使得长时基频参数能够与 短时声学特征统计模型结合,从而提高合成语音的自然度。

【发明内容】

[0005] 为了改善用于参数语音合成的基频模型,本发明的目的是提供一种基频参数化和 统计建模方法,能够对音节的整体基频包络进行可训练的参数化描述,W捕捉目标说话人 在不同语境和情绪下的长时基频包络变化,进而提高合成语音的韵律表现力。
[0006] 本发明的目的是通过W下技术方案实现的:
[0007] 一种用于参数化语音合成的基频建模方法,包括W下步骤:
[000引步骤一,基频目标参数s、r和W。估计,包括W下步骤:
[0009] 1. 1提取训练语料的基频;
[0010] 1. 2初始化全局线性变换系数《。;
[0011] 1. 3使用最速下降法估计所有音节的目标参数S和r ;
[0012] 1. 4根据下式计算全局评价指标m ;
[001 引 m 二 I I e I I +1-C ;
[0014] 其中,I |e||为所有音节的均方根误差的平均,C为所有音节的相关系数的平均;
[0015] 1. 5如果m的值较前次迭代减小,使用网格捜索的方法估计《。,转步骤1. 3 ;否则, 记录此时所有音节的目标参数s和r,w及全局线性变换系数《。;
[0016] 步骤二,对步骤一得到的目标参数进行统计建模得到音节基频目标模型Au与短 时基频模型入f;
[0017] 步骤=,根据下式生成基频包络f :
【主权项】
1. 一种用于参数化语音合成的基频建模方法,其特征在于,包括如下步骤: 步骤一,基频目标参数S、r和ω ^估计,包括以下步骤: 1. 1提取训练语料的基频; 1. 2初始化全局线性变换系数ω。; 1. 3使用最速下降法估计所有音节的目标参数s和r ; 1. 4根据下式计算全局评价指标m ; m = I |e| I+1-c ; 其中,I |e| I为所有音节的均方根误差的平均,C为所有音节的相关系数的平均; 1. 5如果m的值较前次迭代减小,使用网格搜索的方法估计ω ^,转步骤1. 3 ;否则,记录 此时所有音节的目标参数s和r,以及全局线性变换系数ω。; 步骤二,对步骤一得到的目标参数进行统计建模得到音节基频目标模型λ 11与短时基 频模型λ?; 步骤三,根据下式生成基频包络f :
其中,u为待生成的基频目标,0:为由最大似然方法估计得到的最优值,f为待生成的 基频包络,fmax为由最大似然方法估计得到的最优值,q表示由短时基频模型确定的状态序 列,表示最优状态序列的估计,λ f为由上述步骤二得到的音节基频目标模型和短 时基频模型,〇 f为短时基频残差模型的均值和方差,p ()表示似然度,p (u I q,λ u)表 示基频目标似然度,P(f|u,q,Xf)表示基频包络似然度,NO表示基频包络f服从正态分 布,为目标估计矩阵,其逆矩阵f 1为目标实现矩阵,A表示如下:
其中,h为离散采样周期。
2. 根据权利要求1所述的一种用于参数化语音合成的基频建模方法,其特征在于:所 述步骤I. 3使用最速下降法估计所有音节的目标参数S和r,对于每一个音节,通过下述步 骤获取最优s和r : 2. 1初始化s和r ; 2. 2根据下式计算误差ε ; ε = (A^1U-Dt (A^u-f); 其中,f为从原始语料中提取的基频值,Ot表示矩阵转置,u为音节基频目标,通过下 式计算: u = st+r ; 其中,t表示由该音节所处时间刻度组成的矢量; 2. 3如果误差ε的变化大于阈值T,根据下式优化s和r:
其中,γ表示迭代步长,In表示长度为N的单位矢量;转步骤2. 2 ;否则,记录该音节此 时的s和r。
3. 根据权利要求1或2所述的一种用于参数化语音合成的基频建模方法,其特征在于: 将步骤1. 1得到的基频进行对数域转换。
【专利摘要】本发明涉及一种用于参数化语音合成的基频建模方法,能够对音节的整体基频包络进行可训练的参数化描述,以捕捉目标说话人在不同语境和情绪下的长时基频包络变化,进而提高合成语音的韵律表现力;属于语音合成技术领域。本发明方法首先提取训练语料的基频,并对基频目标参数s、r和ω0进行估计;然后对基频目标参数进行统计建模得到音节基频目标模型λu与短时基频模型λf;最后采用最大似然参数生成算法生成基频包络f。对比现有技术,本发明方法不带有明显的说话人总体特征(如性别、年龄等),但体现有说话人的时效特征(如情绪、语境等);且本发明方法可以直接用于语音合成,使用本发明方法的语音合成自然度有明显提升。
【IPC分类】G10L13-02, G10L13-047
【公开号】CN104538026
【申请号】CN201510015224
【发明人】谢湘, 那兴宇
【申请人】北京理工大学
【公开日】2015年4月22日
【申请日】2015年1月12日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1