基于谐波加噪声模型的残差激励信号合成及语音转换方法

文档序号：2833092阅读：313来源：国知局

专利名称：基于谐波加噪声模型的残差激励信号合成及语音转换方法
技术领域：
本发明涉及语音转换技术，特别涉及基于谐波加噪声模型的残差激励信号合成及语音转换方法，属于语音信号处理技术领域。
背景技术：
语音转换是语音信号处理领域近年来新兴的研究分支，是在说话人识别和语音合成的研究基础上进行的，同时也是这两个分支内涵的丰富和延拓，但是又不完全隶属于说话人识别和语音合成的范畴。语音转换的目标是在保证其中的语义信息保持不变的条件下，改变源说话人语音中的个性特征信息，使之具有目标说话人的个性特征，从而使转换后的语音听起来就像是目标说话人的声音。语音转换的实现可以分为训练阶段和转换阶段。在训练阶段，系统对源说话人和目标说话人进行训练，分析他们的參数，建立转换规则。在转换阶段，先对源语音进行分析并提取语音特征，再根据由训练阶段得到的语音转换规则进行转换得到目标语首特征。语音信号的特征分为音段信息和超音段信息两类。音段特征描述的是语音的音色特征，主要包括声道共振峰的位置、共振峰的带宽、频谱倾斜、基音频率等。超音段特征描述的是语音的韵律特征及激励源信息，特征參数主要包括音素的时长、能量、周期的变化轮廓以及谱包络的变化等动态特征等。语音转换的关键问题在于说话人个性特征的提取以及转换规则的建立，经过近二十年的发展，涌现出大量的研究成果。目前对语音特征參数的研究主要集中与语音信号的音段特征，而对语音信号激励源超音段特征涉及的不多。当前对语音信号激励源估计的主要方法有基于线性预测编码(Linear Prediction Coding, LPC)模型的残差预测法。但是线性预测技术得到的残差信号(Residual signal)作为激励时，含有的目标说话人个性较少，并且残差信号中能量较低，造成转换后语音质量较差；(I、Suendermann D,Bonafonte A, Ney H, Hoege H, “A Study on Residual Prediction Techniques forVoice Conversion，，， proceedings of IEEE International Conference on Acoustics,Speech, and Signal Processing, vol.I, pp. 13—16，2005. 2、Percybrooks ff. S, MooreE, “Voice conversion with linear prediction residual estimation，，， proceedingsof IEEE Internationa丄 Conference on Acoustics, Speech and Signa丄 Processing,pp. 4673 - 4676，March 2008.)此外，现有的语音转换系统中也有用通过求取基音频率的平均值来计算基音频率的压扩比，或者通过时长插入、剪切等方式人为地修改激励源信号。但是由于语音信号激励源超音段信号特征多于说话人当时的状态有关，受到说话人所处的环境的影响。因此，人为的修改激励信号必然不能准确描述语音的激励源超音段信息，并且引入失真。(3、Xuejing Sun, “Voice quality conversion in TD-PSOLA speechsynthesis，，，proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, Vol.2, pp. II953 - 11956，2000. 4、Wang Yuan-yuan,Yang Shun, “Speech synthesis based on PSOLA algorithm and modified pitchparameters，，，International Conference on Computational Problem-Solving (ICCP),pp. 296 - 299, 2010.)。

发明内容
本发明的目的在于提供ー种结合语音信号特点和说话人个性特征在平行文本下的语音转换算法，重点研究语音信号在激励源超音段信息的提取与预测，通过对激励源信号的改善及转换后语音的补偿，增强合成语音中目标说话人的个性并且提高转换系统的性倉^:。为了实现上述发明目的，本发明采用了如下技术方案
ー种基于谐波加噪声模型的残差激励信号合成及语音转换方法，具体步骤如下第一歩，预处理与清浊音判断，即分别对源语音和目标语音进行预加重、分帧和加窗处理，计算每一帧的短时能量和平均过零率，完成清浊音的判决；
第二步，谐波參数的提取，即利用谐波加噪声模型(Harmonic plus Noise Model7HNM)模型分别对源语音和目标语音的浊语音帧进行分析，首先计算浊音帧信号的基音频率，然后HNM模型将浊音帧分解为谐波信号和宽带随机信号，计算谐波个数，提取谐波信号的幅值、相位和各次谐波频率，对于清音看作随机噪声保留不变；
第三步，声道谱參数的计算，即分别对源语音与目标语音的浊音信号提取出的各阶谐波的幅值进行变换，将幅值的平方作为离散功率的采样值，经快速傅立叶逆变换(InverseFast Fourier Transformation, IFFT)得到自相关系数，再经 Levinson-Durbin 算法进行LPC分析,得到源语音与目标语音的线性谱频率(Linear Spectral Frequency,LSF)參数和相对应的残差信号；
第四步，建立声道谱转换规则，将源语音与目标语音的LSF參数经过动态时间规整(Dynamic Time Warping, DTW)后，送入高斯混合模型(Gaussian Mixture Model, GMM)进行概率建模；
第五步特征參数的转换，即先对待转换语音经HNM分析，按照上述第二步与第三步的方法，提取待转换的LSF參数及残差信号，将待转换的LSF參数送入第四步建立的GMM转换规则进行转换；
第六歩，残差激励的预测，即首先逐帧找出与转换后的LSF參数最接近的目标LSF參数，然后利用该目标LSF參数对应的残差信号与该帧经HNM分析后剰余的随机信号线性叠カロ，作为残差激励信号；
第七步，语音合成与残差补偿，即首先由上述第五步和第六步得到的转换后的LSF參数和残差激励信号，基于LPC合成模型得到转换出的每帧语音信号，然后将转换出的每帧语音信号再次叠加上对应的适度目标残差信号，经重叠相加后最終得到合成出的语音。本发明与现有技术相比，其显著优点(I)建立激励信号时，在经HNM分析提取出的浊音帧谐波信号的残差信号的基础上，线性叠加上适度的该HNM分析同时产生的剰余信号(宽带随机信号)作为预测的激励源信号，这样能有效的增强激励源中含有的说话人超音段特征，同时避免传统方法人为修改激励信号引入的失真；(2)合成阶段，在合成出的语音中再次逐帧叠加上适度的HNM分析出的目标浊音帧谐波信号的残差，使得转换出的语音更具有目标说话人个性，改善语音质量。下面结合附图对本发明作进ー步详细描述。

图I是本发明基于谐波加噪声模型的残差激励信号合成及语音转换方法示意图；图2是特征參数的提取与转换规则建立的示意图3是特征參数的转换与基于HNM模型的残差激励信号预测的示意图4是第帧浊语音參数转换及语音合成的示意图。
具体实施例方式结合图1，基于谐波加噪声模型的残差激励信号合成及语音转换方法，步骤如下第一歩，在训练阶段先进行预处理与清浊音判断，即分别对源语音和目标语音进行预
加重、分帧和加窗处理，计算每一帧的短时能量和平均过零率，完成清浊音的判決，具体过程如下
(1)对源语音和目标语音信号分别进行预处理，预加重系数为O.96，按帧长20ms分帧，无重叠，之后使用汉明窗进行加窗处理；
(2)逐帧计算短时能量
权利要求
1.基于谐波加噪声模型的残差激励信号合成及语音转换方法，其特征在于包含以下步骤第一步，预处理与清浊音判断，即分别对源语音和目标语音进行预加重、分帧和加窗处理，计算每一帧的短时能量和平均过零率，完成清浊音的判决；第二步，谐波参数的提取，即利用HNM模型分别对源语音和目标语音的浊语音帧进行分析，首先计算浊音帧信号的基音频率，然后HNM模型将浊音帧分解为谐波信号和宽带随机信号，计算谐波个数，提取谐波信号的幅值、相位和各次谐波频率，对于清音看作随机噪声保留不变；第三步，声道谱参数的计算，即分别对源语音与目标语音的浊音信号提取出的各阶谐波的幅值进行变换，将幅值的平方作为离散功率的采样值，经IFFT变换得到自相关系数，再经Levinson-Durbin算法进行LPC分析，得到源语音与目标语音的LSF参数和相对应的残差号；第四步，建立声道谱转换规则，将源语音与目标语音的LSF参数经过DTW规整后，送入GMM模型进行概率建模；第五步，特征参数的转换，即先对待转换语音经HNM分析，按照上述第二步与第三步的方法，提取待转换的LSF参数及残差信号，将待转换的LSF参数送入第四步建立的GMM转换规则进行转换；第六步，残差激励的预测，即首先逐帧找出与转换后的LSF参数最接近的目标LSF参数，然后利用该目标LSF参数对应的残差信号与该帧经HNM分析后剩余的随机信号线性叠力口，作为残差激励信号；第七步，语音合成与残差补偿，即首先由上述第五步和第六步得到的转换后的LSF参数和残差激励信号，基于LPC合成模型得到转换出的每帧语音信号，然后将转换出的每帧语音信号再次叠加上对应的适度目标残差信号，经重叠相加后最终得到合成出的语音。
2.根据权利要求I所述的基于谐波加噪声模型的残差激励信号合成及语音转换方法，其特征在于预处理与清浊音判断的具体过程如下第一步，对源语音和目标语音信号分别进行预处理，预加重系数为0. 96，按帧长20ms分帧，无重叠，之后使用汉明窗进行加窗处理；第二步，逐帧计算短时能量4 = H <(〃)和m=0 短时过零率4 = |l]|sgn[_r,0)]-sgn[x;0-l)]|，其中Xi (m)是经加窗后的第i帧语音信 I m=0号，并且帧长为N，采用双门限法进行清浊音的判决。
3.根据权利要求I所述的基于谐波加噪声模型的残差激励信号合成及语音转换方法，其特征在于谐波参数的提取过程如下第一步，用归一化互相关法分别计算源语音和目标语音当前帧的基音频率fo ; 第二步，分别对源语音和目标语音进行分析，若当前帧为浊音帧S (n)，其中I < n < N，N为帧长，将其分解为谐波成分Sh(n)及随机成分e (n)，首先，确定最高谐波个数Z ，其中fs为采样频率，目标函数为
4.根据权利要求I所述的基于谐波加噪声模型的残差激励信号合成及语音转换方法，其特征在于声道谱参数的逐帧计算过程如下第一步，计算L个离散幅度值A1的平方值，认为是离散功率谱的采样值P ( J，其中《:为第I次谐波角频率，W1 = 2 If0; 第二步,将p O1)进行IFFT变换得到自相关系数R(n),经Levinson-Durbin算法求得P阶LPC系数{a」，j = 1,2,…，P}，并进一步转换为LSF参数；第三步，由LPC系数构造线性预测逆滤波器，其Z变换表达式为
5.根据权利要求I所述的基于谐波加噪声模型的残差激励信号合成及语音转换方法，其特征在于建立声道谱转换规则的具体过程如下第一步，将源语音信号与目标语音浊音帧谐波提取出的LSF参数，经过DTW时间对齐，并且记录下DTW返回的对齐LSF的下标；第二步，根据DTW返回的对齐LSF的下标，将源语音与目标语音浊音帧的谐波的残差信号进行对齐，同样地源语音与目标语音浊音帧经HNM分析后剩余的随机信号对齐；第三步，将对齐的源LSF参数与目标LSF参数组成联合参数送入GMM模型，建立声道谱转换函数。
6.根据权利要求I所述的基于谐波加噪声模型的残差激励信号合成及语音转换方法，其特征在于特征参数的转换的具体过程如下第一步，将待转换语音信号进行预处理、分帧，经HNM分析提取谐波参数，计算声道谱参数并转换为LSF参数；第二步，将待转换的每帧LSF参数利用建立好的GMM规则进行转换，得到转换后的LSF参数。
7.根据权利要求I所述的基于谐波加噪声模型的残差激励信号合成及语音转换方法，其特征在于残差激励的预测过程如下第一步，对于转换出的LSF参数逐帧找出与其最接近的目标LSF参数，确定该目标LSF参数对应的残差信号及HNM分析时剩余的随机信号；第二步，将目标残差信号及HNM分析时剩余的随机信号线性叠加，作为残差激励信号。
8.根据权利要求I所述的基于谐波加噪声模型的残差激励信号合成及语音转换方法，其特征在于语音合成与残差补偿的具体过程如下第一步，将得到的转换后的LSF参数转换为LPC系数，逐帧由LPC系数建立滤波器，再将预测出的残差激励信号通过该滤波器，得到转换后的语音；第二步，将每帧转换后的语音信号再次叠加上对应的适度目标残差信号，各帧语音经拼接后便可得到最终的合成语音。
全文摘要
本发明公开一种基于谐波加噪声模型的残差激励信号合成及语音转换方法，属于语音信号处理领域，包含以下步骤预处理与清浊音判断；谐波参数的提取；声道谱参数的计算；建立声道谱转换规则；特征参数的转换；残差激励的预测；语音合成与残差补偿。本发明在建立激励信号时，在经HNM分析提取出的浊音帧谐波信号的残差信号的基础上线性叠加上适度的HNM分析同时产生的剩余信号作为预测的激励源信号，从而有效的增强激励源中含有的说话人超音段特征，同时避免传统方法人为修改激励信号引入的失真；在合成阶段，在合成出的语音中再次逐帧叠加上适度的HNM分析出的目标浊音帧谐波信号的残差，使转换出的语音更具目标说话人个性，改善语音质量。
文档编号G10L13/04GK102664003SQ20121012188
公开日2012年9月12日申请日期2012年4月24日优先权日2012年4月24日
发明者吴丽芳, 张玲华, 解伟超申请人:南京邮电大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：解伟超;张玲华;吴丽芳
技术所有人：南京邮电大学
我是此专利的发明人

上一篇：音乐转录的方法，系统和装置的制作方法
上一篇：使用表示乐音生成模式的查询的演奏数据搜索的制作方法