一种基于微分声门波模型的语音变调变嗓音方法与流程

文档序号:14941775发布日期:2018-07-13 21:04阅读:349来源:国知局

本发明属于语音合成技术领域,涉及一种语音变调方法,尤其是涉及一种基于微分声门波模型的语音变调、变嗓音方法。



背景技术:

随着信息技术的发展,传统的音视频素材已无法满足人们的需求,融合语言学、信号处理技术、计算机科学等多领域的语音合成技术应运而生。其中的语音变调不变速技术具有广阔的应用市场,如保护说话人隐私,提供某种娱乐效果,帮助语言功能不完善或受损的患者进行语音恢复,用作如语音邮件、广播电台变声热线、多媒体音效处理、军事保密通信等,可广泛应用于民用,商用,医用和军用等多个领域。

语音变调不变速指改变语音基音频率的大小,同时保持语速和语义不变,即保持短时频谱包络和时间过程基本不变。语音变调不变速算法中,基于线性预测的方法具有简单、完全自动的分析步骤,合成器结构简单,硬件实现容易等优点,但嗓音源序列采用简单的脉冲和噪声激励模型,合成语音有严重的机器声和噪声。对嗓音源序列建模拟合生成更为细致精确的嗓音源序列以合成高质量的语音,是近年来的研究热点及难点。

申请号为200810222508.0的中国专利公开了一种语音变调方法及装置,能够实现语音的自适应变调。但用户人群不同,需求也不同,由于该种变调方式无法通过手工设置升降调的幅度,因此不适应于希望按照自己的需求来固定地改变音调的用户。申请号为201610573399.1的中国专利公开了一种稳定音色的音乐语音变调方法,通过语音信号的倒谱序列导出频谱包络,从中分离出语音信号的激励分量,再计算经变调处理后的激励分量,并与频谱包络重新合成音调改变但音色稳定的音乐语音信号。该方法同样无法实现对嗓音源的灵活控制。



技术实现要素:

本发明针对现有技术的不足,提出了一种基于微分声门波模型的语音变调变嗓音方法。

本发明采用线性预测编码(lpc)技术和微分声门波(lf)相结合的方法合成变调语音,将语音信号通过lpc逆滤波器得到的残差信号即为声门信号的一阶差分,用lf模型对其进行更细致的模拟得到高质量的声门激励信号,从而合成高质量的变调语音。lpc是目前最简单、最重要、最有效、最流行的语音分析技术之一,普遍应用于语音信号处理的各个方面,具有低速率传输和储存语音、计算简单快速,能够极为精确地估计语音参数等优点。lf模型通过对嗓音源参数的灵活控制,可以合成不同音色的语音,且模型参数具有明确的物理意义,属发音器官合成语音法范畴,是语音合成技术发展的潮流之一。

本发明的目的就是提供一种更为简单、有效、快速的、能够灵活改变嗓音源参数的语音变调、变嗓音的方法。本发明的目的可以通过以下技术方案来实现:一种基于微分声门波模型的语音变调变嗓音方法,该方法包括:

step1:数字语音信号记为s,采样频率记为fs,对s进行预处理,包括:去除直流分量、预滤波、预加重、归一化一系列处理,得到预处理后的信号s1;其中预加重系数k1范围为-1.0<k1<-0.90;预滤波器为带通滤波器记为lvboqi1,通带频率范围60hz~2000hz,阻带范围55hz~3400hz;

step2:对s1加窗分帧后得s2;

窗函数为矩形窗,分帧参数为:分段时长初步取tms,t范围10~30,精确值为t×fs左右2的整次幂;帧长、帧移、帧叠分别记为wlen、inc、overlap,wlen=t×fs左右2的整次幂,inc=wlen×k2,k2范围为1/5~1/2,帧叠overlap=wlen-inc,总帧数fn=fix((n-wlen)/inc)+1,其中n为信号的长度,fix为取整;

step3:对s2逐帧进行静音帧、清音帧和浊音帧的判别;

所述静音段、清音段和浊音段的判别步骤如下:

step3.1:逐帧计算短时平均能量,记为ampi;

step3.2:逐帧计算短时平均过零率,记为zcri;

step3.3:设置短时平均能量较高的阈值ampth1和较低的阈值ampth2;

step3.4:设置短时平均过零率的阈值zcrth;

step3.5:短时平均能量和短时平均过零率双门限法进行判别:当ampi>ampth1,该帧为浊音帧;当ampi<ampth2,该帧为静音帧;当ampth2<ampi<ampth1,若zcri>zcrth,该帧为清音帧,若zcri<zcrth,该帧为清音帧;

step4:基音周期估计:提取基音频率f0i和基音周期t0i,根据基音改变参数计算新的基音频率nf0i和基音周期nt0i,下标i=1~fn,fn为总帧数,下同;

step4.1:将预处理后的信号s1通过带通滤波器记为lvboqi2得s31,滤波器的主要通带频率范围为60hz~500hz,阻带范围为20hz~2000hz,通带波纹为x1db,范围1≦x1≦5,阻带衰减为x2db,30≦x2≦60;

step4.2:对s31按wlen和inc加矩形窗分帧,得s32;

step4.3:对s32中的浊音帧加汉明窗,用三电平削波法削波、互相关函数法求取基音周期t0i和基音频率f0i;

step4.4:对超出基频范围f0i记为0,对应的t0i记为0;处理后的t0i和f0i进行平滑处理得稳定的基音频率dfreq和基音周期dpitch;

step4.5:新的基音频率dfreqm=dfreq×rate,基音周期dpitchm=dpitch/rate,其中rate指新的基音频率是原基音频率的倍数;

step5:依据言语产生的源滤波器模型理论,通过线性预测分析技术(lpc)和逆滤波技术来估计残差信号ei和声道模型参数;

残差信号和声道模型系统函数通过以下步骤获得:

step5.1:对分帧后的语音信号s2加汉明窗得s21;

step5.2:对s21逐帧估计声道模型参数:先用一阶lpc分析估计声门脉冲对语音信号频谱的倾斜效应,通过逆滤波得到消除倾斜效应后的信号s22,再对s22进行高阶lpc分析,得到声道传递系数ari和增益gaini;

step5.3:对残差信号ei的估计:使s21通过ari构成的逆滤波器即得ei;

step6:逐帧合成新的激励ngi:静音帧的激励按随机噪声合成,清音帧的激励按高斯白噪声合成,浊音帧的激励按lf模型的积分函数即声门波函数,在新的基音周期基础上合成;其中lf模型即微分声门波模型。

浊音激励信号按如下步骤合成:

step6.1:将ei通过滤波器lvboqi2,得微分声门波信号lfi;

step6.2:从lfi提取单周期信号lf0i

step6.3:对lf0i进行数值积分得声门波信号g0i;

step6.4:计算声门波模型函数表达式g;

lf模型函数表达式为当0<t<te,lf=e0×exp(-k1×t)×sin(wg×t),当te<t<tc,lf=-ee×(exp(-k2×(t-te)));则对lf模型函数积分可得声门波模型函数表达式,即当0<t≦te,g=-(e0×exp(-k1×t)×cos(t×wg))/t,当te<t≦tc,g=(ee×exp(-k2×(t-te)))/k2+c。其中,c为常数使得函数图像在te处连续;e0为g0i的正的最大值;ee为g0i的负的最大值的绝对值;wg=pi/tp;te为ee对应的时刻;tp为微分声门波为0的时刻;tc=dpitchmi/fs;k1=|real(log(ee/(e0×sin(wg×te))))/te)|,real为取实部;

k2=abs(ee×(wg^2+k1^2)/(e0×(exp(k1×te)

×(k1×sin(wg×te)-wg×cos(wg×te))+wg))),abs为取绝对值;

step6.5:运用声门波模型对g0i拟合,得到拟合的声门激励信号ggi;

step6.6:对ggi变调处理得到基音频率改变的激励信号;

step6.7:考虑到激励帧与帧间的连续性,引入一变量np,初始值为0,第i帧的激励序列记为ei(1:wlen),有效序列即与下一帧不重叠的序列为ei(1:inc),单个周期声门脉冲序列长度为n0,np为不足一周期的长度,下一帧激励应接在np后,故下一帧激励序列为ei+1(np+1:np+wlen),有效序列为ei+1(np+1:np+inc);为方便合成,帧激励取ei(np+1:np+wlen),合成语音帧通过叠加得到相位连续的语音信号。

step7:将新的激励ngi通过声道模型系统函数构成的滤波器,合成各帧语音s0i;

step8:对各帧语音信号s0i叠加,得到相位连续的、变调变嗓音合成语音ss。帧语音叠加时,采用线性叠加法但不仅限于线性叠加,帧与帧之间的连续通过激励信号的连续来实现。

step9:通过控制te/tc和tp/tc来对嗓音源的控制,模拟声门的开闭情况。其中的tc为基音周期,te为微分声门波达到负的最大值时对应时刻;tp为微分声门波为0的时刻。一个基音周期内tp、te相对于tc的比例可以反映声门张开和闭合的速度,tp/tc的实际物理意义是声门张至最大位置的快慢程度,其值越大,表明声门由闭合到张开至最大的时刻越短,即声门很快张开;te/tc的实际物理意义是声门在闭合的过程中加速度的变化情况,其值越大,表明声门以很大的加速度很快闭合。张开闭合比较剧烈时声音会变的“生硬”,类似与人喉部肌肉紧张、气息与震动不和谐的时发出的声音;而张开闭合相对缓慢时声音趋于“轻柔”。

与现有技术相比,本发明提出了一种基于微分声门波模型的语音变调、变嗓音方法,通过lpc提取声门波信号和估计声道模型系统函数;通过三电平削波互相关函数法提取基音周期和基音频率,计算变调后的基音频率和基音周期;通过lf微分声门波计算声门波模型,对提取的声门波进行拟合,根据新的基音周期合成新的声门波;将合成的声门波通过声道模型,从而得到音调改变而语音速度不变的语音信号。该方法简单、有效、快速,通过te/tc和tp/tc能灵活控制嗓音源,具有广泛的实用价值。

附图说明

图1为本发明中一种基于微分声门波模型的语音变调、变嗓音方法的流程图。

图2为本发明一实施例中原始语音信号的频谱图和基音轨迹图。

图3为本发明一实施例中采用该基于微分声门波模型的语音变调、变嗓音方法变调处理后的语音信号的频谱图和基音轨迹图。

图4-1为本发明一实施例中微分声门波图;

图4-2为本发明一实施例中对应的声门波图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例:

如图1所示,本实施例中的语音信号选择稳态元音ai,采样频率fs=44100hz,步骤如下:

step1:ai的语音信号记为s,预处理后的信号记为s1;

去除直流分量得s11=s-mean(s),其中mean为求均值;预滤波后得s12,预滤波选择椭圆滤波器,该滤波器记为lvboqi1:通带频率范围60~2000hz,阻带范围55~3400hz,通带波纹1db,阻带衰减15db;预加重系数选择-0.95,预加重后的信号记为s13;归一化以信号绝对值的最大值为1进行归一,归一化后的信号记为s1。

step2:对s1加窗分帧后得s2;

窗函数选择矩形窗;分段时长初步取t,单位为ms,范围10~30,精确值为t×fs左右2的整次幂;帧长wlen=t×fs左右2的整次幂,帧移inc=wlen×k2,k2=1/2,帧叠overlap=wlen-inc,总帧数fn=fix((n-wlen)/win)+1,其中n为信号的长度,fix为取整。每帧信号的起点n1=(i-1)×inc+1,终点n2=n1+wlen-1,s2i=s1(n1:n2),i表示第i帧语音。

step3:对s2逐帧进行静音帧、清音帧和浊音帧的判别;

逐帧计算短时平均能量ampi(1≦m≦wlen,i代表第i帧信号)和短时平均过零率zcri;高阈值ampth1和低阈值ampth2:当ampi>ampth1,该帧为浊音帧;当ampi<ampth2,该帧为静音帧;当ampth2<ampi<ampth1,若zcri>zcrth,该帧为清音帧,若zcri<zcrth,该帧为清音帧;

step4:基音周期估计:提取基音频率f0i和基音周期t0i,根据基音改变参数计算新的基音频率nf0i和基音周期nt0i;如图2、图3所示;

将预处理后的信号s1通过带通滤波器lvboqi2得s31,lvboqi2参数:通带频率范围60~500hz,阻带范围20~2000hz,通带波纹x1=1db,阻带衰减x2=35db;

对s31按wlen和inc加矩形窗,按wlen和inc分帧得s32;

s32中的静音帧、清音帧,f0和t0均为0;浊音帧加汉明窗,用三电平削波法进行削波处理,对削波后的信号运用互相关函数法求取基音周期t0i;根据基音频率=采样频率/基音周期的关系,计算基音频率f0i;

基频范围设为60~500hz但不仅限于此范围,故对超出此范围的f0i记为0,对应的t0i记为0;处理后的t0i和f0i用多次中值滤波的方法进行平滑处理,得到稳定的基音频率dfreq和基音周期dpitch;

新的基音频率dfreqm=dfreq×rate,基音周期dpitchm=dpitch/rate,其中rate指新的基音频率是原基音频率的倍数;

step5:依据言语产生的源滤波器模型理论,通过线性预测分析技术(lpc)和逆滤波技术来估计残差信号ei和声道模型参数;

对分帧信号s2i加汉明窗得s21;对s21进行1阶lpc以消除声门脉冲对语音信号频谱的倾斜效应,通过逆滤波得到消除倾斜效应后的信号s22;对s22进行高阶lpc分析,得到声道传递系数ari和增益gaini;使s21通过ari构成的逆滤波器即得ei;

step6:如图4-1、图4-2所示,逐帧合成新的激励ngi:静音帧的激励按随机噪声合成,清音帧的激励按高斯白噪声合成,浊音帧的激励按lf模型的积分函数即声门波函数,在新的基音周期基础上合成。浊音帧的激励信号合成步骤如下:

将ei通过滤波器lvboqi2,得微分声门波信号lfi;

从lfi提取单周期信号lf0i,方法:求lfi的正的最大值pmax,向前求临近的过零点p1,向后求临近的过零点p2和p3,则lf0i=lfi(p1:p3);

对lf0i进行数值积分得声门波信号g0i;

根据lf模型函数表达式计算声门波模型函数表达式:lf模型函数表达式为当0<t≦te,lf=e0×exp(-k1×t)×sin(wg×t),当te<t≦tc,lf=-ee×(exp(-k2×(t-te)));则对lf模型函数积分可得声门波模型函数表达式,即当0<t≦te,g=-(e0×exp(-k1×t)×cos(t×wg))/t,当te<t≦tc,g=(ee×exp(-k2×(t-te)))/k2+c。其中,c为常数使得函数图像在te处连续;e0为g0i的正的最大值;ee为g0i的负的最大值的绝对值;wg=pi/tp;te为ee对应的时刻;tp为微分声门波为0的时刻;tc=dpitchmi/fs;

k1=|real(log(ee/(e0×sin(wg×te))))/te)|,real为取实部;

k2=|ee×(wg^2+k1^2)/(e0×(exp(k1×te)

×(k1×sin(wg×te)-wg×cos(wg×te))+wg))|;

根据声门波模型对g0i进行模拟,并根据新的基音周期dpitchmi合成新的声门激励信号ggi;

step7:将新的激励ngi通过声道模型系统函数构成的滤波器,合成各帧语音s0i;

step8:对各帧语音信号s0i叠加,得到相位连续的、变调变嗓音合成语音ss。

上述的对实施例的描述是为便于该技术领域的普通技术人员能理解和使用发明。熟悉本领域技术的人员显然可以容易地对这些实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,不脱离本发明范畴所做出的改进和修改都应该在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1