一种语音时长规整系统及方法与流程

文档序号:11521426阅读:295来源:国知局
一种语音时长规整系统及方法与流程

本发明涉及一种语音时长规整系统及方法。



背景技术:

语音时长规整是一种通过压缩或者扩展语音长度从而改变语音播放速度的技术。在进行时域压缩或扩展的同时,应尽量保持语音信号的基音频率、音色、语义等特性不变。经过时长规整后的语音听起来就像说话人自己在改变说话速度一样。语音时长规整广泛应用于语音压缩、语言教学、影视制作以及人机交互等领域,研究语音时长规整对现代化及信息化发展意义重大。

专利号为zl200610164672.1的“语音变速的方法”发明专利中提出了一种语音规整方法。该方法包含下列步骤:接收原始语音信号;计算出该原始语音信号的基音周期;依据该基音周期定义搜寻范围;在该原始语音信号的每个该搜寻范围内寻找最大值;依据该最大值将该原始语音信号划分为多个语音区段;依据变速指令对该原始语音信号的每个该语音区段进行变速运算,而取得变速语音信号。该方法在做变速运算时采用波形叠加法,即将各语音区段乘以一比重函数,在变速指令为加速时,两语音区段叠加后取代原两段语音区段,使得变速语音信号短于原语音信号;在变速指令为减速时,两语音区段叠加后插入原两段语音区段之间,使得变速语音信号长于原语音信号。在做变速运算时,将相邻两语音区段乘以比重函数后直接叠加,没有考虑相位连续性问题,影响了输出语音质量。同时,由于各语音区段长度一般并不相同,使得规整比例的精度达不到预期效果。



技术实现要素:

本发明针对现有技术存在的:①在做规整处理时没有考虑相位连续性问题,或者相位连续处理效果不佳,导致输出语音质量较差;②采用波形叠加法,对语音信号统一规整而不考虑其感知特性,导致语音转折区的模糊或者信息丢失,并且在采样率较低或规整比例较大时,输出语音质量严重下降等问题而研发一种语音时长规整系统及方法。具体技术方案如下:

一种语音时长规整系统,其特征在于包括:

对输入的语音信号通过自相关函数法进行基音周期计算的基音周期检测单元;

根据基音周期检测单元获取的基音周期大小,将输入的语音信号进行分帧的分帧单元;

根据基音周期检测单元获取的基音周期大小,通过变速系数计算获取语音规整长度的规整长度计算单元;

根据规整长度计算单元计算出的语音规整长度,对分帧单元获取的各帧信号通过正弦分解法改变各帧信号波形的重复长度的时长规整单元。

还包括:对时长规整单元规整后的语音信号进行信号波形平滑处理的平滑处理单元;

所述平滑处理单元通过渐变法或重叠相加法进行信号波形平滑处理。

基音周期检测单元进行基音检测的过程如下:

定义x(im)为输入语音信号的第im+1个数据,假设x(im)为第m帧信号的第一点,即x(im)点前的语音信号均已分帧完毕;定义长度为n的序列r(n2),0≤n2<n,令r(n2)=x(im+n2-n/2);n为设定值,即n=1440;

计算序列r(n2)的自相关序列r(k):

计算基音周期

其中,rmax是序列r(k)的最大值,max{}表示大括号内数据的最大值;得到rmax对应r(k)后,设此时k值为k,令lm=k+1,其中lm即为基音周期;

分帧单元根据基音周期检测单元获取的基音周期大小,将输入的语音信号进行分帧:

定义序列x_m(n3)为第m帧信号,则x_m(n3)=x(im+n3),0≤n3<lm。

所述:规整单元进行规整的过程如下:

定义变速系数为α,定义第m帧信号x_m(n3)规整后的长度为n_lm,则

其中,lm为x_m(n3)的长度,表示与最接近且小于等于的整数;

使用正弦分解法改变信号波形的重复长度,具体过程如下:

其中,

x′_m(n4)为正弦分解后的第m帧信号,x_m(n3)为规整前的第m帧信号,lm为x_m(n3)的长度;展开项数im需要根据x_m(n3)的特征进行自适应选取,n4的取值范围需要根据相位连续点的位置选取;

展开项数im的自适应选取过程如下:

第m帧信号x_m(n3)的能量为

x_m(n3)经正弦分解后的能量为

其中,a0、ai、bi可分别由式(4)~式(6)求出,i为展开项数变量;s为定值,s′的值随i的增加而增加;

经正弦分解后的信号能量与原信号能量比值为

β值随i的增加而增加;im应取使β满足条件β>0.999999的最小的i值;

寻找相位连续点的过程如下:

定义x_m(pm)为第m帧信号的相位连续点(x_m(pm)为序列x_m(n3)的第pm+1点,pm为其序号且p1=0),则式(3)中n4的取值范围为pm≤n4<pm+n_lm;

首先,计算相位偏离程度:

其中,v(n3)代表第m帧信号x_m(n3)中各点相位与点x′_m-1(n0)相位的偏离程度,点x′_m-1(n0)为经过规整后的第m-1帧信号序列的最后一点;

n0=pm-1+n_lm-1-1(11)

pm-1为第m-1帧信号相位连续点的序号,n_lm-1为第m-1帧信号规整后的长度,lm-1为第m-1帧信号的长度;ai、bi可由式(5)、式(6)求出;ai′、bi′为第m-1帧信号的展开系数

然后,定位搜索相位连续点:

语音信号具有类周期性,相邻两帧信号波形相似,可以利用前一帧信号最后一点的位置来确定后一帧信号相位连续点的大概位置,以减小搜索范围;定义

start′m=(n_lm%lm+pm-1)%lm-λ*lm,end′m=(n_lm%lm+pm-1)%lm+λ*lm

其中,x%y表示x除以y的余数,x,y为不为零的常数;λ为搜索范围系数,取值范围为0≤λ≤0.5,startm、endm分别为第m帧信号相位连续点搜索范围的起始点与结束点;则式(10)中n3的取值范围改为startm≤n3≤endm;

再计算pm:

vmin=min{v(startm),v(startm+1),…,v(endm)}(14)

其中,vmin为序列v(n)的最小值,min{}表示大括号内数据的最小值;

若v(z)=vmin,startm≤z≤endm,则令pm=z;

最后,得到输出序列:

第m帧信号x_m(n3)经过正弦分解后的输出为

第m帧信号x_m(n3)经过时长规整后的实际输出为

y_m(n7)=x′_m(n7+pm),0≤n7<n_lm+u(16)

其中,n7的取值范围多取u点是平滑处理需要,u的取值范围为30≤u≤90。

还包括:平滑处理单元,对于第m帧输出序列,如其在第h(a)点处存在不平滑现象

h(a)=a*lm-pm(17)

其中,a为正整数且a满足条件

其中,δ1=y_m(lm-pm-1)-y_m(lm-pm),δ2=y_m(lm-pm-1)-y_m(lm-pm-2)10≤v≤30。

则经过渐变法处理后的输出信号为

还包括:平滑处理单元,

对于第m帧经渐变法处理后的输出序列,可以改变其前u点数据的值,使其与第m-1帧输出序列间的连接变得平滑,

其中,s_m(n9)为y′_m(n7)的前u个数据经过重叠相加法处理后得到的一个新的序列。y_m-1(n10)为第m-1帧信号经过规整后的输出序列,可由式(15)、式(16)求出;

第m帧信号经过时长规整和平滑处理后的最终输出为

同现有技术相比本发明的优点是显而易见的,具体如下:

1)本发明提出了一种信号正弦分解时展开项数的自适应选取方法,通过当前帧语音信号的特点动态计算展开项数,大幅减少了运算量和噪声,改善了输出语音的质量。

2)本发明利用信号正弦分解后各正弦分量相位偏差的均方和表示两点间的相位偏差,通过比较相位偏差来寻找相位连续点,有效的解决了规整后相邻帧信号相位不连续问题。采用此方法处理的语音信号在采样率较低或规整比例较大时仍具有较高质量。

3)本发明在解决规整后信号相位不连续问题时,采用了一种定位搜索算法寻找相位连续点,大大减小了搜索范围,进而大幅减少了运算量。

附图说明

图1为本发明所述系统的结构框图;

图2为本发明实施例原语音信号波形图;

图3为本发明实施例变速系数α=3.0规整后信号波形图;

图4为本发明实施例变速系数α=0.3规整后信号波形图;

图5为本发明实施例原语音信号细节波形图;

图6为本发明实施例变速系数α=3.0规整后信号细节波形图;

图7为本发明实施例变速系数α=0.3规整后信号细节波形图。

具体实施方式

如图1所示,本发明所述的语音时长规整系统,依据基音周期大小,先对输入语音信号分帧。其次,依据基音周期大小及变速系数计算各帧信号的规整长度,并对各帧信号做时长规整处理。然后,将处理后的各帧信号连接,经过平滑处理即得输出语音信号。

本系统包括:对输入的语音信号通过自相关函数法进行基音周期计算的基音周期检测单元;根据基音周期检测单元获取的基音周期大小,将输入的语音信号进行分帧的分帧单元;根据基音周期检测单元获取的基音周期大小,通过变速系数计算获取语音规整长度的规整长度计算单元;根据规整长度计算单元计算出的语音规整长度,对分帧单元获取的各帧信号通过正弦分解法改变各帧信号波形的重复长度的时长规整单元。

分帧单元是将输入语音信号x(n1)按基音周期大小进行分帧。首先计算基音周期。定义x(im)为输入语音信号的第im+1个数据。假设x(im)为第m帧信号的第一点,即x(im)点前的语音信号均已分帧完毕。定义长度为n的序列r(n2),0≤n2<n,令r(n2)=x(im+n2-n/2)。本发明取n=1440。

1)计算序列r(n2)的自相关序列r(k)

2)计算基音周期

其中,rmax是序列r(k)的最大值,max{}表示大括号内数据的最大值。若r(k)=rmax,0≤k<n/2,则令lm=k+1,其中lm即为基音周期。

定义序列x_m(n3)为第m帧信号,则x_m(n3)=x(im+n3),0≤n3<lm。

时长规整单元

时长规整单元是改变各帧信号波形的重复长度。定义变速系数为α(语音播放速度为原来的α倍,时长为原来的1/α倍),定义第m帧信号x_m(n3)规整后的长度为n_lm,则

其中,lm为x_m(n3)的长度,表示与最接近且小于等于的整数。

本发明使用正弦分解法改变信号波形的重复长度。通常,规整后前后两帧信号连接处会存在相位不连续现象,导致语音失真。为避免这一现象,应在后一帧信号中寻找一相位连续点,使其相位与前一帧信号最后一点的相位最接近,并使用该点作为后一帧信号波形重复的起点。

1)正弦分解法

其中,

x′_m(n4)为正弦分解后的第m帧信号,x_m(n3)为规整前的第m帧信号,lm为x_m(n3)的长度。展开项数im需要根据x_m(n3)的特征进行自适应选取,n4的取值范围需要根据相位连续点的位置选取。

2)展开项数im的自适应选取

第m帧信号x_m(n3)的能量为

x_m(n3)经正弦分解后的能量为

其中,a0、ai、bi可分别由式(4)~式(6)求出,i为展开项数变量。s为定值,s′的值随i的增加而增加。

经正弦分解后的信号能量与原信号能量比值为

β值随i的增加而增加。im应取使β满足条件β>0.999999的最小的i值。

3)寻找相位连续点

定义x_m(pm)为第m帧信号的相位连续点(x_m(pm)为序列x_m(n3)的第pm+1点,pm为其序号且p1=0),则式(3)中n4的取值范围为pm≤n4<pm+n_lm。

(i)计算相位偏离程度

其中,v(n3)代表第m帧信号x_m(n3)中各点相位与点x′_m-1(n0)相位的偏离程度,点

x′_m-1(n0)为经过规整后的第m-1帧信号序列的最后一点。

n0=pm-1+n_lm-1-1(11)

pm-1为第m-1帧信号相位连续点的序号,n_lm-1为第m-1帧信号规整后的长度,lm-1为第m-1帧信号的长度。ai、bi可由式(5)、式(6)求出。a′i、b′i为第m-1帧信号的展开系数

其中,x_m-1(n5)为第m-1帧信号。

(ii)定位搜索相位连续点

语音信号具有类周期性,相邻两帧信号波形相似,可以利用前一帧信号最后一点的位置来确定后一帧信号相位连续点的大概位置,以减小搜索范围。定义

start′m=(n_lm%lm+pm-1)%lm-λ*lm,end′m=(n_lm%lm+pm-1)%lm+λ*lm

其中,x%y表示x除以y的余数,x,y为不为零的常数。λ为搜索范围系数,取值范围为0≤λ≤0.5,startm、endm分别为第m帧信号相位连续点搜索范围的起始点与结束点。则式(10)中n3的取值范围改为startm≤n3≤endm。

(iii)计算pm

vmin=min{v(startm),v(startm+1),…,v(endm)}(14)

其中,vmin为序列v(n)的最小值,min{}表示大括号内数据的最小值。

若v(z)=vmin,startm≤z≤endm,则令pm=z。

4)得到输出序列

第m帧信号x_m(n3)经过正弦分解后的输出为

第m帧信号x_m(n3)经过时长规整后的实际输出为

y_m(n7)=x′_m(n7+pm),0≤n7<n_lm+u(16)

其中,n7的取值范围多取u点是平滑处理需要,u的取值范围为30≤u≤90。

平滑处理单元

平滑处理单元的作用是使输出信号波形平滑,以减小噪声,提高语音质量。一帧信号经过周期延拓生成的信号会存在不平滑现象,可以用渐变法解决。相邻两帧经过规整后的信号波形在其连接处会存在不平滑现象,可以用重叠相加法解决。

1)渐变法

对于第m帧输出序列,其在第h(a)点处存在不平滑现象

h(a)=a*lm-pm(17)

其中,a为正整数且a满足条件

其中,δ1=y_m(lm-pm-1)-y_m(lm-pm),δ2=y_m(lm-pm-1)-y_m(lm-pm-2)

10≤v≤30。

则经过渐变法处理后的输出信号为

2)重叠相加法

对于第m帧经渐变法处理后的输出序列,可以改变其前u点数据的值,使其与第m-1帧输出序列间的连接变得平滑。

其中,s_m(n9)为y′_m(n7)的前u个数据经过重叠相加法处理后得到的一个新的序列。

y_m-1(n10)为第m-1帧信号经过规整后的输出序列,可由式(15)、式(16)求出。

第m帧信号经过时长规整和平滑处理后的最终输出为

实施例:对一段语音信号进行时长规整。其中,采样频率fs取48khz,r(n)序列长度n取1440,搜索范围系数λ取0.1,平滑处理时v取20,u取60,变速系数α分别取3.0和0.3。原语音信号波形如图2所示,α=3.0时规整后信号波形如图3所示,α=0.3时规整后信号波形图如图4所示。经过规整后的语音信号包络与原信号基本一致,清音部分与转折区保留了原语音信号特征,且语音时长精确地依据变速系数变化。为验证规整后语音音调不变,从上述三段语音信号对应位置处取出三段相同长度的细节波形分析比较。原语音信号细节波形如图5所示,α=3.0时规整后信号细节波形如图6所示,α=0.3时规整后信号细节波形图如图7所示。规整后语音信号细节波形与原语音信号细节波形特性基本一致,基音周期基本相同,且波形平滑连续,达到了不变调的效果。最后经主观测试得出结论,规整后的语音信号语义清晰,语调自然,语音质量较高。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1