基于核主成分分析改进Mel滤波器的语音特征提取方法与流程

文档序号:12736603阅读:来源:国知局

技术特征:

1.基于核主成分分析改进Mel滤波器的语音特征提取方法,包括以下步骤:

S1对初始输入语音信号进行数字化采样、预加重和得到预处理语音信号;

S2根据伽马通滤波器计算预处理语音信号的伽马通滤波倒谱系数;

S3对伽马通滤波倒谱系数进行滑动差分处理;

S4根据自相关函数对预处理语音信号进行基音频率提取;

S5根据融合公式对伽马通滤波倒谱系数、滑动差分和基音频率进行特征数据融合;

S6根据核主成分分析对特征数据融合后的语音特征进行降维处理。

2.根据权利要求1所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述预加重的传递函数为:

H(z)=1-a*z-1

其中,a表示预加重的系数,H(z)表示传递函数,z表示函数变量。

3.根据权利要求1所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述分帧加窗处理中采用的加窗函数为:

<mrow> <mi>w</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>0.54</mn> <mo>-</mo> <mn>0.46</mn> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mo>&lsqb;</mo> <mn>2</mn> <mi>&pi;</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>L</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>&rsqb;</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> <mtable> <mtr> <mtd> <mrow> <mn>0</mn> <mo>&le;</mo> <mi>n</mi> <mo>&le;</mo> <mrow> <mo>(</mo> <mi>L</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>n</mi> <mo>=</mo> <mi>e</mi> <mi>l</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mrow>

w(n)表示窗函数,L表示窗函数的长度。

4.根据权利要求1所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述伽马通滤波倒谱系数通过对伽马通滤波系数取对数和离散余弦变换处理得到;其中离散余弦变换的计算公式为:

<mrow> <mi>X</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mfrac> <mn>2</mn> <mi>N</mi> </mfrac> </msqrt> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <mfrac> <msqrt> <mn>2</mn> </msqrt> <mn>2</mn> </mfrac> <mi>x</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mo>&lsqb;</mo> <mfrac> <mrow> <mi>&pi;</mi> <mrow> <mo>(</mo> <mn>2</mn> <mi>n</mi> <mo>+</mo> <mn>1</mn> <mo>)</mo> </mrow> <mi>k</mi> </mrow> <mrow> <mn>2</mn> <mi>N</mi> </mrow> </mfrac> <mo>&rsqb;</mo> <mo>,</mo> <mn>0</mn> <mo>&le;</mo> <mi>k</mi> <mo>&le;</mo> <mi>N</mi> <mo>-</mo> <mn>1</mn> </mrow>

X(k)表示离散余弦变换归一函数,x(n)表示一维语音信号序列,N表示信号序列范围值。

5.根据权利要求1或4所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述伽马通滤波器的时域脉冲响应为:

其中:A为输出增益,M为滤波器阶数,fc是中心频率,是相位,ERB(fc)为等效矩形带宽,t为时间。

6.根据权利要求1所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述滑动差分处理如下:

△C(t)=C(t+d)-C(t-d)=[△c0(t),△c1(t),…,△cN-1(t)]

△C(t+p)=C(t+p+d)-C(t+p-d)

△C[t+(k-1)p]=C[t+(k-1)p+d]-C[t+(k-1)p-d]

将t时刻,t+p时刻一直到t+(k-1)p时刻的一阶差分倒谱系数顺序相连,即为当前帧的滑动差分特征向量:

△GFCC(t)=[△C(t),△C(t+p),…,△C(t+(k-1)p)]

上式中△C(t)表示第t帧语音的一阶差分倒谱系数;△cN-1(t)表示第t帧语音的第N-1个倒谱系数;C(t+d)表示第t+d帧语音的GFCC系数;C(t-d)表示第t-d帧语音的GFCC系数;△C(t+p)表示第t+p帧语音的一阶差分倒谱系数;C(t+p+d)表示第t+p+d帧语音的GFCC系数;C(t+p-d)表示第t+p-d帧语音的GFCC系数;△C[t+(k-1)p]表示第t+(k-1)p帧语音的一阶差分倒谱系数;C[t+(k-1)p+d]表示第t+(k-1)p+d帧语音的GFCC系数;C[t+(k-1)p-d]表示第t+(k-1)p-d帧语音的GFCC系数。

7.根据权利要求1所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述自相关函数为:

<mrow> <msub> <mi>R</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>K</mi> <mo>-</mo> <mi>k</mi> <mo>-</mo> <mn>1</mn> </mrow> </munderover> <msub> <mi>S</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> <msub> <mi>S</mi> <mi>n</mi> </msub> <mrow> <mo>(</mo> <mi>m</mi> <mo>+</mo> <mi>k</mi> <mo>)</mo> </mrow> </mrow>

其中,Sn(m)为加窗后的语音信号,Rn(k)表示自相关函数值,k表示时间的延迟量,K表示语音分帧后每帧的长度。

8.根据权利要求1所述基于核主成分分析改进Mel滤波器的语音特征提取方法,其特征在于:所述特征数据融合为:

<mrow> <mi>S</mi> <mo>=</mo> <mi>&alpha;</mi> <mfrac> <mrow> <msub> <mi>L</mi> <mrow> <mi>G</mi> <mi>F</mi> <mi>C</mi> <mi>C</mi> </mrow> </msub> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <msub> <mi>L</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>k</mi> <mn>1</mn> </msub> </mrow> </mfrac> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> <mfrac> <mrow> <msub> <mi>F</mi> <mrow> <mi>p</mi> <mi>i</mi> <mi>t</mi> <mi>c</mi> <mi>h</mi> </mrow> </msub> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <msub> <mi>F</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>k</mi> <mn>2</mn> </msub> </mrow> </mfrac> </mrow>

其中,LGFCC为伽马通滤波倒谱系数及其滑动差分,Fpitch为被测信号的基音频率,S表示数据融合值,Lmax表示最大似然度之差,α表示权重调节系数,k1、k2均表示拉普普拉斯平滑系数,Fmax表示归一化基音频率参数。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1