基于核主成分分析改进Mel滤波器的语音特征提取方法与流程

文档序号:12736603阅读:884来源:国知局

本发明涉及语音信号处理领域,特别是一种改进Mel滤波器的语音特征提取方法。



背景技术:

语音信号的特征提取是对输入语音信号在其含有背景噪声的情况下,提取能够有效表征语音信号的特征参数。它解决了环境噪声恶化情形下语音识别系统的识别性能急剧下降的问题。

在对特征参数选择的问题上,目前主流的研究热点是共振峰频率、线性预测系数(LPC)、线谱对(LSP)、线性预测倒谱系数(LPCC)、基于人耳听觉特性的梅尔倒谱系数(MFCC)、伽马通滤波倒谱系数(GFCC)。在信噪比较高情形时基于MFCC的语音识别结果会受到严重影响,识别率急剧地下降,而GFCC是基于声道模型的特征向量,相比MFCC对于环境噪声的鲁棒性更强。标准的GFCC只反映了语音参数的静态特性,而人耳对语音的动态特性更高敏感,二次特征提取就是对原始的GFCC进行分析处理。运用滑动差分方法,进一步得到隐藏在语音特征背后的特征信息。

基音频率是语音识别系统中最重要的判别依据,反映了语音信号的浊音发声时声带振动的频率,能够有效区分语音信息与噪声信号。基于单一特征的识别率往往受其他因素影响恶劣,因此融合GFCC和基音频率两种特征参数作为语音特征,两种参数体现了不同的语音特性,GFCC利用了人耳听觉的非线性特性,更具有鲁棒性;基音频率体现了不同信号声学特征。

自适应融合特征后的语音信号存在两个问题:一是特征矩阵过大,存在降维计算需要;二是信息之间存在冗余,不利于后续处理。因此利用核主成分分析方法对融合特征数据进行转换降维,降低了计算复杂度,提高了识别的实时性。将核函数和主成分分析两种方法进行结合,通过非线性映射实现输入空间到特征空间的转换,求取其协方差矩阵C及其特征值和特征向量,最后进行主成分抽取。



技术实现要素:

本发明旨在解决现有方法中存在的特征参数鲁棒性低问题,特别提出了一种基于核主成分分析改进Mel滤波器的语音特征提取方法。

为了实现本发明的上述目的,本发明提供了一种基于核主成分分析改进Mel滤波器的语音特征提取方法,包括以下步骤:

S1对初始输入语音信号进行数字化采样、预加重和得到预处理语音信号。

S2根据伽马通滤波器计算预处理语音信号的伽马通滤波倒谱系数。

S3对伽马通滤波倒谱系数进行滑动差分处理。

S4根据自相关函数对预处理语音信号进行基音频率提取。

S5根据融合公式对伽马通滤波倒谱系数、滑动差分和基音频率进行特征数据融合。

S6根据核主成分分析对特征数据融合后的语音特征进行降维处理。

上述方法中预加重的传递函数为:

H(z)=1-a*z-1

其中,a是预加重的系数,在通常情况下,a的值为0.95时处理的语音信号效果较好;H(z)表示传递函数,z表示函数变量。

所述分帧加窗处理中采用的加窗函数为:

w(n)表示窗函数,L表示窗函数的长度。

所述伽马通滤波倒谱系数通过对伽马通滤波系数取对数和离散余弦变换处理得到;其中离散余弦变换的计算公式为:

X(k)表示离散余弦变换归一函数,x(n)表示一维语音信号序列,N表示信号序列范围。

伽马通滤波器的时域脉冲响应为:

其中:A为输出增益,M为滤波器阶数,fc是中心频率,是相位,ERB(fc)为等效矩形带宽,t为时间。

所述滑动差分处理如下:

△C(t)=C(t+d)-C(t-d)=[△c0(t),△c1(t),…,△cN-1(t)]

△C(t+p)=C(t+p+d)-C(t+p-d)

△C[t+(k-1)p]=C[t+(k-1)p+d]-C[t+(k-1)p-d]

将t时刻,t+p时刻一直到t+(k-1)p时刻的一阶差分倒谱系数顺序相连,即为当前帧的滑动差分特征向量:

△GFCC(t)=[△C(t),△C(t+p),…,△C(t+(k-1)p)]

上式中△C(t)表示第t帧语音的一阶差分倒谱系数;△cN-1(t)表示第t帧语音的第N-1个倒谱系数;C(t+d)表示第t+d帧语音的GFCC系数;C(t-d)表示第t-d帧语音的GFCC系数;△C(t+p)表示第t+p帧语音的一阶差分倒谱系数;C(t+p+d)表示第t+p+d帧语音的GFCC系数;C(t+p-d)表示第t+p-d帧语音的GFCC系数;△C[t+(k-1)p]表示第t+(k-1)p帧语音的一阶差分倒谱系数;C[t+(k-1)p+d]表示第t+(k-1)p+d帧语音的GFCC系数;C[t+(k-1)p-d]表示第t+(k-1)p-d帧语音的GFCC系数。d,p,k表示对应的时刻。

所述自相关函数为:

其中,Sn(m)为加窗后的语音信号,Rn(k)表示自相关函数值,k表示时间的延迟量,K表示语音分帧后每帧的长度。

所述特征数据融合为:

其中,LGFCC为伽马通滤波倒谱系数及其滑动差分,Fpitch为被测信号的基音频率,S表示数据融合值,Lmax表示最大似然度之差,α表示权重调节系数,k1表示拉普普拉斯平滑系数,Fmax表示归一化基音频率参数,k2表示拉普拉斯平滑系数。

综上所述,由于采用了上述技术方案,本发明的有益效果是:提高了语音识别的识别精度,改善了语音识别的抗噪性,从而获得更具鲁棒性的特征参数。

附图说明

图1是本发明的流程示意图。

具体实施方式

下面详细介绍本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示具有相同或类似功能的意义。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。

参见图1的流程图,基于核主成分分析改进Mel滤波器的语音特征提取方法包括以下步骤:

S1,对初始输入语音信号数字化采样、预加重和分帧加窗等处理得到预处理后的语音信号,预加重的传递函数为:

H(z)=1-a*z-1

其中,a是预加重的系数,在通常情况下,a的值为0.95时处理的语音信号效果较好。H(z)表示传递函数,z表示函数变量。

加窗函数表达方式为:

w(n)表示窗函数,L表示窗函数的长度。

S2,根据伽马通滤波器特性计算处理后语音信号伽马通滤波倒谱系数特征,伽马通滤波器的时域脉冲响应为:

其中:A为输出增益,M为滤波器阶数,fc是中心频率,是相位,t为时间,ERB(fc)为等效矩形带宽(Equivalent Rectangular Bandwidth,ERB),它决定了脉冲响应的衰减速度,可定义为中心频率fc的函数:

ERB(fc)=24.7+0.108fc

中心频率fc的计算公式为:

其中:fH为滤波器的截止频率,ωi是滤波器重叠因子。

S3,提取伽马通滤波倒谱系数的滑动差分,对伽马通滤波倒谱系数进行滑动差分计算:

△C(t)=C(t+d)-C(t-d)=[△c0(t),△c1(t),…,△cN-1(t)]

△C(t+p)=C(t+p+d)-C(t+p-d)

△C[t+(k-1)p]=C[t+(k-1)p+d]-C[t+(k-1)p-d]

将t时刻,t+p时刻一直到t+(k-1)p时刻的一阶差分倒谱系数顺序相连,即为当前帧的滑动差分特征向量:

△GFCC(t)=[△C(t),△C(t+p),…,△C(t+(k-1)p)]

上式中△C(t)表示第t帧语音的一阶差分倒谱系数;△cN-1(t)表示第t帧语音的第N-1个倒谱系数;C(t+d)表示第t+d帧语音的GFCC系数;C(t-d)表示第t-d帧语音的GFCC系数;△C(t+p)表示第t+p帧语音的一阶差分倒谱系数;C(t+p+d)表示第t+p+d帧语音的GFCC系数;C(t+p-d)表示第t+p-d帧语音的GFCC系数;△C[t+(k-1)p]表示第t+(k-1)p帧语音的一阶差分倒谱系数;C[t+(k-1)p+d]表示第t+(k-1)p+d帧语音的GFCC系数;C[t+(k-1)p-d]表示第t+(k-1)p-d帧语音的GFCC系数。d,p,k表示对应的时刻。

S4,计算完步骤S3中涉及的伽马通滤波倒谱系数及滑动差分之后,还需计算预处理语音信号的基音频率,根据自相关函数对预处理后语音信号提取基音频率:

自相关函数为:

其中,Sn(m)为加窗后的语音信号。Rn(k)表示自相关函数值,k表示时间的延迟量,N表示语音分帧后每帧的长度。

S5,对伽马通滤波倒谱系数、滑动差分和基音频率进行特征数据融合:

其中,LGFCC为伽马通滤波倒谱系数及其滑动差分,Fpitch为被测信号的基音频率。LGFCC表示伽马通滤波倒谱系数作滑动差分后的似然度,S表示数据融合值,Lmax表示最大似然度之差,α表示权重调节系数,k1表示拉普普拉斯平滑系数,Fmax表示归一化基音频率参数,k2表示拉普拉斯平滑系数。

S6,利用核主成分分析对融合特征数据进行转换降维,将输入特征空间RN映射到特征空间F后其协方差矩阵为:

C表示协方差矩阵,M表示特征空间的维度,φ(xj)表示第j个特征映射值,T表示转置运算符号。

C的特征值和特征向量满足:

λ(φ(xk)·V)=(φ(xk)·CV),1≤k≤M

λ表示特征值,V表示特征向量。

输入特征在映射空间向量上的投影为:

Vk表示特征向量,表示标准化系数,φ(x)表示输入特征映射值。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1