一种基于核半监督判别分析的语音情感识别方法

文档序号:2826397阅读:631来源:国知局
一种基于核半监督判别分析的语音情感识别方法
【专利摘要】本发明公开了一种基于核半监督判别分析的语音情感识别方法,对经预处理的语音样本中语音情感特征提取后,进行特征筛选、KSDA维数约简和分类。在训练阶段,对全监督训练样本集使用KSDA进行维数约简,将表示训练样本不同关系信息的嵌入图结合起来,并使用核化数据映射,实现对语音情感特征维数约简的优化,再用低维样本训练多类SVM分类器;在测试阶段,依次使用训练阶段特征筛选得到的特征及维数约简得到的数据映射方式,对各测试样本获取其低维特征,再使用训练得到的分类器进行分类判决,得到测试样本的类别。与现有方法相比,本发明的方法在语音情感特征维数约简中增加了降维的有效性,使语音情感识别系统的识别率性能得到了提升。
【专利说明】—种基于核半监督判别分析的语音情感识别方法
【技术领域】
[0001]本发明属于语音情感识别领域,特别是涉及一种基于核半监督判别分析的语音情感识别方法。
【背景技术】
[0002]语音情感识别(Speech Emotion Recognition,简称SER,)涉及到语音信号处理、模式识别、机器学习以及心理学等交叉学科,目前已成为了一个得到了较多关注的领域。大量算法被提出用于语音情感识别,并经过实验验证了其有效性。常用的标准数据库包括柏林(Berlin)语音情感库、AIBO数据库、SUSAS语料库等,所涉及到的基本情感类型包括平静、恐惧、生气、愉悦、烦躁、惊讶等。
[0003]在人机交互(HMI)中,机器需要根据交流对象的语音信号,经过处理之后提取出信号样本的情感特征,进行语音情感类型的识别,根据识别的结果给出相应的反应策略;同样,机器也可以根据各类样本特征分析的结果,自动生成带某种情感成分的语音信号,从而提高人机交互系统的性能。在航天员培训训练过程中及航天器在轨阶段,语音情感识别也具有重要的意义,可以及时检测出负面情感,从而尽早进行干预和情绪疏导,排除由负面情绪所带来的安全隐患。此外,在呼叫中心、儿童的心理疾病诊疗等方面语音情感识别方法同样能够为相关人员提供一定的初步诊断筛选依据。
[0004]目前很多语音情感识别算法都是基于原始特征直接通过分类器进行分类识别,常用的分类器如高斯混合模型(GMM)、隐马尔可夫模型(HMM)、支持向量机(SVM)等,虽然能取得一些效果,但由于语音情感原始特征的维数一般较高,而且原始特征中一般会含有一些对情感分类无用的特征,所以对普通的语音情感样本的准确分类存在着较大的局限性。
[0005]传统的语音情感识别方法还采用了一些特征筛选的措施,但由于缺乏对原始特征的线性或非线性变换,语音情感的维数仍然太高,所以仍无法提供较为准确的语音情感特征。当前的研究成果中,流形学习算法已经成为模式识别与机器学习中的维数约简常用方法。常见的基本流形学习算法包括局部线性嵌入(Locally Linear Embedding,简称LLE)、等距线性映射(Isomap)、局部保持投影(Locally Preserve Pro jection,简称LPP)和随机近邻嵌入(Stochastic Neighbor Embedding,简称SNE)等。其中很多流形学习算法都与判别分析、瑞利(Rayleigh)商、谱图学习等相关算法具有密切联系。
[0006]较多的心理学研究表明,语音情感空间具有较低的维度,目前以三维及多维情绪空间理论为主,这为流形学习算法在语音情感识别中应用提供了依据,即语音情感空间在利用流行学习算法将其降到较低维度时仍然能保持并加强对于样本情绪的表达。
[0007]但是,在当前的研究成果中还存在下列问题:大部分方法都是直接基于基本的流形学习算法如 LLE、Isomap、LPP、边界 Fisher 分析(Marginal Fisher Analysis,简称 MFA)等,或是主成分分析(Principal Component Analysis,简称PCA)、线性判别分析(LinerDiscriminant Analysis,简称LDA)等简单的维数约简算法及其不同的数据映射形式,无论是基本的流行学习算法还是简单的维数约减算法都仅仅使用单一的嵌入图及其相似模型的学习,而忽略了对于嵌入图的优化。由于一个嵌入图反映了训练样本的某种方面的关系,就必然会忽略其他方面的特性,所以单一的嵌入图并不能完全反映训练样本的特征空间结构,造成语音情感的识别效果不佳。

【发明内容】

[0008]要解决的技术问题:针对现有技术的不足,本发明提供一种基于核半监督判别分析的语音情感识别方法,解决现有技术中语音情感的维数较高,无法提供较为准确的语音情感特征;基本的流行学习算法中仅利用单一嵌入图及其相似模型进行学习时不能完全反应训练样本的特征空间结构导致语音情感识别率低的技术问题。
[0009]技术方案:为解决上述技术问题,本发明采用以下技术方案:
[0010]一种基于核半监督判别分析的语音情感识别方法,将语音情感数据库中若干个语音样本任意划分为训练样本集和测试样本集,包括顺序执行的以下步骤:
[0011]步骤一,语音样本预处理:对语音样本进行预加重,然后对预加重后的语音样本的时域信号进行分帧;
[0012]步骤二,语音情感特征提取:提取经步骤一处理后的每个语音样本中的语音情感特征,按照提取方式的不同分为能量、基音、过零率、时长、共振峰和Mel频率倒谱系数(MelFrequency Cepstrum Coefficient,简称MFCC)共6大类语音情感特征组成每个语音样本的原始语音情感特征向量,其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围;对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量;
[0013]步骤三,特征筛选:对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选,去除规整化语音情感特征向量中对语音情感分析贡献较小的特征,得到每个语音样本的特征筛选后语音情感特征向量;
[0014]步骤四,基于核半监督判别分析KSDA的特征维数约简:对经步骤三特征筛选后得到的训练样本的特征筛选后语音情感特征向量集X = [X1, X2,, χΝ]使用KSDA对X进行维数约简训练,生成核方法的降维映射阵A,同时求解得到X的低维样本集ATK,Gram阵K选用Gauss核函数;
[0015]步骤五,训练两类SVM分类器:对训练样本中的N个分属于N。个种类的语音样本,取每两类组合训练得到I个两类SVM分类器,共得到N。(Nc-1) /2个两类SVM分类器;
[0016]步骤六,测试:利用经步骤五训练完成的SVM分类器每个测试样本进行测试,具体包括顺序执行的以下步骤:
[0017](I)对经步骤三得到的每个测试样本的特征筛选后语音情感特征向量使用核方法的降维映射阵A进行维数约简,得到Χ'1经过维数约简后的低维样本为ΑτΚρ对于一个
测试样本
【权利要求】
1.一种基于核半监督判别分析的语音情感识别方法,其特征在于:将语音情感数据库中若干个语音样本任意划分为训练样本集和测试样本集,包括顺序执行的以下步骤: 步骤一,语音样本预处理:对语音样本进行预加重,然后对预加重后的语音样本的时域信号进行分帧; 步骤二,语音情感特征提取:提取经步骤一处理后的每个语音样本中的语音情感特征,按照提取方式的不同分为能量、基音、过零率、时长、共振峰和Mel频率倒谱系数共6大类语音情感特征组成每个语音样本的原始语音情感特征向量;对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量; 步骤三,特征筛选:对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选,去除规整化语音情感特征向量中对语音情感分析贡献较小的特征,得到每个语音样本的特征筛选后语音情感特征向量; 步骤四,基于KSDA的特征维数约简:对经步骤三特征筛选后得到的训练样本的特征筛选后语音情感特征向量集X = [X1, X2,, xN]使用KSDA对X进行维数约简训练,生成核方法的降维映射阵A,同时求解得到X的低维样本集ATK, Gram阵K选用Gauss核函数; 步骤五,训练两类SVM分类器:假设训练样本集中有N个分属于N。个种类的语音样本,在训练样本集中任取两个种类的语音样本,进行组合训练得到I个两类SVM分类器,共得到Nc (Nc-1) /2个两类SVM分类器; 步骤六,测试:利用经步骤五训练完成的SVM分类器每个测试样本进行测试,具体包括顺序执行的以下步骤: (1)对经步骤三得到的每个测试样本Xfif的特征筛选后语音情感特征向量使用核方法的降维映射阵A进行维数约简,得到xitest经过维数约简后的低维样本为ATKi对于一个测试样本
2.根据权利要求1所述的一种基于核半监督判别分析的语音情感识别方法,其特征在于:步骤二中原始语音情感特征向量中的语音情感特征分布如下: 1-80维:能量序列的统计特征和一阶、二阶抖动;能量一阶、二阶差分序列的统计特征;三个不同频带内的能量序列及其一阶、二阶差分序列分别的统计特征;三个不同频带内能量序列的一阶、二阶抖动; 81-101维:基音序列的统计特征和一阶、二阶抖动;基音一阶、二阶差分序列的统计特征;基首序列斜率;102-121维:过零率序列及其一阶、二阶差分序列的统计特征; 122-130维:浊音帧数与清音帧数的比;浊音段数与清音段数的比;浊、清音最长段的帧数;浊、清音帧数和段数;语速; 131-250维:共振峰频率序列、带宽序列及其一阶、二阶差分序列的统计特征;共振峰频率序列的一阶、二阶抖动; 251-406维:MFCC及其一阶差分序列的统计特征; 其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围。
3.根据权利要求1所述的一种基于核半监督判别分析的语音情感识别方法,其特征在于:步骤二中的规整化处理的方法如下: 规整化前的所有语音样本中的任一样本为x(°),其中N个训练样本组成的训练样本集为 Xw ?'xf》,,.,,#)],设为jf)的第 j 个特征元素(i = I, 2,..., N); 对于任一语音样本x(°),特征j对应元素Λ:的规整化处理的计算公式为:
4.根据权利要求3所述的一种基于核半监督判别分析的语音情感识别方法,其特征在于:步骤三中所述特征筛选的方法如下: 任一语音样本规整化语音情感特征向量yl] =中属于特征j的FDR值的计算公式为: 其中,Mv/、分别为训练样本的规整化语音情感特征向量集χα)中特征j分属于C1, Ck类样本的均值,S;s1、《丨分别为训练样本的规整化语音情感特征向量集Χω中特征j分属于Cl、Ck类样本的方差,Nc为情感的类数;去除100~150个较小J(j)值对应的特征j,得到训练样本的特征筛选后语音情感特征向量集X = [X1, X2,, xN]和每个测试样本的特征筛选后语音情感特征向量D
5.根据权利要求1所述的一种基于核半监督判别分析的语音情感识别方法,其特征在于:维数约简训练时,KSDA的图嵌入的优化形式为:
6.根据权利要求5所述的一种基于核半监督判别分析的语音情感识别方法,其特征在于:所述5折交叉验证的方法为: 将训练样本集平均分为五份子集,每次交叉验证时将训练样本集中的四份子集合并划分为验证训练样本集,取剩下的一份子集作为验证测试样本集,用于对验证训练样本集进行测试,依次经过步骤四、步骤五和步骤六对于5折交叉验证中所有5种分割情况进行训练和测试,得到所取的每个权重参数τ值对应的验证测试样 本集中的语音样本的平均识别率,反向验证得到较优识别率对应的权重参数τ。
【文档编号】G10L25/63GK103544963SQ201310549224
【公开日】2014年1月29日 申请日期:2013年11月7日 优先权日:2013年11月7日
【发明者】郑文明, 徐新洲, 赵力, 魏昕, 余华, 黄程韦, 刘健刚 申请人:东南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1