一种融合长跨度情感历史的语音情感识别方法

文档序号:2826333阅读:193来源:国知局
一种融合长跨度情感历史的语音情感识别方法
【专利摘要】本发明公开了一种融合长跨度情感历史的语音情感识别方法。该方法包括以下步骤:利用时域和变换域上的不同参数进行端点检测,剔除原始语音序列中的非语音数据,获得待识别语音段数据;将待识别语音段数据切分为独立的语音段数据单元;利用第一支持向量机对语音段数据单元分别进行情感状态初步分类;对情感状态初步分类结果进行加窗,并利用第二支持向量机进行融合,得到融合长跨度情感历史的情感识别结果。本发明在保证对语音信号的局部单元进行高精度分类的同时,又充分利用信号序列的长跨度内的上下文信息,以达到对序列中的每一单元达到最优的分类结果。本发明能够用于语音信号的情感识别,具有实时性好、并能够大幅度提高识别精度等优点。
【专利说明】 ー种融合长跨度情感历史的语音情感识别方法
【技术领域】
[0001]本发明属于语音信号处理领域,具体地涉及ー种融合长跨度情感历史的语音情感识别方法,并以此来提高连续语音情感识别的精度。
【背景技术】
[0002]数十年来,国内外研究人员对语音情感识别进行了大量的研究工作,提出了许多用于情感识别的有效算法。这些方法从处理策略上可以分为基于静态分类器的检测方法和基于动态分类器的检测方法。基于静态分类器的检测方法,多利用支持向量机(SVM)、神经网络、Boosting等,且这类分类器多为判别式模型。由于具有较强的区分能力,因此广泛应用于情感状态识别领域,但这种方法忽略了相邻语音信号的情感状态之间的相互联系,也即忽视了情感历史在分类模型中的关键作用。情感状态是ー个逐渐变化的、平滑的过程,有着很强的上下文相关性,充分考虑情感历史信息将有助于分类精度的提升。基于动态分类器的检测方法大都采用基于隐马尔科夫(HMM)的分类模型,HMM在序列上下文信息建模方面有着突出的优势,因而对于语音信号序列,能够较好的融合序列信号的上下文信息,融合一定的情感历史信息。然而,由于HMM属于生成式分类模型,其分类性能方面不如判別式分类器。同时,其不能进行长跨度的上下文信息建模,也即情感历史的融合范围有限,不能完全反应情感历史信息在情感识别中的关键作用。
[0003]本发明在基于静态分类器分类方法的基础上,为有效利用长跨度的情感状态历史信息,将广泛应用于情感识别领域的支持向量机算法引入,用于对序列中的上下文信息进行长跨度建摸,融合语音信号序列中连续语音信号单元间的情感状态信息,实现连续语音情感信息的分类和识别。

【发明内容】

[0004]为了解决上述连续语音序列的情感信息识别问题,本发明提出ー种融合长跨度情感历史的语音情感识别方法,在本发明的识别过程中,对语音信号的每个单元(如:单词级另Ij)进行逐个识别,完成对语音情感状态的实时检测;在情感信息建模方面,采用的是PAD维度情感模型,在PAD维度空间中,包含愉悦度、激活度和优势度3个维度;在训练语料库中,对语音信号在三个维度上,分别进行人エ标注,获得语音序列每个单元的维度值,由于这些维度值是连续的,在实际检测中,根据每个単元的维度值与训练库所有语料在该维度上的平均值的进行比较,将每个单元在各自维度上的维度值量化为+1、-1两个标签,大于平均值的标签为+1,小于平均值的标签为-1,在三个维度上分別进行正负极性检测。
[0005]本发明提出的ー种融合长跨度情感历史的语音情感识别方法包括以下步骤:
[0006](I)模型第一层将已输入的语音序列切分为独立的単元(如:单词级别、句子级别),并利用支持向量机分类器对这些单元分别进行情感状态的初步识别;
[0007](2)模型第二层完成对每个単元的最終情感状态识别。通过对第一层识别结果加窗,利用支持向量机算法,将此单元向前(包括此单元本身)若干个单元在第一层的情感识别结果加以融合,并最终得到此单元的情感状态信息。重复此步骤以获得每个单元的最终情感状态。
[0008]本发明方法中两层支持向量机相串联的分类模型一方面通过支持向量机相串联,充分利用了支持向量机的强分类能力;另一方面,将广泛用于情感识别领域的支持向量机算法应用于序列上下文信息的融合中,用以融合长跨度的情感状态的历史变化信息。因而,本发明既充分利用了判别式分类器的强分类能力,又考虑了情感状态变化的动态变化特性。本发明具有操作简单、实时性好、识别精度高等优点,是一种用于连续语音情感状态分类和识别的使用技术。
【专利附图】

【附图说明】
[0009]图1是本发明所提出的一种融合长跨度情感历史信息的语音情感识别方法的流程图;
[0010]图2是本发明支持向量机长跨度情感历史融合过程示意图。
【具体实施方式】
[0011]为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
[0012]需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。附图中未绘示或描述的实现方式,为所属【技术领域】中普通技术人员所知的形式。应该指出,所描述的实例仅仅视为说明的目的,而不是对本发明的限制。
[0013]图1是本发明所提出的一种融合长跨度情感历史信息的语音情感识别方法的流程图,如图1所示,所述融合长跨度情感历史的语音情感识别方法包括以下步骤:
[0014]步骤SI,输入待识别的语音序列,并利用时域和变换域上的不同参数进行端点检测,剔除原始语音序列中的非语音数据,获得待识别的语音段数据;
[0015]利用短时能量和短时过零率可以有效的从原始语音序列中检测出静音段数据和宽带噪声;通过分析语音序列数据中各频带能量的比重可以有效的从原始语音序列中检测出周期噪声和冲击性噪声,利用上述各参数就可以有效的从原始语音序列中保留语音数据,剔除非语音数据。
[0016]步骤S2,将所述待识别的语音段数据切分为独立的语音段数据单元;
[0017]在本发明一实施例中,将所述待识别的语音段数据通过采用隐马尔科夫模型的分词或分句方法切分为单词级别、句子级别等独立的语音段数据单元,当然也可以根据其他切分准则切分为其他独立语音段数据单元,比如可以切分为等间隔的独立语音段数据单
J Li ο
[0018]步骤S3,利用第一支持向量机对所述语音段数据单元分别进行情感状态初步分类,并将分类结果使用相应后验概率的形式来表示;
[0019]所述步骤S3进一步包括以下步骤:
[0020]步骤S31,对每个语音段数据单元分别进行特征参数提取;
[0021]在本发明一实施例中,提取的特征参数包括基音频率、共振峰、Mel频率倒谱系数等在语音情感识别中任意常用的声学或韵律特征,但这里的特征参数并不限于上述参数,然后将这些提取得到的特征參数分别表示为固定维数的特征向量,每个特征向量中的各个分量为各相应特征參数的统计值,包括平均值、方差、最大/最小值、变化范围等。
[0022]步骤S32,对于所述步骤S31提取得到的每个语音段数据单元的特征參数,利用支持向量机算法进行分类,以使每个语音段数据单元分别产生针对于每个情感类别的后验概率。
[0023]该步骤进ー步包括以下步骤:
[0024]步骤S321,针对情感空间的三个维度,利用所述第一支持向量机分别训练得到一个分类模型,共得到三个分类模型;
[0025]在这三个分类模型的训练过程中,输入特征均为所述步骤S31提取得到的特征參数,输入的标签为每个语音段数据单元在对应维度上的标签,然后采用二分模式(可以使用线性核),采用最终输出为概率形式的方式进行分类模型的训练。
[0026]步骤S322,将每个语音段数据单元在所述步骤S31提取得到的特征參数送入所述三个分类模型中,从而获得三个情感空间维度上的分类结果,其中每个维度上的分类结果分别包含ー个+1或-1标签,以及对应于标签+1的后验概率和对应于标签-1的后验概率。
[0027]步骤S4,对所述步骤S3得到的情感状态初步分类结果进行加窗,并利用第二支持向量机对所述初步分类结果进行融合,得到融合长跨度情感历史的情感识别結果。
[0028]步骤S4所描述的融合过程如图2所示,图2中,d (t)表示第t个语音段数据单元在所述步骤S3得到的情感状态初步分类结果,对所述初步分类结果施加长度为N的窗,将d (t)、d (t-1) -(Kt-N-1)N个情感状态初步分类结果输入到第二支持向量机中,得到的输出即为第t个语音段数据单`元的最終情感识别结果0 (t)。这里的N代表所融合的情感历史范围,N越大表明融合范围越大。具体应用过程中,N的大小由手工选定。
[0029]所述步骤S4进ー步包括以下步骤:
[0030]步骤S41,针对情感空间的三个维度,利用所述第二支持向量机分别训练得到ー个分类模型,共得到三个分类模型;
[0031]对于某ー个特定维度,将按时间顺序连续N个单元在所述步骤S32所获得的情感类别后验概率作为所述第二支持向量机的输入特征向量,将按时间顺序最后出现的ー个语音段数据单元的实际情感类别标签作为输出,然后采用高斯核或者其他非线性核进行训练,获得所述第二支持向量机的分类模型。
[0032]输入特征比如可以为:
[0033]P (ft I yt=l)、P (ft I yt=-l)、P (ft_! I Yh = D、P (ft-1 I Yt-1=-D、P (ft-2 I yt-2=D、
P (ft-21 yt-2=-1)、...P (ft-k I yt-k=D、P (ft-k I yt-k=-D、...p (ft-N+i I yt-N+i=i)、p (ft-N+i I yt-N+i=-1);
[0034]输入的标签为:yt ;
[0035]其中沖ぴ上片)、?^、=-!)为第t个语音段数据单元在第一支持向量机中的分类結果,也就是上文提到的两个后验概率,P (ft_k I yt_k=l)、P (ft_kI yt_k=-l)为第t个语音段数据序列向前的第k个语音段数据单元的分类结果,也就是说,所述第二支持向量机的输入特征向量共2N维,输入的标签yt为第t个语音単元的真实标签。
[0036]步骤S42,将每个语音段数据单元在所述步骤S32所获得的后验概率作为特征參数分别送入所述步骤S41所得到的三个分类模型中,从而获得所述语音段数据单元在三个情感空间维度上的分类結果。[0037]综上所述,本发明提出一种融合长跨度情感历史的语音情感识别方法,该方法采用两层支持向量机相串联的情感分类模型,该模型融合了长跨度的情感状态变化历史,在充分利用支持向量机强分类能力的同时,使静态分类器支持向量机能够进行长跨度的序列上下文信息建模,因而可用于连续语音的情感分类和识别。本发明在语音情感识别中,强调了长跨度情感状态变化历史的重要性,从而使得情感识别的结果更加准确。
[0038]以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种融合长跨度情感历史的语音情感识别方法,其特征在于,该方法包括以下步骤: 步骤SI,输入待识别的语音序列,并利用时域和变换域上的不同参数进行端点检测,剔除原始语音序列中的非语音数据,获得待识别的语音段数据; 步骤S2,将所述待识别的语音段数据切分为独立的语音段数据单元; 步骤S3,利用第一支持向量机对所述语音段数据单元分别进行情感状态初步分类,并将分类结果使用相应后验概率的形式来表示; 步骤S4,对所述步骤S3得到的情感状态初步分类结果进行加窗,并利用第二支持向量机对所述初步分类结果进行融合,得到融合长跨度情感历史的情感识别结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤SI中剔除原始语音序列中的非语音数据具体为:利用短时能量和短时过零率从原始语音序列中检测出静音段数据和宽带噪声;通过分析语音序列数据中各频带能量的比重从原始语音序列中检测出周期噪声和冲击性噪声,从而从原始语音序列中保留语音数据,剔除非语音数据。
3.根据权利要求1所述的方法,其特征在于,所述独立的语音段数据单元为单词级别独立语音段数据单元、句子级别独立语音段数据单元或等间隔独立语音段数据单元。
4.根据权利要求1所述的方法,其特征在于,所述步骤S3进一步包括以下步骤: 步骤S31,对每个语音段数据单元分别进行特征参数提取; 步骤S32,对于所述步骤S31提取得到的每个语音段数据单元的特征参数,利用支持向量机算法进行分类,以使每个语音段数据单元分别产生针对于每个情感类别的后验概率。
5.根据权利要求4所述的方法,其特征在于,所述步骤S32进一步包括以下步骤: 步骤S321,针对情感空间的三个维度,利用所述第一支持向量机分别训练得到一个分类模型,共得到三个分类模型; 步骤S322,将每个语音段数据单元在所述步骤S31提取得到的特征参数送入所述三个分类模型中,从而获得三个情感空间维度上的分类结果,其中每个维度上的分类结果分别包含一个标签,以及对应于该标签的后验概率。
6.根据权利要求4所述的方法,其特征在于,所述步骤S4进一步包括以下步骤: 步骤S41,针对情感空间的三个维度,利用所述第二支持向量机分别训练得到一个分类模型,共得到三个分类模型; 步骤S42,将每个语音段数据单元在所述步骤S32所获得的后验概率作为特征参数分别送入所述步骤S41所得到的三个分类模型中,从而获得所述语音段数据单元在三个情感空间维度上的分类结果。
7.根据权利要求4所述的方法,其特征在于,对于所述第一支持向量机,输入特征为所述步骤S31提取得到的特征参数,输入的标签为每个语音段数据单元在对应维度上的标签,输出为针对于每个情感类别的后验概率;对于所述第二支持向量机,输入特征向量为按时间顺序连续N个单元在所述步骤S32所获得的情感类别后验概率,输出为按时间顺序最后出现的一个语音段数据单元的实际情感类别标签。
【文档编号】G10L15/06GK103531207SQ201310481318
【公开日】2014年1月22日 申请日期:2013年10月15日 优先权日:2013年10月15日
【发明者】陶建华, 杨明浩, 巢林林 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1