一种基于半监督特征选择的语音情感识别方法

文档序号：2827502阅读：540来源：国知局

一种基于半监督特征选择的语音情感识别方法
【专利摘要】本发明公开了一种基于半监督特征选择的语音情感识别方法，该方法针对每个说话人训练一个特定的分类器，可以很好的减小由于说话人之间的不同对语音情感识别造成的负面影响。训练步骤如下：提取有标签样本和某一说话人的无标签样本的特征，使用多个统计函数获得所有特征的统计结果，再执行归一化算法；然后使用半监督特征选择算法选择能够突出该测试说话人语音情感的特征，该半监督特征选择算法能够同时考虑数据的流形结构，数据的类别结构，以及利用该测试说话人的无标签数据所提供的信息；最后使用支持向量机训练该测试说话人的语音情感识别的分类器。本发明在用于说话人归一化算法的样本数量较少时也能获得较高的识别精度。
【专利说明】一种基于半监督特征选择的语音情感识别方法【技术领域】
[0001]本发明涉及语音信号处理和模式识别研究领域，特别涉及一种基于半监督特征选择的语音情感识别方法。
【背景技术】
[0002]随着信息技术的不断发展，社会发展对情感计算提出了更高的要求。例如在人机交互方面，一个拥有情感能力的计算机能够对人类情感进行获取、分类、识别和响应，进而帮助使用者获得高效而又亲切的感觉，并能有效减轻人们使用电脑的挫败感，甚至能帮助人们理解自己和他人的情感世界。例如采用此类技术探测驾驶司机的精力是否集中、感受到的压力水平等，并做出相应反应。此外，情感计算还能应用在机器人、智能玩具、游戏、电子商务等相关产业中，以构筑更加拟人化的风格和更加逼真的场景。情感也反映了人类的心理健康情况，情感计算的应用可以有效地帮助人们避免不良情绪，保持乐观健康的心理。
[0003]人的面部表情、语音、生理指标等都能在一定程度上反映人类的情感。目前使用在语音情感识别中的特征选择方法有很多，广泛使用的是顺序前进特征选择方法(Sequential Forward Feature Selection)。但是顺序前进特征选择方法是一种贪心算法，其忽略了数据的流形结构和无标签样本提供的信息。然而数据的流形结构和无标签样本提供的信息对语音情感识别有非常重要的作用。首先数据的流行结构对语音情感识别有非常重要的作用，这是因为说话人之间的差异性比较大，并且待识别情感的人的有标签样本很难出现在训练数据中，如果在特征选择算法中只考虑数据的类别结构进行特征选择，那么选择的特征会过拟合训练数据而对新的测试样本识别能力不强。其次待识别情感的人的无标签样本提供的信息也有非常重要的作用，同样因为说话人之间的差异性比较大，如果仅仅依靠训练样本的流形结构指导特征选择，可能导致特征选择的结果与能够突出待识别情感说话人的特征有较大差异。
[0004]另外，语音数据的流形结构主要受到以下三个因素的影响:情感、说话人、语句，并且说话人对语音数据流形结构的影响非常严重，所以仅仅考虑了数据流形结构的特征选择算法不能直接应用于语音情感识别。
[0005]为此，提出一种能够考虑语音数据的流形结构、但是能减小说话人对语音数据流形结构影响的特征选择方法具有很高的研究价值。

【发明内容】

[0006]本发明的主要目的在于克服现有技术的缺点与不足，提出一种基于半监督特征选择的语音情感识别方法，该方法利用待识别情感说话人的无标签样本提供的说话人信息和流形结构信息，能够很好的减少说话人之间的不同对语音情感识别造成的负面影响，同时能够保持数据的流形结构和类别结构，使得特征选择结果对新说话人的情感有较好的识别能力。 [0007]本发明的目的通过以下的技术方案实现:一种基于半监督特征选择的语音情感识别方法，包括步骤:
[0008](I)训练阶段:
[0009](1-1)提取所有有标签样本的语音信号特征以及某一待识别情感说话人的无标签样本的语音信号特征；
[0010](1-2)对所有特征执行特征统计；
[0011](1-3)对所有的特征统计结果执行归一化算法；
[0012](1-4)使用半监督特征选择算法突出该待识别情感说话人语音情感变化的特征，得到特征选择向量；
[0013](1-5)使用特征选择结果训练针对该待识别情感说话人的语音情感分类器；
[0014](1-6)所有需识别情感的说话人均按照上述步骤(1-1)— (1-5)得到对应的分类器；
[0015](2)识别阶段:提取待识别样本的语音信号特征，对特征进行特征统计，对特征统计结果执行归一化算法，然后根据步骤(1-4)得到的特征选择向量计算特征选择结果，然后将特征选择结果代入步骤(1-6)得到的该说话人对应的分类器，即获得待识别样本的情感类别。
[0016]具体的，所述步骤(1-1)中，提取语音信号特征包括:MFCC(Mel FrequencyCepstrum Coefficient, Mel 频率倒谱系数)、LFPC (Log Frequency Power Coefficients,对数频率功率系数)、LPCC(Linear Predictive Cepstral Coding,线性预测倒谱系数)、ZCPA(Zero Crossing with Peak Amplitude,过零峰值幅度)、PLP(Perceptual LinearPredictive,感知线性预测)、R-PLP (Rasta Perceptual Linear Predictiv,拉斯塔滤波器感知线性预测)，每类特征的特征提取结果均为二维矩阵，其中一个维度为时间维度；然后计算每类特征Fi在时间维度上的一阶导数AF1、二阶导数Λ AFi，并将原始特征、一阶导数结果、二阶导数结果在非时间维度上串接，形成每一类特征的最终特征提取结果；将上述所有类的特征的最终特征提取结果在非时间维度上串接即为该样本的特征提取结果。
[0017]具体的，所述步骤(1-2)中对特征进行特征统计为:获得特征在时间维度上的均值、标准方差、最小值、最大值、峭度、偏度等统计结果，有标签样本的特征统计结果记为Ix1, χ2，...，χη}，待识别情感说话人的无标签训练样本的特征统计结果记为{xn+i, xn+2,...，xn+m}，其中η为训练样本的个数，m为某一说话人无标签样本的个数。
[0018]具体的，所述步骤(1-3)对特征统计结果进行归一化的步骤如下:
[0019](1-3-1)对步骤(1-2)中得到的所有特征统计结果Ix1, X2, , xn+ffl}分别使用下式进行初步归一化:
【权利要求】
1.一种基于半监督特征选择的语音情感识别方法，其特征在于，包括步骤: (1)训练阶段: (1-1)提取所有有标签样本的语音信号特征以及某一待识别情感说话人的无标签样本的语音信号特征； (1-2)对所有特征执行特征统计； (1-3)对所有的特征统计结果执行归一化算法； (1-4)使用半监督特征选择算法突出该待识别情感说话人语音情感变化的特征，得到特征选择向量； (1-5)使用特征选择结果训练针对该待识别情感说话人的语音情感分类器； (1-6)所有需识别情感的说话人均按照上述步骤(1-1)一(1-5)得到对应的分类器； (2)识别阶段:提取待识别样本的语音信号特征，对特征进行特征统计，对特征统计结果执行归一化算法，然后根据步骤(1-4)得到的特征选择向量计算特征选择结果，然后将特征选择结果代入步骤(1-6)得到的该说话人对应的分类器，即获得待识别样本的情感类别。
2.根据权利要求1所述的基于半监督特征选择的语音情感识别方法，其特征在于，所述步骤(1-1)中，提取语音信号特征包括:MFCC、LFPC、LPCC、ZCPA、PLP、R-PLP，每类特征的特征提取结果均为二维矩阵，其中一个维度为时间维度；然后计算每类特征Fi在时间维度上的一阶导数AF1、二阶导数Λ AFi，并将原始特征、一阶导数结果、二阶导数结果在非时间维度上串接，形成每一类特征的最终特征提取结果；将上述所有类的特征的最终特征提取结果在非时间维度上串接即为该样本的特征提取结果。
3.根据权利要求1所述的基于半监督特征选择的语音情感识别方法，其特征在于，所述步骤(1-2)中对特征进行特征统计为:获得特征在时间维度上的均值、标准方差、最小值、最大值、峭度、偏度统计结果，有标签样本的特征统计结果记为Ix1, X2,, xj，待识别情感说话人的无标签训练样本的特征统计结果记为lxn+1，xn+2,...，xn+m}，其中η为训练样本的个数，m为某一说话人无标签样本的个数。
4.根据权利要求3所述的基于半监督特征选择的语音情感识别方法，其特征在于，所述步骤(1-3)对特征统计结果进行归一化的步骤如下: (1-3-1)对步骤(1-2)中得到的所有特征统计结果Ix1, X2,, xn+ffl}分别使用下式进行初步归一化:
5.根据权利要求4所述的基于半监督特征选择的语音情感识别方法，其特征在于，所述步骤(1-4)中，半监督特征选择算法步骤如下: (1-4-1)使用下式定义样本之间的关系:
【文档编号】G10L25/63GK104008754SQ201410216935
【公开日】2014年8月27日申请日期:2014年5月21日优先权日:2014年5月21日
【发明者】文贵华, 孙亚新申请人:华南理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：文贵华;孙亚新
技术所有人：华南理工大学
我是此专利的发明人

上一篇：一种语音活动检测方法及装置制造方法
上一篇：信号处理装置和信号处理方法以及解码器和解码方法