一种基于说话人惩罚的独立于说话人语音情感识别方法

文档序号：2827323阅读：317来源：国知局

一种基于说话人惩罚的独立于说话人语音情感识别方法
【专利摘要】本发明公开了一种基于说话人惩罚的独立于说话人语音情感识别方法，对语音信号样本依次进行预处理、语音情感原始特征提取、维数约简、分类器分类判决。其中在维数约简阶段，使用了基于说话人惩罚的图嵌入学习方法，利用说话人标签信息，分别针对属于同一类情感类别但说话人不同，以及属于同一说话人但分属于不同情感类别的语音信号样本对，在图嵌入理论的基础上利用已有理论，进行组合优化运算。与现有方法相比，本发明的方法在独立于说话人的语音情感识别中，能够有效地提升系统的识别性能。
【专利说明】一种基于说话人惩罚的独立于说话人语音情感识别方法
【技术领域】
[0001]本发明属于语音情感识别领域，特别是涉及一种基于说话人惩罚的独立于说话人语音情感识别方法。
【背景技术】
[0002]随着应用需求不断增加,语音情感识别(Speech Emotion Recognition,简称SER)的研究近年来得到了较大的发展。语音情感识别的成果可以应用于呼叫中心语料的自动分析处理，以及人机交互(Human-Machine Interaction,简称HMI)等诸多领域，以获取语音情感信息的自动分析识别，实现机器的智能化。基于上述的需求，为了取得更高的系统性能，目前已有了大量集中在语音情感识别方面的研究工作。然而，大量已有的工作都是对如何利用专家知识或是实验经验，选取有效的语音情感特征的研究，这些研究忽略了系统对样本变化的自适应性，从而并不具有很好的可移植性。而且语音情感原始特征一般都含有着大量的冗余信息。
[0003]独立于说话人的语音情感识别工作则在语音情感识别系统的训练和测试阶段分别使用完全不同的说话人语料样本，使得算法的训练和测试阶段基于不同的说话人信息。从而提高了算法的实用性，但却同时加大了算法实现语音情感识别的难度。
[0004]维数约简作为模式识别与机器学习中一个重要的环节，不仅对特征的提取、压缩、传输以及有效地减小后续模块中的计算量有着重要的意义，还能够显著地提高整个系统的识别性能。流形学习方法常用于识别工作的维数约简阶段，可以体现出训练数据集的本征结构。目前常用的基于图学习的流形学习方法有多种，如局部保持投影(LocalityPreserving Pro jection)、局部线性嵌入(Locally Linear Embedding,简称 LLE)、扩散映射(Diffusion Maps,简称 DM)、Isomap、边界 Fisher 分析(Marginal Fisher Analysis,简称MFA)等。此外,还有主成分分析(Principal Component Analysis,简称PCA)、线性判别分析(Liner Discriminant Analysis,简称 LDA)、局部判别嵌入(Local DiscriminantEmbedding，简称LDE)等可以转化为图学习形式的子空间学习算法。上述这些算法都可以表示为统一的图嵌入框架、最小均方框架及其各类扩展形式。
[0005]当前的研究中还存在着以下问题:由于在提取语音情感原始特征时包含了大量的说话人特征，所以不同说话人的存在对语音识别的效果有着较大的影响，尤其是独立于说话人语音情感识别时对系统的影响更为明显。而目前的语音情感识别主要针对不同说话人的情况，所以减轻不同说话人对识别的影响有着重要的意义。在此基础上，大量的研究工作基于经验性的实验结论来去除说话人特征的影响，但这些成果对于不同环境下的自适应性同样不够理想。本发明正是基于这些缺陷，对语音情感识别系统，尤其是独立于说话人条件下的语音情感识别，进行了一系列改进，使其对不同说话人所带来的影响具有一定的鲁棒性。

【发明内容】
[0006]要解决的技术问题:针对现有技术的不足，本发明提出一种基于说话人惩罚的独立于说话人语音情感识别方法，即说话人惩罚图学习(Speaker Penalty Graph Learning,简称SPGL)，具体包括线性说话人惩罚图学习算法(简称LSPGL)和核说话人惩罚图学习算法(简称KSPGL)，解决现有技术中语音情感特征受不同说话人影响较大；并且存在语音情感的维数较高，不适于特征的压缩、传输，不利于系统的识别性能；同时传统的独立于说话人语音情感识别算法可移植性较差的技术问题。
[0007]技术方案:为解决上述技术问题，本发明采用以下技术方案:
[0008]一种基于说话人惩罚的独立于说话人语音情感识别方法，将语音情感数据库中若干个语音样本按照不同说话人划分为训练样本集和测试样本集，且训练集中任一样本所属的说话人在测试集中不出现，其中每个语音样本均具有语音情感标签信息和说话人标签信息，包括顺序执行的以下步骤:
[0009]步骤一，语音样本预处理:对语音样本进行预加重，然后对预加重后的语音样本的时域信号进行分帧；
[0010]步骤二，语音情感特征提取:对经步骤一处理后的每个语音样本，分别提取其能量、基音、过零率、时长、共振峰和Mel频率倒谱系数共6大类语音情感特征组成每个语音样本的原始语音情感特征向量；对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量；
[0011]步骤三，特征筛选:使用训练样本语音情感标签信息，对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选，去除规整化语音情感特征向量中对语音情感分析贡献较小的特征，得到每个语音样本的特征筛选后语音情感特征向量；
[0012]步骤四，基于说话人惩罚的特征维数约简:设经步骤三特征筛选得到训练样本特征筛选后语音情感特征向量集X = [X1, X2,, χΝ]，利用训练样本的语音情感标签信息和说话人标签信息，采用本发明提出的LSPGL算法或KSPGL算法对X进行维数约简训练，生成LSPGL算法对应的线性降维投影矩阵A或KSPGL算法对应的核方法降维映射阵P，同时分别求解得到X的线性映射低维样本集AtX或核映射低维样本集PTK，其中K为训练样本集的Gram阵,选用Gauss核函数；
[0013]步骤五，训练分类器:对多类SVM分类器进行训练或直接选取INN分类器；其中多类SVM分类器进行训练的方法为:设训练样本集中有N个分属于N。个种类的语音样本，在训练样本集中任取两个种类的语音样本，进行训练得到I个两类SVM分类器，每两类重复该训练过程，共得到N。(Nc-1) /2个两类SVM分类器；
[0014]步骤六，测试:对于每个测试样本，使用经步骤五训练完成的分类器对每个测试样本进行测试，具体包括顺序执行的以下步骤:
[0015](I)对经步骤三得到的每个测试样本Xi的特征筛选后语音情感特征向量使用
线性降维投影矩阵A或核方法降维映射阵P进行维数约简，得到Xfsi经过线性维数约简
后的低维样本或经过核方法维数约简后的低维样本PtK1，对于一个测试样本
K = [K(Xi;^,Xl), K(x^sl,X1),..., K{x'；'s',Xv)]T , Gram 阵 K 中的核函数选用步骤四中所述tfj Lrauss 核函数；[0016](2)使用分类器对或Ρ%进行分类，选择多类SVM分类器或者INN分类器进行分类:
[0017]利用多类SVM分类器分类的方法为:将每个测试样本的低维样本或Ρ%经
所有得到的两类SVM分类器分类之后得到N。(凡-1)/2个判断结果，得票最多的判断结果即判决为对应的测试样本所属的情感类别；若出现相同最多票数，则仅选择由最多票数所对应的情感类别两两组成的两类SVM分类器重新对该测试样本的低维样本进行判断，得到新一轮判断结果，上述方法依次递减两类SVM分类器的个数直到得到一个唯一的最多票数即判决为对应测试样本所属的情感类别；如一个测试样本的低维样本按此过程仍有相同最大票数的类别判决时，则在这几类中随机决定对应测试样本的类别；
[0018]利用INN分类器分类的方法为:对于每一个测试样本，在全体训练样本中找到与其欧式距离最近的训练样本，使用该训练样本对应的类别标签作为该测试样本的分类判决结果。
[0019]进一步的,在本发明中，步骤二中原始语音情感特征向量中的语音情感特征分布如下:
[0020]1-80维:能量序列的统计特征和一阶、二阶抖动；能量一阶、二阶差分序列的统计特征；三个不同频带内的能量序列及其一阶、二阶差分序列分别的统计特征；三个不同频带内能量序列的一阶、二阶抖动；
[0021]81-101维:基音序列的统计特征和一阶、二阶抖动；基音一阶、二阶差分序列的统计特征；基首序列斜率；
[0022]102-121维:过零率序列及其一阶、二阶差分序列的统计特征；
[0023]122-130维:浊音帧数与清音帧数的比；浊音段数与清音段数的比；浊、清音最长段的帧数；浊、清音帧数和段数；语速；
[0024]131-250维:共振峰频率序列、带宽序列及其一阶、二阶差分序列的统计特征；共振峰频率序列的一阶、二阶抖动；
[0025]251-406维:MFCC及其一阶差分序列的统计特征；
[0026]其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围。
[0027]进一步的，在本发明中，步骤二中的规整化处理的方法如下:
[0028]规整化前的所有语音样本中的任一样本为x(°)，其中N个训练样本组成的训练样
本集为Xw =[χ ，#，...，4°)]，设4°)为的第j个特征元素(i = 1，2，…，N);
[0029]对于任一语音样本x(°)，特征j对应元素X:的规整化处理的计算公式为:
【权利要求】
1.一种基于说话人惩罚的独立于说话人语音情感识别方法，其特征在于: 将语音情感数据库中若干个语音样本按照不同说话人划分为训练样本集和测试样本集，且训练集中任一样本所属的说话人在测试集中不出现，其中每个语音样本均具有语音情感标签信息和说话人标签信息，包括顺序执行的以下步骤: 步骤一，语音样本预处理:对语音样本进行预加重，然后对预加重后的语音样本的时域信号进行分帧；步骤二，语音情感特征提取:对经步骤一处理后的每个语音样本，分别提取其能量、基音、过零率、时长、共振峰和Mel频率倒谱系数共6大类语音情感特征组成每个语音样本的原始语音情感特征向量；对所述6大类语音情感特征的每一维特征进行规整化处理后组成每个语音样本的规整化语音情感特征向量；步骤三，特征筛选:使用训练样本语音情感标签信息，对步骤二中得到的规整化语音情感特征向量中每个特征维数的FDR值进行特征筛选，去除规整化语音情感特征向量中对语音情感分析贡献较小的特征，得到每个语音样本的特征筛选后语音情感特征向量；步骤四，基于说话人惩罚的特征维数约简:经步骤三特征筛选得到训练样本特征筛选后语音情感特征向量集X = [X1, X2,, xN]，利用训练样本的语音情感标签信息和说话人标签信息，采用LSPGL算法或KSPGL算法对X进行维数约简训练，生成LSPGL算法对应的线性降维投影矩阵A或KSPGL算法对应的核方法降维映射阵F，同时分别求解得到X的线性映射低维样本集AtX或核映射低维样本集PTK，其中K为训练样本集的Gram阵，选用Gauss核函数；步骤五，训练分类器:对多类SVM分类器进行训练或直接选取INN分类器；其中多类SVM分类器进行训练的方法为:设训练样本集中有N个分属于N。个种类的语音样本，在训练样本集中任取两个种类的语音样本，进行训练得到I个两类SVM分类器，每两类重复该训练过程，共得到N。(Nc-1) /2个两类SVM分类器；步骤六，测试:对于每个测试样本，使用经步骤五训练完成的分类器对每个测试样本进行测试，具体包括顺序执行的以下步骤: (1)对经步骤三得到的每个测试样本I的特征筛选后语音情感特征向量使用线性降维投影矩阵A或核方法降维映射阵P进行维数约简，得到f经过线性维数约简后的低维样本或经过核方法维数约简后的低维样本PtK1，对于一个测试样本
2.根据权利要求1所述的一种基于说话人惩罚的独立于说话人语音情感识别方法，其特征在于:步骤二中原始语音情感特征向量中的语音情感特征分布如下: 1-80维:能量序列的统计特征和一阶、二阶抖动；能量一阶、二阶差分序列的统计特征；三个不同频带内的能量序列及其一阶、二阶差分序列分别的统计特征；三个不同频带内能量序列的一阶、二阶抖动； 81-101维:基音序列的统计特征和一阶、二阶抖动；基音一阶、二阶差分序列的统计特征；基首序列斜率； 102-121维:过零率序列及其一阶、二阶差分序列的统计特征； 122-130维:浊音帧数与清音帧数的比；浊音段数与清音段数的比；浊、清音最长段的帧数；浊、清音帧数和段数；语速； 131-250维:共振峰频率序列、带宽序列及其一阶、二阶差分序列的统计特征；共振峰频率序列的一阶、二阶抖动； 251-406维:MFCC及其一阶差分序列的统计特征；其中统计特征包括一个语段的各帧中相应特征的最大值、最小值、均值、中值、标准差和范围。
3.根据权利要求1所述的一种基于说话人惩罚的独立于说话人语音情感识别方法，其特征在于:步骤二中的规整化处理的方法如下: 规整化前的所有语音样本中的任一样本为x(°)，其中N个训练样本组成的训练样本集为
4.根据权利要求3所述的一种基于说话人惩罚的独立于说话人语音情感识别方法，其特征在于:步骤二中所述特征筛选的方法如下:任一语音样本规整化语音情感特征向量文
5.根据权利要求1所述的一种基于说话人惩罚的独立于说话人语音情感识别方法，其特征在于: 维数约简时，LSPGL算法的图嵌入的优化形式为:
【文档编号】G10L25/63GK103854645SQ201410078383
【公开日】2014年6月11日申请日期:2014年3月5日优先权日:2014年3月5日
【发明者】郑文明, 徐新洲, 赵力, 黄程韦, 余华, 吴尘, 查诚申请人:东南大学

完整全部详细技术资料下载