一种情感语音PAD值预测方法及系统与流程

文档序号：15938264发布日期：2018-11-14 02:44阅读：311来源：国知局

本发明涉及情感语音pad值预测领域，特别是涉及一种情感语音pad值预测方法及系统。

背景技术

语音是人类沟通最有效的方式，在人机交互应用中得到了越来越广泛的应用。语音中不仅包含了文字信息，同时还包含丰富的能反映说话人情感状态的信息。语音情感识别是通过计算机对说话人的情感类型进行认知判断，目前大多数的语音情感识别研究集中在基本的离散情感，例如识别语音的情感是愤怒还是高兴。但在现实生活中，人们的情感通常是连续的、复杂多变的，比如喜极而泣、悲喜交加等情感已经不再完全属于某一特定的离散情感类别。基于这种情况，研究人员提出维度理论，采用维度空间来表示复杂变化的情感类别，即情感可被表示为多维情感空间中的一个坐标点。维度情感语音对于实现人机交互及开展情感计算的研究提供了更充分的基础。近几年，维度情感语音研究逐渐得到了广泛的关注。目前，维度坐标主要是根据情感量表人工标注得到，这种方法耗时长，易受主观影响。

技术实现要素：

本发明的目的是提供一种情感语音pad值预测方法及系统，用以快速、准确的预测情感语音的pad值。

为实现上述目的，本发明提供了如下方案：

一种情感语音pad值预测方法，所述方法包括：

获取测试情感语音数据；

对所述测试情感语音数据进行特征提取，得到测试特征数据；

获取训练好的支持向量回归模型；

通过所述训练好的支持向量回归模型对所述测试特征数据进行预测，得到所述测试情感语音数据的pad值。

可选的，在所述获取测试情感语音数据，之前还包括：

获取训练情感语音数据；

通过pad三维情感量表对所述训练情感语音数据进行标注，得到标注pad值；

对所述训练情感语音数据进行特征提取，得到训练特征数据；

通过所述训练特征数据以及所述标注pad值对支持向量回归模型进行训练，得到训练好的支持向量回归模型。

可选的，所述通过所述训练特征数据以及所述标注pad值对支持向量回归模型进行训练，得到训练好的支持向量回归模型，具体包括：

将所述训练特征数据输入到所述支持向量回归模型中，得到输出数据；

判断所述输出数据与所述标注pad值的误差是否在误差阈值范围内；

若是，得到训练好的支持向量回归模型；

若否，调整所述支持向量回归模型的参数，使所述输出数据与所述标注pad值的误差在误差阈值范围内，得到训练好的支持向量回归模型。

可选的，所述调整所述支持向量回归模型的参数，具体包括：

通过交叉网格搜索法对所述支持向量回归模型的惩罚因子以及核函数进行调整。

一种情感语音pad值预测系统，所述系统包括：

测试情感语音数据获取模块，用于获取测试情感语音数据；

测试特征数据提取模块，用于对所述测试情感语音数据进行特征提取，得到测试特征数据；

支持向量回归模型获取模块，用于获取训练好的支持向量回归模型；

预测模块，用于通过所述训练好的支持向量回归模型对所述测试特征数据进行预测，得到所述测试情感语音数据的pad值。

可选的，所述系统还包括：

训练情感语音数据获取模块，用于获取训练情感语音数据；

标注模块，用于通过pad三维情感量表对所述训练情感语音数据进行标注，得到标注pad值；

训练特征数据提取模块，用于对所述训练情感语音数据进行特征提取，得到训练特征数据；

训练模块，用于通过所述训练特征数据以及所述标注pad值对支持向量回归模型进行训练，得到训练好的支持向量回归模型。

可选的，所述训练模块具体包括：

输入单元，用于将所述训练特征数据输入到所述支持向量回归模型中，得到输出数据；

判断单元，用于判断所述输出数据与所述标注pad值的误差是否在误差阈值范围内；

结果确定单元，用于当所述输出数据与所述标注pad值的误差在误差阈值范围内时，得到训练好的支持向量回归模型；

调整单元，用于当所述输出数据与所述标注pad值的误差不在误差阈值范围内时，调整所述支持向量回归模型的参数，使所述输出数据与所述标注pad值的误差在误差阈值范围内，得到训练好的支持向量回归模型。

可选的，所述调整单元通过交叉网格搜索法对所述支持向量回归模型的惩罚因子以及核函数进行调整。

与现有技术相比，本发明具有以下技术效果：本发明通过训练好的支持向量回归模型对对维度情感语音的pad进行预测，预测精度方面得到提高，实现了对情感语音pad值较为准确的预测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例情感语音pad值预测方法的流程图；

图2为本发明实施例情感语音pad值预测系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例情感语音pad值预测方法的流程图。如图1所示，一种情感语音pad值预测包括以下步骤：

步骤101：获取测试情感语音数据。

步骤102：对所述测试情感语音数据进行特征提取，得到测试特征数据。

步骤103：获取训练好的支持向量回归模型。

步骤104：通过所述训练好的支持向量回归模型对所述测试特征数据进行预测，得到所述测试情感语音数据的pad值，p为愉悦度，表示个体情感状态的正负特性；a为激活度，表示个体的神经生理激活程度；d为优势度，表示个体对情境和他人的控制状态。

在所述获取测试情感语音数据，之前还包括：

获取训练情感语音数据；

通过pad三维情感量表对所述训练情感语音数据进行标注，得到标注pad值；

对所述训练情感语音数据进行特征提取，得到训练特征数据；

通过所述训练特征数据以及所述标注pad值对支持向量回归模型进行训练，得到训练好的支持向量回归模型。将所述训练特征数据输入到所述支持向量回归模型中，得到输出数据；判断所述输出数据与所述标注pad值的误差是否在误差阈值范围内；若是，得到训练好的支持向量回归模型；若否，通过交叉网格搜索法对所述支持向量回归模型的惩罚因子以及核函数进行调整，使所述输出数据与所述标注pad值的误差在误差阈值范围内，得到训练好的支持向量回归模型。

具体实施：

根据中科院制定的pad三维情感量表和自我评定模型，在实验室原有的离散情感语音数据库tyut2.0的基础上，招募100名在校大学生根据评定模型对每句情感语音的p、a、d维度进行打分标注，得到标注数据后对数据进行有效性验证，建立维度情感语音数据库，为后续对svr回归模型的训练以及预测性能评估提供比较数据。提取情感语音的语速、过零率、短时能量、基音频率、共振峰和mfcc特征，具体为：平均语速；平均过零率；能量及其1阶差分的最大值、最小值、均值；基频及其1阶差分的最大值、最小值、均值；第1共振峰(f1)及其1阶差分的最大值、最小值、均值、方差；第2共振峰(f2)及其1阶差分的最大值、最小值、均值、方差；第3共振峰(f3)及其1阶差分的最大值、最小值、均值、方差；mfccs是mfcc0—mfcc11阶的偏度、峰度、均值、方差和中值，共98维。

据样本数确定样本训练集和测试集。具体过程为：将标注出来的237句情感语音的pad数据，用n×3的矩阵表示，搭建回归预测模型；实验使用大约2/3的语音作为训练集，1/3的语音作为测试集。所述的svr模型的训练集变为158×3的矩阵数据，测试集变为79×3的矩阵数据。

选择支持向量机回归核函数，确定svr模型待寻优参数。不敏感系数ε值为10^-2，使用交叉网格搜索法对惩罚因子c和rbf核函数参数σ进行寻优，最终选出使训练模型均方误差最小的参数组合。利用最佳训练参数svr模型，预测情感语音的pad值。

根据本发明提供的具体实施例，本发明公开了以下技术效果：本方法基于已经建立的维度情感语音数据库，根据已标注的语音的pad值，利用最佳训练参数svr模型，预测情感语音的pad值，本实验方法预测出的pad值的精度较好，能将情感语音量化表示为三维空间中某一点，对今后开展情感计算研究及提升人机交互系统性能具有显著帮助。

图2为本发明实施例情感语音pad值预测系统的结构示意图。如图2所示，一种情感语音pad值预测系统包括：

测试情感语音数据获取模块，用于获取测试情感语音数据。

测试特征数据提取模块，用于对所述测试情感语音数据进行特征提取，得到测试特征数据。

支持向量回归模型获取模块，用于获取训练好的支持向量回归模型。

预测模块，用于通过所述训练好的支持向量回归模型对所述测试特征数据进行预测，得到所述测试情感语音数据的pad值。

所述系统还包括：

训练情感语音数据获取模块，用于获取训练情感语音数据；

标注模块，用于通过pad三维情感量表对所述训练情感语音数据进行标注，得到标注pad值；

训练特征数据提取模块，用于对所述训练情感语音数据进行特征提取，得到训练特征数据；

训练模块，用于通过所述训练特征数据以及所述标注pad值对支持向量回归模型进行训练，得到训练好的支持向量回归模型。

所述训练模块具体包括：

输入单元，用于将所述训练特征数据输入到所述支持向量回归模型中，得到输出数据；

判断单元，用于判断所述输出数据与所述标注pad值的误差是否在误差阈值范围内；

结果确定单元，用于当所述输出数据与所述标注pad值的误差在误差阈值范围内时，得到训练好的支持向量回归模型；

调整单元，用于当所述输出数据与所述标注pad值的误差不在误差阈值范围内时，调整所述支持向量回归模型的参数，使所述输出数据与所述标注pad值的误差在误差阈值范围内，得到训练好的支持向量回归模型。所述调整单元通过交叉网格搜索法对所述支持向量回归模型的惩罚因子以及核函数进行调整。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张雪英;孙颖;张卫;张婷;黄丽霞;陈桂军
技术所有人：太原理工大学
我是此专利的发明人

上一篇：难熔稀有金属环形靶材的制备方法与装置与流程
上一篇：一种真空镀膜机镀膜操作台改进结构的制作方法