一种用于语音情感识别的新特征提取方法与流程

文档序号:17686686发布日期:2019-05-17 20:41阅读:836来源:国知局
一种用于语音情感识别的新特征提取方法与流程
本发明属于语音情感识别
技术领域
,具体涉及一种用于语音情感识别的新特征提取方法。
背景技术
:情感在人际交往中具有重要的作用。随着人工智能的发展,人们对于情感计算的关注逐渐提升。情感携带着重要的语义信息,能帮助机器更好地理解人类的真实意图。但是语音情感识别任务仍然存在的很多问题,我们不知道什么样的情感能够真正有效地帮助提高语音情感识别的准确率。传统的语音情感识别中常用感知特征(低级描述特征和它们的统计值)做情感分类。感知特征是根据经验选择的,不全面。因此,我们不确定根据先验知识选择的感知特征是否能在所有情况下获得良好的性能。随着神经网络的发展,越来越多的研究发现利用卷积神经网络直接在全面的语谱图上提取深度特征做情感分类能得到良好的识别效果。但是,仅仅利用cnn在语谱图上学习,难以充分利用用于语音情感识别的先验知识。技术实现要素:本发明解决的技术问题是提出了能够有效地利用先验知识和光谱信息的组合光谱特征(csf)和优化光谱特征(rsf),用cnn-blstm模型从新特征中学习深度特征并区分情感。进而提供一种用于语音情感识别的新特征提取方法。本发明的技术方案为:一种用于语音情感识别的新特征提取方法,包括以下步骤:第一步,计算分段语谱图:将句子分成固定长度的语音段,经过短时傅立叶变换之后,获得分段语谱图的原始光谱矩阵,其大小为m×n,其中m表示时间点的数量,n表示所选区域和频率分辨率;第二步,特征准备与融合:1)获取帧级llds和段级统计特征;2)将固定帧数语音的llds特征按时间序列排列起来,构成段级时序llds特征,归一化后,获得时序llds的矩阵,其大小为m×p,其中m表示一段中的帧数,p表示llds的维数;3)按照时间序列为轴,将所述分段语谱图和所述时序llds拼接在一起作为组合光谱特征的矩阵,其大小是m×q;4)将所述分段语谱图、时间序列llds和统计特征拼接在一起成优化光谱特征的矩阵,其大小为m×t;第三步,特征提取与分类:利用cnn分别从组合光谱特征和优化光谱特征中提取深度特征并将它们按时间排列成话语级特征,送到blstm中完成7种情感分类,构建cnn-blstm模型。进一步地,第二步中所述帧级llds和段级统计特征是通过opensmile工具包获取。进一步地,第二步的所述固定帧数具体为每25帧。进一步地,第二步中所述组合光谱特征的矩阵中第i句话语第j个时间段的组合光谱特征向量csf可以表示为公式(1):csfij=[sij,lij](1)其中,分别对应的是第i句话中第j段的语谱图矢量和时序llds的矢量。进一步地,第二步中所述优化光谱特征的矩阵中第i个话语中第j个段的优化光谱特征向量rsf可以表示为公式(2):rsfij=[sij,lij,cij](2)其中,表示第i个话语中第j个段的统计特征向量。进一步地,第二步中所述分段语谱图、时间序列llds和统计特征拼接在一起成优化光谱特征的矩阵的具体方法为:首先使用主成分分析技术将x维统计特征降到y维;然后,将统计特征重新调整成二维矢量,大小为m×z;最后,将分段语谱图、时序llds和统计特征拼接在一起成优化光谱特征,其大小为m×t。进一步地,第三步中所述cnn-blstm模型具体构建步骤如下:1)第一层是输入层,将第二步中得到的组合光谱特征和优化光谱特征分别输入到cnn中学习;2)第二层是卷积层,有个卷积核,卷积大小为;3)第三层是池化层,对特征进行降采样,池化大小为;4)第四层是卷积层,有个卷积核,卷积大小为;5)第五层是池化层,对特征进行降采样,池化大小为;6)第六层是dropout层,目的是为了避免神经网络过拟合;7)第七层是展平层,目的是为了把二维的特征图谱扁平化成1维向量,便于后续将段级特征组合成话语级。8)第八层是全连接层,有k个隐藏单元;9)第九层是双向长短时记忆层,有l个隐藏单元;10)第十层是双向长短时记忆层,有l个隐藏单元;第十一层是输出层,即全连接层,有s个隐藏单元,激活函数为softmax。本发明的有益效果为:本发明的组合光谱特征和优化光谱特征从不同程度上有效利用了光谱信息、先验知识和全局信息。与语谱图相比,组合光谱特征和优化光谱特征相对错误率分别降低了32.04%和36.91%,能有效提高语音情感识别的准确性。附图说明图1是本发明优化光谱特征的提取过程图;图2是组合光谱特征和优化光谱特征在不同情感上的f1贡献分布直方图。具体实施方式为了更充分的解释本发明,现结合附图、表格和具体实施例对本发明进行进一步解释说明。本实施例在emo-db数据库上对提出的两种新特征(组合光谱特征和优化光谱特征)进行验证。emo-db数据库包含愤怒、无聊、厌恶、悲伤、高兴、恐惧、中性7种情感,共535句德语音频。如图1所示,用于语音情感识别的新特征提取方法,主要包含以下步骤:第一步,计算分段语谱图:将句子分成固定长度的语音段,经过短时傅立叶变换之后,获得分段语谱图的原始光谱矩阵,其大小为25×129,其中25表示时间点的数量,129表示所选区域和频率分辨率;第二步,特征准备与融合:1)利用opensmile工具包获取帧级llds和段级统计特征;2)每25帧语音的llds特征按时间序列排列起来,构成段级时序llds特征,归一化后,获得时序llds的矩阵,其大小为25×32,其中25表示一段中的帧数,32表示llds的维数;3)按照时间序列为轴,将分段语谱图和时序llds拼接在一起作为组合光谱特征的矩阵,其大小是25×161;4、组合光谱特征的矩阵中第i句话语第j个时间段的组合光谱特征向量csf可以表示为公式(1):csfj=[sj,lj](1)其中,分别对应的是第i句话中第j段的语谱图矢量和时序llds的矢量。4)为了拼接语谱图,时序llds和统计特征,首先使用主成分分析技术将384维统计特征降到375维。然后,将统计特征将重新调整成二维矢量,大小为25×15。最后,将分段语谱图,时间序列llds和统计特征拼接在一起成优化光谱特征,其大小是25×176。优化光谱特征的矩阵中第i个话语中第j个段的优化光谱特征向量rsf可以表示为公式(2):rsfij=[sij,lij,cij](2)其中,表示第i个话语中第j个段的统计特征向量。第三步,特征提取与分类:利用cnn分别从组合光谱特征和优化光谱特征中提取深度特征并将它们按时间排列成话语级特征,送到blstm中完成7种情感分类,构建cnn-blstm模型。cnn-blstm的模型最优参数,共包含11层,如表1所示:表1cnn-blstm模型参数配置层数名称参数情况1输入层语音段语谱图2卷积层1.32卷积核5×53最大池化层2×24卷积层264卷积核5×55最大池化层2×26dropout层0.257展平层8全连接层输出维度10249长短期记忆层.双向20010长短期记忆层双向20011输出层7种情感其中,第一层是输入层,将第二步中得到的组合光谱特征和优化光谱特征分别输入到cnn中学习;第二层是卷积层1,有32个卷积核,卷积大小为5×5;第三层是池化层1,对特征进行降采样,池化大小为2×2;第四层是卷积层2,有64个卷积核,卷积大小为5×5;第五层是池化层2,对特征进行降采样,池化大小为2×2;第六层是dropout层,dropout层在每次迭代参数时随机断开25%神经元,目的是为了避免神经网络过拟合;第七层是展平层,目的是为了把二维的特征图谱扁平化成1维向量,便于后续将段级特征组合成话语级,输入到blstm模型中学习句子级时间序列特征;第八层是全连接层,有1024个隐藏单元;第九层是双向长短时记忆层1,有200个隐藏节点;第十层是双向长短时记忆层2,有200个隐藏节点;第十一层是输出层,即全连接层,有7种情感,激活函数为softmax。基于cnn-blstm模型,不同特征进行语音情感分类的结果如表2所示:表2在emodb数据库上基于cnn-blstm模型不同特征进行语音情感分类的加权精度和未加权精度的结果展示由表2可得出以下结论:1)时间序列llds比原始语谱图针对加权精度和未加权精度相对误差分别减少11.23%和10.29%。其中一个原因是blstm能更充分地利用时间序列llds的时序信息。另一个原因是所选择的llds在少量训练数据上比原始语谱图表现得更好,并且所选择的llds特征适用于本实验。2)组合光谱特征比原始语谱图在加权精度和未加权精度方面相对误差分别减少33.76%和32.04%。优化光谱特征优于原始语谱图,分别在加权精度和未加权精度方面具有38.06%和36.91%的相对误差减少。结果表明,使用cnn从提出的组合特征中提取高层次特征,然后使用blstm进行最终情感分类是非常有效的。3)优化光谱特征比组合光谱特征分类准确率更高。结果表明,blstm可以从优化光谱特征新添加的统计特征中识别全局时序动态变化信息,更好地分类情感。与语谱图相比,所提出的新特征对不同类型情感分类的贡献如图2所示。由图2可得出以下结论:1)用组合光谱特征或者优化光谱特征做语音情感分类,结果均优于只使用语谱图特征。尤其当识别无聊情绪时,效果最佳。2)优化光谱特征在大多数情感上表现优于组合光谱特征。然而,当识别无聊和中性情感时,组合光谱特征的表现优于优化光谱特征。原因是在表达无聊和中立情感话语中,段级llds特征没有明显波动,llds的全局统计值不能有效地帮助提升语音情感分类的准确率。因此,在这种情况下不必添加额外的统计特征。3)组合光谱特征或者优化光谱特征明显优于语谱图。与语谱图相比,使用组合光谱特征和优化光谱特征识别7种情感的平均f1值在相对误差率方面分别减少了33.68%和38.80%。总体而言,组合光谱特征和优化光谱特征都可以有效识别不同类别的情感。最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1