一种基于短时记忆权重融合的航天应激情感识别方法

文档序号：2826388阅读：280来源：国知局

一种基于短时记忆权重融合的航天应激情感识别方法
【专利摘要】本发明公开了一种航天应激环境下的基于短时记忆权重融合的语音情感识别方法。本发明根据心理学中的短时记忆遗忘规律,提取语音帧的回忆正确率的先验概率；回忆正确率的先验概率,与调节系数共同构成帧的重要性权重；基于各帧的重要性权重,计算语音段的判决融合权重；各语音段进行情感识别；根据判决融合权重,进行情感融合,获得最终的识别结果。本发明的方法可以有效地提高与文本相关的说话人识别系统的识别正确率，此外系统对噪声也具有较好的鲁棒性。
【专利说明】一种基于短时记忆权重融合的航天应激情感识别方法【技术领域】
[0001]本发明涉及一种语音情感识别方法，特别涉及一种航天应激环境下的基于短时记忆权重融合的语音情感识别方法。
【背景技术】
[0002]在航天特殊环境中，人员的情绪稳定和客观测评具有重要的意义。在封闭空间、失重环境和长时间枯燥作业的情况下，容易诱发烦躁等应激语音情感。
[0003]传统的语音情感自动识别技术主要包括两个层次：一是采用语音信号中的何种特征作为情感识别，也就是情感特征提取的问题，一是如何将特定的语音数据进行分类，也就是模式识别的问题。
[0004]在语音信号中，情感的表达并不总是十分明显的。不同的情感可以具有相似的特征，不同的说话人可以存在较大的个体差异，这对情感特征的研究造成了较大的困难，甚至是对人耳听辨也造成了很大的困难。在语音情感的自动识别中一个极为重要的问题就是寻找情感在特征空间中的一个清晰的表达，也就是需要进行情感特征的提取和优化。
[0005]情感建模是语音情感识别中的一个基本问题。我们可以采用心理学理论中的情感类别模型或者维度空间模型对情感进行建模。情感类别模型将情感区分为互不相同的类另O，是一种离散模型。维度空间模型将情感视为多维空间中的连续变量，是一种连续模型。高斯混合模型，是近年来在语音情感识别中取得较高识别性能的一种方法。由于高斯混合模型对数据的拟合能力较强，因此可能在语种识别、说话人识别、语音情感识别等“个体差异”较大的数据类型上的学习能力较强。然而高斯混合模型的缺点也是受制于训练数据，成功建立情感模型需要有充足的训练数据。

【发明内容】

[0006]本发明针对应激航天环境中连续语音情感识别的需求，设局部情感识别与全局情感识别结合的识别方法。提出一种嵌入短时记忆遗忘曲线的语音情感识别方法，其主要技术步骤为：
[0007]根据心理学中的短时记忆遗忘规律，提取语音帧的回忆正确率的先验概率；回忆正确率的先验概率，与调节系数共同构成帧的重要性权重；基于各帧的重要性权重，计算语音段的判决融合权重；各语音段进行情感识别；根据判决融合权重，进行情感融合，获得最终的识别结果。
[0008](1)从短时记忆遗忘规律曲线中提取出回忆正确率的先验概率。
[0009](1-1)对短时记忆遗忘曲线进行抽样，抽样间隔时间为t，0〈t〈18s;
[0010](1-2)获得k个抽样值d (k)，作为回忆正确率的先验概率。
[0011](2)通过回忆正确率的先验概率与主观调节系数，获得时域帧的重要性权重。
[0012](2-1)设置主观调节系数r，r的参考值为1，可以在（0，I]范围内动态调节；
[0013](2-2)通过乘性关系获得时域帧的重要性权重f(n)=rXd(k)，其中η为帧序列。越接近末尾的帧回忆正确率越高，权重越高，18秒以外的帧回忆正确率为零，对应的重要性权重也为零。
[0014](3)分割连续语音信号，构成情感识别单元。
[0015](3-1)将连续的语音信号分割为小于18s的单元，单元的持续长度参考值为2s到9s。分割方法以自然停顿和音节为分界线。
[0016](3-2)逐帧提取语音段的特征，包括基音、强度、共振峰等声学参数。
[0017](4)根据每帧的重要性权重，求出情感识别单元的融合权重。
[0018](4-1)对第(3)步骤中分割得到的m个语音段s(i)，i=l，2，…m，分别提取各自的帧序列对应的帧的重要性权重A (n)；
[0019](4-2)计算每个语音段s (i)的融合权重
【权利要求】
1.一种基于短时记忆权重融合的航天应激情感识别方法，其特征在于包括以下步骤: 步骤1，从短时记忆遗忘规律曲线中提取出回忆正确率的先验概率；步骤2，通过回忆正确率的先验概率与主观调节系数，获得时域帧的重要性权重；步骤3，分割连续语音信号，构成情感识别单元；步骤4，根据每帧的重要性权重，求出情感识别单元的融合权重；步骤5，对各情感识别单元进行语音情感识别。
2.根据权利要求1所述的基于短时记忆权重融合的航天应激情感识别方法，其特征在于，所述步骤I具体包括以下步骤: 步骤1-1，对短时记忆遗忘曲线进行抽样，抽样间隔时间为t，0〈t〈18s; 步骤1-2，获得k个抽样值d (k)，作为回忆正确率的先验概率；
3.根据权利要求1所述的基于短时记忆权重融合的航天应激情感识别方法，其特征在于，所述步骤2具体包括以下步骤: 步骤2-1，设置主观调节系数r，r的参考值为1，可以在(O，I]范围内动态调节；步骤2-2，通过乘性关系获得时域帧的重要性权重f(n)=rXd(k)，其中n为帧序列；越接近末尾的帧回忆正确率越高，权重越高，18秒以外的帧回忆正确率为零，对应的重要性权重也为零；
4.根据权利要求1所述的基于短时记忆权重融合的航天应激情感识别方法，其特征在于，所述步骤3具体包括以下步骤: 步骤3-1，将连续的语音信号分割为小于18s的单元，单元的持续长度参考值为2s到9s ;分割方法以自然停顿和音节为分界线；步骤3-2，逐帧提取语音段的特征，包括基音、强度、共振峰等声学参数。
5.根据权利要求1所述的基于短时记忆权重融合的航天应激情感识别方法，其特征在于，所述步骤4具体包括以下步骤: 步骤4-1，对权利要求1所述的步骤3中分割得到的m个语音段s (i)，i=l, 2，…m，分别提取各自的帧序列对应的帧的重要性权重A (n)；步骤4-2，计算每个语音段s (i)的融合权重w(i)= Xjm
6.根据权利要求1所述的基于短时记忆权重融合的航天应激情感识别方法，其特征在于，所述步骤5具体包括以下步骤: 步骤5-1，对训练数据采用高斯混合模型对语音段进行情感建模，获得概率分布模型；步骤5-2，对输入数据进行基于贝叶斯准则的情感识别，获得每段情感识别单元s (i)的情感矢量e (i) = [e (i，I)，e (i, 2)，…，e (i, p)],p为情感类别数量；步骤5-3，依据融合权重w(i)，对各情感识别单元进行判决融合，最终的情感输出为E=w(I) Xe (I)+w(2) Xe ⑵+…+w(m) Xe(m)。
【文档编号】G10L25/63GK103531208SQ201310534910
【公开日】2014年1月22日申请日期:2013年11月1日优先权日:2013年11月1日
【发明者】黄程韦, 王峻, 吴斌, 秦海波, 赵力, 魏昕, 王浩申请人:东南大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄程韦;王峻;吴斌;秦海波;赵力;魏昕;王浩
技术所有人：东南大学
我是此专利的发明人

上一篇：用于语音识别的方法和装置制造方法
上一篇：兼具负有效质量密度和负有效体弹模量的声学功能材料的制作方法