基于情感上下文的语音情感推理方法及系统的制作方法

文档序号：2826215阅读：598来源：国知局

基于情感上下文的语音情感推理方法及系统的制作方法
【专利摘要】本发明公开了一种基于情感上下文的语音情感推理方法及系统，该方法包括：在相邻情感语句中提取上下文语音情感特征和传统语音情感特征，按特征类别的不同分别建立上下文模型和传统模型；对待分析连续语音划分为情感相对独立的情感语句序列，然后采用基于情感交互矩阵的融合方法将上下文模型和传统模型对待分析连续语音的当前情感语句的决策结果进行融合，得到初步的识别结果；从整个待分析连续语音角度对每个语句的情感类别用情感上下文推理规则进行调整，得到待分析连续语音的情感类别序列。本发明采用情感上下文的情感推理算法，借助情感交互矩阵，对待分析情感语句的情感状态进行分析和调整，从而提高连续语音情感识别的准确率。
【专利说明】基于情感上下文的语音情感推理方法及系统
【技术领域】
[0001]本发明涉及语音信号处理、情感分析和模式识别【技术领域】，尤其涉及一种基于情感上下文的语音情感推理方法及系统。
【背景技术】
[0002]语音情感识别技术的发展对推动智能化、人性化的新型人机交互技术的发展和应用具有重要的作用。如何使用计算机技术从语音中自动识别说话人的情感状态近年来受到各领域研究者的广泛关注。在语音情感识别研究领域，研究者们开始逐渐关注上下文信息对提高情感识别准确率的影响。所谓上下文是指与待分析对象情感表达相关的对象以及待分析对象自身的个人信息(包括:性别、年龄、文化、语言、受教育程度、谈话背景等)以及最近一段时间的情感状态等信息。
[0003]现有技术一分析了性别、题材、说话人、说话内容等语境上下文信息对情感识别的作用，但主要针对孤立的、非自然的单句进行分析，仍未对自然环境下连续表达的情感语音进行描述和处理。现有技术二开始关注词与周围环境之间所携带的上下文信息，提出了上下文环境、动态环境和句全局环境3类共5种环境特征，并通过实验论证了上下文信息对提高情感识别准确率的贡献，但是这篇文献所提出的方案需要构建大量且丰富的情感词汇库，且要求在情感识别前必须识别出说话者的说话内容，说话内容识别的准确率会影响情感识别的准确率，且说话内容的识别增加了情感识别的时间复杂度。现有技术三还根据语音的声学特征而无需识别说话人的说话内容，分析了正在对话的两个人之间的情感状态的相互影响，得出了对话双方的情感转移矩阵。
[0004]然而，现有技术中连续语音的情感识别只是针对每个当前句分析，为了解决现有技术的缺陷，因此，本发明提供一种基于情感上下文的语音情感推理方法及系统，主要利用人类情感表达和变化是一个连续的过程，待分析对象当前的情感状态与即将要表达的情感状态之间存在一定的关联的特点，针对单个说话人的连续语音进行情感识别，发明了情感上下文特征的提取方法和基于情感上下文的语音情感推理方法，本发明解决了无需识别说话人说话内容的条件下，提高连续语音情感识别率的问题。

【发明内容】

[0005]本发明针对【背景技术】中连续语音的情感识别只是针对每个当前句分析的缺陷，提供了一种基于情感上下文的语音情感推理方法及系统，发明语音情感上下文特征的提取方法和建立高效的基于情感上下文的语音情感推理模型，构成完整的基于情感上下文的语音情感推理方法。最终提高连续语音情感识别的准确率。
[0006]为了实现上述目的，本发明实施例提供的技术方案如下:
[0007]一种基于情感上下文的语音情感推理方法，所述方法包括:
[0008]S1、在相邻情感语句中提取上下文语音情感特征和传统语音情感特征，按特征类别的不同分别建立上下文模型和传统模型；[0009]S2、对待分析连续语音划分为情感相对独立的情感语句序列，并提取所述情感语句的上下文语音情感特征和传统语音情感特征.然后分别采用上下文模型和传统模型进行识别，得出这两个模型对带分析情感语句的决策向量；
[0010]S3、采用基于情感交互矩阵的融合方法对上下文模型和传统模型对待分析连续语音的当前情感语句的决策结果进行融合，得到初步的识别结果；
[0011]S4、从整个待分析连续语音角度对每个语句的情感类别用情感上下文推理规则进行调整，得到待分析连续语音的情感类别序列。
[0012]作为本发明的进一步改进，所述步骤S3包括:
[0013]在利用传统模型和上下文模型对待分析情感语句决策向量的最大两类进行融合时，引入现有统计出的情感交互矩阵，并进行情感交互矩阵处理，得到情感上下文交互矩阵，上下文交互矩阵连同两决策向量一起对情感语句的情感类别进行融合推理。
[0014]作为本发明的进一步改进，所述步骤S4包括:
[0015]情感上下文推理规则利用人的情感表达具有连续性的特点，根据前后相邻语句的情感类别对当前情感语句的情感类别进行调整。
[0016]作为本发明的进一步改进，所述步骤SI中的相邻情感语句为前后相邻情感语句的前一句的后1/3有声段部分和后一语句的整个语句。
[0017]作为本发明的进一步改进，所述上下文语音情感特征包括:上下文动态情感特征、上下文差分情感特征、上下文边缘动态情感特征和上下文边缘差分情感特征。
[0018]作为本发明的进一步改进，所述上下文动态情感特征为相邻情感语句的前一句的后1/3有声段部分和后一句的整个有声段中101维传统语音情感特征中与变化率、平均变化和协方差相关的33维的语音情感动态特征。
[0019]作为本发明的进一步改进，所述上下文差分情感特征为先对相邻情感语句的前一句的后1/3有声段和后一句的整个有声段分别提取传统的101维语音情感特征，然后再对二者做差分操作后得到的特征。
[0020]作为本发明的进一步改进，所述上下文边缘动态情感特征为从相邻情感语句的前一句的后1/3有声段部分与后一句的前1/3有声段部分组成的边缘相邻句中提取的33维语音情感动态特征。
[0021]作为本发明的进一步改进，所述下文边缘差分情感特征为边缘相邻句中按上下文差分情感特征提取方法提取的特征。
[0022]相应地，一种基于情感上下文的语音情感推理系统，所述系统包括:
[0023]训练单元，用于在相邻情感语句中提取上下文语音情感特征和传统语音情感特征，按特征类别的不同分别建立上下文模型和传统模型；
[0024]识别单元，用于对待分析连续语音划分为情感相对独立的情感语句序列，分别提取所述语句的上下文语音情感特征和传统语音情感特征，然后分别采用训练好的上下文模型和传统模型对当前语句进行情感识别，得出当前语句在两个模型上的决策向量；
[0025]融合识别单元，用于将上下文模型和传统模型对待分析连续语音的当前情感语句的决策结果进行融合，得到初步的识别结果；
[0026]调整单元，用于从整个待分析连续语音角度对每个语句的情感类别用情感上下文推理规则进行调整，得到待分析连续语音的情感类别序列。[0027]本发明具有以下有益效果:
[0028]1、成功地从连续情感语句间提取上下文语音情感特征，并用其辅助从单个情感语句提取的传统语音情感特征，从而提高连续语音的情感识别效率；
[0029]2、巧妙地利用现有统计的情感交互矩阵，将基于上下文语音情感特征的待识别情感语句的情感状态与基于传统语音情感特征的待识别情感语句额情感状态进行情感推理融合，得到对待识别情感语句的初步情感识别结果；
[0030]3、利用连续情感语句的情感变化具有稳定性的特点，制定了情感上下文推理规则对整个连续识别语音进行上下文相关调整。
【专利附图】

【附图说明】
[0031]图1是本发明一实施方式中基于情感上下文的语音情感推理方法框架图；
[0032]图2是本发明一实施方式中基于情感上下文的情感推理算法流程图。
【具体实施方式】
[0033]以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
[0034]本发明公开了一种基于情感上下文的语音情感推理方法，包括:
[0035]S1、在相邻情感语句中提取上下文语音情感特征和传统语音情感特征，按特征类别的不同分别建立上下文模型和传统模型；
[0036]S2、对待分析连续语音划分为情感相对独立的情感语句序列，并提取所述情感语句的上下文语音情感特征和传统语音情感特征.然后分别采用上下文模型和传统模型进行识别，得出这两个模型对带分析情感语句的决策向量；
[0037]S3、采用基于情感交互矩阵的融合方法对上下文模型和传统模型对待分析连续语音的当前情感语句的决策结果进行融合，得到初步的识别结果；
[0038]S4、从整个待分析连续语音角度对每个语句的情感类别用情感上下文推理规则进行调整，得到待分析连续语音的情感类别序列。
[0039]具体包括:
[0040]步骤1:训练基于传统语音情感特征的语音情感识别模型。
[0041]步骤1.1:对训练库中的情感语音信号进行预处理，包括预加重、加窗处理、分帧、端点检测。
[0042]步骤1.2:对训练集中的情感语句提取常用的传统语音情感特征101维，包括美尔倒谱系数、基频、时长、强度、振幅、音质以及共振峰等语音的声学和韵律特征。
[0043]步骤1.3对提取的特征采用中性语句的对应特征进行归一化，然后采用SFFS (Sequential Forward Floating Search)方法进行特征选择,经过特征选择后,剩下56个传统语音情感特征。
[0044]步骤1.4:采用训练集中情感语句的56维传统语音情感特征训练SVM分类器，得到基于传统语音情感特征的语音情感识别模型。
[0045]步骤2:训练基于上下文语音情感特征的语音情感识别模型。[0046]步骤2.1:对经过步骤1.1预处理后的训练集中的情感语句提取上下文语音情感特征，包括:上下文动态情感特征，上下文差分情感特征，上下文边缘动态情感特征，上下文边缘差分情感特征共268维。
[0047]步骤2.2:对步骤2.1提取的上下文语音情感特征采用中性语句的对应特征进行归一化，然后采用SFFS (Sequential Forward Floating Search)方法进行特征选择,经过特征选择后剩下91个上下文语音情感特征。
[0048]步骤2.3:采用训练集中情感语句所提取的91维上下文语音情感特征训练SVM(Support Vector Machine支持向量机)分类器,得到基于上下文语音情感特征的语音情感识别模型。
[0049]步骤3:识别待识别的情感语句的情感状态
[0050]步骤3.1:对待识别连续情感语音信号进行预处理，包括预加重、加窗处理、自动分段、分帧和端点检测。
[0051]步骤3.2:提取待识别情感语音信号的经过步骤1.2选择出的56维传统语音情感特征。
[0052]步骤3.3:输入步骤1.4训练得到的基于传统语音情感特征的语音情感识别模型进行识别，特到的识别结果表示为TP。
[0053]步骤3.4:提取待识别情感语音信号的经过步骤2.2选择出的91维上下文语音情感特征。
[0054]步骤3.5:输入步骤2.3训练得到的基于上下文语音情感特征的语音情感识别模型进行识别，特到的识别结果表示为CP。
[0055]步骤4:根据基于传统语音情感特征的语音情感识别模型的识别结果TP和基于上下文语音情感特征的语音情感识别模型的识别结果CP，采用融合算法融合两个模型的识别结果，初步得到待识别语音信号所属的情感类别以及该结果的置信度。
[0056]步骤5:采用基于情感上下文的推理规则，根据连续语音中待分析情感语句前后语句的情感状态，对待分析情感语句所体现的情感状态进行调整，得到待分析情感语句最终所属的情感状态。
[0057]相应地，本发明还公开了一种基于情感上下文的语音情感推理系统，包括:
[0058]训练单元，用于在相邻情感语句中提取上下文语音情感特征和传统语音情感特征，按特征类别的不同分别建立上下文模型和传统模型；
[0059]识别单元，用于对待分析连续语音划分为情感相对独立的情感语句序列，分别提取这些语句的上下文语音情感特征和传统语音情感特征，然后分别采用训练好的上下文模型和传统模型对当前语句进行情感识别，得出当前语句在两个模型上的决策向量.[0060]融合识别单元，用于将上下文模型和传统模型对待分析连续语音的当前情感语句的决策结果进行融合，得到初步的识别结果；调整单元，用于从整个待分析连续语音角度对每个语句的情感类别用情感上下文推理规则进行调整，得到待分析连续语音的情感类别序列。
[0061]下面结合附图和【具体实施方式】对本发明做进一步阐述:
[0062]如图1所示，为本发明一【具体实施方式】中基于情感上下文的情感推理系统框图，主要分为四个阶段:训练阶段、识别阶段、融合识别阶段和基于情感上下文推理规则的情感调整阶段。
[0063]1、训练阶段
[0064]训练阶段建立基于传统语音情感特征的语音情感识别模型和基于上下文语音情感特征的语音情感识别模型，共分为三步:
[0065](I)情感语音信号预处理。
[0066]这一步是采用传统的语音信号预处理方法对情感语音信号进行预处理，包括预加重、加窗处理、分帧、端点检测。
[0067](2)传统语音情感特征的提取和基于传统语音情感特征的语音情感识别模型训练。
[0068](2-1)对当前情感语句提取包括美尔倒谱系数、基频、时长、强度、振幅、音质以及共振峰等语音的声学和韵律特征，并在情感语句上分别提取这些特征的最大值、最小值以及变化范围等统计特征。这些特征的提取方法不属于本发明的部分，因此不做详细叙述。提取的具体特征见表1所示。
[0069]表1传统语音情感特征的描述
【权利要求】
1.一种基于情感上下文的语音情感推理方法，其特征在于，所述方法包括: 51、在相邻情感语句中提取上下文语音情感特征和传统语音情感特征，按特征类别的不同分别建立上下文模型和传统模型； 52、对待分析连续语音划分为情感相对独立的情感语句序列，并提取所述情感语句的上下文语音情感特征和传统语音情感特征.然后分别采用上下文模型和传统模型进行识另O，得出这两个模型对带分析情感语句的决策向量； 53、采用基于情感交互矩阵的融合方法对上下文模型和传统模型对待分析连续语音的当前情感语句的决策结果进行融合，得到初步的识别结果； 54、从整个待分析连续语音角度对每个语句的情感类别用情感上下文推理规则进行调整，得到待分析连续语音的情感类别序列。
2.根据权利要求1所述的方法，其特征在于，所述步骤S3包括: 在利用传统模型和上下文模型对待分析情感语句决策向量的最大两类进行融合时，弓丨入现有统计出的情感交互矩阵，并进行情感交互矩阵处理，得到情感上下文交互矩阵，上下文交互矩阵连同两决策向量一起对情感语句的情感类别进行融合推理。
3.根据权利要求1所述的方法，其特征在于，所述步骤S4包括: 情感上下文推理规则利用人的情感表达具有连续性的特点，根据前后相邻语句的情感类别对当前情感语句的情感类别进行调整。
4.根据权利要求1所述的方法，其特征在于，所述步骤SI中的相邻情感语句为前后相邻情感语句的前一句的后1/3有声段部分和后一语句的整个语句。
5.根据权利要求4所述的方法，其特征在于，所述上下文语音情感特征包括:上下文动态情感特征、上下文差分情感特征、上下文边缘动态情感特征和上下文边缘差分情感特征。
6.根据权利要求5所述的方法，其特征在于，所述上下文动态情感特征为相邻情感语句的前一句的后1/3有声段部分和后一句的整个有声段中101维传统语音情感特征中与变化率、平均变化和协方差相关的33维的语音情感动态特征。
7.根据权利要求5所述的方法，其特征在于，所述上下文差分情感特征为先对相邻情感语句的前一句的后1/3有声段和后一句的整个有声段分别提取传统的101维语音情感特征，然后再对二者做差分操作后得到的特征。
8.根据权利要求6所述的方法，其特征在于，所述上下文边缘动态情感特征为从相邻情感语句的前一句的后1/3有声段部分与后一句的前1/3有声段部分组成的边缘相邻句中提取的33维语音情感动态特征。
9.根据权利要求8所述的方法，其特征在于，所述下文边缘差分情感特征为边缘相邻句中按上下文差分情感特征提取方法提取的特征。
10.一种如权利要求1所述的基于情感上下文的语音情感推理系统，其特征在于，所述系统包括: 训练单元，用于在相邻情感语句中提取上下文语音情感特征和传统语音情感特征，按特征类别的不同分别建立上下文模型和传统模型；识别单元，用于对待分析连续语音划分为情感相对独立的情感语句序列，分别提取所述语句的上下文语音情感特征和传统语音情感特征，然后分别采用训练好的上下文模型和传统模型对当前语句进行情感识别，得出当前语句在两个模型上的决策向量；融合识别单元，用于将上下文模型和传统模型对待分析连续语音的当前情感语句的决策结果进行融合，得到初步的识别结果；调整单元，用于从整个待分析连续语音角度对每个语句的情感类别用情感上下文推理规则进行调整，得到待分析连续语音的情感类别序列。
【文档编号】G10L25/63GK103810994SQ201310401319
【公开日】2014年5月21日申请日期:2013年9月5日优先权日:2013年9月5日
【发明者】毛启容, 白李娟, 王丽申请人:江苏大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：毛启容;白李娟;王丽
技术所有人：江苏大学
我是此专利的发明人