一种语音情感识别系统及识别方法与流程

文档序号：16684372发布日期：2019-01-19 00:48阅读：500来源：国知局

本发明涉及一种语音情感识别系统及识别方法，属于语音分析技术领域。

背景技术：

目前，已有的电话诈骗防范拦截系统主要是基于信令数据的预警防范技术、基于有害录音比对的诈骗电话预警技术、以及基于智能语音技术的自然人诈骗电话预警技术，这几条技术路线存在如下问题，单纯的信令分析、录音比对分析，可利用的特征信息不多，在精准性和全面性上，很难做到各方兼顾。另外，针对语音主题分析需要积累一段时长的语音，对系统话音接入能力以及处理分析能力的要求都相对较高，在线上系统运行会需要较高的代价。

技术实现要素：

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种语音情感识别系统及识别方法，通过情绪、情感识别处理，识别出目标说话人的异常情绪特征，可以帮助评估该通电话的异常行为和意图，有效辅助诈骗电话的预警检测。克服了传统技术方案中通过基础的意图理解只能得到字面信息，无法深入挖掘因情绪、情感变化带来的异常信息的技术缺陷。

为解决上述技术问题，本发明提供一种语音情感识别系统，其特征在于，包括语音预处理模块、情感特征提取模块、情感分析模块，所述语音预处理模块的输入端接语音数据，所述语音预处理模块的输出端与所述情感特征提取模块的输入端相联接，所述情感特征提取模块的输出端与所述情感分析模块的输入端相联接，所述情感分析模块的输出端输出分析识别结果；所述语音预处理模块通过对语音数据进行处理获得语音信号，并传递到所述情感特征提取模块对所述语音信号中与情感关联紧密的声学参数进行提取，最后送入所述情感分析模块完成情感的判断。

作为一种较佳的实施例，所述情感特征提取模块包括特征参数提取模块、特征参数选取与处理模块，所述特征参数提取模块的输出端与所述特征参数选取与处理模块的输入端相联接。

作为一种较佳的实施例，所述特征参数提取模块包括依次相连的时域特征提取模块、基频特征提取模块、清池音判断模块、语速提取模块、共振峰提取模块，所述时域特征提取模块用来提取语音信号中的短时能量特征，所述基频特征提取模块用来提取语音信号中的基频特征，所述清池音判断模块用来提取语音信号中的过零率特征，所述语速提取模块用来提取语音信号中的语速特征，所述共振峰提取模块用来提取语音信号中的共振峰特征。

作为一种较佳的实施例，所述特征参数选取与处理模块用来完成数据转换和传递，通过对所述特征参数提取模块中提取出的单一特征参数诸如短时能量特征、过零率特征、基频特征、语速特征和共振峰特征进行选择处理，并将最终的特征参数汇总起来，每个语音信号的每一个有声段形成一个特征向量，并最终形成特征向量集，形成分类器训练输入文件，供所述情感分析模块的训练或识别使用。

作为一种较佳的实施例，所述情感分析模块包括分类器模块，所述分类器模块在识别成功提取语音文件的特征参数基础上，通过机器学习方法，预测该录音文件所属的情绪分类。

作为一种较佳的实施例，所述分类器模块在深度神经网络基础上，结合基于贡献分析的pca算法，提出一种基于pca算法贡献分析的深度神经网络语音情绪识别模型，通过pca贡献分析技术提取类别特征中包含语音情绪的主要成分作为深度神经网络输入，进行网络训练，有效减少冗余参数、提升训练效率，实现情绪分类。

本发明还提出一种语音情感识别方法，其特征在于，具体包括如下步骤：深度神经网络语音情绪识别模型训练步骤；深度神经网络语音情绪识别模型预测步骤。

作为一种较佳的实施例，所述深度神经网络语音情绪识别模型训练步骤具体包括：将带标签的语音情绪数据库输入特征参数提取模块进行处理获取单一特征参数诸如短时能量特征、过零率特征、基频特征、语速特征和共振峰特征，然后输入特征参数选择与处理模块进行选择处理，并将最终的特征参数汇总起来，每个语音信号的每一个有声段形成一个特征向量，并最终形成特征向量集，形成分类器训练输入文件，输入情感分析模块的分类器模块进行训练，获得深度神经网络语音情绪识别模型。

作为一种较佳的实施例，所述深度神经网络语音情感模型预测步骤具体包括：将未知分类的语音情绪数据库输入特征参数提取模块进行处理获取单一特征参数诸如短时能量特征、过零率特征、基频特征、语速特征和共振峰特征，然后输入特征参数选择与处理模块进行选择处理，并将最终的特征参数汇总起来，每个语音信号的每一个有声段形成一个特征向量，并最终形成特征向量集，形成分类器训练输入文件，输入情感分析模块的分类器模块按照所述深度神经网络语音情绪识别模型训练步骤获得的深度神经网络语音情绪识别模型，预测语音信号所属的情绪分类，并输出情绪识别维度结果。

本发明所达到的有益效果：本发明提出的一种语音情感识别系统及识别方法，通过情绪、情感识别处理，识别出目标说话人的异常情绪特征，可以帮助评估该通电话的异常行为和意图，有效辅助诈骗电话的预警检测，克服了传统技术方案中通过基础的意图理解只能得到字面信息，无法深入挖掘因情绪、情感变化带来的异常信息的技术缺陷，增加了电话诈骗系统的检出手段，对于语音数据可进行多维度分析，系统的检出准确率提高了5％。

附图说明

图1是本发明的一种语音情感识别系统的结构框图。

图2是本发明的一种语音情感识别方法的流程图。

图3是本发明的情绪特征参数提取模块的结构框图。

图4是本发明的深度神经网络语音情绪识别模型训练步骤的流程图。

图5是本发明的深度神经网络语音情感模型预测步骤的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示的是本发明的一种语音情感识别系统的结构框图。本发明提供一种语音情感识别系统，其特征在于，包括语音预处理模块、情感特征提取模块、情感分析模块，所述语音预处理模块的输入端接语音数据，所述语音预处理模块的输出端与所述情感特征提取模块的输入端相联接，所述情感特征提取模块的输出端与所述情感分析模块的输入端相联接，所述情感分析模块的输出端输出分析识别结果；所述语音预处理模块通过对语音数据进行处理获得语音信号，并传递到所述情感特征提取模块对所述语音信号中与情感关联紧密的声学参数进行提取，最后送入所述情感分析模块完成情感的判断。

如图3所示的是本发明的情绪特征参数提取模块的结构框图。作为一种较佳的实施例，所述特征参数提取模块包括依次相连的时域特征提取模块、基频特征提取模块、清池音判断模块、语速提取模块、共振峰提取模块，所述时域特征提取模块用来提取语音信号中的短时能量特征，所述基频特征提取模块用来提取语音信号中的基频特征，所述清池音判断模块用来提取语音信号中的过零率特征，所述语速提取模块用来提取语音信号中的语速特征，所述共振峰提取模块用来提取语音信号中的共振峰特征。

如图2所示的是本发明的一种语音情感识别方法的流程图。本发明还提出一种语音情感识别方法，其特征在于，具体包括如下步骤：深度神经网络语音情绪识别模型训练步骤；深度神经网络语音情绪识别模型预测步骤。

如图4所示的是本发明的深度神经网络语音情绪识别模型训练步骤的流程图。作为一种较佳的实施例，所述深度神经网络语音情绪识别模型训练步骤具体包括：将带标签的语音情绪数据库输入特征参数提取模块进行处理获取单一特征参数诸如短时能量特征、过零率特征、基频特征、语速特征和共振峰特征，然后输入特征参数选择与处理模块进行选择处理，并将最终的特征参数汇总起来，每个语音信号的每一个有声段形成一个特征向量，并最终形成特征向量集，形成分类器训练输入文件，输入情感分析模块的分类器模块进行训练，获得深度神经网络语音情绪识别模型。

如图5所示的是本发明的深度神经网络语音情感模型预测步骤的流程图。作为一种较佳的实施例，所述深度神经网络语音情感模型预测步骤具体包括：将未知分类的语音情绪数据库输入特征参数提取模块进行处理获取单一特征参数诸如短时能量特征、过零率特征、基频特征、语速特征和共振峰特征，然后输入特征参数选择与处理模块进行选择处理，并将最终的特征参数汇总起来，每个语音信号的每一个有声段形成一个特征向量，并最终形成特征向量集，形成分类器训练输入文件，输入情感分析模块的分类器模块按照所述深度神经网络语音情绪识别模型训练步骤获得的深度神经网络语音情绪识别模型，预测语音信号所属的情绪分类，并输出情绪识别维度结果。

需要说明的是，用于情感识别的原始语音特征类别有很多，初期可能无法明确表明哪些语音特征参数可以准确反映人类情感变化，所以通常会尽可能多的提取能够表征情感变化的特征参数用于情绪识别。尽管这些特征参数可以在不同程度上反映情绪的变化，但是，有些特征参数之间存在一定的关联，所反映的信息在一定程度上存在重叠，这些重叠参数即为冗余特征参数；此外，还有一些特征参数可能与侍分类的情绪关联性很小，甚至没有直接的关联，这些特征参数即为无用參数。无论是冗余特征参数还是无用特征参数，都有可能加大整个系统的复杂度，甚至影响分类器的识别效率。

基于上述原因，在进行信号情绪识别分类前，需要将提取的特征参数内部之间的相关性消除，同时去除无用参数。这就需要选取适当的方法从提取到的众多参数中选取具有重要贡献度的有效参数，即进行特征选择。

对于情绪识别中参数选择的研究较为成熟，目前被广大学者采用的参数选择方法有线性判别分析(lineardiscriminantanalysis，lda)、主元分析法(principlecomponentanalysis，pca)方法、模糊熵方法、次优搜索法、线性回旧模型法(regressionmodel)等。其中，pca分析法是目前最为常用的特征选择与降维方法，它以尽量不损失重要信息为宗旨，将提取到的多个原始参数线性组合为几个少数参数，变换后的这几个少数参数之间互不相干，被叫做原特征参数的主成分，它包含原将征参数的绝大部分信息，且维数较少，比原始参数的优越性更高基于此，采用pca方法来对上述类别特征进行贡献分析，实现降维处理。

分类器模块是情绪识别系统的核心模块，它是在识别成功提取语音文件的特征参数基础上，通过机器学习方法，预测该录音文件所属的情绪分类。该模块在能够成功预测之前，需要首先对其训练。本方案在深度神经网络基础上，结合基于贡献分析的pca算法，提出一种基于pca贡献分析的深度神经网络语音情感模型，通过pca技术提取类别特征中包含语音情绪的主要成分作为深度神经网络输入，进行网络训练，有效减少冗余参数、提升训练效率，实现情绪分类。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张震;李鹏;黄远;高圣翔;殷兵;刘冠男;倪江帆;冯向雷
技术所有人：国家计算机网络与信息安全管理中心;讯飞智元信息科技有限公司
我是此专利的发明人