一种声音信号的情感信息分析方法和装置与流程

文档序号：14446185阅读：234来源：国知局

本发明涉及计算机技术领域，特别是涉及一种声音信号的情感信息分析方法和装置。

背景技术：

人在说话时，可以表达各种各样的情感信息，例如、高兴、生气、震惊、悲伤以及中性等等。

随着技术的飞速发展，智能语音交互终端得到了广泛使用，越来越多的企业利用智能语音交互终端来向用户提供服务，为了在向用户提供服务的过程中提高服务质量，智能语音交互终端往往需要分析用户发出的声音信号所要表达的情感。

其中，在现有技术中，智能语音交互终端可以根据用户发出的声音信号分析该声音信号所表达的情感信息，例如通过用户说话时的声音的大小、语调以及语速等来确定用户所表达的情感信息。例如，用户此时很生气，以大声、快速且高昂的语调说出“你这种做法让人很气愤”以表达生气的情感信息，智能语音交互终端根据用户说出此句话时的声音大小、语速和语调分析出用户此时很生气。

然而，发明人发现，如果用户此时很生气，但是用户却以较为平静的语气说出“你这种做法让人很气愤”，由于用户说话时的声音大小、语调以及语速均未达到生气的标准，因此，智能语音交互终端不会将这句话所表达的情感信息确定为生气，而很可能确定为中性，从而出现确定错误，导致确定用户发出的声音信号所表达的情感信息的正确率较低。

技术实现要素：

本发明实施例所要解决的技术问题是：确定用户发出的声音信号所表达的情感信息的正确率较低。

为了提高确定用户发出的声音信号所表达的情感信息的正确率，本发明实施例提供了一种声音信号的情感分析方法和装置。

第一方面，本发明实施例提供了一种声音信号的情感分析方法，所述方法包括：

提取声音信号中的文本信息和语音参数信息；

对所述文本信息进行文本情感分析得到所述文本信息所表达的情感信息；

对所述语音参数信息进行语音情感分析得到所述语音参数信息所表达的情感信息；

根据所述文本信息所表达的情感信息和所述语音参数信息所表达的情感信息获取所述声音信号所表达的情感信息。

其中，所述对所述文本信息进行文本情感分析得到所述文本信息所表达的情感信息，包括：

利用lstm算法对所述文本信息进行文本情感分析，得到所述文本信息所表达的各个情感信息的概率值。

其中，所述对所述语音参数信息进行语音情感分析得到所述语音参数信息所表达的情感信息，包括：

利用cnn算法对所述语音参数进行语音情感分析，得到所述语音参数所表达的各个情感信息的概率值。

其中，所述根据所述文本信息所表达的情感信息和所述语音参数信息所表达的情感信息获取所述声音信号所表达的情感信息，包括：

对于每一个情感信息，根据所述文本信息所表达的所述情感信息的概率值与所述语音参数信息所表达的所述情感信息的概率值，计算所述声音信号所表达的所述情感信息的综合概率值；

将综合概率值最高的情感信息确定为所述声音信号的所表达的情感信息。

其中，所述根据所述文本信息所表达的所述情感信息的概率值与所述语音参数信息所表达的所述情感信息的概率值，包括：

计算所述文本信息所表达的所述情感信息的概率值与预设文本情感系数之间的第一乘积；

计算所述语音参数信息所表达的所述情感信息的概率值与预设语音情感系数之间的第二乘积；

计算所述第一乘积与所述情感信息的预设矩阵向量之间的第三乘积；

计算所述第二乘积与所述情感信息的预设矩阵向量之间的第四乘积；

根据所述第三乘积、所述第四乘积获取所述声音信号所表达的所述情感的综合概率值。

第二方面，本发明实施例提供了一种声音信号的情感信息分析装置，所述装置包括：

提取模块，用于提取声音信号中的文本信息和语音参数信息；

第一分析模块，用于对所述文本信息进行文本情感分析得到所述文本信息所表达的情感信息；

第二分析模块，用于对所述语音参数信息进行语音情感分析得到所述语音参数信息所表达的情感信息；

获取模块，用于根据所述文本信息所表达的情感信息和所述语音参数信息所表达的情感信息获取所述声音信号所表达的情感信息。

其中，所述第一分析模块具体用于：利用lstm算法对所述文本信息进行文本情感分析，得到所述文本信息所表达的各个情感信息的概率值。

其中，所述第二分析模块具体用于：利用cnn算法对所述语音参数进行语音情感分析，得到所述语音参数所表达的各个情感信息的概率值。

其中，所述获取模块包括：

计算单元，用于对于每一个情感信息，根据所述文本信息所表达的所述情感信息的概率值与所述语音参数信息所表达的所述情感信息的概率值，计算所述声音信号所表达的所述情感信息的综合概率值；

确定单元，用于将综合概率值最高的情感信息确定为所述声音信号的所表达的情感信息。

其中，所述计算单元包括：

第一计算子单元，用于计算所述文本信息所表达的所述情感信息的概率值与预设文本情感系数之间的第一乘积；

第二计算子单元，用于计算所述语音参数信息所表达的所述情感信息的概率值与预设语音情感系数之间的第二乘积；

第三计算子单元，用于计算所述第一乘积与所述情感信息的预设矩阵向量之间的第三乘积；

第四计算子单元，用于计算所述第二乘积与所述情感信息的预设矩阵向量之间的第四乘积；

获取子单元，用于根据所述第三乘积、所述第四乘积获取所述声音信号所表达的所述情感信息的综合概率值。

与现有技术相比，本发明实施例包括以下优点：

在本发明实施例中，在分析用户发出的声音信号所表达的情感信息时，提取声音信号中的文本信息和语音参数信息；对该文本信息进行文本情感分析得到该文本信息所表达的情感信息，并对该语音参数信息进行语音情感分析得到该语音参数所表达的情感信息；根据该文本信息所表达的情感信息和该语音参数信息所表达的情感信息获取该声音信号的所表达的情感信息。

在确定该声音信号的所表达的情感信息时，现有技术仅仅根据该声音信号中的大小、语调以及语速来确定该声音信号的所表达的情感信息，而本发明实施例根据该声音信号中的文本信息和语音参数信息来确定该声音信号的所表达的情感信息。

相比于现有技术，本发明实施例除了根据语音参数信息之外，同时还结合了文本信息，更加全面地对该声音信号所表达的情感信息进行分析，因此可以避免出现现有技术中的误判情况，因此，本发明实施例能够提高确定声音信号所表达的情感信息的准确性。

附图说明

图1是本发明的一种声音信号的情感信息分析方法实施例的步骤流程图；

图2是本发明的一种声音信号的情感信息分析装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种声音信号的情感信息分析方法实施例的步骤流程图，具体可以包括如下步骤：

在步骤s101中，提取声音信号中的文本信息和语音参数信息；

在本发明实施例中，可以使用dnn(deepneuralnetwork，深度神经网络)算法提取该声音信号中的文本信息和语音参数信息，或者，使用lstm(longshort-termmemory，长短期记忆网络)算法和ctc(connectionisttemporalclassification，连接时序分类)模型提取该声音信号中的文本信息和语音参数信息。

其中，文本信息包括声音信号所表达的内容，例如，用户说出一句话：“你这样让我很生气”，“你这样让我很生气”这八个字可以为该声音信号的文本信息。

语音参数信息包括声音信号的语音速度、信噪比、语音大小、音调、平均基音、基音范围以及基音变化等等。

在本发明实施例中，声音信号经过用户的嘴巴和鼻子发出之后，在有些频率上的信号强度会降低，例如，高频处的信号强度降低，且低于低频处的信号强度，这样会导致声音信号失真，进而会降低声音信号所表达的情感信息的准确性。因此，为了提高确定声音信号所表达的情感信息的准确性，需要检测该声音信号在各个频率上的信号强度，当检测到信号强度在某些频率上较低时，则可以将在这些频率上的信号强度增强。

在本发明另一实施例中，需要将声音信号按照时间拆分为多个短声音信号，兵对多个短声音信号分别进行短时信号强度分析、短时过零分析、平均信号强度分析、短时相关性分析以及平均信号强度差分分析，以确定声音信号中的清音以及浊音等等，以便于之后提取该声音信号的语音参数信息。

其次，用户说话时所在的环境通常也存在噪声，通常噪声是一直存在的，而声音信号不是一直存在的，因此，需要检测是否存在声音信号，在检测是否存在声音信号时，可以使用双门限判别法等方法检测出声音信号的起始点和终止点，进而确定出该声音信号，避免将过多的噪声夹杂在该声音信号中同时处理，可以减少处理的数据量和时间，其次还可以避免噪声对分析该语音信号的情感分析结果带来的影响，以提高声音信号的情感解析结果的准确性。

在步骤s102中，对该文本信息进行文本情感分析得到该文本信息所表达的情感信息；

在本发明实施例中，可以利用lstm算法对该文本信息文本进行情感分析，得到文本信息所表达的各个情感信息的概率值，并作为该文本信息所表达的情感信息。

当然，在对该文本信息进行文本情感分析时，本发明实施例还可以采用其他文本情感分析方法，本发明实施例不限定对该文本信息进行文本情感分析时所利用的文本情感分析方法。

在本发明实施例中，技术人员可以事先在本地设置多种情感，例如，高兴、生气、震惊、悲伤、着急以及中性等等。如此，通过对文本信息分析之后，可以得到该文本信息所表达的生气的概率值、该文本信息所表达的高兴的概率值、该文本信息所表达的震惊的概率值、该文本信息所表达的悲伤的概率值、该文本信息所表达的着急的概率值以及该文本信息所表达的中性的概率值。

在步骤s103中，对该语音参数信息进行语音情感分析得到该语音参数所表达的情感信息；

在本发明实施例中，利用cnn(convolutionalneuralnetwork，卷积神经网络)算法对该语音参数进行语音情感分析，得到该语音参数所表达的各个情感信息的概率值，并作为该语音参数信息所表达的情感信息。

例如，得到该语音参数所表达的生气的概率值、该语音参数所表达的高兴的概率值、该语音参数所表达的震惊的概率值、该语音参数所表达的悲伤的概率值、该语音参数所表达的着急的概率值以及该语音参数所表达的中性的概率值。

当然，在对该语音参数进行语音情感分析时，本发明实施例还可以采用其他语音情感分析方法，本发明实施例不限定对该语音信息进行文本情感分析时所利用的语音情感分析方法。

在步骤s104中，根据该文本信息所表达的情感信息和该语音参数信息所表达的情感信息获取该声音信号所表达的情感信息。

在本发明实施例中，对于预先设置的多个情感中的任意一个情感，可以根据该文本信息所表达的该情感信息的概率值与该语音参数信息所表达的该情感信息的概率值，计算该声音信号所表达的该情感信息的综合概率值；对于预先设置的多个情感中的其他每一个情感，同样执行上述操作，如此可以分别得到该声音信号所表达的每一个情感的综合概率值，然后将综合概率值最高的情感信息确定为该声音信号的所表达的情感信息。

其中，根据该文本信息所表达的该情感的概率值与该语音参数信息所表达的该情感的概率值，计算该声音信号所表达的该情感的综合概率值的具体步骤可以通过如下流程实现，包括：

计算该文本信息所表达的该情感信息的概率值与预设文本情感系数之间的第一乘积；计算该语音参数信息所表达的该情感信息的概率值与预设语音情感系数之间的第二乘积；计算第一乘积与该情感信息的预设矩阵向量之间的第三乘积；计算第二乘积与该情感信息的预设矩阵向量之间的第四乘积；根据第三乘积、第四乘积获取该声音信号所表达的该情感信息的综合概率值。例如，将第三乘积与第四乘积输入tanh函数中，得到该声音信号所表达的该情感信息的综合概率值。

其中，在本发明实施例中，预设语音情感系数与预设文本情感系数可以相同，也可以不同。

技术人员事先可以对大量的表达用户情感的声音信号进行统计，统计出文本信息和语音参数各自分别能够表达情感的权重，如果文本信息能够表达情感的权重大于语音参数信息能够表达情感的权重，则可以设置预设文本情感系数大于预设语音情感系数；如果文本信息能够表达情感的权重小于语音参数信息能够表达情感的权重，则可以设置预设文本情感系数小于预设语音情感系数；如果文本信息能够表达情感的权重等于语音参数信息能够表达情感的权重，则可以设置预设文本情感系数等于预设语音情感系数。之后，将设置好的预设文本情感系数和预设语音情感系数分别存储在本地，以使步骤s104中可以直接从本地获取预设文本情感系数和预设语音情感系数，然后计算该文本信息所表达的该情感信息的概率值与预设文本情感系数之间的第一乘积；计算该语音参数信息所表达的该情感信息的概率值与预设语音情感系数之间的第二乘积；计算第二乘积与该情感信息的预设矩阵向量之间的第四乘积；根据第三乘积、第四乘积获取该声音信号所表达的该情感信息的综合概率值。例如，将第三乘积与第四乘积输入tanh函数中，得到该声音信号所表达的该情感信息的综合概率值。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图2，示出了本发明一种声音信号的情感信息分析装置实施例的结构框图，具体可以包括如下模块：

提取模块11，用于提取声音信号中的文本信息和语音参数信息；

第一分析模块12，用于对所述文本信息进行文本情感分析得到所述文本信息所表达的情感信息；

第二分析模块13，用于对所述语音参数信息进行语音情感分析得到所述语音参数信息所表达的情感信息；

获取模块14，用于根据所述文本信息所表达的情感信息和所述语音参数信息所表达的情感信息获取所述声音信号所表达的情感信息。

其中，所述第一分析模块12具体用于：利用长短期记忆网络lstm算法对所述文本信息进行文本情感分析，得到所述文本信息所表达的各个情感信息的概率值。

其中，所述第二分析模块13具体用于：利用卷积神经网络cnn算法对所述语音参数进行语音情感分析，得到所述语音参数所表达的各个情感信息的概率值。

其中，所述获取模块14包括：

确定单元，用于将综合概率值最高的情感信息确定为所述声音信号的所表达的情感信息。

其中，所述计算单元包括：

第一计算子单元，用于计算所述文本信息所表达的所述情感信息的概率值与预设文本情感系数之间的第一乘积；

第二计算子单元，用于计算所述语音参数信息所表达的所述情感信息的概率值与预设语音情感系数之间的第二乘积；

第三计算子单元，用于计算所述第一乘积与所述情感信息的预设矩阵向量之间的第三乘积；

第四计算子单元，用于计算所述第二乘积与所述情感信息的预设矩阵向量之间的第四乘积；

获取子单元，用于根据所述第三乘积、所述第四乘积获取所述声音信号所表达的所述情感信息的综合概率值。

相比于现有技术，本发明实施例除了根据语音参数信息之外，同时还结合了文本信息，更加全面地对声音信号所表达的情感信息进行分析，因此可以避免出现现有技术中的误判情况，因此，本发明实施例能够提高确定声音信号所表达的情感信息的准确性。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种声音信号的情感信息分析方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王富田;李健;张连毅;武卫东
技术所有人：北京捷通华声科技股份有限公司
我是此专利的发明人

上一篇：一种汽车门面板包装箱的制作方法
上一篇：一种用于放置药品的板架及一种药品盒的制作方法