一种语音情感识别方法、系统及相关设备与流程

文档序号：32165718发布日期：2022-11-12 04:27阅读：69来源：国知局

技术简介：
发现传统智能客服无法精准识别用户情感导致回复不匹配的问题，提出基于卷积神经网络与双向门控循环单元的语音情感识别模型，通过提取时空特征实现情感状态精准识别，并据此生成符合用户意图的回复，提升服务体验。
关键词：语音情感识别，智能客服

1.本发明涉及语音识别技术领域，具体涉及一种语音情感识别方法、系统及相关设备。

背景技术：

2.随着人工智能的发展，智能客服被广泛应用于各行各业，例如银行通过智能客服为客户提供各式各样的服务。
3.目前智能客服提供服务的方式为：通过语音内容分析用户意图，再按照用户意图确定答复内容。但是，用户意图不仅与语音内容相关，还与用户的情感状态(或者说情绪状态)相关；仅通过语音内容分析得到的用户意图并不准确，从而导致答复内容不满足用户的实际需求，用户服务体验较差。

技术实现要素：

4.有鉴于此，本发明实施例提供一种语音情感识别方法、系统及相关设备，以解决现有智能客服提供服务的方式存在的用户服务体验较差等问题。
5.为实现上述目的，本发明实施例提供如下技术方案：
6.本发明实施例第一方面公开一种语音情感识别方法，所述方法包括：
7.获取采集得到的用户的语音数据；
8.将所述语音数据输入预设的语音情感识别模型进行情感分类，以确定得到所述语音数据对应的情感状态，所述语音情感识别模型由基于样本数据训练神经网络模型得到，所述语音情感识别模型至少包含双向门控循环单位bgru层；
9.根据所述语音数据和所述情感状态，确定针对所述语音数据的答复内容；
10.调用智能客服反馈所述答复内容。
11.优选的，所述语音情感识别模型包括：输入层、具有残差结构的卷积神经网络层、bgru层和分类结构部分；所述残差结构用于防止梯度消失，所述分类结构部分由注意力机制层、全连接层和逻辑回归层构成。
12.优选的，将所述语音数据输入预设的语音情感识别模型进行情感分类，以确定得到所述语音数据对应的情感状态，包括：
13.调用所述输入层对所述语音数据进行预处理，得到所述语音数据的特征信息，所述特征信息包括：频谱图、一阶导数和二阶导数；
14.将所述特征信息输入所述具有残差结构的卷积神经网络层，以提取得到所述语音数据的空间特征；
15.将所述空间特征沿时间轴输入所述bgru层，以捕获到所述语音数据的时间序列特征，所述bgur层由多个门控循环单位gru构成；
16.将所述时间序列特征输入所述分类结构部分进行情感分类，以确定得到所述语音数据对应的情感状态。
17.优选的，根据所述语音数据和所述情感状态，确定针对所述语音数据的答复内容，包括：
18.根据所述语音数据和所述情感状态，确定得到用户意图；
19.按照所述用户意图，确定针对所述语音数据的答复内容。
20.本发明实施例第二方面公开一种语音情感识别系统，所述系统包括：
21.获取单元，用于获取采集得到的用户的语音数据；
22.分类单元，用于将所述语音数据输入预设的语音情感识别模型进行情感分类，以确定得到所述语音数据对应的情感状态，所述语音情感识别模型由基于样本数据训练神经网络模型得到，所述语音情感识别模型至少包含双向门控循环单位bgru层；
23.确定单元，用于根据所述语音数据和所述情感状态，确定针对所述语音数据的答复内容；
24.反馈单元，用于调用智能客服反馈所述答复内容。
25.优选的，所述语音情感识别模型包括：输入层、具有残差结构的卷积神经网络层、bgru层和分类结构部分；所述残差结构用于防止梯度消失，所述分类结构部分由注意力机制层、全连接层和逻辑回归层构成。
26.优选的，所述分类单元包括：
27.预处理模块，用于调用所述输入层对所述语音数据进行预处理，得到所述语音数据的特征信息，所述特征信息包括：频谱图、一阶导数和二阶导数；
28.提取模块，用于将所述特征信息输入所述具有残差结构的卷积神经网络层，以提取得到所述语音数据的空间特征；
29.捕获模块，用于将所述空间特征沿时间轴输入所述bgru层，以捕获到所述语音数据的时间序列特征，所述bgur层由多个门控循环单位gru构成；
30.分类模块，用于将所述时间序列特征输入所述分类结构部分进行情感分类，以确定得到所述语音数据对应的情感状态。
31.优选的，所述确定单元包括：
32.第一确定模块，用于根据所述语音数据和所述情感状态，确定得到用户意图；
33.第二确定模块，用于按照所述用户意图，确定针对所述语音数据的答复内容。
34.本发明实施例第三方面公开一种电子设备，包括：处理器以及存储器，所述处理器以及存储器通过通信总线相连；其中，所述处理器，用于调用并执行所述存储器中存储的程序；所述存储器，用于存储程序，所述程序用于实现如本发明实施例第一方面公开的语音情感识别方法。
35.本发明实施例第四方面公开一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行本发明实施例第一方面公开的语音情感识别方法。
36.基于上述本发明实施例提供的一种语音情感识别方法、系统及相关设备，获取采集得到的用户的语音数据；将语音数据输入预设的语音情感识别模型进行情感分类，以确定得到语音数据对应的情感状态；根据语音数据和情感状态，确定针对语音数据的答复内容；调用智能客服反馈答复内容。本方案中，利用预先训练得到的语音情感识别模型对用户的语音数据进行处理，以确定得到语音数据对应的情感状态。按照语音数据和情感状态确
定智能客服的答复内容，从而使答复内容更贴合用户的实际需求，提高用户的服务体验。
附图说明
37.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
38.图1为本发明实施例提供的一种语音情感识别方法的流程图；
39.图2为本发明实施例提供的语音情感识别模型的架构示意图；
40.图3为本发明实施例提供的确定情感状态的流程图；
41.图4为本发明实施例提供的一种语音情感识别系统的结构框；
42.图5为本发明实施例提供的一种语音情感识别系统的另一结构框图；
43.图6为本发明实施例提供的一种语音情感识别系统的又一结构框图。
具体实施方式
44.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
45.在本技术中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
46.需要说明的是，本发明提供的一种语音情感识别方法、系统及相关设备可用于人工智能领域。上述仅为示例，并不对本发明提供的一种语音情感识别方法、系统及相关设备的应用领域进行限定。
47.由背景技术可知，智能客服在提供服务时，通过语音内容分析用户意图，再按照用户意图确定答复内容。但是，用户意图不仅与语音内容相关，还与用户的情感状态相关，仅通过语音内容分析得到的用户意图并不准确，从而导致答复内容不满足用户的实际需求，用户服务体验较差。
48.因此，本发明实施例提供一种语音情感识别方法、系统及相关设备，利用预先训练得到的语音情感识别模型对用户的语音数据进行处理，以确定得到语音数据对应的情感状态。按照语音数据和情感状态确定智能客服的答复内容，从而使答复内容更贴合用户的实际需求，以提高用户的服务体验。
49.参见图1，示出了本发明实施例提供的一种语音情感识别方法的流程图，该语音情感识别方法包括：
50.步骤s101：获取采集得到的用户的语音数据。
51.在具体实现步骤s101的过程中，用户在与智能客服的交互过程中，通过传感器采
集用户的语音数据；在采集到用户的语音数据后，获取该语音数据以进行后续情感分类。
52.例如：用户在与银行智能客服的交互过程中，获取由传感器采集到的用户的语音数据。
53.步骤s102：将语音数据输入预设的语音情感识别模型进行情感分类，以确定得到语音数据对应的情感状态。
54.语音情感识别模型由基于样本数据训练神经网络模型得到；具体而言，从样本数据中确定训练数据集，该训练数据集中包含了样本语音数据，以及样本语音数据对应的真实情感分类(或者说真实情绪分类)；利用训练数据集对神经网络模型进行训练直至该神经网络模型收敛，即可得到语音情感识别模型。
55.一些实施例中，语音情感识别模型包括：输入层、具有残差结构的卷积神经网络层、双向门控循环单位(bidirectional gated recurrent unit，bgru)层和分类结构部分；其中，分类结构部分由注意力机制层、全连接层和逻辑回归层构成。具体而言，输入层与具有残差结构的卷积神经网络层相连，具有残差结构的卷积神经网络层与bgru层相连，bgru层与注意力机制层相连，注意力机制层与全连接层相连，全连接层与逻辑回归层相连。
56.一些实施例中，具有残差结构的卷积神经网络层具体由卷积神经网络和残差结构层构成；残差结构(或者说残差结构层)可以用于防止梯度消失。
57.一些实施例中，bgur层由多个门控循环单位(gated recurrent unit，gru)构成。
58.例如图2提供的语音情感识别模型的架构示意图，语音情感识别模型包含输入层201、卷积神经网络202、残差结构层203、bgru层204、注意力机制层205、全连接层206和逻辑回归层207。输入层201与卷积神经网络202连接，卷积神经网络202与残差结构层203连接，残差结构层203与bgru层204连接，bgru层204与注意力机制层205连接，注意力机制层205与全连接层206连接，全连接层206与逻辑回归层207连接；语音情感识别模型的输出为情感分类，bgru层204由多个gru构成。
59.一些实施例中，结合上述图2示出的语音情感识别模型的架构可见，该语音情感识别模型也可称之为基于aa-cbgru网络的语音情感识别模型。
60.在具体实现步骤s102的过程中，获取用户的语音数据后，将该语音数据输入语音情感识别模型进行情感分类，通过该语音情感识别模型确定得到该语音数据对应的情感状态，其中，情感状态可以是悲伤、愤怒、中性或快乐等状态。
61.步骤s103：根据语音数据和情感状态，确定针对语音数据的答复内容。
62.在具体实现步骤s103的过程中，根据语音数据和该语音数据对应的情感状态进行意图分析，以确定得到用户意图；按照该用户意图进行语句匹配，以确定得到针对该语音数据的答复内容。
63.步骤s104：调用智能客服反馈答复内容。
64.在具体实现步骤s104的过程中，确定得到答复内容后，通过智能客服向用户反馈该答复内容，以完成与用户的交互。
65.在本发明实施例中，利用预先训练得到的语音情感识别模型对用户的语音数据进行处理，以确定得到语音数据对应的情感状态。按照语音数据和情感状态确定智能客服的答复内容，从而使答复内容更贴合用户的实际需求，提高用户的服务体验。
66.上述本发明实施例图1步骤s102中涉及的确定得到语音数据对应的情感状态的过
程，参见图3，示出了本发明实施例提供的确定情感状态的流程图，包括以下步骤：
67.步骤s301：调用输入层对语音数据进行预处理，得到语音数据的特征信息。
68.在具体实现步骤s301的过程中，将获取得到的语音数据输入语音情感识别模型的输入层，通过该输入层对该语音数据进行预处理，以提取得到该语音数据的特征信息，该特征信息包括频谱图、一阶导数和二阶导数。
69.也就是说，通过语音情感识别模型的输入层从语音数据中提取频谱图、一阶导数和二阶导数。
70.步骤s302：将特征信息输入具有残差结构的卷积神经网络层，以提取得到语音数据的空间特征。
71.在具体实现步骤s302的过程中，将从语音数据提取得到的特征信息输入语音情感识别模型的具有残差结构的卷积神经网络层，通过卷积神经网络和残差结构层处理该特征信息，从该特征信息中提取得到语音数据的空间特征。
72.具体而言，将特征信息输入卷积神经网络，再将卷积神经网络输出的结果输入残差结构层，从而提取得到语音数据的空间特征。
73.步骤s303：将空间特征沿时间轴输入bgru层，以捕获到语音数据的时间序列特征。
74.需要说明的是，bgur层由多个gru构成。
75.在具体实现步骤s303的过程中，将语音数据的空间特征沿时间轴输入语音情感识别模型的bgru层，通过构成bgru层的gru对该空间特征进行处理，以捕获到该语音数据的时间序列特征。
76.步骤s304：将时间序列特征输入分类结构部分进行情感分类，以确定得到语音数据对应的情感状态。
77.需要说明的是，分类结构部分由注意力机制层、全连接层和逻辑回归层构成。
78.在具体实现步骤s304的过程中，将语音数据的时间序列特征输入语音情感识别模型的分类结构部分，通过构成该分类结构部分的注意力机制层、全连接层和逻辑回归层对该时间序列特征进行处理，确定得到语音数据对应的情感状态。
79.具体而言，将时间序列特征输入注意力机制层，将注意力机制层输出的结果输入全连接层，再将全连接层输出的结果输入逻辑回归层以确定得到语音数据对应的情感状态。
80.在本发明实施例中，利用语音情感识别模型的输入层、具有残差结构的卷积神经网络层、bgru层和分类结构部分，对用户的语音数据进行处理，以确定得到语音数据对应的情感状态。按照语音数据和情感状态确定智能客服的答复内容，从而使答复内容更贴合用户的实际需求，提高用户的服务体验。
81.与上述本发明实施例提供的一种语音情感识别方法相对应，参见图4，本发明实施例还提供了一种语音情感识别系统的结构框图，该语音情感识别系统包括：获取单元401、分类单元402、确定单元403和反馈单元404；
82.获取单元401，用于获取采集得到的用户的语音数据。
83.分类单元402，用于将语音数据输入预设的语音情感识别模型进行情感分类，以确定得到语音数据对应的情感状态，语音情感识别模型由基于样本数据训练神经网络模型得到，语音情感识别模型至少包含bgru层。
84.一些实施例中，语音情感识别模型包括：输入层、具有残差结构的卷积神经网络层、bgru层和分类结构部分；残差结构用于防止梯度消失，分类结构部分由注意力机制层、全连接层和逻辑回归层构成。
85.确定单元403，用于根据语音数据和情感状态，确定针对语音数据的答复内容。
86.反馈单元404，用于调用智能客服反馈答复内容。
87.在本发明实施例中，利用预先训练得到的语音情感识别模型对用户的语音数据进行处理，以确定得到语音数据对应的情感状态。按照语音数据和情感状态确定智能客服的答复内容，从而使答复内容更贴合用户的实际需求，提高用户的服务体验。
88.优选的，结合图4，参见图5，示出了本发明实施例提供的一种语音情感识别系统的另一结构框图，分类单元402包括：预处理模块4021、提取模块4022、捕获模块4023和分类模块4024；
89.预处理模块4021，用于调用输入层对语音数据进行预处理，得到语音数据的特征信息，特征信息包括：频谱图、一阶导数和二阶导数。
90.提取模块4022，用于将特征信息输入具有残差结构的卷积神经网络层，以提取得到语音数据的空间特征。
91.捕获模块4023，用于将空间特征沿时间轴输入bgru层，以捕获到语音数据的时间序列特征，bgur层由多个gru构成。
92.分类模块4024，用于将时间序列特征输入分类结构部分进行情感分类，以确定得到语音数据对应的情感状态。
93.在本发明实施例中，利用语音情感识别模型的输入层、具有残差结构的卷积神经网络层、bgru层和分类结构部分，对用户的语音数据进行处理，以确定得到语音数据对应的情感状态。按照语音数据和情感状态确定智能客服的答复内容，从而使答复内容更贴合用户的实际需求，提高用户的服务体验。
94.优选的，结合图4，参见图6，示出了本发明实施例提供的一种语音情感识别系统的又一结构框图，确定单元403包括：
95.第一确定模块4031，用于根据语音数据和情感状态，确定得到用户意图。
96.第二确定模块4032，用于按照用户意图，确定针对语音数据的答复内容。
97.优选的，本发明实施例还提供了一种电子设备，包括：处理器以及存储器，处理器以及存储器通过通信总线相连；其中，处理器，用于调用并执行存储器中存储的程序；存储器，用于存储程序，程序用于实现上述方法实施例公开的语音情感识别方法。
98.优选的，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机可执行指令，计算机可执行指令用于执行上述方法实施例公开的语音情感识别方法。
99.综上所述，本发明实施例提供一种语音情感识别方法、系统及相关设备，利用预先训练得到的语音情感识别模型对用户的语音数据进行处理，以确定得到语音数据对应的情感状态。按照语音数据和情感状态确定智能客服的答复内容，从而使答复内容更贴合用户的实际需求，提高用户的服务体验。
100.本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或
系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
101.专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
102.对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林若男
技术所有人：中国银行股份有限公司
我是此专利的发明人

上一篇：一种碳基复合模压双极板的生产方法与流程
下一篇：车灯控制方法、装置和车辆与流程