情绪识别方法、装置、存储介质及电子设备与流程

文档序号：22617869发布日期：2020-10-23 19:20阅读：158来源：国知局

本申请涉及数据处理技术领域，具体涉及一种情绪识别方法、装置、存储介质及电子设备。

背景技术：

人类作为一种具有极强情感因子的群体，具有喜、怒、忧、思、悲、恐以及惊等情绪。电子设备可以通过对用户的情绪进行识别，来向用户提供智能化的服务，比如，在识别出用户不开心时，“说”笑话给用户听。然而，相关技术中，通常基于感情词典的情绪识别方法来识别用户的情绪，比如，识别用户输入文本内容中的情绪词，再根据感情词典匹配出对应的情绪，但是这种情绪识别的方式并不准确。

技术实现要素：

本申请实施例提供了一种情绪识别方法、装置、存储介质及电子设备，能够实现对用户情绪的准确识别。

第一方面，本申请实施例提供了一种情绪识别方法，应用于电子设备，该情绪识别方法包括：

获取用户输入的文本内容，并根据所述文本内容以及预先训练的第一情绪识别模型进行情绪识别，得到所述用户的第一候选情绪；

获取用户输入所述文本内容期间的声音内容，并根据所述声音内容以及预先训练的第二情绪识别模型进行情绪识别，得到所述用户的第二候选情绪；

根据所述第一候选情绪以及所述第二候选情绪确定所述用户的目标情绪。

第二方面，本申请实施例提供了一种情绪识别装置，应用于电子设备，该情绪识别装置包括：

第一情绪识别模块，用于获取用户输入的文本内容，并根据所述文本内容以及预先训练的第一情绪识别模型进行情绪识别，得到所述用户的第一候选情绪；

第二情绪识别模块，用于获取用户输入所述文本内容期间的声音内容，并根据所述声音内容以及预先训练的第二情绪识别模型进行情绪识别，得到所述用户的第二候选情绪；

目标情绪识别模块，用于根据所述第一候选情绪以及所述第二候选情绪确定所述用户的目标情绪。

第三方面，本申请实施例提供了一种存储介质，其上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如本申请实施例提供的情绪识别方法中的步骤。

第四方面，本申请实施例提供了一种电子设备，包括处理器和存储器，所述存储器有计算机程序，所述处理器通过调用所述计算机程序，用于执行如本申请实施例提供的情绪识别方法中的步骤。

本申请实施例中，电子设备可以获取用户输入的文本内容，并根据文本内容以及预先训练的第一情绪识别模型进行情绪识别，得到用户的第一候选情绪，然后获取用户输入文本内容期间的声音内容，并根据声音内容以及预先训练的第二情绪识别模型进行情绪识别，得到用户的第二候选情绪，最后根据第一候选情绪以及第二候选情绪确定用户的目标情绪。由此，本申请实施例通过基于不同的信息源对用户进行情绪识别，并结合不同信息源所得的情绪识别结果最终确定用户的目标情绪，实现对用户情绪的准确识别。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的全景感知架构的结构示意图。

图2是本申请实施例提供的情绪识别方法的一流程示意图。

图3是本申请实施例提供的情绪识别方法的另一流程示意图。

图4是本申请实施例提供的情绪识别方法的应用场景示意图。

图5是本申请实施例提供的情绪识别装置的一结构示意图。

图6是本申请实施例提供的电子设备的一结构示意图。

图7是本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

随着传感器的小型化、智能化，如手机、平板电脑等电子设备集成了越来越多的传感器，比如光线传感器、距离传感器、位置传感器、加速度传感器以及重力传感器，等等。电子设备能够通过其配置的传感器以更小的功耗采集到更多的数据。同时，电子设备在运行过程中还会采集到自身状态相关的数据以及用户状态相关的数据，等等。笼统的说，电子设备能够获取到外部环境相关的数据(比如温度、光照、地点、声音、天气等)、用户状态相关的数据(比如姿势、速度、手机使用习惯、个人基本信息等)以及电子设备状态相关的数据(比如耗电量、资源使用状况、网络状况等)。

本申请实施例中，为了能够对电子设备获取到的这些数据进行处理，向用户提供智能服务，提出了一种全景感知架构。请参照图1，图1为本申请实施例提供的全景感知架构的结构示意图，应用于电子设备，其包括由下至上的信息感知层、数据处理层、特征抽取层、情景建模层以及智能服务层。

作为全景感知架构的最底层，信息感知层用于获取能够描述用户的各类型情景的原始数据，包括动态的数据和静态的数据。其中，信息感知层由多个用于数据采集的传感器组成，包括但不限于图示的用于检测电子设备与外部物体之间的距离的距离传感器、用于检测电子设备所处环境的磁场信息的磁场传感器、用于检测电子设备所处环境的光线信息的光线传感器、用于检测电子设备的加速度数据的加速度传感器、用于采集用户的指纹信息的指纹传感器、用于感应磁场信息的霍尔传感器、用于检测电子设备当前所处的地理位置的位置传感器、用于检测电子设备在各个方向上的角速度的陀螺仪、用于检测电子设备的运动数据惯性传感器、用于感应电子设备的姿态信息的姿态感应器、用于检测电子设备所处环境的气压的气压计以及用于检测用户的心率信息的心率传感器等。

作为全景感知架构的次底层，数据处理层用于对信息感知层获取到的原始数据进行处理，消除原始数据存在的噪声、不一致等问题。其中，数据处理层可以对信息感知层获取到的数据进行数据清理、数据集成、数据变换、数据归约等处理。

作为全景感知架构的中间层，特征抽取层用于对数据处理层处理后的数据进行特征抽取，以提取所述数据中包括的特征。其中，特征抽取层可以通过过滤法、包装法、集成法等方法来提取特征或者对提取到的特征进行处理。

过滤法是指对提取到的特征进行过滤，以删除冗余的特征数据。包装法用于对提取到的特征进行筛选。集成法是指将多种特征提取方法集成到一起，以构建一种更加高效、更加准确的特征提取方法，用于提取特征。

作为全景感知架构的次高层，情景建模层用于根据特征抽取层提取到的特征来构建模型，所得到的模型可以用于表示电子设备的状态或者用户状态或者环境状态等。例如，情景建模层可以根据特征抽取层提取到的特征来构建关键值模型、模式标识模型、图模型、实体联系模型、面向对象模型等。

作为全景感知架构的最高层，智能服务层用于根据情景建模层所构建的模型提供智能化服务。比如，智能服务层可以为用户提供基础应用服务，可以为电子设备进行系统智能优化服务，还可以为用户提供个性化智能服务等。

此外，全景感知架构中还包括算法库，算法库中包括但不限于图示的马尔科夫算法、隐含狄里克雷分布算法、贝叶斯分类算法、支持向量机、k均值聚类算法、k近邻算法、条件随机场、残差网络、长短期记忆网络、卷积神经网络以及循环神经网络等算法。

基于本申请实施例提供的全景感知架构，本申请实施例提供一种情绪识别方法，该情绪识别方法的执行主体可以是本申请实施例提供的情绪识别装置，或者集成了该情绪识别装置的电子设备，其中该情绪识别装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等配置有处理器而具有处理能力的设备。

基于本申请实施例所提供的活动预测方法，可以在信息感知层获取到全景数据，提供给数据处理层；在数据处理层从全景数据中筛选出用户输入的文本内容，以及用户输入文本内容期间的声音内容，提供给特征抽取层；在特征抽取层分别对前述文本内容和声音内容进行特征提取，得到对应文本内容的特征向量以及对应声音内容的特征向量，提供给情景建模层；在情景建模层对应文本内容的特征向量以及对应声音内容的特征向量分别进行情绪识别，得到对应文本内容的第一候选情绪、以及对应声音内容的第二候选情绪，再根据第一候选情绪以及第二候选情绪确定用户的目标情绪，提供给智能服务层；在智能服务层根据用户的目标情绪执行对应的操作，比如将前述文本内容以及目标情绪发送至对应的目标设备，使得其他用户能够查看用户输入的文本内容之外，还能够获知用户输入文本内容时的情绪，有助于更好的沟通。

请参照图2，图2为本申请实施例提供的情绪识别方法的流程示意图。如图2所示，本申请实施例提供的情绪识别方法的流程可以如下：

在101中，获取用户输入的文本内容，并根据文本内容以及预先训练的第一情绪识别模型进行情绪识别，得到用户的第一候选情绪。

本申请实施例中，电子设备通过对用户输入进行侦测，在侦测到用户输入文本内容时，触发对用户的情绪识别。其中，文本内容包括但不限于词、句以及文章等。比如，用户在通过电子设备安装的即时通讯应用与其他用户进行会话的过程中，电子设备在侦测用户输入的聊天的文本内容时，将触发对用户进行情绪识别。

在触发对用户进行情绪识别时，电子设备首先获取到用户输入的文本内容，以根据该文本内容对用户的情绪进行初步的识别。应当说明的是，在本申请实施例中，预先训练有用于根据用户输入的文本内容对用户情绪进行识别的第一情绪识别模型。比如，预先建立初始的卷积神经网络模型，以及获取文本内容样本并对文本内容样本对应的情绪进行标定，得到对应的情绪标签，再根据文本内容样本以及标定的情绪标签对初始的卷积神经网络进行训练，将训练后的卷积神经网络作为对用户的文本内容进行情绪识别的第一情绪识别模型。其中，该第一情绪识别模型可以存储在电子设备本地，也可以存储在远端的服务器中。这样，电子设备在获取到用户输入的文本内容之后，进一步从本地获取用于对用户输入的文本内容进行情绪识别的第一情绪识别模型，或者，从远端的服务器获取用于对用户输入的文本内容进行情绪识别的第一情绪识别模型。在获取到第一情绪识别模型之后，电子设备利用该第一情绪识别模型对用户输入的文本内容进行情绪识别，并将此时识别到的情绪记为用户的第一候选情绪。

在102中，获取用户输入文本内容期间的声音内容，并根据声音内容以及预先训练的第二情绪识别模型进行情绪识别，得到用户的第二候选情绪。

应当说明的是，本申请实施例中电子设备除了根据用户输入的文本内容进行情绪识别之外，还根据用户的声音进行情绪识别。相应的，本申请实施例中还预先训练有用于根据用户的声音内容对用户情绪进行识别的第二情绪识别模型。比如，预先建立初始的卷积神经网络模型，以及获取声音内容样本并对声音内容样本对应的情绪进行标定，得到对应的情绪标签，再根据声音内容样本以及标定的情绪标签对初始的卷积神经网络进行有监督的训练，将训练后的卷积神经网络作为对用户的声音内容进行情绪识别的第二情绪识别模型。其中，该第二情绪识别模型可以存储在电子设备本地，也可以存储在远端的服务器中。这样，电子设备在获取到用户输入文本内容期间的声音内容之后，进一步从本地获取用于对用户的声音内容进行情绪识别的第二情绪识别模型，或者，从远端的服务器获取用于对用户的声音内容进行情绪识别的第二情绪识别模型。在获取到第二情绪识别模型之后，电子设备利用该第二情绪识别模型对用户输入文本内容期间的声音内容进行情绪识别，并将此时识别到的情绪记为用户的第二候选情绪。

其中，电子设备在侦测到用户输入文本内容的同时，启动内置麦克风或者外置麦克风进行声音采集，从而采集得到用户在输入前述文本内容期间的声音内容。这样，电子设备在根据用户的声音进行情绪识别时，可以直接获取到之前采集的用户输入文本内容期间的声音内容。

在103中，根据第一候选情绪以及第二候选情绪确定用户的目标情绪。

根据以上描述，本领域普通技术人员可以理解的是，以上得到的第一候选情绪以及第二候选情绪均通过独立的信息源得到，因此，为了确保对用户情绪识别的准确性，电子设备还根据第一候选情绪以及第二候选情绪进行综合分析，最终确定用户的目标情绪。

由上可知，本申请实施例中，电子设备可以获取用户输入的文本内容，并根据文本内容以及预先训练的第一情绪识别模型进行情绪识别，得到用户的第一候选情绪，然后获取用户输入文本内容期间的声音内容，并根据声音内容以及预先训练的第二情绪识别模型进行情绪识别，得到用户的第二候选情绪，最后根据第一候选情绪以及第二候选情绪确定用户的目标情绪。由此，本申请实施例通过基于不同的信息源对用户进行情绪识别，并结合不同信息源所得的情绪识别结果最终确定用户的目标情绪，实现对用户情绪的准确识别。

在一实施例中，“根据第一候选情绪以及第二候选情绪确定用户的目标情绪”包括：

将第一候选情绪以及第二候选情绪输入预先训练的贝叶斯分类器进行分类，得到贝叶斯分类器输出的用户的目标情绪。

由于以上得到的第一候选情绪以及第二候选情绪均通过独立的信息源得到，为了能够结合第一候选情绪以及第二候选情绪以得到用户的目标情绪，本申请实施例中还预先训练有用于对文本来源的候选情绪以及声音来源的候选情绪进行二次情绪分类的贝叶斯分类器。比如，可以获取文本来源的情绪样本以及对应的声音来源的情绪样本，对文本来源的情绪样本及其对应的声音来源的情绪文本进行情绪标定，得到对应的情绪标签，再根据文本来源的情绪样本及其对应的声音来源的情绪文本、以及对应的情绪标签进行训练，得到贝叶斯分类器。

其中，训练得到的贝叶斯分类器可以存储在电子设备本地，也可以存储在远端的服务器中。这样，电子设备在根据第一候选情绪以及第二候选情绪确定用户的目标情绪时，进一步从本地获取贝叶斯分类器，或者从远端的服务器获取贝叶斯分类器，从而将之前获取到的文本来源的第一候选情绪以及声音来源的第二候选情绪输入到贝叶斯分类器中进行分类，将贝叶斯分类器所输出的情绪作为对用户进行情绪识别所最终得到的目标情绪。

在一实施例中，“根据文本内容以及预先训练的第一情绪识别模型进行情绪识别，得到用户的第一候选情绪”包括：

(1)对文本内容进行特征提取，得到对应的特征向量；

(2)将特征向量转换为对应的特征张量，并将特征张量输入第一情绪识别模型进行情绪识别，得到第一情绪识别模型输出的用户的第一候选情绪。

本申请实施例中，电子设备在根据文本内容以及预先训练的第一情绪识别模型进行情绪识别时，并不是直接将原始的文本内容输入到第一情绪识别模型中进行预测，而是对原始的文本内容进行处理后，将能够代表原始文本内容的特征输入第一情绪识别模型中进行情绪识别。

其中，电子设备首先采用预设的特征提取技术对用户输入的文本内容进行特征提取，将文本内容转换为对应的向量，记为特征向量。然后，电子设备进一步将对应文本内容的特征向量组合为张量，记为特征张量。

应当说明的是，与向量、矩阵一样，张量也是一种数据结构，但张量是一个三维及以上的数据结构，其中数据的维度被称为张量的阶，可以将张量看做是向量和矩阵在多维空间中的推广，将向量看做为一阶张量，将矩阵看做是二阶张量。

相应的，第一情绪识别模型在训练时，也不是根据原始的文本内容样本进行训练，而是以相同的方式获取到文本内容样本的对应的特征张量后，利用其特征张量以及标定的情绪标签进行训练。这样，在将特征向量转换为对应的特征张量之后，即可将特征张量输入第一情绪识别模型进行情绪识别，得到第一情绪识别模型输出的用户的第一候选情绪。

在一实施例中，“对文本内容进行特征提取，得到对应的特征向量”包括：

提取文本内容包括的关键词，并通过词嵌入模型将关键词映射到向量空间，得到特征向量。

本领域普通技术人员可以理解的是，在用户输入的文本内容中并不是所有内容都具有意义，若对完整的文本内容进行特征提取，将影响到对用户情绪识别的整体效率。因此，本申请实施例中电子设备在对用户输入的文本内容进行特征提取时，首先采用预设的关键词提取算法，提取出文本内容中的关键词，利用提取出的关键词来代表完整的文本内容，降低需要进行特征提取的内容，达到提高情绪识别效率的目的。其中，对于采用何种关键词提取算法来对文本内容进行关键词提取，本申请实施例不做具体限制，可由本领域普通技术人员根据实际需要选取合适的关键词提取算法。比如，本申请实施例中，电子设备可以采用id-tif算法从用户输入的文本内容中提取关键词，假设用户输入的文本内容为句子“我今天很想你”，利用id-tif算法对其提取关键词，得到关键词为“今天”和“想你”。

电子设备在提取得到能够代表文本内容的关键词之后，进一步通过词嵌入模型将从文本内容中提取出的关键词映射到向量空间，得到对应文本内容的特征向量。其中，词嵌入模型包括但不限于word2vec模型、glove模型、fasttext模型以及elmo模型等。

在一实施例中，“将特征张量输入第一情绪识别模型进行情绪识别”之前，还包括：

对特征张量进行零填充处理。

本领域普通技术人员可以理解的是，用户在向电子设备输入文本内容时，由于其每次输入文本内容的长短不同，这样对于用户每次输入的文本内容所得到的特征张量的数据量也是不同的，而且特征张量内也无法对齐。因此，本申请实施例中电子设备在将特征张量输入第一情绪识别模型进行情绪识别之前，还对特征张量进行零填充处理，使得特征张量内部对齐，以及使得其数据量达到预设数据量。

相应的，该第一情绪识别模型在训练时，对于根据文本内容样本对应的特征张量，同样对齐进行零填充处理，使得其内部对齐，且数据量达到预设数据量。

在一实施例中，“根据声音内容以及预先训练的第二情绪识别模型进行情绪识别，得到用户的第二候选情绪”包括：

(1)将声音内容划分为多个子声音内容；

(2)将多个子声音内容分别输入第二情绪识别模型进行情绪识别，得到对应的多个候选情绪；

(3)根据多个候选情绪确定用户的第二候选情绪。

本申请实施例中，电子设备在根据声音内容以及预先训练的第二情绪识别模型进行情绪识别，得到用户的第二候选情绪时，首先将用户输入前述文本内容期间的声音内容进行划分，将其划分为多个长度相同的子声音内容。其中，在对声音内容进行划分时，相邻两个子声音内容可以具有相同的声音部分，也可以不具有相同的声音部分。

在将完整的声音内容划分为多个子声音内容之后，电子设备分别将多个子声音内容转换为对应的频谱图，利用频谱图来代表相应的子声音内容，比如，可以采用快速傅里叶变换或者梅尔频率倒谱系数的方式进行频谱图的转换。

相应的，第二情绪识别模型在训练时，也不是根据原始的声音内容样本进行训练，而是将声音内容样本转换为对应的频谱图后，利用其对应的频谱图以及标定的情绪标签进行训练。这样，电子设备在将划分得到多个子声音内容转换为对应的频谱图之后，分别将各子声音内容对应的频谱图输入到第二情绪识别模型进行情绪识别，得到第二情绪识别模型输出的对应各子声音内容的候选情绪。

然后，电子设备进一步根据得到多个候选情绪确定用户的第二候选情绪。比如，电子设备可以判断多个候选情绪中、相同候选情绪占全部候选情绪的比例是否达到预设比例，若达到，则可将相同的候选情绪确定为用户的第二候选情绪。

需要说明的是，对于预设比例的具体取值，本申请实施例不做具体限制，可由本领域技术人员根据实际需要进行设置，比如，本申请实施例中将预设比例设置为60％。比如，对声音内容进行划分，共得到5个子声音内容，将这5个子声音内容分别转换为对于的频谱图，并通过第二情绪识别模型进行情绪识别，得到5个候选情绪，若这5个候选情绪中有3个候选情绪相同，均为“开心”，此时将“开心”确定为用户的第二候选情绪。

在一实施例中，“根据第一候选情绪以及第二候选情绪确定用户的目标情绪”之后，还包括：

将文本内容以及目标情绪发送至对应的目标设备。

本领域普通技术人员可以理解的是，用户在通过电子设备与其他用户进行基于文本内容的沟通时，用户并不清楚其他用户的情绪，其他用户也不清楚用户的情绪。为此，在本申请实施例中，当用户输入的文本内容用于其他用户的沟通时，将用户输入的文本内容以及识别出的目标情绪发送至对应的目标设备，也即是与用户沟通的其他用户的电子设备。由此，使得其他用户能够查看用户输入的文本内容之外，还能够获知用户输入文本内容时的情绪，有助于更好的沟通。

请结合参照图3和图4，图3为本申请实施例提供的情绪识别方法的另一种流程示意图，图4为该情绪识别方法的应用场景示意图。该情绪识别方法可以应用于电子设备，该情绪识别方法的流程可以包括：

在201中，电子设备在用户与其他用户沟通时，获取用户输入的文本内容。

本领域普通技术人员可以理解的是，用户在通过电子设备与其他用户进行基于文本内容的沟通时，用户并不清楚其他用户的情绪，其他用户也不清楚用户的情绪。为此，在本申请实施例中，当用户输入的文本内容用于其他用户的沟通时，可以对用户的情绪进行识别，并将用户输入的文本内容以及识别得到的情绪发送至其他用户的电子设备，从而帮助用户更好的与他人进行沟通。

其中，电子设备首先识别用户是否与其他用户进行沟通，比如，可以通过识别前台运行的应用程序是否为沟通类应用程序(比如即时通讯应用以及短信等)方式来判定用户是否与其他用户进行沟通，其中，若前台运行的应用程序为沟通类应用程序，则电子设备判定用户在与其他用户进行沟通。电子设备在识别到用户与其他用户沟通时，对用户输入进行侦测，在侦测到用户输入文本内容时，触发对用户的情绪识别。其中，文本内容包括但不限于词、句以及文章等。

在202中，电子设备提取前述文本内容包括的关键词，并通过词嵌入模型将提取到的关键词映射到向量空间，得到对应的特征向量。

在203中，电子设备将前述特征向量转换为对应的特征张量，并将特征张量输入预先训练的第一情绪识别模型进行情绪识别，得到用户的第一候选情绪。

应当说明的是，在本申请实施例中，预先训练有用于根据用户输入的文本内容对用户情绪进行识别的第一情绪识别模型。这样，电子设备在获取到用户输入的文本内容之后，即可根据该文本内容以及预先训练的第一情绪识别模型对用户的情绪进行初步的识别。

其中，电子设备首先采用预设的关键词提取算法，提取出文本内容中的关键词，利用提取出的关键词来代表完整的文本内容。对于采用何种关键词提取算法来对文本内容进行关键词提取，本申请实施例不做具体限制，可由本领域普通技术人员根据实际需要选取合适的关键词提取算法。比如，本申请实施例中，电子设备可以采用id-tif算法从用户输入的文本内容中提取关键词，假设用户输入的文本内容为句子“我今天很想你”，利用id-tif算法对其提取关键词，得到关键词为“今天”和“想你”。

然后，电子设备进一步将对应文本内容的特征向量组合为张量，记为特征张量。与向量、矩阵一样，张量也是一种数据结构，但张量是一个三维及以上的数据结构，其中数据的维度被称为张量的阶，可以将张量看做是向量和矩阵在多维空间中的推广，将向量看做为一阶张量，将矩阵看做是二阶张量。在将特征向量转换为对应的特征张量之后，即可将特征张量输入第一情绪识别模型进行情绪识别，得到第一情绪识别模型输出的用户的第一候选情绪。

在204中，电子设备获取用户输入文本内容期间的声音内容。

应当说明的是，本申请实施例中电子设备除了根据用户输入的文本内容进行情绪识别之外，还根据用户的声音进行情绪识别。其中，电子设备在侦测到用户输入文本内容的同时，启动内置麦克风或者外置麦克风进行声音采集，从而采集得到用户在输入前述文本内容期间的声音内容。这样，电子设备可以直接获取到之前采集的用户输入文本内容期间的声音内容。

在205中，电子设备根据前述声音内容以及预先训练的第二情绪识别模型进行情绪识别，得到用户的第二候选情绪。

本申请实施例中还预先训练有用于根据用户的声音内容对用户情绪进行识别的第二情绪识别模型。其中，电子设备将前述声音内容转换为对应的频谱图，利用频谱图来代表声音内容，比如，可以采用快速傅里叶变换或者梅尔频率倒谱系数的方式进行频谱图的转换。

电子设备在将声音内容转换为对应的频谱图之后，转换得到的频谱图输入到第二情绪识别模型进行情绪识别，得到第二情绪识别模型输出的用户的第二候选情绪。

在206中，电子设备将第一候选情绪以及第二候选情绪输入预先训练的贝叶斯分类器进行分类，得到贝叶斯分类器输出的用户的目标情绪。

申请实施例中还预先训练有用于对文本来源的候选情绪以及声音来源的候选情绪进行二次情绪分类的贝叶斯分类器。比如，可以获取文本来源的情绪样本以及对应的声音来源的情绪样本，对文本来源的情绪样本及其对应的声音来源的情绪文本进行情绪标定，得到对应的情绪标签，再根据文本来源的情绪样本及其对应的声音来源的情绪文本、以及对应的情绪标签进行训练，得到贝叶斯分类器。

在207中，电子设备将前述文本内容以及目标情绪发送至其他用户的电子设备。

电子设备在识别出用户的目标情绪之后，将用户输入的文本内容以及识别出的目标情绪发送至对应的目标设备，也即是与用户沟通的其他用户的电子设备。由此，使得其他用户能够查看用户输入的文本内容之外，还能够获知用户输入文本内容时的情绪，有助于更好的沟通。

本申请实施例还提供一种情绪识别装置。请参照图5，图5为本申请实施例提供的情绪识别装置的结构示意图。其中该情绪识别装置应用于电子设备，该情绪识别装置包括第一情绪识别模块301、第二情绪识别模块302以及目标情绪识别模块303以及行为预测模块304，如下：

第一情绪识别模块301，用于获取用户输入的文本内容，并根据文本内容以及预先训练的第一情绪识别模型进行情绪识别，得到用户的第一候选情绪；

第二情绪识别模块302，用于获取用户输入文本内容期间的声音内容，并根据声音内容以及预先训练的第二情绪识别模型进行情绪识别，得到用户的第二候选情绪；

目标情绪识别模块303，用于根据第一候选情绪以及第二候选情绪确定用户的目标情绪。

在一实施例中，在根据第一候选情绪以及第二候选情绪确定用户的目标情绪时，目标情绪识别模块303可以用于：

将第一候选情绪以及第二候选情绪输入预先训练的贝叶斯分类器进行分类，得到贝叶斯分类器输出的用户的目标情绪。

在一实施例中，在根据文本内容以及预先训练的第一情绪识别模型进行情绪识别，得到用户的第一候选情绪时，第一情绪识别模块301可以用于：

对文本内容进行特征提取，得到对应的特征向量；

将特征向量转换为对应的特征张量，并将特征张量输入第一情绪识别模型进行情绪识别，得到第一情绪识别模型输出的用户的第一候选情绪。

在一实施例中，在对文本内容进行特征提取，得到对应的特征向量时，第一情绪识别模块301可以用于：

提取文本内容包括的关键词，并通过词嵌入模型将关键词映射到向量空间，得到特征向量。

在一实施例中，在将特征张量输入第一情绪识别模型进行情绪识别之前，还包括：

对特征张量进行零填充处理。

在一实施例中，在根据声音内容以及预先训练的第二情绪识别模型进行情绪识别，得到用户的第二候选情绪时，第二情绪识别模块302可以用于：

将声音内容划分为多个子声音内容；

将多个子声音内容分别输入第二情绪识别模型进行情绪识别，得到对应的多个候选情绪；

根据多个候选情绪确定用户的第二候选情绪。

在一实施例中，情绪识别装置还包括内容发送模块，用于在根据第一候选情绪以及第二候选情绪确定用户的目标情绪之后，将文本内容以及目标情绪发送至对应的目标设备。

应当说明的是，本申请实施例提供的情绪识别装置与上文实施例中的情绪识别方法属于同一构思，在情绪识别装置上可以运行情绪识别方法实施例中提供的任一方法，其具体实现过程详见情绪识别方法实施例，此处不再赘述。

本申请实施例提供一种计算机可读的存储介质，其上存储有计算机程序，当其存储的计算机程序在计算机上执行时，使得计算机执行如本实施例提供的情绪识别方法中的步骤。其中，存储介质可以是磁碟、光盘、只读存储器(readonlymemory，rom，)或者随机存取器(randomaccessmemory，ram)等。

本申请实施例还提供一种电子设备，包括存储器，处理器，处理器通过调用存储器中存储的计算机程序，执行本实施例提供的情绪识别方法中的步骤。

在一实施例中，还提供一种电子设备。请参照图6，电子设备包括处理器401以及存储器402。其中，处理器401与存储器402电性连接。

处理器401是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或加载存储在存储器402内的计算机程序，以及调用存储在存储器402内的数据，执行电子设备的各种功能并处理数据。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的计算机程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

在本申请实施例中，电子设备中的处理器401会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器402中，并由处理器401运行存储在存储器402中的计算机程序，从而实现各种功能，如下：

获取用户输入的文本内容，并根据文本内容以及预先训练的第一情绪识别模型进行情绪识别，得到用户的第一候选情绪；

获取用户输入文本内容期间的声音内容，并根据声音内容以及预先训练的第二情绪识别模型进行情绪识别，得到用户的第二候选情绪；

根据第一候选情绪以及第二候选情绪确定用户的目标情绪。

请参照图7，图7为本申请实施例提供的电子设备的另一结构示意图，与图6所示电子设备的区别在于，电子设备还包括输入单元403和输出单元404等组件。

其中，输入单元403可用于接收输入的数字、字符信息或用户特征信息(比如指纹)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入等。

输出单元404可用于显示由用户输入的信息或提供给用户的信息，如屏幕。

获取用户输入的文本内容，并根据文本内容以及预先训练的第一情绪识别模型进行情绪识别，得到用户的第一候选情绪；

获取用户输入文本内容期间的声音内容，并根据声音内容以及预先训练的第二情绪识别模型进行情绪识别，得到用户的第二候选情绪；

根据第一候选情绪以及第二候选情绪确定用户的目标情绪。

在一实施例中，在根据第一候选情绪以及第二候选情绪确定用户的目标情绪时，处理器401可以执行：

将第一候选情绪以及第二候选情绪输入预先训练的贝叶斯分类器进行分类，得到贝叶斯分类器输出的用户的目标情绪。

在一实施例中，在根据文本内容以及预先训练的第一情绪识别模型进行情绪识别，得到用户的第一候选情绪时，处理器401可以执行：

对文本内容进行特征提取，得到对应的特征向量；

将特征向量转换为对应的特征张量，并将特征张量输入第一情绪识别模型进行情绪识别，得到第一情绪识别模型输出的用户的第一候选情绪。

在一实施例中，在对文本内容进行特征提取，得到对应的特征向量时，处理器401可以执行：

提取文本内容包括的关键词，并通过词嵌入模型将关键词映射到向量空间，得到特征向量。

在一实施例中，在将特征张量输入第一情绪识别模型进行情绪识别之前，处理器401可以执行：

对特征张量进行零填充处理。

在一实施例中，在根据声音内容以及预先训练的第二情绪识别模型进行情绪识别，得到用户的第二候选情绪时，处理器401可以执行：

将声音内容划分为多个子声音内容；

将多个子声音内容分别输入第二情绪识别模型进行情绪识别，得到对应的多个候选情绪；

根据多个候选情绪确定用户的第二候选情绪。

在一实施例中，在根据第一候选情绪以及第二候选情绪确定用户的目标情绪之后，处理器401可以执行：

将文本内容以及目标情绪发送至对应的目标设备。

应当说明的是，本申请实施例提供的电子设备与上文实施例中的情绪识别方法属于同一构思，在电子设备上可以运行情绪识别方法实施例中提供的任一方法，其具体实现过程详见情绪识别方法实施例，此处不再赘述。

应当说明的是，对本申请实施例的情绪识别方法而言，本领域普通技术人员可以理解实现本申请实施例的情绪识别方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的至少一个处理器执行，在执行过程中可包括如情绪识别方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

对本申请实施例的情绪识别装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种情绪识别方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈仲铭;何明
技术所有人：OPPO广东移动通信有限公司
我是此专利的发明人