情绪值的检测方法、装置及电子设备与流程

文档序号:11519608阅读:409来源:国知局
情绪值的检测方法、装置及电子设备与流程

本发明涉及计算机技术领域,尤其涉及一种情绪值的检测方法、装置及电子设备。



背景技术:

企业的核心资源是人本身,对企业的管理本质上是对人的管理,好的管理者需要及时掌握相应岗位上各个员工的情感状态、以及对工作和生活的情绪状态,通过了解员工的最新状态,将员工及其它企业资源有效合理分配,从而达到企业效能最优化配置。

企业在办公的过程中,会产生大量的文本资料,例如员工的工作日报、工作周报、工作交流内容(工作邮件、工作聊天记录)等,可以通过对这些文本资料的提取分析,来检测员工的情绪值,从而更好地掌握员工的情绪动态。

在现有技术中,基于文本的情绪分析主要采用二分类的方法来计算被检测人员的情绪值,针对被检测人员的情感分类通常只分为两类,即正面情绪和负面情绪,基于这样的模型算法得到的情绪值并不是很精确。因为实际工作生活中往往中立情绪也会影响到员工对某一事件的态度和热度、进而影响模型算法中的权值,最终也将影响到企业管理者对员工情感状态的判断和决策。



技术实现要素:

本发明实施例提供一种情绪值的检测方法、装置及电子设备,以提高检测到的情绪值的精确性。

本发明的一方面,提供一种情绪值的检测方法,包括:

对被测文本集中的多个文本进行特征提取,生成多个特征向量;

将所述多个特征向量分别输入情绪分类器,生成基于正面情绪、负面情绪、中立情绪的多个第一分类结果;

根据所述多个第一分类结果,计算该被测文本集对应的情绪值。

本发明的第二方面,提供一种情绪值的检测装置,包括:

特征向量生成模块,用于对被测文本集中的多个文本进行特征提取,生成多个特征向量;

情绪分类器,用于获取所述多个特征向量作为输入,生成基于正面情绪、负面情绪、中立情绪的多个第一分类结果;

情绪值计算模块,用于根据所述多个第一分类结果,计算该被测文本集对应的情绪值。

本发明的第三方面,提供一种电子设备,包括:

存储器,用于存储程序;

处理器,耦合至所述存储器,用于执行所述程序,以用于:

对被测文本集中的多个文本进行特征提取,生成多个特征向量;

将所述多个特征向量分别输入情绪分类器,生成基于正面情绪、负面情绪、中立情绪的多个第一分类结果;

根据所述多个第一分类结果,计算该被测文本集对应的情绪值。

本发明实施例的情绪值的检测方法、装置及电子设备,通过基于正面情绪、负面情绪、中立情绪的多个第一分类结果来计算情绪值,相比现有技术的仅仅基于正面情绪和负面情绪的分类结果的计算方式,能够获得更加精确的情绪值。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

图1为发明实施例的技术原理示意图;

图2为本发明实施例的技术方案在企业中应用的流程示意图;

图3为本发明实施例一的情绪值的检测方法的流程示意图;

图4为本发明实施例一的在线感知器分类器的数学模型的结构示意图;

图5为本发明实施例二的情绪值的检测装置的结构示意图;

图6为本发明实施例三的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

相关术语说明:

情绪挖掘分析:基于相关数据指标,使用相关方式方法挖掘并分析出被测人员的情绪,可能的情绪包含有正面积极情绪、负面消极情绪、中立情绪。

感知器(perception):感知器是由美国计算机科学家罗森布拉特(frankroseblatt)于1957年提出的,是最早的人工神经网络,可将其视为一种最简单形式的前馈式人工神经网络和二元线性分类器。感知器原理来自于最简单的神经元模型自适应特性,它包含输入层和输出层,输入层和输出层是直接相连的。本发明实施例中可以采用感知器作为情绪分类器。

语料库:指经科学取样和加工的大规模电子文本库。借助计算机分析工具,研究者可开展相关的语言理论及应用研究。语料库是语料库语言学研究的基础资源,语料库中存放的是在语言的实际使用中真实出现过的语言材料,是经验主义语言研究方法的主要资源。应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面。

tf-idf(termfrequency–inversedocumentfrequency):是一种用于信息检索与数据挖掘的常用加权技术。更直接来说,tf-idf是一种统计方法,用于评估一个词对n篇文章或一个语料库中其中一篇文章的重要性。其中一个词在一篇文章中出现的次数并不能表明该词的重要性,例如类似“大家”、“的”、“地”、“得”这种常见词虽然在文章中出现的次数很多,但不能代表这些词就很重要,此时我们就需要tf-idf统计方法来计算某个词的重要性。词的重要度随着它在一篇文章中出现的次数成正比增加,但同时会随着它在n篇文章(文章集合)中出现的频率成反比下降。

停用词:停用词是指文本处理过程中如果遇到它们,则立即停止处理,将其扔掉不计入统计处理的词。将这些词扔掉可增加检索效率和准确度。停用词主要包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等。

下面对本发明的技术原理进行说明:

本发明实施例的基本技术思想在于将现有技术中仅仅基于正面情绪和负面情绪二分类的方法来计算被检测人员(例如公司的员工)的情绪值,改变为基于正面情绪、负面情绪和中立情绪的三分类的方法来计算最终的情绪值。鉴于在实际工作生活中,往往大量的中立情绪也会影响到员工对某一事件的态度和热度,因此,在情绪值的确定过程中,体现中立情绪的词或者语句也是极为重要的。本发明通过基于正面情绪、负面情绪和中立情绪的三分类结果来计算最终情绪值,大大提高了情绪值的精确性,从而能够更好地为企业管理者对员工情感状态的判断和决策提供可靠的依据。

具体地,在本发明实施例中,通过三个二分类的子分类器(在实际应用中采用感知器作为本发明实施例的情绪分类器)来实现对正面情绪、负面情绪和中立情绪的三分类。将正面情绪、负面情绪以及中立情绪的分类结果的取值分别设定为1、-1和0这三个情绪值。如图1所示,其为本发明实施例的技术原理示意图,在本发明实施例中,构造了三个感知器:其中感知器1仅对情绪值为1和-1的进行分类;感知器2仅对情绪值为1和0的进行分类;感知器3仅对情绪值为0和-1的进行分类,最终的分类结果由三个感知器用投票的方式得出最终的情绪值的分类结果,即最终属于正面情绪、负面情绪以及中立情绪。

本发明实施例的技术方案可以应用于企业中,企业在办公的过程中,会产生大量的文本资料,例如员工的工作日报、工作周报、工作交流内容(工作邮件、工作聊天记录)等,通过对这些文本的情绪分析,可以得出员工的情绪值,从而作为企业进行内部决策的重要依据。

如图2所示,其为本发明实施例的技术方案在企业中应用的流程示意图,该技术方案可以在企业的oa(办公自动化)系统的服务器或者业务平台上实现。首先,服务器可以对员工的周报、日报、聊天记录以及往来邮件等文本资源进行数据采集(可以采集某一时间段内的文本资源,例如可以以周围单位进行文本资源的采集),在采集的过程中,可以对各类文本资源进行筛选和整合以及简单的数据清洗,然后形成被测文本集(即待进行情绪分析的文本合集),该被测文本集可以是针对某一个员工而形成的,从而最终得到的情绪值为该员工的情绪值,当然也可以针对某一个部门或者整个公司形成被测文本集,从而获取更大范围内的情绪值。然后,基于形成的被测文本集中的各个文本进行特征提取,形成特征向量,并输入到上述的情绪分类器中进行情绪分类,获得基于正面情绪、负面情绪和中立情绪的情绪分类结果。最后,基于每个文本的分类结果,确定整个被测文本集的情绪值,在这个过程中,可以根据实际需要对每个文本设定不同的权重,例如可以根据文本的类型不同来设定权重(例如周报的权重高于日报的权重),还可以根据文本的产生的员工的不同而设定权重(例如级别高的员工的权重高于级别低的员工的权重)。

通过如图2的处理过程,可以得到被测文本集所对应的情绪值,从而作为企业管理决策的依据。由于被测文本集一般对应于某一时间段(以周围单位),企业也可以基于过去时间段的员工情绪值来预测当前或者下一个时间段的员工的情绪值,从而能够更好地对员工的情绪倾向进行应对。

下面将通过几个具体实施例来进一步说明本发明的技术方案。

实施例一

如图3所示,其为本发明实施例一的情绪值的检测方法的流程示意图,本实施例的方法包括:

s101:对被测文本集中的多个文本进行特征提取,生成多个特征向量。该步骤可以由企业的oa系统服务器或者企业内部的业务平台执行,如前面所说的,被测文本集可以来自于员工的周报、日报、聊天记录以及往来邮件等文本资源。

具体地,在本步骤中,特征向量的可以通过如下方式产生:

s1011:根据预先建立的关键词数量为n的关键词词典,针对被测文本集中的每个文本,计算关键词词典中各个关键词对应的tf-idf值。这里所说的关键词词典是针对上述被测文本集进行提取的,通过提取关键词能够大幅度减少特征向量的维度,从而提高情绪分类的效率,有关关键词词典的建立过程,将在后面进行详细描述。

s1012:根据各个关键词对应的tf-idf值生成每个文本对应的特征向量,其中,特征向量的维度为n,特征向量的各个维度上的分量为关键词词典中各个关键词对应的tf-idf值。也就是说,最终输入情绪分类器中的特征向量为由n个tf-idf值构成的特征向量。

s102:将多个特征向量分别输入情绪分类器,生成基于正面情绪、负面情绪、中立情绪的多个第一分类结果。该步骤可以由企业的oa系统服务器或者企业内部的业务平台执行,情绪分类器可以设置在oa系统服务器或者业务平台之上。具体地,如前面说明的,情绪分类器可以三个二分类的子分类器来实现,具体可以包括:用于对正面情绪和负面情绪进行分类的第一子分类器、用于对正面情绪和中立情绪进行分类的第二子分类器、用于对中立情绪和负面情绪进行分类的第三子分类器。基于这样的情绪分类器的架构,本步骤可以具体包括:

s1021:将每个特征向量分别输入各个子分类器,生成各个子分类器的第二分类结果。在实际应用中,每个子分类器可以采用在线感知器(perception)分类器,该分类器数学模型的结构示意图如图4所示,其具体公式表现形式如下:

其中,w=[w1,w2,w3,...,wn]t,为感知器的权重向量(或称权值向量),为给定值或者预设值,x=[x1,x2,x3,...,xn]t为输入的n维特征向量,该n维特征向量中的x1至xn对应于图4中的p1至pn,b为偏置值,为给定值或者预设值。

函数f(l)其定义为:

其中,式(2)中的x代表函数f(l)的自变量,相当于式(1)中的wtx,f(l)为激励函数(或者叫激活函数),t为标量输出(即感知器最终输出的作为分类结果的情绪值)。感知器的输出行为是求得输入的特征向量与权向量的内积后,经一个激活函数所得一个标量结果。

在实际应用中,一般将第一分类结果的取值设定为1、-1和0,分别对应于正面情绪、负面情绪以及中立情绪,而在上述感知器的数学模型中,每个感知器的原始输出结果为-1和+1,这样还需要根据每个感知器情绪分类的含义的不同,将输出结果转换为与第一分类结果的取值统一的第二分类结果,例如,第一子分类器所输出的+1和-1可以直接对应于正面情绪和负面情绪,而第二情绪子分类器输出的+1和-1则对应于正面情绪和中立情绪,即需要转换为与第一分类结果统一的+1和0,同理第三情绪子分类器也需要进行输出结果的转换。总之,最终输出的第二分类结果的取值是与第一分类结果的取值是统一的。

s1022:对各个子分类器的第二分类结果进行投票运算,获得每个特征向量对应的第一分类结果。

第二分类结果如图1中所示,根据各个子分类器的不同,同一个特征向量可能会出现不同的第二分类结果。例如,某个特征向量在第一子分类器的分类结果为正面情绪,在第二子分类器的分类结果为正面情绪,而在第三子分类器的分类结果为中立情绪。这样需要通过投票算法,来获得最终的第一分类结果。具体的投票方式可以以占多数的第二分类结果作为第一分类结果输出。如前面的例子,存在两个子分类器的第二分类结果为正面情绪,一个子分类器的第二分类结果为中立情绪,则输出的第一分类结果为正面情绪,即输出作为分类结果的情绪值为1。

s103:根据多个第一分类结果,计算该被测文本集对应的情绪值。该步骤可以由企业的oa系统服务器或者企业内部的业务平台执行。在前面的步骤s102中,已经针对被测文本集中的全部文本计算出了第一分类结果,在本步骤中,对全部文本的第一分类结果进行整合计算后,就可以获得该被测文本集对应的情绪值。鉴于各个文本对于最终的员工情绪分析而言,重要程度可能是有差别的。例如,被测文本集由同一名员工的日报、周报以及往来邮件等文档所构成,鉴于周报较为正规,因此,周报对于情绪值的分析而言,其重要程度会高于日报。基于这样的考虑,可以在最终计算确定被测文本集对应的情绪值时,将各个文本进行加权处理,权值可以根据实际需要而定。再例如,被测文本集由一个部门的多名员工的日报、周报以及往来邮件等文档所构成,这种情况下,还可以根据不同的员工的级别来设定文本的权值,例如,部门主管的文本的权值要高于一般员工的文本的权值。

基于上述考虑,步骤s103可以具体为:根据预先设定的各个文本的权重值,对各个文本的第一分类结果进行加权求和运算,以获得该被测文本集对应的情绪值。

此外,与标准的线性二类分类器一样,还可进一步使用pa(passive-aggressive)算法提高精确度,即在修正权重向量时,增加了一个修正参数,预测正确时,不需要调整权重向量,预测错误时,主动调整权重向量,其优点是能减少错误的分类数目,从而提高相关的精确度。

被测文本集对应的情绪值体现形成被测文本集的人员的情绪值,例如,该被测文本集来自于同一员工的在过去一周内的日报、周报以及往来邮件,则最终的情绪值便体现了该员工在过去一周所体现出的综合情绪值。基于前面的第一分类结果的取值设定,最终的被测文本集对应的情绪值会在+1和-1之间取值,通过最终的情绪值,可以清楚准确地获知到员工的情绪状况,从而为企业的内部管理和决策提供重要依据。

上述的文本可以是一封邮件、一份日报或者周报,也可以是其中的部分语句等。在实际应用中,员工情绪值的计算一般以周为单位,根据上周员工的情绪值,预测本周员工的情绪相对上周是更好还是更加不好。情绪值的计算公式为:假设第i周情绪倾向为+1、-1和0的文本的数量分别为xi、yi、zi,则此周的预测的情绪值为si为:

si=(zi*w1+w2)*(w3*xi+w4*yi+w5)……………………………式(3)

其中,w1、w2、w3、w4为各个不同情绪倾向的权重值。对于中立文本而言,其并不是对员工的情绪值没有贡献,它可以反映某个员工对某件事情的热度,通过调节不同情绪倾向的文本的权重值来使得最终的情绪值是合理和准确的。

下面再详细说明一下关键词的提取过程,具体地,在步骤s101之前,还可以包括:

s1001:去除被测文本集中的停用词。停用词主要包括语气助词、副词、介词、连接词等,通常这些词并无明确的意义,只有将其放入一个完整的句子中才有一定作用,如常见的“的”、“在”之类。去除停用词能够大大减少特征向量的维度。

s1002:根据预设的语料库,被测文本集中,提取tf-idf值高于预设阈值的词作为该被测文本集的关键词,并根据提取出的全部关键词,生成与该被测文本集对应的关键词词典,关键词包含在语料库中。具体可以基于fudannlp的语料库来选择关键词,预设阈值可以根据实际需要而设定。

通过上面的两个步骤,可以去除大量对文本语义倾向影响并不明显的词,大大地减少了特征向量的维度。根据实际实验统计,在不提取关键词时,用于进行员工情绪检测的文本中,100000个训练文本中含有16000多个词,而提取出关键词后,100000个训练文本含有2000个关键词,从而使得特征向量的维度大大减少。

实施例二

如图5所示,其为本发明实施例二的情绪值的检测装置的结构示意图,包括特征向量生成模块11、情绪分类器12、情绪值计算模块13:

特征向量生成模块11,用于对被测文本集中的多个文本进行特征提取,生成多个特征向量。在该特征向量生成模块11中,对被测文本集中的多个文本进行特征提取,生成多个特征向量的处理可以具体包括:

根据预先建立的关键词数量为n的关键词词典,针对被测文本集中的每个文本,计算关键词词典中各个关键词对应的tf-idf值;

根据各个关键词对应的tf-idf值生成每个文本对应的特征向量,其中,特征向量的维度为n,特征向量的各个维度上的分量为关键词词典中各个关键词对应的tf-idf值。

情绪分类器12,用于获取多个特征向量作为输入,生成基于正面情绪、负面情绪、中立情绪的多个第一分类结果。具体地,情绪分类器12可以具体包括:用于对正面情绪和负面情绪进行分类的第一子分类器121、用于对正面情绪和中立情绪进行分类的第二子分类器122、用于对中立情绪和负面情绪进行分类的第三子分类器123。

基于上述三个子分类器的架构,上述的获取多个特征向量作为输入,生成基于正面情绪、负面情绪、中立情绪的多个第一分类结果的处理可以具体包括:

将每个特征向量分别输入各个子分类器,生成各个子分类器的第二分类结果;

对各个子分类器的第二分类结果进行投票运算,获得每个特征向量对应的第一分类结果。

情绪值计算模块13,用于根据多个第一分类结果,计算该被测文本集对应的情绪值。在情绪值计算模块13,第一分类结果的可以取值为1、-1和0,分别对应于正面情绪、负面情绪以及中立情绪,相应地,根据多个第一分类结果,计算该被测文本集对应的情绪值的处理可以具体包括:根据预先设定的各个文本的权重值,对各个文本的第一分类结果进行加权求和运算,以获得该被测文本集对应的情绪值。

此外,本实施例的检测装置,还可以包括:

停用词去除模块14,用于去除被测文本集中的停用词;

关键词提取模块15,用于根据预设的语料库,提取被测文本集中的多个文本中,tf-idf值高于预设阈值的词作为该被测文本集的关键词,并根据提取出的全部关键词,生成与该被测文本集对应的关键词词典,关键词包含在语料库中。

本实施例的情绪值的检测装置,通过基于正面情绪、负面情绪和中立情绪的三分类结果来计算最终情绪值,大大提高了情绪值的精确性,从而能够更好地为企业管理者对员工情感状态的判断和决策提供可靠的依据。

实施例三

以上描述了情绪值的检测装置的内部功能和结构,图6为本发明实施例提供的电子设备的结构示意图,如图6所示,实际中,上述实施例中的情绪值的检测装置可实现为一种电子设备,可以包括:存储器111和处理器112。

存储器111,用于存储程序。

除上述程序之外,存储器111还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,例如线上购物平台、线上电商平台、电话簿数据,消息,图片,视频等。

存储器111可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。

处理器112,耦合至存储器111,用于执行存储器111中的程序,,以用于:

对被测文本集中的多个文本进行特征提取,生成多个特征向量;

将多个特征向量分别输入情绪分类器,生成基于正面情绪、负面情绪、中立情绪的多个第一分类结果;

根据多个第一分类结果,计算该被测文本集对应的情绪值。

其中,情绪分类器可以包括:用于对正面情绪和负面情绪进行分类的第一子分类器、用于对正面情绪和中立情绪进行分类的第二子分类器、用于对中立情绪和负面情绪进行分类的第三子分类器,

则将多个特征向量分别输入情绪分类器,生成基于正面情绪、负面情绪、中立情绪的多个第一分类结果可以包括:

将每个特征向量分别输入各个子分类器,生成各个子分类器的第二分类结果;

对各个子分类器的第二分类结果进行投票运算,获得每个特征向量对应的第一分类结果。

上述的具体处理操作已经在前面实施例中进行了详细说明,在此不再赘述。

进一步,如图6所示,电子设备还可以包括:通信组件113、电源组件114、音频组件115、显示器116等其它组件。图6中仅示意性给出部分组件,并不意味着电子设备只包括图6所示组件。

通信组件113被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件113经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件113还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。

电源组件114,为电子设备的各种组件提供电力。电源组件114可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件115被配置为输出和/或输入音频信号。例如,音频组件115包括一个麦克风(mic),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器111或经由通信组件113发送。在一些实施例中,音频组件115还包括一个扬声器,用于输出音频信号。

显示器116包括屏幕,其屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1