一种自动更新的文档情感分析系统及方法与流程

文档序号:11251060阅读:466来源:国知局
一种自动更新的文档情感分析系统及方法与流程

本发明涉及人工智能技术领域,特别是一种自动更新的文档情感分析系统及对应的方法。



背景技术:

常用的文档情感识别技术通常采用:先收集大量的情感词,如高兴、兴奋、愤怒、悲伤等,并对每个情感词进行量化分值,然后将这些词组成情感词库。使用时利用情感词库去和目标文档匹配,当情感词库中的情感词和目标文档中出现的词匹配成功时,即按之前量化的该词的量化分值来进行打分,最后将分数汇总得到该篇文档的情感指数。

举例如下:

高兴(1分)、愤怒(-1分)……

在某篇文档中共出现高兴50次,愤怒10次,当该篇文档最终的情感分数为50+(-10)=40分。

如满分是100分,当出现评分是80以上、90以上或者负的90以下、80以下时,其结果相对较准确;但是,如果评分在50左右时,则难以判断,因为50分时会有多种情况,比如整篇文档出现的都是中性词,或者有一半正向情感词和一半负向情感词,最后的分数都有可能是50分。

因此,采用上述的文档情感评分方法存在诸多弊端,首先情感词库不能自动更新,需要人为的添加情感词进去,以及人为的为其赋予分值,影响结果的客观性;其次,单纯的分数并不一定能够完全反应出文档情感的真实情况。



技术实现要素:

本发明为解决上述问题,提供了一种自动更新的文档情感分析系统及方法,不仅提高文档情感评分的准确性和客观性,而且能够自动更新情感词库,管理更方便。

为实现上述目的,本发明采用的技术方案为:

一种自动更新的文档情感分析系统,其包括:

情感词库构建模块,其通过收集初始情感词,并计算每个初始情感词的向量值,根据所述初始情感词和对应的向量值进行构建初始情感词库;

情感词匹配模块,提取目标文档中的情感词,根据向量值将提取的文档情感词与所述初始情感词进行匹配,并计算所述文档情感词与所述初始情感词的向量值匹配度;

文档情感评分模块,根据所述向量值匹配度对所述文档情感词进行统计评分,得到所述目标文档的情感值;

情感词库更新模块,将向量值匹配度大于预设阈值的文档情感词加入到所述情感词库,得到更新后的情感词库。

优选的,所述的情感词库构建模块构建初始情感词库时,还进一步对收集的初始情感词进行分类,包括以下类别:正向情感词、负向情感词、中性情感词;所述的情感词库更新模块更新情感词库时,根据所述文档情感词所匹配的初始情感词的类别,将所述文档情感词加入情感词库的对应的类别中。

优选的,所述的文档情感评分模块中,根据所述向量值匹配度对所述文档情感词进行统计评分,当所述向量值匹配度为100%完全匹配时,则赋予所述文档情感词的评分为满分;当所述向量值匹配度为部分匹配时,则赋予所述文档情感词的评分为满分的对应百分比。

优选的,所述的文档情感评分模块中,根据所述向量值匹配度对所述文档情感词进行统计评分,包括统计所述文档情感词的类别、评分、数量;即,所述目标文档的情感值=(正向情感词的评分*数量)+(负向情感词的评分*数量)+(中性情感词的评分*数量)。

优选的,所述的文档情感评分模块中,根据所述向量值匹配度对所述文档情感词进行统计评分,是指将所述向量值匹配度大于预设阈值的文档情感词加入到评分统计中,并对所述向量值匹配度小于或等于预设阈值的文档情感词忽略不计。

对应的,本发明还提供了一种自动更新的文档情感分析方法,其包括以下步骤:

a.收集初始情感词,并计算每个初始情感词的向量值,根据所述初始情感词和对应的向量值进行构建初始情感词库;

b.提取目标文档中的情感词,根据向量值将提取的文档情感词与所述初始情感词进行匹配,并计算所述文档情感词与所述初始情感词的向量值匹配度;

c.根据所述向量值匹配度对所述文档情感词进行统计评分,得到所述目标文档的情感值;

d.将向量值匹配度大于预设阈值的文档情感词加入到所述情感词库,得到更新后的情感词库。

优选的,所述的步骤a中构建初始情感词库时,还进一步对收集的初始情感词进行分类,包括以下类别:正向情感词、负向情感词、中性情感词;所述的步骤d中更新情感词库时,根据所述文档情感词所匹配的初始情感词的类别,将所述文档情感词加入情感词库的对应的类别中。

优选的,所述的步骤c中,根据所述向量值匹配度对所述文档情感词进行统计评分,当所述向量值匹配度为100%完全匹配时,则赋予所述文档情感词的评分为满分;当所述向量值匹配度为部分匹配时,则赋予所述文档情感词的评分为满分的对应百分比。

优选的,所述的步骤c中,根据所述向量值匹配度对所述文档情感词进行统计评分,包括统计所述文档情感词的类别、评分、数量;即,所述目标文档的情感值=(正向情感词的评分*数量)+(负向情感词的评分*数量)+(中性情感词的评分*数量)。

优选的,所述的步骤c中,根据所述向量值匹配度对所述文档情感词进行统计评分,是指将所述向量值匹配度大于预设阈值的文档情感词加入到评分统计中,并对所述向量值匹配度小于或等于预设阈值的文档情感词忽略不计。

本发明的有益效果是:

1、利用情感词匹配进行循环自动更新情感词库,效率更高,准确性更好;

2、利用向量值进行情感词的相似度匹配,并将匹配度较高的情感词加入评分统计,提高匹配范围,便评分结果更接近真实情况;

3、加入匹配计数,为最终结果值提供辅助性判断。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为本发明一种自动更新的文档情感分析系统的结构示意图;

图2为本发明一种自动更新的文档情感分析方法的流程简图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

如图1所示,本发明的一种自动更新的文档情感分析系统,其包括:

情感词库构建模块,其通过收集初始情感词,并计算每个初始情感词的向量值,根据所述初始情感词和对应的向量值进行构建初始情感词库;

情感词匹配模块,提取目标文档中的情感词,根据向量值将提取的文档情感词与所述初始情感词进行匹配,并计算所述文档情感词与所述初始情感词的向量值匹配度;

文档情感评分模块,根据所述向量值匹配度对所述文档情感词进行统计评分,得到所述目标文档的情感值;

情感词库更新模块,将向量值匹配度大于预设阈值的文档情感词加入到所述情感词库,得到更新后的情感词库。

其中,计算所述初始情感词或所述文档情感词的向量值的方法,可采用w2v算法。

所述的情感词库构建模块构建初始情感词库时,还进一步对收集的初始情感词进行分类,包括以下类别:正向情感词、负向情感词、中性情感词。

所述的情感词库更新模块更新情感词库时,根据所述文档情感词所匹配的初始情感词的类别,将所述文档情感词加入情感词库的对应的类别中。

所述的文档情感评分模块中,根据所述向量值匹配度对所述文档情感词进行统计评分,当所述向量值匹配度为100%完全匹配时,则赋予所述文档情感词的评分为满分;当所述向量值匹配度为部分匹配时,则赋予所述文档情感词的评分为满分的对应百分比。例如,以满分为1分为例:如情感词库中,初始情感词为“高兴”,匹配到文档情感词为“兴奋”,其向量值匹配度为90%,则计0.9分。假设向量值匹配度的预设阈值为80%,由于该文档情感词“兴奋”的匹配度90%超过预设阈值,则把“兴奋”加入到情感词库中,并按初始情感词“高兴”的所属类别,将“兴奋”加入至正向情感词的分组中,在下次计算文档的情感值时,“兴奋”一词作为情感词库直接使用。

所述的文档情感评分模块中,根据所述向量值匹配度对所述文档情感词进行统计评分,除了计算评分的分值,情感词的数量和类别也是重要参考数据。本实施例中的统计评分包括统计所述文档情感词的类别、评分、数量;其中,情感词的数量可直接通过匹配次数进行计数,将匹配数量作为评估依据之一。所述目标文档的情感值=(正向情感词的评分*数量)+(负向情感词的评分*数量)+(中性情感词的评分*数量)。例如,情感值的满分100,最后得分为50,可能存在两种情况:一是正向情感词和负向情感词匹配数量较为接近时,可以判断该篇文档的情感具有争议性;另一种是匹配成功的大多都是中性情感词,可以判断该篇文档的情感为中立。现有技术仅简单的计算分值是无法区别上述两种情况,本发明的方法可根据评分统计结果区分相同分值的不同实际情况,使得分析结果更客观。

所述的文档情感评分模块中,根据所述向量值匹配度对所述文档情感词进行统计评分,是指将所述向量值匹配度大于预设阈值的文档情感词加入到评分统计中,并对所述向量值匹配度小于或等于预设阈值的文档情感词忽略不计,一方面,可提供评分的准确性,避免误判;另一方面,减少计算量,提高分析效率。

如图2所示,本发明还提供了一种自动更新的文档情感分析方法,其包括以下步骤:

a.收集初始情感词,并计算每个初始情感词的向量值,根据所述初始情感词和对应的向量值进行构建初始情感词库;

b.提取目标文档中的情感词,根据向量值将提取的文档情感词与所述初始情感词进行匹配,并计算所述文档情感词与所述初始情感词的向量值匹配度;

c.根据所述向量值匹配度对所述文档情感词进行统计评分,得到所述目标文档的情感值;

d.将向量值匹配度大于预设阈值的文档情感词加入到所述情感词库,得到更新后的情感词库。

所述的步骤a中构建初始情感词库时,还进一步对收集的初始情感词进行分类,包括以下类别:正向情感词、负向情感词、中性情感词;所述的步骤d中更新情感词库时,根据所述文档情感词所匹配的初始情感词的类别,将所述文档情感词加入情感词库的对应的类别中。

所述的步骤c中,根据所述向量值匹配度对所述文档情感词进行统计评分,当所述向量值匹配度为100%完全匹配时,则赋予所述文档情感词的评分为满分;当所述向量值匹配度为部分匹配时,则赋予所述文档情感词的评分为满分的对应百分比。

所述的步骤c中,根据所述向量值匹配度对所述文档情感词进行统计评分,包括统计所述文档情感词的类别、评分、数量;即,所述目标文档的情感值=(正向情感词的评分*数量)+(负向情感词的评分*数量)+(中性情感词的评分*数量)。

所述的步骤c中,根据所述向量值匹配度对所述文档情感词进行统计评分,是指将所述向量值匹配度大于预设阈值的文档情感词加入到评分统计中,并对所述向量值匹配度小于或等于预设阈值的文档情感词忽略不计。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于方法实施例而言,由于其与系统实施例基本相似,所以描述的比较简单,相关之处参见系统实施例的部分说明即可。

并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1