一种微博情感确定方法与流程

文档序号:15636945发布日期:2018-10-12 21:35阅读:317来源:国知局

本发明涉及数据信息处理技术领域,特别是指一种微博情感确定方法。



背景技术:

微博是一个基于关系的信息制造、交流、传播以及获取的一种集成化、开放化社交服务平台,庞大的微博用户群以及海量数据信息,隐藏着巨大的商业价值和社会价值,如何有效获取用户表达的情感成为如今各领域研究的热点。

当前微博情感分析方法使用较为广泛的是基于机器学习的情感分析方法。基于机器学习的情感分析方法通过将文本转换成数字化模型,用已标注类别的训练数据来训练学习出一个较好的分类模型然后再利用学习出的分类模型预测未知文本的情感倾向类别,常用的机器学习算法有朴素贝叶斯(nb)、支持向量机(svm)、最近邻(knn)、最大熵(me)和决策树方法等。

现有技术中使用的基于机器学习的情感分析方法忽视微博文本特殊性对情感倾向性影响,导致情感分析结果不够准确。



技术实现要素:

本发明要解决的技术问题是提供一种微博情感确定方法,以解决现有技术所存在的基于机器学习的情感分析方法忽视微博文本特殊性对情感倾向性影响,导致情感分析结果不够准确的问题。

为解决上述技术问题,本发明实施例提供一种微博情感确定方法,包括:

构建微博情感词典;

获取待处理微博文本;

按照预先设置的句式分类规则集,确定获取的所述待处理微博文本中各分句的句式类型及所述句式类型对情感倾向影响权值;

根据构建的微博情感词典,以及确定的待处理微博文本中各分句的句式类型及所述句式类型对情感倾向影响权值,确定所述待处理微博文本的情感倾向值。

进一步地,所述构建微博情感词典包括:

提取微博词汇、微博表情符号,根据提取的微博词汇、微博表情符号对基础情感词典进行扩展,得到微博情感词典;

其中,所述微博情感词典包括:微博基础情感词典、网络情感词典、微博表情符号词典、修饰词典。

进一步地,所述修饰词典包括:否定词词典和程度副词词典。

进一步地,在获取待处理微博文本之后,所述方法还包括:

对获取的所述待处理微博文本进行预处理并进行情感标注;

其中,所述预处理包括:降噪、分词和停用词过滤操作,并在分词过程中添加用户自定义词典。

进一步地,在按照预先设置的句式分类规则集,确定获取的所述待处理微博文本中各分句的句式类型及所述句式类型对情感倾向影响权值之前,所述方法还包括:

构造分句算法,对获取的所述待处理微博文本进行分句,其中,所述分句算法是针对微博文本表述不规范性进行设置的。进一步地,所述句式类型包括:简单句和复杂句;

其中,所述简单句包括:感叹句、疑问句、肯定句,所述复杂句包括:反问句、转折句、假设句、选择句、递进句、让步句、总结句。

进一步地,所述待处理微博文本的情感倾向值e(p)=e(s1)+e(s2)+…+e(sn);

其中,e(p)表示待处理微博文本p的情感倾向值,e(si)表示待处理微博文本p中第i个分句si的情感倾向值;e(si)=wseni·epri(si),wseni为第i个分句si的句式类型对情感倾向的影响权值,wseni由句式分类规则确定,epri(si)为第i个分句si的基本情感值。

进一步地,所述基本情感值epri(si)表示为:

其中,wdeg为程度副词权值,wno为否定词权值,e(wt)表示第i个分句si中第t个情感词的情感值,e(emjj)表示第i个分句si中第j个表情符号的情感值,n表示情感词的数目,m表示表情符号的数目。

进一步地,在根据构建的微博情感词典,以及确定的待处理微博文本中各分句的句式类型及所述句式类型对情感倾向影响权值,确定所述待处理微博文本的情感倾向值之后,所述方法还包括:

将输出的所述待处理微博文本的情感倾向值与预先标注的情感倾向值进行对比验证。

进一步地,在根据构建的微博情感词典,以及确定的待处理微博文本中各分句的句式类型及所述句式类型对情感倾向影响权值,确定所述待处理微博文本的情感倾向值之后,所述方法还包括:

构建用户交互界面。

本发明的上述技术方案的有益效果如下:

上述方案中,构建微博情感词典;获取待处理微博文本;按照预先设置的句式分类规则集,确定获取的所述待处理微博文本中各分句的句式类型及所述句式类型对情感倾向影响权值;根据构建的微博情感词典,以及确定的待处理微博文本中各分句的句式类型及所述句式类型对情感倾向影响权值,确定所述待处理微博文本的情感倾向值。这样,构造句式分类规则集对微博文本各分句进行分类并添加句式类型对情感倾向影响权值,利用情感倾向影响权值优化情感分析结果,从而实现在细粒度上对微博文本的情感分析,使得得到的情感分析结果更加准确。

附图说明

图1为本发明实施例提供的微博情感确定方法的流程示意图一;

图2为本发明实施例提供的微博情感确定方法的流程示意图二;

图3为本发明实施例提供的用户交互界面示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。

本发明针对现有的基于机器学习的情感分析方法忽视微博文本特殊性对情感倾向性影响,导致情感分析结果不够准确的问题,提供一种微博情感确定方法。

如图1所示,本发明实施例提供的微博情感确定方法,包括:

s101,构建微博情感词典;

s102,获取待处理微博文本;

s103,按照预先设置的句式分类规则集,确定获取的所述待处理微博文本中各分句的句式类型及所述句式类型对情感倾向影响权值;

s104,根据构建的微博情感词典,以及确定的待处理微博文本中各分句的句式类型及所述句式类型对情感倾向影响权值,确定所述待处理微博文本的情感倾向值。

本发明实施例所述的微博情感确定方法,构建微博情感词典;获取待处理微博文本;按照预先设置的句式分类规则集,确定获取的所述待处理微博文本中各分句的句式类型及所述句式类型对情感倾向影响权值;根据构建的微博情感词典,以及确定的待处理微博文本中各分句的句式类型及所述句式类型对情感倾向影响权值,确定所述待处理微博文本的情感倾向值。这样,构造句式分类规则集对微博文本各分句进行分类并添加句式类型对情感倾向影响权值,利用情感倾向影响权值优化情感分析结果,从而实现在细粒度上对微博文本的情感分析,使得得到的情感分析结果更加准确。

在前述微博情感确定方法的具体实施方式中,进一步地,所述构建微博情感词典包括:

提取微博词汇、微博表情符号,根据提取的微博词汇、微博表情符号对基础情感词典进行扩展,得到微博情感词典;

其中,所述微博情感词典包括:微博基础情感词典、网络情感词典、微博表情符号词典、修饰词典。

在微博文本中,用户就某件事发表看法而带有明显的情感倾向时,这些情感倾向往往由情感词体现。在构建微博情感词典时,一方面要对当前已有的情感词典进行总结汇总,另一方面还需要考虑微博文本中出现的网络词语、表情符号、微博新词等。

本实施例中,提取微博网络词汇、微博新词(可以是预设时间段内出现的微博词语)以及微博表情符号,利用提取的微博网络词汇、微博新词以及微博表情符号对预先获取的现有的基础情感词典进行扩展,得到微博情感词典。

本实施例中,所述微博情感词典包括:微博基础情感词典、网络情感词典、微博表情符号词典、修饰词典,所述修饰词典包括:否定词词典和程度副词词典。

在前述微博情感确定方法的具体实施方式中,进一步地,在获取待处理微博文本之后,所述方法还包括:

对获取的所述待处理微博文本进行预处理并进行情感标注;

其中,所述预处理包括:降噪、分词和停用词过滤操作,并在分词过程中添加用户自定义词典。

本实施例中,如图2所示,获取待处理微博文本之后,为了更好地对获取的所述待处理微博文本进行情感分析,可以先对其进行预处理,其中,所述预处理包括:降噪、分词和停用词过滤等操作,并在分词过程中添加用户自定义词典,以提高其对微博文本分词的准确性。

本实施例中,为了验证本实施例所述的微博情感确定方法的正确性,还需对获取的所述待处理微博文本进行情感标注,标注的情感倾向值分为1、-1、0,分别表示情感极性:正向、负向和中性。

在前述微博情感确定方法的具体实施方式中,进一步地,在按照预先设置的句式分类规则集,确定获取的所述待处理微博文本中各分句的句式类型及所述句式类型对情感倾向影响权值之前,所述方法还包括:

构造分句算法,对获取的所述待处理微博文本进行分句,其中,所述分句算法是针对微博文本表述不规范性进行设置的。

本实施例中,考虑微博文本的特殊性,针对预处理后的待处理微博文本,添加对微博文本特殊性的考虑,实现分句优化,例如,标点符号重用或缺失等不规范的表述。例如,本实施例中,考虑到部分用户在编辑文本时有使用“。。。”、“!!!”、“”等不规范的表述时,在分句时按照构造的分句算法来识别特殊表述的标点,使得分句更贴近用户表述习惯,从而解决表述方式不规范的问题。

本实施例中,在分句优化后,考虑到微博文本的语义表达规则,即文本表述的句式关系,引入句式分类规则集,对文本句式进行更准确分类,得到更加准确的句式类型及每种句式类型对情感倾向影响权值,这样,将微博文本从整句级别细分到分句级别,实现更细粒度的情感分析。

本实施例中,所述句式关系包括简单句和复杂句,简单句如感叹句、疑问句、肯定句等,复杂句如反问句、转折句、假设句、选择句、递进句、让步句、总结句等,简单句和复杂句包括的种类可以根据实际应用场景进行扩展。

本实施例中,每种句式类型对情感倾向影响权值由句式分类规则确定,通过不断的训练验证,可以调整句式类型对情感倾向影响权值参数,最终获得更准确的分类结果。

本实施例中,输入一段待处理微博文本p,本实施例所述的微博情感确定方法的输出为:所述待处理微博文本p的情感倾向值(pos,neg,flag),以及各个分句si的情感倾向值集合[[s1pos,s1neg],[s2pos,s2neg],...,[snpos,snneg]],其中,pos表示正向情感极性值、neg表示负向情感极性值、flag表示情感倾向值。

本实施例中,所述待处理微博文本p的情感倾向值e(p)=e(s1)+e(s2)+…+e(sn);

其中,e(p)表示待处理微博文本p的情感倾向值,e(si)表示待处理微博文本p中第i个分句si的情感倾向值;e(si)=wseni·epri(si),wseni为第i个分句si的句式类型对情感倾向的影响权值,wseni由句式分类规则确定,epri(si)为第i个分句si的基本情感值。

本实施例中,所述基本情感值epri(si)表示为:

其中,wdeg为程度副词权值,wno为否定词权值,e(wt)表示第i个分句si中第t个情感词的情感值,e(emjj)表示第i个分句si中第j个表情符号的情感值,n表示情感词的数目,m表示表情符号的数目。

在前述微博情感确定方法的具体实施方式中,进一步地,在根据构建的微博情感词典,以及确定的待处理微博文本中各分句的句式类型及所述句式类型对情感倾向影响权值,确定所述待处理微博文本的情感倾向值之后,所述方法还包括:

将输出的所述待处理微博文本的情感倾向值与预先标注的情感倾向值进行对比验证。

本实施例中,将本实施例所述的微博情感确定方法输出的所述待处理微博文本的情感倾向值与预先标注的情感倾向值进行对比验证,例如,可以采用传统的标准:准确率、召回率和f值作为算法的评价标准,具体的:

计算所有正确结果数量与标准结果数量的准确率和召回率,并根据准确率和召回率计算f值。

本实施例中,为了验证本实施例所述的微博情感确定方法的有效性,进行了一组与基于机器学习的情感分析方法的对比实验,实验结果如表1所示。

表1微博情感确定方法与现有的基于机器学习的情感分析方法实验结果对比

由表1可以看出,本发明实施例通过考虑微博文本分句以及句式分类规则集的方法,对于微博文本情感极性分类准确率相较于传统分类方法有很大的提升。

在前述微博情感确定方法的具体实施方式中,进一步地,在根据构建的微博情感词典,以及确定的待处理微博文本中各分句的句式类型及所述句式类型对情感倾向影响权值,确定所述待处理微博文本的情感倾向值之后,所述方法还包括:

构建用户交互界面。

由表1可知,本实施例所述的微博情感确定方法能够完成微博文本的情感倾向分析,在此基础上,构建用户交互界面,为用户提供友好型的交互体验,也使得其能够更好的运用本实施例所述的微博情感确定方法进行情感倾向性分析,实现其实用性和现实意义。

本实施例中,构建的用户交互界面如图3所示,用户在左侧待处理数据框中输入需要处理的微博文本,选择中间栏中要进行的操作,处理结果将会在右侧输出结果框中显示,日志框用来记录用户操作信息。

综上,本实施例所述的微博情感确定方法,通过扩展完善情感词典并结合特殊句型对文本倾向性的影响判断微博情感倾向性,能够有效的分析微博文本的情感倾向,并且支持用户友好交互、操作简便、实用高效,具有很强的实用价值和现实意义。

本发明实施例提供的所述微博情感确定方法具有以下有益效果:

a)本发明实施例提出一种基于分类规则集的微博情感分析方法,有很高的准确率。

b)本发明实施例在处理微博文本特殊性时添加句式对情感倾向影响权值,以及用户表达方式不规范对分句的影响,能够很好的在细粒度上对微博文本进行分析。

c)本发明实施例提供一个友好的用户交互界面,操作方便、实用高效,具有很强的实用价值和现实意义。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1