特定事件情境下网络用户情感挖掘与传播特征分析方法与流程

文档序号:11919029阅读:270来源:国知局
特定事件情境下网络用户情感挖掘与传播特征分析方法与流程

本发明属于电子信息领域,尤其涉及一种特定事件情境下网络用户情感挖掘与传播特征分析方法。



背景技术:

自2000年初,情感分析和观点挖掘已成为自然语言处理领域最活跃的研究热点之一,数据挖掘、网页挖掘和文本挖掘等领域也对此进行了广泛的研究。在研究的初期,研究者们主要关注主观性文本挖掘,目的是从众多的文本中挖掘出包含主观性信息的文本,为了解用户的观点、态度、意愿等提供便利。观点挖掘、态度分析等方法应运而生,主要目的是挖掘用户对某一事件或产品的评价和行为倾向,该方法通常将评价分为正面、负面和中性,又称为极性分析或倾向性分析。目前国内外的研究者使用最普遍的术语是情感分析和观点挖掘,将这两个术语作为所有与主观性分析相关的方法的统称。目前在网络社区情感传播方面的研究主要集中于以下方面:

(一)网络社区中情感与社会重大事件的相关性,如通过互联网情感预测股市波动和电影票房等。(二)情感对在线社区信息传播的影响研究。(三)级联网络中的情感传播。(四)情感传播模型研究。

目前的研究没有考虑不同情绪类型传播特征的差异,缺乏对情感传播关键影响因素的研究,缺乏针对不同事件情境下情感传播模式的研究。



技术实现要素:

本发明的目的在于提供一种特定事件情境下网络用户情感挖掘与传播特征分析方法,旨在解决目前的研究没有考虑不同情绪类型传播特征的差异,缺乏对情感传播关键影响因素的研究,缺乏针对不同事件情境下情感传播模式的研究,不能够了解特定情绪在传播网络中的分布情况进而发现用户的传播特征的问题。

本发明是这样实现的,一种特定事件情境下网络用户情感挖掘与传播特征分析方法包括:

步骤一、构建能够实现情感类型的划分及情感极性和强度的识别的情感分类词表;

步骤二、通过已构建的情感分类词表进行特定事件用户发帖的匹配分析,在对用户的情感信息进行标注时,根据情感词表进行词语的标记及识别文本中的表情符号和句;

步骤三、对识别和标记后的文本的情感特征进行极性计算和特征描述,采用可视化方法对情感词进行图形描述,采用直方图和列表方式对情感类型进行分类统计;

步骤四、明确信息传播网络的结构,分析用户情感表达对网络结构特征的影响。

进一步,情感词表分为情绪分类词表和评价分类词表,该情感分类词表的具体构建方法为:

步骤一、收集情感词形成目标词库;

步骤二、基于HowNet本体对目标词进行标注和描述;

步骤三、通过对标注结果中的义原进行统计,将义原分为情绪义原和评价义原,构建义原分类体系;

步骤四、通过义原分类体系和目标词的标注结果进行情绪分类词表和评价分类词表的构建。

进一步,将情感词之间的关系和情感词的极性强度特征通过图形进行表达,对数值型情感数据采用曲线图、直方图表达,对属性数据采用网络图、多维分布图形式表达。

进一步,通过词频分析、共现分词方法提取出已有情感分类词表中没有的情感词,通过人工进行情感标注后加入已有情感分类词表,对已有词表进行扩展。

进一步,通过情感词在同一网络社区中的共现计算情感词之间的关系,进行文本的情感识别时,通过构建的情感分类词表等情感特征与文本进行匹配,对识别出的情感特征进行标引,然后通过对文本中已标记的情感词进行词语关系的分析,并通过可视化技术对情感词之间的关系和情感词本身的特征用图形的方式进行展示,还通过字体的大小和颜色来表示情感词。

进一步,情感特征分类统计包括表情符号的统计、情绪词和评价词的统计,对表情符号分别按照正面和负面进行时间序列的分析,对情绪词按照情绪的分类进行统计,通过直方图的方式展示每一个情绪类的强度。

进一步,特定事件下网络社区信息传播网络结构的构建方法为:

通过社会网络分析方法分析事件信息传播网络中的关键用户、信息传播距离、传播网络集聚程度、网络密度、小团体分析、网络模块化分析,根据不同需要选取不同指标,进行信息传播网络结构的构建。

进一步,通过将用户的情绪表达与用户角色进行对比,发现用户的情绪表达对用户角色的影响,将用户的情绪或评价情况在事件传播网络中进行可视化,通过对关键用户、信息传播距离和集聚程度进行分析,确定特定情绪在传播网络中的分布情况,发现用户的传播特征,在进行情感传播分析时,采用社会网络分析方法进行信息传播网络的构建和分析,通过社会网络构建方法来构建用户的转发网络,通过社会网络分析中的多种指标来进行信息传播网络多种特征的分析。

进一步,采用时间序列分析对统计的情感特征随时间变化的情况进行描述。

本发明完善了情感词表的构建,将整个情感词表分为情绪分类词表和评价分类词表,不仅能实现极性的计算,而且能够实现具体情绪类型的分析;将可视化技术应用于情感描述,有助于情感分析方法的完善,不仅仅将情感词进行可视化表示,还将情感词之间的关系和情感词的极性强度特征通过图形进行表达,通过多种可视化技术和算法可为决策者提供更直观的用户情感信息,有助于政府部门了解公众在事件发生过程中的情感传播状况,为避免公众情感的集聚和极化,提供有针对性的信息。有助于企业或个人了解网络社区公众对事件的情绪反应和评价,通过公众情感扩散规律制定有针对性的应对策略。有助于公共管理部门、企业了解公众对自身服务或产品的情绪和评价,以改进自身服务或产品。

附图说明

图1是本发明实施例提供的特定事件情境下网络用户情感挖掘与传播特征分析方法流程图;

图2是本发明实施例提供的情感数据直方图;深色代表负向情感,高度代表负向情感的程度;空白表示正面情感,高度代表正面情感的程度。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

下面结合附图对本发明的结构作详细的描述。

如图1所示,一种特定事件情境下网络用户情感挖掘与传播特征分析方法,该特定事件情境下网络用户情感挖掘与传播特征分析方法包括:

步骤一、构建能够实现情感类型的划分及情感极性和强度的识别的情感分类词表;

步骤二、通过已构建的情感分类词表进行特定事件用户发帖的匹配分析,在对用户的情感信息进行标注时,根据情感词表进行词语的标记及识别文本中的表情符号和句;

步骤三、对识别和标记后的文本的情感特征进行极性计算和特征描述,采用可视化方法对情感词进行图形描述,采用直方图和列表方式对情感类型进行分类统计;

步骤四、明确信息传播网络的结构,分析用户情感表达对网络结构特征的影响。

进一步,对识别和标记后的文本的情感特征进行极性计算和特征描述,具体为:

不(否定词 -1),伤痛(负面词 -1),爱(正面词 1);

情感计算(试例):

不*伤痛 + 爱 = -1 * -1 + 1 = 1(正面情感)。

进一步,明确信息传播网络的结构,分析用户情感表达对网络结构特征的影响,具体为:

以新浪微博的关注来构建一个有向网络。用户的情感传播会沿着网络的边进行传播。例如A关注了B,B发表了一条带有正面情感倾向的博文,A会转发或者评论B的博文,从而形成与B相同的情感倾向。

进一步,情感词表分为情绪分类词表和评价分类词表,该情感分类词表的具体构建方法为:

步骤一、收集情感词形成目标词库;

步骤二、基于HowNet本体对目标词进行标注和描述;

步骤三、通过对标注结果中的义原进行统计,将义原分为情绪义原和评价义原,构建义原分类体系;

步骤四、通过义原分类体系和目标词的标注结果进行情绪分类词表和评价分类词表的构建。

进一步,将情感词之间的关系和情感词的极性强度特征通过图形进行表达,对数值型情感数据采用曲线图、直方图表达,对属性数据采用网络图、多维分布图形式表达。

具体包括:

情感词表如下:

一个词语在不同语境下可能会有不同的情感表达。比如“骄傲”一词就是具有情感歧义的。

实施例:

A:为中华崛起而骄傲。B:你这个人太骄傲了。

在A,B两句话中,明显“骄傲”一词表达了两种不同的情感极性。

如图2所示,情感数据直方图:

其中深色线条负面情感,高度代表负面情感程度。空白代表正面情感,高度代表正面情感程度。

进一步,通过词频分析、共现分词方法提取出已有情感分类词表中没有的情感词,通过人工进行情感标注后加入已有情感分类词表,对已有词表进行扩展。

进一步,通过情感词在同一网络社区中的共现计算情感词之间的关系,进行文本的情感识别时,通过构建的情感分类词表等情感特征与文本进行匹配,对识别出的情感特征进行标引,然后通过对文本中已标记的情感词进行词语关系的分析,并通过可视化技术对情感词之间的关系和情感词本身的特征用图形的方式进行展示,还通过字体的大小和颜色来表示情感词。

实施例:这件衣服真的是太便宜而且酷毙了。

分析:(词典中只有便宜代表正向情感,没有酷毙了这个词)

1:标注句中情感词(黑体二号)

这件衣服真的是太便宜而且酷毙了。

2:分析句中并列成分

A + 而且/和/或 + B,那么A,B带有同样的情感极性

3:综合情感词关系分析

这件衣服真的是太便宜而且酷毙了。其中,太便宜与酷毙了是并列结构,其中的而且一词是并列连词。

进一步,情感特征分类统计包括表情符号的统计、情绪词和评价词的统计,对表情符号分别按照正面和负面进行时间序列的分析,对情绪词按照情绪的分类进行统计,通过直方图的方式展示每一个情绪类的强度。

进一步,特定事件下网络社区信息传播网络结构的构建方法为:

通过社会网络分析方法分析事件信息传播网络中的关键用户、信息传播距离、传播网络集聚程度、网络密度、小团体分析、网络模块化分析,根据不同需要选取不同指标,进行信息传播网络结构的构建。

进行信息传播网络结构的构建实施例:

微博关注网络,高校关系网,高校内部社区网络。

微博关注网络:(分析关键用户,传播方式,网络密度)

以微博的关注行为构建一个有向网络。若A关注B,则AB之间有一条有向边,从A指向B。以这种方式构建的网络可以观察网络中的意见领袖和大V对整个网络的信息传播影响。

高校关系网:(分析信息传播方式,模块化分析)

首先以高校为单位构建子网络。在子网络中链接高校人员、部门、学生团体或个人。

其次综合各个高校的子网络,若两个高校比较相近(地理位置、合作关系等等)则相连两个高校的子网络。用于分析信息在高校之间传播。这样构建的网络可以观察分析网络中的社区关系。

高校内部社区网络:(小团体分析,关键用户)

在高校内部以社团关系构建无向的社交网络,通过多个社团中共同的成员来链接两个社团网络。用于分析信息在不同社团中传播的时延,关键用户以及小团体分析。

进一步,通过将用户的情绪表达与用户角色进行对比,发现用户的情绪表达对用户角色的影响,将用户的情绪或评价情况在事件传播网络中进行可视化,通过对关键用户、信息传播距离和集聚程度进行分析,确定特定情绪在传播网络中的分布情况,发现用户的传播特征,在进行情感传播分析时,采用社会网络分析方法进行信息传播网络的构建和分析,通过社会网络构建方法来构建用户的转发网络,通过社会网络分析中的多种指标来进行信息传播网络多种特征的分析。

其中多种指标的定义包括:

1)信息的扩散程度

分析各个社会网络社团中的信息扩散行为,以及分别每条信息对不同社团的影响(积极/消极)。

2)信息传播源的分析

从网络的拓扑结构来有效分析一条信息的传播源。

3)通过用户的转发网络来构建用户的社交圈子网络,分析不同圈子分别感兴趣的信息。

进一步,采用时间序列分析对统计的情感特征随时间变化的情况进行描述。

本发明完善了情感词表的构建,将整个情感词表分为情绪分类词表和评价分类词表,不仅能实现极性的计算,而且能够实现具体情绪类型的分析;将可视化技术应用于情感描述,有助于情感分析方法的完善,不仅仅将情感词进行可视化表示,还将情感词之间的关系和情感词的极性强度特征通过图形进行表达,通过多种可视化技术和算法可为决策者提供更直观的用户情感信息,有助于政府部门了解公众在事件发生过程中的情感传播状况,为避免公众情感的集聚和极化,提供有针对性的信息。有助于企业或个人了解网络社区公众对事件的情绪反应和评价,通过公众情感扩散规律制定有针对性的应对策略。有助于公共管理部门、企业了解公众对自身服务或产品的情绪和评价,以改进自身服务或产品。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1