一种舆情分析方法与流程

文档序号:22878286发布日期:2020-11-10 17:32阅读:94来源:国知局
一种舆情分析方法与流程

本发明涉及数据挖掘与分析技术领域,更具体地,涉及一种舆情知识库构建方法。



背景技术:

在社会舆情应用与决策技术中,“情景—应对”型应急管理模式已在学术界形成共识,并通过理论与技术的不断完善,向政府和产业界推行,逐步确立突发事件“情景—应对”型应急管理的新模式。突发事件“情景—应对”型应急管理具体是:首先需要对物理和社会空间的突发事件进行实时而全面的监控与智能分析,从海量,分散,非结构化,实时变化的灾情数据中挖掘出有价值的情报,通过分析获取当前态势的总体描述,进行态势推演,而后进行综合研判和决策,及时将相关信息提供给最需要的人,使决策者做出恰如其分的现场处置与应急部署。

当前地方政府所建立的情报信息处理和预测预警技术体系也是社会舆情决策分析的一部分,例如:反恐怖情报信息研判例会;紧急信访信息监测处理制度;水、雨情信息采集、通讯、预报及调度系统;突发公共卫生事件监测与预警系统;社会治安的动态监控、分析和预警等等。但这些技术体系不完善,有些管理部门的思想观念跟不上形势需要;有些是管理机制还不够健全,职能交叉重叠,信息资源共享程度低;信息情报网络动态反映滞后等问题,舆情评估机制无法做出全面系统客观的评估。

随着互联网的飞速发展与普及,人们已经习惯于通过网络对社会热点、社会公共事务等发表各自的意见或言论,各种形式的网络媒体也纷纷涌现,如公众号、微博等等。社会事件和社会问题产生之时,民众往往迅速借助网络媒体平台,了解到事件的起因与发展过程,进而通过网络媒体发表意见,这些意见对于事件的发展产生着不容忽视的影响,由此产生了网络舆情。由于网络传播的快速性、广泛性和强互动性,网络舆情往往呈爆发式增长,且形式纷繁复杂,所以需要合理地对网络舆情大数据进行挖掘,为网络舆情的实时有效监管提供强有力的手段。



技术实现要素:

本发明旨在克服上述现有技术的至少一种缺陷(不足),提供一种舆情分析方法,用于解决缺乏合理的网络舆情数据挖掘方法的问题。

本发明采取的技术方案是:

一种舆情分析方法,包括:采集舆情数据;对舆情数据进行预处理,得到结构化的舆情信息;根据舆情信息生成舆情对象,舆情对象包括对象标识、对象类别、时空信息、语义信息、情感信息、关系信息;将舆情对象与舆情案例库中的舆情案例进行相似性匹配,得到最相似的舆情案例;根据最相似的舆情案例分析得到舆情控制方案。

在多粒度舆情时空对象描述属性框架下,将结构化的舆情信息生成包括对象标识以及五类属性的舆情对象,可以对舆情实体的时间特征、空间特征、演化和传播特征进行抽象描述,以便快速处理海量多源的舆情数据,挖掘有价值的舆情信息,为后续的与舆情案例相似性匹配以及舆情控制方案分析提供了数据支持,为网络舆情的监管提供科学的决策参考。

进一步地,将舆情对象与舆情案例库中的舆情案例进行相似性分析,得到最相似的舆情案例,包括:将舆情对象的属性结构与舆情案例库中的舆情案例的属性结构进行结构相似性匹配,得到舆情对象所属的事件类型;将舆情对象的属性与舆情案例库中属于事件类型的舆情案例的属性值进行属性相似性匹配,得到最相似的舆情案例。

不同的舆情案例,其案例结构有不同的特点,而且舆情案例信息可能会不完整,对案例控制方案的信息描述也可能会不完整。而分析舆情对象与舆情案例之间的结构相似度可以很好地解决属性缺失的问题。先进行关于属性结构的结构相似性匹配,匹配出舆情对象所属的事件类型,再根据所匹配出的事件类型进行关于属性值的属性相似性匹配,可以大大地提高匹配的准确性。

进一步地,将舆情对象的属性结构与舆情案例库中的舆情案例的属性结构进行结构相似性匹配,得到舆情对象所属的事件类型,包括:

记某舆情对象为x,舆情案例库中第i个事件类型为ci,事件类型ci由若干个舆情案例组成;

按照下式计算舆情对象x与事件类型ci的结构相似度s(x,ci):

γ为经验因子,q为舆情对象x的属性个数,qs为舆情对象x与事件类型ci的相同属性个数,k为事件类型ci的属性个数;

根据结构相似度s(x,cx),判断舆情对象x所属的事件类型为第x个事件类型cx。

进一步地,将舆情对象的属性与舆情案例库中属于事件类型的舆情案例的属性值进行属性相似性匹配,得到最相似的舆情案例,包括:

记某舆情对象为x,舆情对象x所属的事件类型为第x个事件类型cx,舆情案例库中属于事件类型cx的某舆情案例为txj;

按照下式计算条件概率:

nxj为舆情案例库中属于事件类型cx且与舆情对象x属性相匹配的舆情案例个数,n为舆情案例库中的舆情案例总数,xy为舆情对象x的属性,nxj(xy)为事件类型cx中具有属性xy的舆情案例个数,ωxy是事件类型cx的属性权重;

根据条件概率p(x|txj)p(txj),判断得到最相似的舆情案例。

进一步地,对舆情数据进行预处理,包括:

鉴别并去除舆情数据的无用字符,和/或对舆情数据进行分词并去除舆情数据的停用词,和/或基于词频统计方法抽取舆情数据的关键词,和/或基于命名实体识别方法提取舆情数据的实体名称,和/或基于主题聚类方法聚集舆情数据,和/或基于共词分析方法对舆情数据进行话题提取;和/或基于文本挖掘技术对舆情数据中的情感倾向性文本进行提取。

将无用字符、停用词去除,同时提取关键词、实体名称、舆情话题、情感倾向性文本,可以使得舆情数据得到初步分类,形成结构化的舆情信息。

进一步地,对象类别包括文本类、话题类、主题类,对象类别为文本类的舆情对象是根据舆情信息的表达文本所生成的,对象类别为话题类的舆情对象是根据舆情信息的表达话题所生成的,对象类别是主题类的舆情对象是根据舆情信息的表达主题所生成的。

对象类别表示舆情数据处理和分析对象的类型,不同对象类别涉及的舆情信息表达模型不同。按照语义抽象程度逐渐升高的顺序,将舆情对象类别划分为“文本类、话题类、主题类”三类,便于舆情信息的进一步挖掘。

进一步地,语义信息包括语义粒度和语义内容。

每个舆情对象的语义信息可以划分为多种语义粒度,每种语义粒度可以有多项语义记录,每项语义记录有各自的编号和语义内容。

进一步地,情感信息包括情感主体、情感客体、情感类别和情感强度;

根据舆情信息生成舆情对象中的情感信息,包括:

基于命名实体识别方法从舆情信息中提取情感主体和情感客体;

基于关联规则挖掘方法从情感客体上下文中识别情感词汇,根据情感词汇确定情感类别;

基于情感倾向判断方法根据情感词汇判断情感强度。

构建情感信息四元组结构——情感主体、情感客体、情感类别和情感强度,可以实现舆情观点和情感的挖掘,进而分析观点和情感随舆情态势发展而产生的变化,为后续的舆情对象分析提供数据支持。

进一步地,情感词汇包括情感词、否定词、程度副词和符号表情。

情感词、否定词、程度副词和符号表情对情感信息中的情感类别和情感强度的判别具有一定的重要性。

进一步地,关系信息包括关系类别和与舆情对象存在关系的其它舆情对象,关系类别包括关联关系、聚合关系和依赖关系。

关系信息可以表达舆情对象之间的关系,通过关联关系、聚合关系和依赖关系描述关系信息的类别,有利于梳理舆情对象之间的关系。

与现有技术相比,本发明的有益效果至少为:通过构建多粒度舆情时空对象描述属性框架,在该属性框架下将舆情信息生成舆情对象,可以对舆情实体的时间特征、空间特征、演化和传播特征进行抽象描述,以便快速处理海量多源的舆情数据,获取有价值的舆情信息,为后续的舆情案例相似性匹配和舆情控制方案分析提供了数据支持,及时正确作出舆论监管控制的决策。

附图说明

图1是本发明实施例的舆情分析方法流程图。

图2是本发明实施例的舆情对象与舆情案例库中的舆情案例相似性匹配流程图。

具体实施方式

本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

如图1所示,本实施例提供一种舆情分析方法,包括:

s1.采集舆情数据,舆情数据可以包括项目公示资料及项目公示资料下的公众意见、媒体对项目公示资料的报道、公众对项目公示资料的讨论;

s2.对舆情数据进行预处理,得到结构化的舆情信息;

s3.根据舆情信息生成舆情对象,舆情对象包括对象标识、对象类别、时空信息、语义信息、情感信息、关系信息;

s4.将舆情对象与舆情案例库中的舆情案例进行相似性匹配,得到最相似的舆情案例;

s5.根据最相似的舆情案例分析得到舆情控制方案。

舆情是民众在社会事件、问题产生、发展和变化过程中表达的个体意见的集合,包括个体情感意见的表达、传播、互动及其影响力。社会事件和问题的产生和发展过程具有各自的生命周期。在生命周期的不同时间阶段,个体意见不断发生变化,并具有特定的空间范围和传播规律,称之为舆情实体。以多源异构的舆情数据作为数据源,获取舆情事件内容和民众情绪观点,分析舆情传播扩散的时空规律,可以为舆情引导提供决策支持。

在步骤s1中,所采集的项目公示资料可以包括项目立案号、建设项目名称、建设项目位置等。公众一般可以在项目公示资料下提交反馈意见,由此形成对项目公示资料所反馈的公众意见,所采集的公众意见可以包括反馈意见、反馈人联系地址等。所采集媒体对项目公示资料的报道可以包括文章标题、发布时间、发表媒体名称、文章内容等。所采集的公众对项目公示资料的讨论,可以是公众贴吧中的贴子标题、发帖时间、发帖者、评论者、回帖时间、回帖内容等。

针对网络舆情所处的网络媒体传播平台,如微博、新闻网站、论坛等网络媒体,可以利用社交媒体提供的api接口、html解析进行网络舆情数据采集,并设计高性能的网络爬虫策略,如设计基于多线程的网络爬虫,使用多台机器并爬取数据,以提高数据抓取的效率,实现网络舆情数据的实时获取与自动更新。

舆情数据不仅包括网络媒体中的文本数据,还有文本转发量与转发关系等异构的社会网络数据,具有数据量大、时效性短、来源丰富、形式复杂、非结构化等特点。因此,在步骤s2中,将步骤s1所采集到的舆情数据进行一定的预处理,使得舆情数据转化为结构化的舆情信息。

步骤s2中对舆情数据进行预处理,具体可以包括:鉴别并去除舆情数据的无用字符,和/或对舆情数据进行分词并去除舆情数据的停用词,和/或基于词频统计方法抽取舆情数据的关键词,和/或基于命名实体识别方法提取舆情数据的实体名称,和/或基于主题聚类方法聚集舆情数据,和/或基于共词分析方法对舆情数据进行话题提取;和/或基于文本挖掘技术对舆情数据中的情感倾向性文本进行提取。

无用字符是一些不具备情感表达的标点符号或表情符号,如逗号、顿号等。停用词是对于提取信息无效的词语,如“着”、“的”、“在”等。

词频统计方法是一种用于情报检索与文本挖掘的常用加权技术,用以评估一个词对于一个文件或者一个语料库中的一个领域文件集的重复程度,字词的重要性随着它在文件中出现的次数成正比增加,因此可以基于词频统计方法抽取词频较高的字词作为舆情数据的关键词。

命名实体识别(namedentityrecognition,ner)是指在文本中识别出特殊对象,这些对象的语义类别通常在识别前被预定义好,预定义类别如人、地址、组织等。基于命名识别识别方法可以提取出舆情数据中的地名、机构名、时间、人名、事件等实体类别。

主题聚类方法可以采用k-means聚类算法、凝聚型层次聚类算法、神经网络聚类算法等。基于主题聚类方法可以聚集主题相近的舆情数据。

共词分析方法(co-wordanalysis)是一组词两两统计它们在同一篇文件中出现的次数,以此为基础对这些词进行聚类分析,从而反映出这些词之间的亲疏关系,进而分析这些词所代表的主题的结构与变化。共词分析方法可分别以文件的主题词和关键词进行共词分析。基于共词分析方法可以进行舆情话题的提取,实现舆情话题的提取,实现话题关联分析与热点探测。

文本挖掘技术(textmining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。通过文本挖掘技术,提取出舆论数据中具有情感倾向性的文本。

将无用字符、停用词去除,同时提取关键词、实体名称、舆情话题、情感倾向性文本,可以使得舆情数据得到初步分类,形成结构化的舆情信息。

在步骤s3中,为了设计适用于舆情大数据并行化处理的结构模型,同时考虑到舆情信息的关联性特点,构建多粒度舆情时空对象描述属性框架,将结构化的舆情信息生成舆情对象,可以对舆情实体的时间特征、空间特征、演化和传播特征进行抽象描述,以便快速处理海量多源的舆情数据,获取有价值的舆情信息。

具体地,舆情对象的定义可以如下:舆情对象={对象唯一标识(id),对象类别,时空信息,语义信息,情感信息,关系信息}。通过多粒度舆情对象的五类属性——对象类别,时空信息,语义信息,情感信息,关系信息,可以对从舆情信息中提取到的时空属性、文本话题及主题内容、情感倾向、与其他对象之间关系等舆情信息进行表达。

对象类别可以包括文本类、话题类、主题类,对象类别为文本类的舆情对象是根据舆情信息的表达文本所生成的,对象类别为话题类的舆情对象是根据舆情信息的表达话题所生成的,对象类别是主题类的舆情对象是根据舆情信息的表达主题所生成的。

对象类别表示舆情数据处理和分析对象的类型,不同对象类别涉及的舆情信息表达模型不同。按照语义抽象程度逐渐升高的顺序,将舆情对象类别划分为“文本类、话题类、主题类”三类,文本类舆情对象是为舆情文本构建的描述模型,表达文本中蕴含的舆情信息。话题类舆情对象是为舆情话题构建的描述模型,表达话题中蕴含的舆情信息。主题类舆情对象是为舆情主题构建的描述模型,表达主题中蕴含的舆情信息。

时空信息可以包括时间信息和空间信息,用于表达舆情发生和终止的时间和空间、在时间和空间上的演化和传播等。

具体地,时空信息的定义可以如下:

时空信息={时间信息,空间信息};

时间信息={时间粒度,[起始时间,终止时间]};

空间信息={空间粒度,空间位置}。

语义信息可以包括语义粒度和语义内容,用于表达舆情文本的内容,每个舆情对象的语义信息可以划分为多种语义粒度,每种语义粒度可以有多项语义记录,每项语义记录有各自的编号和语义内容。

具体地,语义信息的定义可以如下:

语义信息={

(语义粒度1,([编号1.1,语义内容],[编号1.2,语义内容],……)),

(语义粒度2,([编号2.1,语义内容],[编号2.2,语义内容],……)),

(语义粒度3,([编号3.1,语义内容],[编号3.2,语义内容],……)),……}。

情感信息可以包括情感主体、情感客体、情感类别和情感强度,用于表达舆情情感内容,一个舆情对象可以具有多项情感记录,情感内容通过四元组——情感主体、情感客体、情感类别和情感强度进行结构化表达。“情感主体”代表情感的阐述者,通常为网民个体或网络媒体平台。“情感客体”代表情感针对的对象,例如商品的属性、谣言的内容等。“情感类别”是情感的种类,包括高兴、悲伤、愤怒、赞同、反对、怀疑等。“情感强度”为情感强弱程度的分值,可以用数字表示,通过情感分类等方法进行量化。基于四元组结构,可以实现舆情观点和情感的挖掘,进而分析观点和情感随舆情态势发展而产生的变化,为后续的舆情对象分析提供数据支持。

具体地,情感信息的定义可以如下:

情感信息={[情感记录1,情感内容],[情感记录2,情感内容],[情感记录i,情感内容],……}(i>=1);

情感内容={情感主体,情感客体,情感类别,情感强度}。

情感信息可以通过以下方式从舆情信息中生成:基于命名实体识别方法从舆情信息中提取情感主体和情感客体;基于关联规则挖掘方法从情感客体上下文中识别情感词汇,根据情感词汇确定情感类别;基于情感倾向判断方法根据情感词汇判断情感强度。

情感倾向判断方法可以是基于词频统计的方式,通过计算情感词汇与已经确定的情感类别对应的情感基准词之间的共现频率判断情感强度,通过判断情感词汇的情感极性表达情感强度。具体地,可以按照以下方式判断情感极性:正向情感词汇数量>负向情感词汇数量,表示情感极性为正面;正向情感词汇数量=负向情感词汇数量,表示情感极性为中性;正向情感词汇数量<负向情感词汇数量,表示情感极性为负面。

情感词汇可以包括情感词、否定词、程度副词和符号表情。

情感词可以来源于情感词典,情感词典可以采用hownet或antusd等,其中hownet包含4566个积极情感词和4370个消极情感词,antusd包含2810个积极情感词和8276个消极情感词。

否定词是可以转变文本情感极性的词,可以将积极情感转换为消极情感或者将消极情感转换为积极情感,而且除了一般否定还有双重、多重否定,因此否定词的识别对于后续情感类别的确定和情感强度的判断是很关键的。

程度副词主要是对文本中相应的形容词或副词的修饰,通常出现在形容词或副词的前面,在情感分析中程度副词可以减弱或加强情感词的情感强度,因此在情感强度判别时增加考虑程度副词,可以提高情感强度的判别准确率。

在社交平台中人们经常用表情符号传达自己的情感,表情符号不仅可以为文本添加幽默感还可以消除文本歧义。表情符号通常在以下情况下被使用:(1)文字不能很好地表达情感,)比如“怎么是这样的人[愤怒]”中的[愤怒]很好地传达了用户愤怒的情绪;(2)用于消除文本歧义,比如“现在的生活真有意思[泪]”,当只凭借文字分析时“有意思”使文本的极性为积极地,但是很明显这句话是消极的,而表情符号[泪]就正确地传达了情感类别;(3)加强文本情感,比如“这部电影太好看了[太开心]”中表情符号[太开心]加强了文本的情感。

关系信息可以包括关系类别和与舆情对象存在关系的其它舆情对象,其中关系类别可以是关联关系、聚合关系和依赖关系等。关系信息用于表达舆情对象之间的关系。

具体地,关系信息的定义可以如下:

关系信息={

(关系类别1,([编号1.1,对象id],[编号1.2,对象id],……)),

(关系类别2,([编号2.1,对象id],[编号2.2,对象id],……)),

(关系类别3,([编号3.1,对象id],[编号3.2,对象id],……))……}。

在步骤s4中,舆情案例库可以存储历史的舆情案例,历史舆情案例可以以事件对象的形式存储在舆情案例库中,事件对象可以包括事件标识、开始时间、结束时间、事件主题、事件关键词、事件简介。引入面向对象技术将历史舆情控制案例模型化为对象,并作为舆情案例库中的一个独立知识单元,可以进行更复杂的知识标识和知识推理。

在舆情对象与舆情案例库中的舆情案例进行相似性匹配时,可以着重与舆情对象的多粒度舆情时空对象描述属性框架下的五类属性进行详细分析,充分考虑各个属性本身的特性,对不同的属性进行不同的处理,较完善地挖掘出属性之间的相似度,从而更加科学合理地匹配出最相似的舆情案例,以使得步骤s5中根据最相似的舆情案例所分析得到的舆情控制方案更加符合实际。

不同的舆情案例,其案例结构有不同的特点,而且舆情案例信息可能会不完整,对案例控制方案的信息描述也可能会不完整。而分析舆情对象与舆情案例之间的结构相似度可以很好地解决属性缺失的问题。因此,如图2所示,步骤s4具体可以包括:

s41.将舆情对象的属性结构与舆情案例库中的舆情案例的属性结构进行结构相似性匹配,得到舆情对象所属的事件类型;

s42.将舆情对象的属性与舆情案例库中属于事件类型的舆情案例的属性值进行属性相似性匹配,得到最相似的舆情案例。

先在步骤s41中进行关于属性结构的结构相似性匹配,匹配出舆情对象所属的事件类型,再在步骤s42中根据所匹配出的事件类型进行关于属性值的属性相似性匹配,可以大大地提高匹配的准确性。

具体地,根据舆情对象属性值的多样性并结合舆情案例本身的特点,可以灵活地采用以下三类进行属性相似性匹配:

(1)数字属性相似性匹配:通常是用确定的数字进行表示,可以是连续的也可以是离散的。通过海明距离和欧几里得距离等距离计算方法计算两个数值的相似性;

(2)符号属性相似性匹配:通常是用一种明确的符号属于表示,例如案例公布时间、事件实施地点等。符号属性值之间不存在量的关系,只存在相同(或包含)与不同的关系,因此可以直接通过判断是否相同来判断两个符号的相似性;

(3)模糊属性相似性匹配:模糊属性包括模糊语义属性、模糊数属性、模糊区间属性等。通过梯形函数、三角形函数和高斯函数等隶属函数计算两个模糊属性的相似性。

考虑匹配出的最相似舆情案例仅以相似度作为唯一标准,在可信度方面欠缺,因此可以在相似性匹配的基础上再结合置信度分析。步骤s4还可以包括:

s43.预设置信度指标,建立置信度决策树;

s44.根据置信度决策树,分析舆情对象的属性(如时空信息、语义信息、情感信息等)是否可信。

采用上述的结构相似性匹配和属性相似性匹配的方式,虽然可以得到较精确的相似度,但是需要的时间代价比较大,当舆情案例库不断增大时,所需要的时间也会同比例增加。因此,可以采用基于贝叶斯概率模型进行相似性匹配,可以降低匹配的时间成本。

在步骤s41中,记某舆情对象为x,舆情案例库中第i个事件类型为ci,事件类型ci由若干个舆情案例组成;

按照下式计算舆情对象x与事件类型ci的结构相似度s(x,ci):

γ为经验因子,q为舆情对象x的属性个数,qs为舆情对象x与事件类型ci的相同属性个数,k为事件类型ci的属性个数。

根据结构相似度s(x,cx),可以判断舆情对象x所属的事件类型为第x个事件类型cx。

具体地,可以预设阈值τ,当所计算的最大结构相似度s(x,cx-max)大于预设阈值τ时,可以认为对应的舆情象x所属的事件类型为第x-max个事件类型cx-max。

在步骤s42中,记某舆情对象为x,舆情对象x所属的事件类型为第x个事件类型cx,舆情案例库中属于事件类型cx的某舆情案例为txj;

由于属性之间的独立性,也即依赖关系不存在与条件属性之间,所以可以计算条件概率:

则有:

综上,可以按照下式计算条件概率:

nxj为舆情案例库中属于事件类型cx且与舆情对象x属性相匹配的舆情案例个数,n为舆情案例库中的舆情案例总数,xy为舆情对象x的属性,nxj(xy)为事件类型cx中具有属性xy的舆情案例个数,ωxy是事件类型cx的属性权重。

根据条件概率p(x|txj)p(txj),可以判断得到最相似的舆情案例。

具体地,可以将条件概率最大的一个舆情案例或者最大的多个舆情案例作为舆情对象x的最相似的舆情案例。可以按照下式计算最大条件概率对应的舆情案例:

步骤s5具体可以是:根据实际情况推演最相似的舆情案例的解决方案,从而得到当前舆情事件的舆情控制方案。

步骤s5具体也可以是:分析当前舆情事件与最相似的舆情案例的不同点和相同点,调整最相似的舆情案例的处置策略,得到当前舆情事件的舆情控制方案。

通过步骤s1至步骤s5,可以充分地挖掘所采集的舆情数据,为后续的与舆情案例相似性匹配以及舆情控制方案分析提供了数据支持,为网络舆情的监管提供科学的决策参考。

显然,本发明的上述实施例仅仅是为了清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1