一种基于网络新闻的舆情分析方法、系统及介质与流程

文档序号:14911141发布日期:2018-07-10 23:26阅读:268来源:国知局

本发明涉及网络信息技术领域,具体是一种基于网络新闻的舆情分析方法、系统及介质。



背景技术:

在当下,互联网成为人们日常生活的重要活动平台之一,随着互联网技术的不断发展,网络便捷性、及时性的优点日益突出。网络舆情这个巨大的社会舆情力量,对社会发展和稳定有一定的影响和冲击。正面情绪益与工作与生活,积极向上的乐观情绪,有利于推动社会进步。负面情绪则会引发社会负面影响造成舆情危机。宣扬正面思想,控制不良信息传播成为网络管理的重点之一。同时,当政府政策下达前后,社会总体情绪变化也是衡量政策是否被民众所接受的指标之一。根据社会总体情绪亦可帮助政府、企业选择较为有利的时点进行政策、产品的发布。网络舆情信息的及时监测、调控将对社会的公共安全、政策检验等具有积极作用。随之社会情绪的量化将成为网络舆情管理工作的突破口,但目前对网络新闻的舆情分析一般依赖于人工判别,效率较低,且没有统一标准,容易受个人主观性的影响。



技术实现要素:

针对上述依赖于人工判别,效率较低的技术问题,本发明提供一种基于网络新闻的舆情分析方法、系统及介质。

本发明解决上述技术问题的技术方案如下:一种基于网络新闻的舆情分析方法,包括以下步骤:

使用分词工具,将网络新闻文本分解成单词;

根据情绪词典中所储存的情绪词汇,筛选出所述单词中的情绪词汇;

根据所述情绪词典中所储存的情绪词汇的词性,将筛选出的所述情绪词汇分类成正面情绪词汇和负面情绪词汇;

根据分类结果,分别汇总计算正面情绪词汇量N正和负面情绪词汇量N负;

根据汇总结果,按照下列公式计算舆情指数AMS:

AMS=N正/N负;

根据所述舆情指数的区间对所述网络新闻标记为属于以下三种属性类别之一:正面、中性或负面。

为实现上述发明目的,本发明还提供一种基于网络新闻的舆情分析系统,包括:

分词模块,用于使用分词工具,将网络新闻文本分解成单词;

筛选模块,用于根据情绪词典中所储存的情绪词汇,筛选出所述分词模块分解的单词中的情绪词汇;

分类模块,用于根据所述情绪词典中所储存的情绪词汇的词性,将所述筛选模块筛选出的所述情绪词汇分类成正面情绪词汇和负面情绪词汇;

汇总模块,用于根据所述分类模块的分类结果,分别汇总计算正面情绪词汇量N正和负面情绪词汇量N负;

计算模块,用于根据所述汇总模块的汇总结果,按照下列公式计算舆情指数AMS:

AMS=N正/N负;

标记模块,用于根据所述计算模块计算的舆情指数的区间对所述网络新闻标记为属于以下三种属性类别之一:正面、中性或负面。

本发明还提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使所述计算机执行上述方法。

本发明的有益效果是:按照统一、客观的标准对网络新闻的舆情分析进行自动分析,效率高,从而能够对网络舆情信息进行及时监测,在保障社会的公共安全,以及政策检验等方面具有积极作用。

附图说明

图1为本发明实施例提供的一种基于网络新闻的舆情分析方法的流程图;

图2为本发明实施例提供的另一种基于网络新闻的舆情分析方法的流程图;

图3为本发明实施例提供的一种基于网络新闻的舆情分析系统的结构框图;

图4为舆情指数变化图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

自互联网进入人们的生活后,网络新闻逐渐替代传统纸质印刷新闻成为主流媒体发布新闻消息的第一平台。网络新闻相较于在微信朋友圈、微博等社交平台发布的言论更具有客观性、传播性以及舆论导向性,因此,本发明采用网络新闻为样本主体。

图1为本发明实施例提供的一种基于网络新闻的舆情分析方法的流程图,如图1所示,该方法包括以下步骤:

110、使用分词工具,将网络新闻文本分解成单词;

具体的,分词工具可选用多种现有工具实现,如WORD分词器等,分词工具可将一段文本分解成一个一个单独的单词,为后续的筛选、分类做准备。

120、根据情绪词典中所储存的情绪词汇,筛选出所述单词中的情绪词汇;

具体的,情绪词典为包含了众多情绪词汇的词库,如LIWC情绪词典等,运用情绪词典中的原有情绪词汇,依次遍历分解得到的单词,将单词中的情绪词汇筛选出来。

130、根据所述情绪词典中所储存的情绪词汇的词性,将筛选出的所述情绪词汇分类成正面情绪词汇和负面情绪词汇;

具体的,筛选得到网络新闻文本中的情绪词汇时,根据情绪词典中该情绪词汇的词性,即可将网络新闻文本中的情绪词汇分类成正面情绪词汇和负面情绪词汇。

140、根据分类结果,分别汇总计算正面情绪词汇量N正和负面情绪词汇量N负;

具体的,将经过情绪词典筛选后的情绪词汇提取输出,依据词性输出至舆情信息库下正面情绪词汇库或负面情绪词汇库,再将正面情绪词汇库及负面情绪词汇库下各个子文件内容整合,分别计算正面情绪词汇量及负面情绪词汇量。

150、根据汇总结果,按照下列公式计算舆情指数AMS:

AMS=N正/N负;

160、根据所述舆情指数的区间对所述网络新闻标记为属于以下三种属性类别之一:正面、中性或负面。

具体的,设a、b为AMS的两个预设阈值,并且0<b<a,当0<AMS≤b时,将所述网络新闻标记为属于负面;当b<AMS<a时,将所述网络新闻标记为属于中性;当AMS≥a时,将所述网络新闻标记为属于正面。

本发明实施例提供的一种基于网络新闻的舆情分析方法,按照统一、客观的标准对网络新闻的舆情分析进行自动分析,实现不同文章或文字内容的分类,将分类后的内容分发给相应的用户,相比传统的用户阅读,凭借自身的主观阅读后的判断分类相比,存在效率高,错误率低的优点,从而能够对网络舆情信息进行及时监测,在保障社会的公共安全,以及政策检验等方面具有积极作用。

可选地,作为本发明的一个实施例,如图2所示,该方法包括:

210、从网页中提取网络新闻文本。

具体的,通过云计算方式,对分布的、海量的新闻数据进行采集,根据网页标签从网页中提取网络新闻文本,从而去除所收集网页素材中导航栏、广告、等与舆情判断无关内容,并对网页内容进行简单切分、过滤,储存文件格式为txt、word格式,为后续的进一步处理提供服务。

220、使用分词工具,将网络新闻文本分解成单词;

230、根据情绪词典中所储存的情绪词汇,筛选出所述单词中的情绪词汇;

240、根据所述情绪词典中所储存的情绪词汇的词性,将筛选出的所述情绪词汇分类成正面情绪词汇和负面情绪词汇;

250、根据分类结果,分别汇总计算正面情绪词汇量N正和负面情绪词汇量N负;

260、根据汇总结果,按照下列公式计算舆情指数AMS:

AMS=N正/N负;

270、根据所述舆情指数的区间对所述网络新闻标记为属于以下三种属性类别之一:正面、中性或负面。

本发明实施例提供的一种基于网络新闻的舆情分析方法,通过云计算方式,对分布的、海量的新闻数据进行采集,根据网页标签从网页中提取网络新闻文本,从而去除所收集网页素材中导航栏、广告、等与舆情判断无关内容,提高了舆情指数计算的准确性。

当前网络信息体现出海量性,动态性,不完整性,多样性。现有的舆情分析方法主要集中于分析热点事件舆情信息,舆情分析结果只针对单个热点事件,针对这一问题,本发明提出以下改进措施。

可选地,在该实施例中,该方法还包括:每隔预设的时长,计算该时长范围的内的AMS值,并根据多次计算的AMS值,生成舆情指数随时间变化的图表。

具体的,可采集预设时长内的所有网络新闻数据,并计算各个时长范围内的AMS值,为了使结果更加直观,方便进行比对,可将最后结果结合历史数据形成图表,这样,本发明的舆情分析结果针对阶段期间内发生报道的所有事件,更能有效把握当前时点的社会舆情指数。

相应地,本发明提供一种基于网络新闻的舆情分析系统,如图3所示,该系统包括:

分词模块,用于使用分词工具,将网络新闻文本分解成单词;

筛选模块,用于根据情绪词典中所储存的情绪词汇,筛选出所述分词模块分解的单词中的情绪词汇;

分类模块,用于根据所述情绪词典中所储存的情绪词汇的词性,将所述筛选模块筛选出的所述情绪词汇分类成正面情绪词汇和负面情绪词汇;

汇总模块,用于根据所述分类模块的分类结果,分别汇总计算正面情绪词汇量N正和负面情绪词汇量N负;

计算模块,用于根据所述汇总模块的汇总结果,按照下列公式计算舆情指数AMS:

AMS=N正/N负;

标记模块,用于根据所述计算模块计算的舆情指数的区间对所述网络新闻标记为属于以下三种属性类别之一:正面、中性或负面。

可选地,在该实施例中,如图3所示,该系统还包括提取模块,用于从网页中提取网络新闻文本的步骤。

可选地,在该实施例中,设a、b为两个预设阈值,并且0<b<a,所述标记模块,具体用于:

当0<AMS≤b时,将所述网络新闻标记为属于负面;

当b<AMS<a时,将所述网络新闻标记为属于中性;

当AMS≥a时,将所述网络新闻标记为属于正面。

可选地,在该实施例中,如图3所示,该系统还包括图表生成模块;

所述计算模块,还用于每隔预设的时长,计算该时长范围的内的AMS值;

所述图表生成模块,用于根据所述计算模块多次计算的各个时长范围内的AMS值,生成舆情指数随时间变化的图表。

本发明实施例提供的一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使所述计算机执行上述实施例中图1和/或图2中的方法步骤;或者存储上述实施例中系统的各个软件模块对应的指令,实现舆情的分类。

下面以一段网络新闻文本的处理过程为例,对本发明进行具体说明:

第一:网络数据获取,得到网络新闻文本如下:

“6.9%——中国国家统计局最新公布的2017年国内生产总值(GDP)增速显示,中国经济结束了自2011年开始的增速下行态势,总量首次突破80万亿元大关。这份亮丽的成绩单刚一亮相立刻赢得国际社会的积极评价。多位国外经济学家在接受本报记者采访时,纷纷为中国取得的成绩点赞。国外学者和媒体普遍认为,中国经济增速回升,将对世界经济全面复苏产生积极而又深远的影响。”(摘自《国际社会点赞中国经济数据》—人民网-人民日报)

第二:使用现有WORD分词工具,对上述内容完成词汇切割,得到“6.9%、中国、国家、统计局、最新、公布、的、2017、年、国内、生产总值、(GDP)、增速……”。

第三:根据情绪词典统计正面情绪词汇有“突破、亮丽、赢得、积极、点赞、回升、复苏、积极”,统计负面情绪词汇有“下行”,其他词汇为中性。正面情绪词汇量和负面情绪词汇量的比率为:8/1=8。为了保障分母不为零,当悲观词汇数目为零时,自动加1,保证分母最小为1。

第四:计算结果输出为AMS=8。

第五:由于AMS≥2,将该网络新闻标记为属于正面。

第六:每隔1小时,计算该时长范围的内的AMS值,并根据多次计算的AMS值,生成舆情指数随时间变化的图表,如图4所示。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1