电网舆情评价方法、存储介质及计算机与流程

文档序号:16146847发布日期:2018-12-05 16:35阅读:165来源:国知局

本发明涉及大数据分析方法领域,尤其涉及一种电力行业网络舆情指数体系的构建方法。

背景技术

随着互联网和信息化技术突飞猛进的发展,特别是网络媒体、微博、微信、博客等网络新媒体,以其形式丰富、互动性强、覆盖率高等特点对政治、经济、文化、社会环境产生了巨大影响。

当前,我国正处的改革关键期、矛盾突发期诸种问题冲突的叠合积聚,网络舆情已经成为当前社会和谐度和稳定度的标志,成为领导和社会各界的关注焦点。因此,当前更需要增强引导舆论的能力,把握舆论主动权,引领正确的舆论导向,才能使网络新媒体发挥优势、健康发展,从而产生更大的社会效益。

现有舆情指数体系使用范围过于宽泛,往往一套计算公式,套用在政务舆情、央国企、上市公司、社会热点等各种舆情事件,导致数据取样,数据有效性,量化指标等环节都不够精确,计算结果不够精确。而eiri舆情指数体系,专门应用于电力行业,适用性具体明确。通过多次舆情事件的检验,确保了该舆情指数体系算法精确有效。

“电力行业网络舆情指数体系(eiri)”是由国家电网公司对外联络部、福建亿榕信息技术有限公司联合承办的电力行业舆情研究的重要课题,该指数体系作为电力行业一项科学的、可量化的、操作性强的、标准的网络舆情指数体系,重点突出电力行业网络舆情指数的实时动态性以及可理解、可描述、可解释等特点。



技术实现要素:

为此,需要提供一种针对电力行业相关信息进行量化统计的方法,解决网络信息实时动态的把握分析问题。

为实现上述目的,发明人提供了一种电网舆情评价方法,包括如下步骤,元数据采集,所述元数据采集为,通过元搜索采集、网络爬虫采集、api采集或关键词采集的方式采集电网舆情相关数据;

对相关数据进行舆情预警指数计算,基于内容敏感性、来源影响力、转载情况及舆论环境情况获得舆情预警指数结果;

所述内容敏感性包括敏感词等级得分、敏感词位置得分;

所述来源影响力为判断采集数据的来源,根据预设的来源类别计算来源影响力得分;

所述转载情况为根据转载媒体及转载媒体的对应数量指标,以及是否为首页、头条转载来计算转载情况得分;

所述舆论环境情况为三个月内是否有采集数据相关的负面舆情,

对内容敏感性得分、来源影响力得分、转载情况得分、舆论环境情况得分设定权重,计算舆情预警指数。

进一步地,还包括步骤,对相关数据进行网络传播热度指数计算,

所述网络传播热度指数计算方法如下:

enci=y1×b1+y2×b2

其中,

a1、a2为标准化参数,b1、b2为权重系数,

x1为一般新闻条数,包括网页新闻条数、电子报刊条数、电子应用客户端条数、微信公众号条数、微博条数或论坛博客条数;

x2为其他新闻条数,包括视频网站新闻条数、其他网站新闻条数。

具体地,

其中,

a1=1.05

a2=1.001

b1=0.80

b2=0.25。

优选地,还包括步骤计算有关数据微信传播指数,所述微信传播指数通过整体指标、质量指标、主动预判指标、优异指标加权计算获得。

优选地,还包括步骤计算有关数据微博传播指数,所述微博传播指数通过活跃度及传播度加权计算获得。

一种电网舆情评价存储介质,所述存储装置存储有计算机程序,所述计算机程序在被运行时执行下列步骤,

元数据采集,所述元数据采集为,通过元搜索采集、网络爬虫采集、api采集或关键词采集的方式采集电网舆情相关数据;

对相关数据进行舆情预警指数计算,基于内容敏感性、来源影响力、转载情况及舆论环境情况获得舆情预警指数结果;

所述内容敏感性包括敏感词等级得分、敏感词位置得分;

所述来源影响力为判断采集数据的来源,根据预设的来源类别计算来源影响力得分;

所述转载情况为根据转载媒体及转载媒体的对应数量指标,以及是否为首页、头条转载来计算转载情况得分;

所述舆论环境情况为三个月内是否有采集数据相关的负面舆情,

对内容敏感性得分、来源影响力得分、转载情况得分、舆论环境情况得分设定权重,计算舆情预警指数。

进一步地,所述计算机程序在被运行时还执行步骤,对相关数据进行网络传播热度指数计算,

所述网络传播热度指数计算方法如下:

enci=y1×b1+y2×b2

其中,

a1、a2为标准化参数,b1、b2为权重系数,

x1为一般新闻条数,包括网页新闻条数、电子报刊条数、电子应用客户端条数、微信公众号条数、微博条数或论坛博客条数;

x2为其他新闻条数,包括视频网站新闻条数、其他网站新闻条数。

可选地,

其中,

a1=1.05

a2=1.001

b1=0.80

b2=0.25。

优选地,包括权利要求6-8任一项所述的存储介质。

区别于现有技术,上述技术采用了标准化计算手段,在整个评价过程中,引入原先评价系统中没有的指标,并统一参数,使得量化标准相对统一,因此,本发明解决了网络舆情动态的实时分析问题。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例详予说明。

一种电网舆情评价方法,包括如下步骤,元数据采集,所述元数据采集为,通过元搜索采集、网络爬虫采集、api采集或关键词采集的方式采集电网舆情相关数据;

具体的,舆情爬虫系统可以基于pyspider框架制作,致力于解决快速编写修改爬虫代码,以适应快速变化的网站,并支持进行分布式部署。在此基础上针对大类站点编写了统一的基类与工具模块,使抓取脚本编写更加容易。此外,还采用了元搜索采集、网络爬虫采集、合作api采集、关键词采集等多种信息采集方式,均能够达到电网舆情相关元数据的搜索采集的效果。

随后还进行步骤,数据加工和语义分析。采集信息需经过五级过滤或分类。

一级过滤:信息排重,数据清理(失效数据,错误数据)。过滤后完成首次落地存储。

二级过滤:根据媒介类型(如新闻、博客、论坛、微博等)进行信息分类。

三级过滤:根据关键词涉及的组织机构(国资委、国家电网、同类行业、其他)进行分类。

四级分类:根据有关公司地域归属(总部、地方(省、市、县))进行信息分类。

五级过滤:根据系统预设关键字进行过滤。

在本发明的一些具体实施例中,进行分类/过滤后,对相关数据进行舆情预警指数ewi计算,基于内容敏感性、来源影响力、转载情况及舆论环境情况获得舆情预警指数结果;

所述内容敏感性包括敏感词等级得分、敏感词位置得分;

所述来源影响力为判断采集数据的来源,根据预设的来源类别计算来源影响力得分;

所述转载情况为根据转载媒体及转载媒体的对应数量指标,以及是否为首页、头条转载来计算转载情况得分;

所述舆论环境情况为三个月内是否有采集数据相关的负面舆情,

对内容敏感性得分、来源影响力得分、转载情况得分、舆论环境情况得分设定权重,计算舆情预警指数。具体的权重能够根据创作人员的需要自主设置,不同的权重设定能够反映内容敏感性、来源影响力、转载情况或舆论环境的不同影响力,作为一个优选的方案,舆情预警指数ewi的计算方法可以为:

ewi=40%r1+16%r2+36%r3+8%r4

其中r1为内容敏感性得分,r2为来源影响力得分,r3为转载情况得分,r4为舆论环境情况得分。

在本实施例中,具体的判断步骤如下表所示,

指标赋值列中的各项,若为数值则为百分比赋值,若为判断语句则进行判断,是则获得其所在行对应的权重,否则得分为零。例如,在舆论环境情况得分中,针对二级指标三个月内舆情进行判断,若有重大负面舆情则获得5/8的舆论环境情况得分,否则该项计零,再进行判断,若有同类负面舆情则获得3/8的舆论环境情况得分,否则该项计零,则最终舆论环境情况得分不超过总分的8%,以上出现的数字均可根据实际需要进行设置,

其他进一步的实施例中,我们的方案还包括步骤,对相关数据进行网络传播热度指数计算,在从新闻媒体、微博、微信、客户端、网站、论坛等互联网平台采集海量信息的基础上,提取与指定事件、人物、品牌、地域等关键词相关的信息,并对所提取的信息进行标准化计算后得出的指数。

热度指数能客观反映事件、人物、品牌、地域等在互联网上的受关注程度。热度指数所呈现的数值为0~100,数值越大,表明其网络受关注度越高。

所述网络传播热度指数enci的计算方法如下:

enci=y1×b1+y2×b2

其中,

a1、a2为标准化参数,b1、b2为权重系数,

x1为一般新闻条数,包括网页新闻条数、电子报刊条数、电子应用客户端条数、微信公众号条数、微博条数或论坛博客条数;

x2为其他新闻条数,包括视频网站新闻条数、其他网站新闻条数。

其中,标准化参数、权重系数也可以根据实际需要进行调整,在优选的实施例中,a1=1.05;a2=1.001;b1=0.80;b2=0.25。例如a1一般取与1的差值小于0.05,这是因为其是指数x1的底,其大小影响于x1所指代的一般新闻对整个网络传播热度指数的影响。具体地,x1为一般新闻条数,包括网页新闻条数、电子报刊条数、电子应用客户端条数、微信公众号条数、微博条数或论坛博客条数;其计算方式可以为上述列项的加权,如x1=新闻条数*0.183+电子报刊条数*0.189+客户端条数*0.181+微信公号条数*0.175+微博条数*0.147+论坛博客条数*0.125。同样,a2-1<<1,这是由于我们的发明人在实际应用过程中发现,视频网站及其他网站对于舆论的影响力度,应当远小于其他传媒。具体地,x2=视频网站条数*0.625+其他网站条数*0.375。通过上述方法,本发明方案达到了自动提取关键字,自动计算,科学反应电力行业关键词的网络传播热度的技术效果。相对于现有的指数计算系统的结果更为科学、有效。

在其他一些优选的实施例中,我们的方法还包括步骤计算有关数据微信传播指数,所述微信传播指数通过整体指标、质量指标、主动预判指标、优异指标加权计算获得。其中,如下表所示,所述整体指标q1通过过滤后微信有关数据的总阅读数及总点赞数计算获得,所述质量指标q2通过过滤后微信有关数据的平均阅读数及平均点赞数计算获得,所述主动预判指标q3通过过滤后微信有关数据的头条阅读数及头条点赞数计算获得,所述优异指标q4通过过滤后微信有关数据的最高阅读数及最高点赞数计算获得,

r为评估时间段内所有文章(n)的阅读总数;

z为评估时间段内所有文章(n)的点赞总数;

c为评估时间段所含天数;

n为评估时间段内账号所发文章数;

rh和zh为评估时间段内账号所发头条的总阅读数和总点赞数;

rm和zm为评估时间段内账号所发文章的最高阅读数和最高点赞数。

综上得出:微信传播指数ewci=32%q1+32%q2+24%q3+12%q4。

另一些优选实施例中,还包括步骤计算有关数据微博传播指数,通过微博的活跃度和传播度来反映账号的传播能力和传播效果。ebci重在评估账号的原发微博传播力,旨在鼓励高质量原创内容。所述微博传播指数通过活跃度及传播度加权计算获得。具体如下表所示,

其中活跃度是发博量、原创发博量的对数函数,传播度是转发量、评论量、点赞量、原创微博转发量、原创微博评论量的对数函数,可以将ebci表示为:ebci=(25%×w1+75%×w2)×160

w1=25%×ln(x1+1)+75%×ln(x2+1)

w2=18%×ln(x3+1)+18%×ln(x4+1)+16%×ln(x5+1)+24%×ln(x6+1)+24%×ln(x7+1)

通过上述方法,能够达到自动查找自动科学地反应关键词微博热度的技术效果。

此外,本套指数体系还具备协同运算、企业内部考核以及横向对比作用。首先,在计算舆情预警指数时,该事件的转载情况可以利用网络传播热度指数公式得出。其次,从网络传播热度指数,我们可以看出该热点事件的传播效果,总结传播策略的积极因素,并合理运用在以后的宣传工作中,从而节省人力成本,提高工作效率。第三,依据以往经验依据舆情预警指数,我们可以研判事件的发展演进趋势,并对后续工作起到指导作用,使相关部门及时对网络媒介关注焦点做出有针对性的部署或回应,科学有效地消除负面事件对企业品牌声誉带来的不利影响。第四,微博、微信指数不仅可以计算出本企业新媒体账号在一定周期内的运营情况,达到对这些新媒体账号的运营情况考核的目的;此外,电力微博指数、微信指数还可以计算出其他电力企业公众号的运营情况,通过横向对比衡量本企业新媒体运营水平所处的位置,适时调整和改进运营策略。第五,根据该指数体系,我们还可以积累热点事件和负面舆情的案例库,总结企业日常工作中舆情高发的环节,并着力改进,并利用该指数体系评价固定周期内工作情况的开展效果;在以后遇到相似舆情事件时,还可以为相关部门工作提供参考和借鉴。

最后,我们的方案还包括成果展示。如果采集到的信息符合热点规则,并且在电力热点词库中则展示到电力热点信息中;符合预警规则,并且包含预警关键词或人名,则在舆情预警模块进行展示。微博、微信传播指数的计算成果,则会在固定周期的新媒体指数排行榜中体现。

一种电网舆情评价存储介质,所述存储装置存储有计算机程序,所述计算机程序在被运行时执行下列步骤,

元数据采集,所述元数据采集为,通过元搜索采集、网络爬虫采集、api采集或关键词采集的方式采集电网舆情相关数据;

对相关数据进行舆情预警指数计算,基于内容敏感性、来源影响力、转载情况及舆论环境情况获得舆情预警指数结果;

所述内容敏感性包括敏感词等级得分、敏感词位置得分;

所述来源影响力为判断采集数据的来源,根据预设的来源类别计算来源影响力得分;

所述转载情况为根据转载媒体及转载媒体的对应数量指标,以及是否为首页、头条转载来计算转载情况得分;

所述舆论环境情况为三个月内是否有采集数据相关的负面舆情,

对内容敏感性得分、来源影响力得分、转载情况得分、舆论环境情况得分设定权重,计算舆情预警指数。

进一步地,所述计算机程序在被运行时还执行步骤,对相关数据进行网络传播热度指数计算,

所述网络传播热度指数计算方法如下:

enci=y1×b1+y2×b2

其中,

a1、a2为标准化参数,b1、b2为权重系数,

x1为一般新闻条数,包括网页新闻条数、电子报刊条数、电子应用客户端条数、微信公众号条数、微博条数或论坛博客条数;

x2为其他新闻条数,包括视频网站新闻条数、其他网站新闻条数。

可选地,

其中,

a1=1.05

a2=1.001

b1=0.80

b2=0.25。

优选地,包括上述的存储介质。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。

本领域内的技术人员应明白,上述各实施例可提供为方法、装置、或计算机程序产品。这些实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。上述各实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,包括但不限于:个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,包括但不限于:ram、rom、磁碟、磁带、光盘、闪存、u盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。

上述各实施例是参照根据实施例所述的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到计算机设备的处理器以产生一个机器,使得通过计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机设备以特定方式工作的计算机设备可读存储器中,使得存储在该计算机设备可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机设备上,使得在计算机设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1