一种度量文章传播影响力的方法与流程

文档序号:27835142发布日期:2021-12-07 23:20阅读:118来源:国知局
一种度量文章传播影响力的方法与流程

1.本发明涉及海量数据采集、多维度影响力量化计算领域,具体来说,涉及一种度量文章传播影响力的方法。


背景技术:

2.新闻信息对大众舆论导向的影响检测,可以用新闻的影响力指数来定量地直观呈现,当新闻的影响力指数越高,则其中的政治敏感,价值导向等方面更值得被关注。
3.对新闻信息影响力的评价需要考虑信息传播力、信息时效性、信源影响力、内容丰富度、内容倾向性、特定区域相关度这几个要素。
4.现有技术中大众线上获取新闻的方式大多包括新闻、微信、微博等,现有的这种多通道数据来源缺少对新闻影响率要素进行综合分析,最终定量计算出信源影响力、新闻稿件影响力、事件影响力,用于各个场景下的影响力判断和分析比较的方式。
5.针对相关技术中的问题,目前尚未提出有效的解决方案。


技术实现要素:

6.本发明的目的在于提供一种度量文章传播影响力的方法,可广泛应用于大数据领域,在正向引导宣传和负面舆情监控中,对信源、新闻稿件、事件的影响力计算和分析比较,均有较强的应用性,以解决上述背景技术中提出的问题。
7.为实现上述目的,本发明提供如下技术方案:
8.一种度量文章传播影响力的方法,包括下列步骤:
9.s1、数据采集:利用已有的数据采集技术,对影响力计算所需的各类数据进行次采集;
10.s2、数据分析处理:对已采集的数据进行分析处理;
11.s3、信源影响力计算:对信源的影响力进行综合计算,得出[0,100]整数区间内的影响力数值;
[0012]
s4、新闻稿件影响力计算:结合信源影响力,计算目标稿件的影响力,得出[0,100]整数区间内的影响力数值;
[0013]
s5、事件/任务影响力计算:在新闻稿件影响力的基础上,对事件/任务聚合的新闻稿件影响力融合计算,得出事件/任务的[0,100]整数区间内的影响力数值。
[0014]
进一步的,所述步骤s1数据采集,所述对影响力计算所需的各类数据进行次采集中,所述各类数据包括新闻稿件相关信息、站点相关信息、账号相关信息。
[0015]
进一步的,所述新闻稿件相关信息包括标题、内容、发布时间、阅读数、评论数、转发数情况、信源、发布板块;
[0016]
站点相关信息包括全网排名、站点分类;
[0017]
账号相关信息包括认证情况、粉丝数/关注数、近期活跃情况。
[0018]
进一步的,所述步骤s2数据分析处理,对已采集的数据进行分析处理,包括不局限
于:分析稿件内容打上领域标签和情感标签、通过相似度进行事件/任务稿件聚合、转发关系关联、首发判断、稿件内容长度计算、内容类型判断。
[0019]
进一步的,所述步骤s3信源影响力计算中所述信源包括站点和账号。
[0020]
进一步的,所述步骤s3信源影响力计算,对信源的影响力进行综合计算,得出[0,100]整数区间内的影响力数值中,所述信源影响力计算方法包括以下公式:
[0021]
发布时间维度:rp
07

10
=100;rp
17

22
=80;rp
24

06
=0;rp
其他
=0;
[0022]
综上信源影响力计算方式:se=0.8*i
信源
+0.2*rp;
[0023]
其中,所述
[0024]
i
信源(账号)
=0.6*f+0.3*v+0.1*c或i
信源(站点)
=0.5*r+0.5*c;
[0025]
信源影响力:se;
[0026]
站点或账号维度:i
信源(站点)
或i
信源(账号)

[0027]
发布时间维度:rp。
[0028]
进一步的,所述步骤s4新闻稿件影响力计算,结合信源影响力,计算目标稿件的影响力,得出[0,100]整数区间内的影响力数值中,所述新闻稿件影响力包括信息传播力、信息时效性、信源影响力、内容丰富度、内容倾向性、特定区域相关度。
[0029]
进一步的,所述信息传播力:信息传播力综合考量各类传播关键指标

阅读数、点赞数、评论数、转发数、转发者影响力、是否首发,从网络反馈情况和传播节点的重要性做量化计算;
[0030]
所述信息时效性:信息时效性指的是稿件已发布时长,新闻稿件的影响力会随着时间产生变化,存在固有的舆情生命周期,故已发布时间对影响力数值存在影响;
[0031]
所述信源影响力:信源影响力指的是本新闻稿件发布方的影响力,更权威的站点或账号、更合适的时间发布信息,都会产生不同的影响力;
[0032]
所述内容丰富度:内容丰富度反映新闻稿件质量,包括内容长度、是否包含图片或音视频;
[0033]
所述内容倾向性:内容倾向性指的是稿件内容涉及的情感倾向,因用户阅读习惯,不同场景下不同的内容倾向会产生不一样的吸引力,如:负面舆情中,负面的信息更容易吸引用户阅读;正面引导中,正面的信息更容易吸引用户阅读;
[0034]
所述特定区域相关度:特定区域相关度,指的是在应用于特定地区的业务时,需要考虑地区性,如与当相关的信息对本地用户的影响力更高。
[0035]
与现有技术相比,本发明具有以下有益效果:本技术所涉及方法通过新闻、微信、微博等多通道同时采集信息,通过算法对新闻信息的综合传播效果进行量化计算,用于新闻信息间的影响力对比分析;
[0036]
新闻传播影响力模型通过融合多通道数据(新闻、微信、微博等),对新闻影响率要素进行综合分析,最终定量计算出信源影响力、新闻稿件影响力、事件影响力,可用于各个场景下的影响力判断和分析比较。
附图说明
[0037]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施
例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]
图1是根据本发明实施例的一种度量文章传播影响力的方法的结构流程图。
具体实施方式
[0039]
在对本发明进一步描述之前,先简要对发明中提到的术语进行说明,如下:
[0040]
通道
[0041]
通过新闻、论坛/bbs、博客、即时通信软件等传播网络舆情的渠道称为通道。
[0042]
信源
[0043]
信息的具体发布方,如某微博账号、某公众号、某网站。
[0044]
新闻稿件
[0045]
某篇具体的新闻文章。
[0046]
事件
[0047]
讲述同一个话题的一系列新闻稿件,融合汇总为一个新闻事件。
[0048]
下面,结合附图以及具体实施方式,对发明做出进一步的描述:
[0049]
请参阅图1,根据本发明实施例的一种度量文章传播影响力的方法,包括下列步骤:
[0050]
步骤s1、数据采集:利用我们已有的数据采集技术,对影响力计算所需的各类数据进行次采集,包括新闻稿件相关信息(标题、内容、发布时间、阅读数、评论数、转发数情况、信源、发布板块等)、站点相关信息(全网排名、站点分类)、账号相关信息(认证情况、粉丝数/关注数、近期活跃情况);
[0051]
步骤s2、数据分析处理:对已采集的数据进行分析处理,包括不局限于:分析稿件内容打上领域标签和情感标签、通过相似度进行事件/任务稿件聚合、转发关系关联、首发判断、稿件内容长度计算、内容类型判断等;
[0052]
步骤s3、信源影响力计算:根据上文提到的方法,对信源(站点或账号)的影响力进行综合计算,得出[0,100]整数区间内的影响力数值;
[0053]
步骤s4、新闻稿件影响力计算:结合信源影响力,计算目标稿件的影响力,得出[0,100]整数区间内的影响力数值;
[0054]
s5、事件/任务影响力计算:在新闻稿件影响力的基础上,对事件/任务聚合的新闻稿件影响力融合计算,得出事件/任务的[0,100]整数区间内的影响力数值。
[0055]
其中,在实际使用过程中,对于信源(站点)影响力计算来说,是用于计算新闻媒体站点影响力的算法,代表新闻媒体自身在长期的新闻传播实践过程中所形成并累积的、赢得社会和广大受众普遍信任的程度或能力。
[0056]
信源(站点)影响力由两部分组成,即站点的全网排名和站点分类,结合权重综合计算得出[0,100]整数区间内的影响力数值,数值越大影响力越高。
[0057]
全网排名使用网络上公开的、有权威性的排名数据,代表站点的网站访问量评价指标。站点分类是根据站点特性进行分类,如中央新闻网站、中央政府网站、理论网站、地方新闻网站、地方政府网站、全国商业网站、地方商业网站等,在特定业务场景下不同分类的站点影响力差异较大,根据业务场景对各个站点分类做不同的影响力赋值。
[0058]
各维度计算方式如下:
[0059]
站点排名转换影响力计算方式(r):
[0060][0061]
在政府正向宣传业务场景下,站点分类赋值为(c):
[0062]
c
中央新闻网站
=100
[0063]
c
中央政府网站
=90
[0064]
c
地方新闻网站
=60
[0065]
c
地方政府网站
=50
[0066]
c
理论网站
=60
[0067]
c
全国商业网站
=80
[0068]
c
地方新闻网站
=50
[0069]
c
其他
=20
[0070]
综合站点排名和站点分类,对信源(站点)影响力(i信源(站点))的计算方式如下:
[0071]
i
信源(站点)
=0.5*r+0.5*c信源(站点)影响力计算:
[0072]
用于计算新闻媒体站点影响力的算法,代表新闻媒体自身在长期的新闻传播实践过程中所形成并累积的、赢得社会和广大受众普遍信任的程度或能力。
[0073]
信源(站点)影响力由两部分组成,即站点的全网排名和站点分类,结合权重综合计算得出[0,100]整数区间内的影响力数值,数值越大影响力越高。
[0074]
另外,在实际使用过程中,对于信源(账号)影响力计算来说,用于计算社交平台上账号影响力的算法,代表账号自身在长期的信息传播实践过程中所形成并累积的、赢得社会和广大受众普遍信任的程度或能力。
[0075]
信源(账号)影响力由三部分组成,即账号类型、账号粉丝数(或关注数)、近期活跃度(7日内发文阅读数/转发数/评论数),结合权重综合计算得出[0,100]整数区间内的影响力数值,数值越大影响力越高。
[0076]
账号类型按账号的认证情况划分,在特定业务场景下不同认证的账号影响力差异较大,根据业务场景对各个账号类型做不同的影响力赋值。账号粉丝数是判断账号受欢迎程度的重要指标,一般情况下,更高的粉丝数意味着更高的影响力。近期活跃度代表着账号最近的活跃情况,对账号短期内的影响力波动有较强的影响。
[0077]
各维度计算方式如下:
[0078]
账号类型计算方式(c):
[0079]
c
未认证
=10
[0080]
c
个人认证
=50
[0081]
c
政府认证
=100
[0082]
c
机构认证
=30
[0083]
c
媒体认证
=80
[0084]
c
应用认证
=50
[0085]
账号粉丝数转换影响力计算方式(f):
[0086]
f=log(粉丝数);
[0087]
近期活跃度(v):
[0088]
v=log(7日阅读数);
[0089]
综合账号类型、账号粉丝数和近期活跃度,对信源(账号)影响力(i信源(账号))的计算方式如下:
[0090]
i
信源(账号)
=0.6*f+0.3*v+0.1*c
[0091]
另外,在实际使用过程中,对于新闻稿件影响力计算来说,用于计算新闻稿件影响力的算法,代表新闻稿件在网络传播过程中产生的实际效果、对受众造成的影响,包括传播本身的效果和传播后的影响。
[0092]
新闻稿件影响力由六部分组成,即信息传播力、信息时效性、信源影响力、内容丰富度、内容倾向性、特定区域相关度,结合权重综合计算得出[0,100]整数区间内的影响力数值,数值越大影响力越高。
[0093]
信息传播力综合考量各类传播关键指标——阅读数、点赞数、评论数、转发数、转发者影响力、是否首发,从网络反馈情况和传播节点的重要性做量化计算。信息时效性指的是稿件已发布时长,新闻稿件的影响力会随着时间产生变化,存在固有的舆情生命周期,故已发布时间对影响力数值存在影响。信源影响力指的是本新闻稿件发布方的影响力,更权威的站点或账号、更合适的时间发布信息,都会产生不同的影响力。内容丰富度反映新闻稿件质量,包括内容长度、是否包含图片或音视频。内容倾向性指的是稿件内容涉及的情感倾向,因用户阅读习惯,不同场景下不同的内容倾向会产生不一样的吸引力,如:负面舆情中,负面的信息更容易吸引用户阅读;正面引导中,正面的信息更容易吸引用户阅读。特定区域相关度,指的是在应用于特定地区的业务时,需要考虑地区性,如与当相关的信息对本地用户的影响力更高。
[0094]
各维度计算方式如下:
[0095]
信息传播力(s)计算方式:
[0096]
阅读数维度(v):v=log(阅读数);
[0097]
点赞数维度(l):l=log(点赞数);
[0098]
转发数维度(f):flog(转发数);
[0099]
评论数维度(c):c=log(评论数);
[0100]
转发者影响力(rb):rb=log(∑转载方影响力);
[0101]
注:转载方影响力直接使用上文中的信源影响力结果;
[0102]
是否首发维度(fr):fr
首发
=100;fr
非首发
=0;
[0103]
综上信息传播力计算方式:
[0104]
s=0.6*v+0*l+0*f+0*c+0.3*rb+0.1*fr
[0105]
信息时效性(a)计算方式:
[0106]
发布时长维度(rt):用高斯函数,取μ为达到顶峰的值,方差σ调解宽度;
[0107]
综上信息时效性计算方式:a=1*rt。
[0108]
信源影响力(se)计算方式:
[0109]
站点或账号维度(i信源):直接使用上文中的信源影响力结果;
[0110]
发布时间维度(rp):rp
07

10
=100;rp
17

22
=80;rp
24

06
=0;rp
其他
=0;
[0111]
综上信源影响力计算方式:se=0.8*i
信源
+0.2*rp。
[0112]
内容丰富度(cr)计算方式:
[0113]
内容长度维度(cl):cl=log(文章长度);
[0114]
是否包含图片、音频、视频维度(m):m
包含
=100;m
不包含
=0
[0115]
综上内容丰富度计算方式:cr=0.8*cl+0.2*m
[0116]
内容倾向性(t)计算方式:
[0117]
内容倾向性计算方式:
[0118]
t=1*正面稿件占比+0.5*中性稿件占比
[0119]
特定区域相关度(ar)
[0120]
内容区域相关度维度(ca):ca=log(内容命中区域标签次数);
[0121]
参与人区域相关度相关度维度(pa):pa=log(参与人所属地命中区域标签次数);参与人区域相关度相关度维度(pa):pa=log(参与人所属地命中区域标签次数);
[0122]
综上特定区域相关度计算方式:ar=0.5*ca+0.5*pa
[0123]
综合以上6个因素,新闻稿件影响力(i新闻稿件)的计算方式如下:
[0124]
i
新闻稿件
=0.5*s+0.1*a+0.1*se+0.1*cr+0.1*t+0.1*ar
[0125]
另外,在实际使用过程中,对于事件/任务影响力计算来说,用于计算一个新闻事件或任务影响力的算法,代表整个事件或任务在网络传播过程中产生的实际效果、对受众造成的影响,包括传播本身的效果和传播后的影响。
[0126]
事件/任务影响力是根据其包含的所有新闻稿件的影响力综合计算,得出[0,100]整数区间内的影响力数值,数值越大影响力越高。
[0127]
新闻稿件影响力(i事件/任务)的计算方式如下:
[0128]
i=log(∑i
新闻稿件
);
[0129][0130]
注:新闻稿件影响力直接使用上文中的新闻稿件影响力结果。
[0131]
综上所述,
[0132]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1