一种基于信息交互网络的微博用户影响力计算方法

文档序号:9506283阅读:695来源:国知局
一种基于信息交互网络的微博用户影响力计算方法
【技术领域】
[0001] 本发明涉及互联网社交媒体数据的挖掘与分析技术领域,尤其涉及一种基于信息 交互网络的微博用户影响力计算方法。
【背景技术】
[0002] 随着互联网的快速发展,近些年来以微博为代表的社交媒体发展迅猛,微博已成 为重大信息发布、分享的首要平台,微博也是热点事件产生和扩散的重要场所。在微博平台 上用户数量巨大,用户之间的关系结构纷繁复杂,其信息量相当庞大,用户的各种行为都对 信息的传播起着影响,如何在这样一个复杂的平台之上对用户的影响力进行有力度量和对 微博系统中的用户进行合理排序,从而为微博的拓展应用提供理论基础,如微博的舆情监 控与预警和微博营销推广等等。目前,针对微博用户影响力的计算方法主要有两类:第一类 是对微博用户的粉丝数和微博数等数据进行统计,对于基于微博用户的粉丝数和微博数等 数据的统计方法只能度量用户的潜在影响力,若用户不进行活动,其实际影响力则难以得 到体现,因此微博用户影响力统计不够准确;第二类是对微博系统中用户关系网的网络拓 扑结构度量,由于抽取的网络拓扑结构是静态的,一方面无法表征连接关系的时效性,另一 方面也无法描述连接之间的亲密性,从而导致此类方法的度量结果和实际情况有偏差,也 得不到足够准确的微博用户影响力。
[0003] 总之有必要对现有微博用户影响力计算方法提出改进。

【发明内容】

[0004] 针对现有技术中的不足,本发明提供了一种基于信息交互网络的微博用户影响力 计算方法。
[0005] 为了实现上述目的,本发明所采取的技术方案是:
[0006] -种基于信息交互网络的微博用户影响力计算方法,包括以下步骤:
[0007] (1)在微博平台上通过网络爬虫技术采集用户的属性信息、用户的微博信息和用 户的粉丝列表,所述用户的属性信息包括实名认证标志、关注数、粉丝数、总微博数、总转发 数和总评论数,所述用户的微博信息包括其所发布的每篇微博的内容和发布时间、微博的 转发数、评论数、点赞数以及对微博进行转发和评论的用户名单;
[0008] (2)根据步骤(1)采集的用户属性信息计算用户属性决定的影响力;
[0009] (3)根据步骤(1)采集的用户微博信息来构建微博信息交互网络模型,通过构建 的微博信息交互网络模型来计算用户微博内容决定的影响力,所述定义微博信息交互网络 模型步骤为: a、在微博系统中将用户看作节点,用户之间的关注关系看作边,边的方向为从 用户到被关注对象,边不但有方向,也有权重,定义微博系统的用户关系网络为一带权有向 图:UR= (V,E,P,W),有向图中的节点代表微博系统中的用户,有向边代表微博系统中用户 之间的关系,所述该式中的V表示节点的集合,E表示有向边的集合,P表示节点权重的集 合,W表示边权重的集合,Vv pVi e F,该式表示在节点集合V中任取两个节点vjP V p若 =< H >e S,该式表示在有向边集合E中存在一条连接节点V1和节点^的有向边e V 边的方向为V1指向V ,即在微博系统中用户V1和用户V 之间存在关系,用户V 注用户 Vj,即用户Vi是用户V .j的粉丝,P # P表示节点V ;的权重为p i,WuG W表示有向边e i.j的 权重为Wl j;b、微博系统中的微博元素定义为一个8元组:
[0010] m = (ID, Content, Author, Type, Time, FN, CN, PN),其中 ID 为微博编号,Content 为微博内容,Author为微博作者,Type为微博的类型(原创博文、转发博文),Time为微 博发布的时间戳,FN为微博被转发的次数,CN为微博获得的评论数,PN为微博获得的点赞 数;c、定义微博的传播关系,根据上述步骤a定义的用户关系网络为一带权有向图UR = (V,E, P, W),则用户发布微博的传播关系定义为sr = Oiii, < Vi, '> ),其中V ;和V 均表示 代表微博用户的节点,Iiii表示用户V ;发布的微博,< V ;,'>表示节点V ;指向节点V (表示 信息传播方向),即用户V1发布的微博m i从节点V i传给了节点V ,,则表示用户V]是用户V i 的粉丝,或者是表示用户V1直接将微博m i推送给了用户V ,,即用户V1发布的微博m i的内 容中包含"iV]"的内容;d、定义微博的转发关系,根据步骤a将微博系统中的微博转发关系 定义为fr =< Iiii表示用户V ;发布的微博,表示用户V 发布的微博,该式表示 微博!!!,是对微博m 1进行转发的微博,微博转发关系的方向为m i指向m ];e、在微博系统中, 用户对微博信息的主要动作包括:发布、转发、主动推送(@用户名)、评论等,信息的发布和 转发都是在用户关系网络上进行,沿着关系网络中边的反方向进行信息传播,信息的主动 推送对象可以是其粉丝,也可以是其他用户,信息评论是围绕被评论微博展开,评论内容的 传播范围就是原微博的传播范围,根据步骤a将微博系统中的微博评论关系定义为cr = < Vj, IIii>,该式表示用户V 对微博IIii进行了评论,微博评论关系的方向为V 指向mi;f、定 义微博信息交互网络模型为H = (M,U,SR, FR, CR, WM),其中M为用户发布微博的集合(发布 微博包括用户编写的微博和转发的微博),U为发布和转发微博及评论微博的用户的集合, 且^ ?Ξ Γ (表示的是发布和转发微博及评论微博的用户集合属于微博用户的集合),SR为 微博传播关系的集合,FR为微博转发关系的集合,CR为微博评论关系的集合,WM为用户发 布的微博内容影响力权重的集合,对于微博集合M中的微博m,Author (m)表示微博m的作 者,即微博m的发布者,wm(m)表示微博m的内容影响力权重,根据上述d步骤的定义,对微 博m进行转发的用户集合表示为:
[0012] 根据上述e步骤的定义,对微博m进行评论的用户集合表示为:
[0013] (4)根据步骤⑵和步骤(3)分别得到用户属性决定的影响力和用户微博内容决 定的影响力来计算用户的直接影响力;
[0014] (5)根据步骤(1)采集的用户粉丝列表来获取其每个粉丝的影响力,再根据所述 每个粉丝的影响力综合计算出用户的间接影响力;
[0015] (6)根据步骤(4)和步骤(5)得到用户的直接影响力和用户的间接影响力来计算 用户的综合影响力,所述计算用户的直接影响力步骤具体如下:①、用户属性决定的影响力 具体按照下面公式表述:
[0017] 其中,IFdll^USCT为所述用户属性决定的影响力,N。为用户的微博账号实名认证标 志,即通过实名认证的用数值1表示,未通过实名认证的用数值〇表示,N 1为用户的关注数, N2为用户的粉丝数,N3为用户的总微博数,N4为用户的总转发数,N 5为用户的总评论数,β。, βρ β2, β3, β4, β5分别为相应子属性的权重比利系数,且β 0+β1+β2+β3+β4+β5= 1 ;
[0018] ②、计算用户发布的微博m的内容影响力,计算方法如下:
[0020] 其中,m表示用户发布的微博,且m已在微博系统中的微博元素定义为一个8元组: m= (ID, Content, Author, Type, Time, FN, CN, PN),其中 ID 为微博编号,Content 为微博内 容,Author为微博作者,Type为微博的类型(原创博文、转发博文),Time为微博发布的时 间戳,FN为微博被转发的次数,CN为微博获得的评论数,PN为微博获得的点赞数,丽i(m)为 微博m的内容影响力,PN为微博m获得的点赞数,'和V k均为微博系统中的用户,FU (m)为 对微博m进行转发的用户集合,w(V])表示对微博m进行转发的用户V]的权重,即用户V ,的 影响力值,CU (m)为对微博m进行评论的用户集合,w(vk)表示对微博m进行评论的用户vk 的权重,即用户Vk的影响力值,γ i,γ2, γ3分别为点赞、转发和评论属性的权重比例系数, 且 Yi+Y^Y3= 1;
[0021] ③、计算用户所发布的全部微博的内容影响力,计算方法如下:
[0023] 其中,IFdlUb为用户所发布的全部微博的内容影响力,wm(m)为微博m的内容影 响力,W k为时间窗口 k,时间窗口就
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1