基于Pagerank方法的微博信息传播影响力评估模型的实现方法

文档序号:6523024阅读:1091来源:国知局
基于Pagerank方法的微博信息传播影响力评估模型的实现方法
【专利摘要】本发明公开了一种基于Pagerank方法的微博信息传播影响力评估方法,该方法在大规模增量微博信息上进行数据分析,通过研究微博信息的传播特征,提出微博信息传播的直接影响力和间接影响力的综合评估模型。首先从网络上爬取实验中所需要的真实微博网络信息数据;其次根据某一时间段内某节点处个体平均每天发布的原创微博数量,转发的微博数量,参与评论的微博数量,经过规范化度量得出个体活跃度;然后缩小用户粉丝数量的数量级差异,根据微博的浏览数,评论数,转发数以及点赞数计算出节点的受关注度;最后将微博传播能力作为分配影响力值的传递因子,基于Pagerank方法,构造出微博传播影响力模型。
【专利说明】基于Pagerank方法的微博信息传播影响力评估模型的实现方法
【技术领域】
[0001]本发明涉及数据挖掘【技术领域】,特别涉及一种基于Pagerank方法的微博信息传播影响力评估模型的实现方法。
【背景技术】
[0002]微博是当今互联网最盛行的网络交流平台之一,它以便捷性,强交互性,即时性等特点对传统信息传播媒体造成了巨大的冲击。微博作为一种基于个体自由表达言论和社会交流的渠道已经成为新型公共话题传播平台。它是一种信息传播模式上革命性的创新,极大地改变了大众原本的个人表达方式,已逐渐成为人们最重要的自我表达、获取信息和社交方式之一。
[0003]分析微博传递分布上的特点,并准确发现其中的规律,挖掘出有价值的微博及其用户,对于理解用户传播行为的微观效应和社会效应、理解热点话题形成的内在规律以及指导舆论导向有着重要的价值。微博信息传播影响力作为一个新兴的研究课题,在国内外的学术界也有着广泛的关注度。
[0004]不仅仅在学术界,在法律界也考察这以微博为代表的网络环境对新闻舆论导向的影响。我国最高人民法院、最高检察院在《关于办理利用信息网络实施诽镑等刑事案件适用法律若干问题的解释》中明确规定,利用信息网络诽镑他人,同一诽镑信息实际被点击、浏览次数达到5000次以上,或者被转发次数达到500次以上的将被视为构成诽镑罪。
[0005]如何更好的衡量网络中传播的微博信息的影响力,找出最具影响力的N个节点,使得最终社交网络中被影响的节点最多,信息传播范围最大,而不是单一的度量其浏览量和转发量的大小。而本发明能够很好地解决上面的问题。

【发明内容】

[0006]本发明目的在于设计了一种基于微博信息的传播影响力识别方法,该方法是在大规模增量微博信息上进行数据分析,通过研究微博信息的传播特征,提出微博信息传播的直接影响力和间接影响力的综合评估模型。
[0007]本发明解决其技术问题所采用的技术方案是:一种基于Pagerank方法的微博信息传播影响力评估模型的实现方法,该方法将通过标注微博信息传播节点的权重来衡量节点的影响力与重要性,节点的权值越大,影响力就越大。在计算各节点的权重时,将综合考虑节点的权威性(即是否被官方认证为大V),节点所拥有的粉丝数量及其质量,以及节点的交互关系与链接关系等多方面因素。该方法包括以下步骤:
[0008]步骤一、编写微博数据爬虫程序,从网络中爬取出真实的微博网络信息数据,从中提取出微博信息传播的网络拓扑结构信息。
[0009]步骤二、个体活跃度的定义
[0010]个体活跃度L的定义包含三个方面,其包括,某一时间段内(如一个月)该个体平均每天发布的原创微博数量O,转发的微博数量F,参与评论的微博数量C。其量化指标如下:
【权利要求】
1.基于Pagerank方法的微博信息传播影响力评估模型的实现方法,其特征在于,所述方法包括如下步骤: 步骤1:编写网络爬虫; ①编写微博数据爬虫程序,从网络中爬取出真实的微博网络信息数据; ②从中提取出微博信息传播的网络拓扑结构信息; 步骤2:个体活跃度的定义; 个体活跃度L的定义包含三个方面,其包括; ①某一时间段内(如一个月)该个体平均每天发布的原创微博数量O; ②转发的微博数量F; ③参与评论的微博数量C; 步骤3:为了排除微博用户中大量存在的“僵尸粉丝”对用户影响度的干扰,并缩小用户粉丝数量的数量级差异,使得粉丝数较少但影响力较强的用户不被忽略,本发明重新定义了用户q对用户P的权重表不; 步骤4:节点受关注度; 如果某节点处的微博受到的关注度越高,则影响力越强,包括以下三个指标:该微博的浏览数S,评论数P,转发数M以及点赞数Z ; 因此,节点的受关注度如下式所示:
C = S X ffs+P X ffp+M X ffM+Z X Wz 其中,Ws,ffp, ffM, Wz分别表示浏览数,评论数,转发数,点赞数的权重比; 步骤5:微博传播影响力; 由个体活跃度,节点受关注度两个指标以及归一化后的粉丝数三者综合定义出微博传播影响力指标,表达式为:
2.根据权利要求1所述的一种基于Pagerank方法的微博信息传播影响力评估模型的实现方法,其特征在于:所述方法的步骤2中,将所述个体活跃度添加量化指标,其量化指标如下:
A = V0Xff0+VFXffF+VcXffc 其中,Wtj为原创微博帖子所占的活跃度权重,WF,Wc分别为转发微博,评价微博所占的活跃度权重,通过对这三种度量指标进行规范化再带入公式计算。
3.根据权利要求1所述的一种基于Pagerank方法的微博信息传播影响力评估模型的实现方法,其特征在于:所述方法的步骤2中,具体归一化方法为:
4.根据权利要求1所述的一种基于Pagerank方法的微博信息传播影响力评估模型的实现方法,其特征在于:所述方法的步骤3中,本发明定义w(p,q)表示用户q对用户p的权重,通过下式计算w (p, q)的值:

5.根据权利要求1所述的一种基于Pagerank方法的微博信息传播影响力评估模型的实现方法,其特征在于:所述方法的步骤6中,Pagerank方法的基本思想是将上文定义的微博传播能力作为分配影响力值的传递因子,微博传播能力高的用户能获得较高的影响力值,相应的微博传播能力低的用户获得的影响力值较低,其表达式为:

6.根据权利要求1所述的一种基于Pagerank方法的微博信息传播影响力评估模型的实现方法,其特征在于:所述方法的步骤6中,由个体p的微博传播影响力占用户q的所有好友传播影响力之和的大小决定,假设Q有N个好友,那么q分配给P的VPR值比例为:

【文档编号】G06F17/30GK103617279SQ201310664373
【公开日】2014年3月5日 申请日期:2013年12月9日 优先权日:2013年12月9日
【发明者】孙国梓, 黄斯琪, 杨一涛, 李华康, 卢杨, 仇呈燕 申请人:南京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1