基于改进PageRank算法的微博信息传播关键节点识别方法与流程

文档序号:15636905发布日期:2018-10-12 21:35阅读:194来源:国知局

本发明涉及数据分析领域,特别涉及一种基于改进pagerank算法的微博信息传播关键节点识别方法。



背景技术:

微博自问世以来就成为时代网络的标志性产品,这个具有强烈“自媒体”属性的互联网应用,便以其实即时性和便捷性成为了重要的社交媒体。但公信力是“自媒体”的弱势,一些关键用户在信息传播过程中从事话题操作,因而低俗内容、谣言、虚假信息等内容易出现,微博信息可信度就成了一个大问题,加上互联网信息的传播速度极快,微博舆情信息的内容会对社会公共安全形成威胁。

研究微博网络信息数据分析与挖掘信息传播中的影响力节点,发现最具影响力的传播节点都是很重要的,对微博网络营销、舆情监控及控制不实微博舆论有着积极意义。

微群是微博群的简称,能够聚合具有相同爱好或者相同标签的用户,将所有与之相应的话题全部聚拢在微群里面。同一微群里的微博用户具有较高的聚合度和活跃程度,相关研究指出微博信息在微群中更易传播,因而不实微博信息在群体中更易传播。



技术实现要素:

本发明的目的在于提出基于微群间微博信息传播的一种关键节点的发现方法。

本发明提供了一种改进pagerank算法的微博信息传播关键节点识别方法,步骤包括:

1)采集某一微群a内所有成员的信息、发表微博列表信息、微博文本信息、用户关系信息;

2)确定所述微群内转发次数最高的文本信息;

3)通过步骤2获取的文本信息获取使用“@”用户标识的文本信息,该用户为b;

4)通过步骤3获取的文本信息计算高频词;

5)采集用户b的微博文本信息后与所述高频词比对,确定a微群内的成员的转发次数最高文本信息是否被用户b转发,如确定用户b转发,采用上述相同的方法,确定用户b是否把a微群内的成员的转发次数最高文本信息传递给了用户c,从而形成信息的传播路径;

6)确定传播路径上的用户所在的微群,从而构建微群关注网络;

7)通过weiborank算法确定最具影响力的微群,所述weiborank算法的计算步骤为:

71)计算直接号召力f1(v),用户v位于中心点处,按照信息传播路径的距离,我们将与中心点距离为1的所有节点集合起来,组成一个同心圆,形成n1层,可见该层中的节点数目,即为用户v的粉丝集合,记为f1(v),f(v)的大小表征了用户v的直接号召力;

72)计算影响范围r,将与中心点距离为2的所有节点集合起来,形成n2层,可见该层中的节点是f1(v)中各用户的粉丝集合,记为f2(v),以此类推,直到最大的一个同心圆nm层中,所有节点均为叶子节点为止,影响范围

i为中心点距离节点的距离值;

73)计算用户v的wr值,wr值定义为用户v的直接号召力与平均信息负荷量的乘积

j表示信息由节点v能传递到的连通节点;

dvj表示节点v与节点j之间的距离;

表征平均信息负荷量;

用户v的wr值定义为用户v的直接号召力与平均信息负荷量的乘积,用户v的wr值越大,表征该用户的影响力越大,在微博网络中的地位越关键。

优选方案是:采集新浪微博和腾讯微博两大主流媒体数据。

优选方案是:利用web爬虫技术采集了某一微群内成员的用户id,通过api接口,获取json文件格式的微博信息各相关参数;通过调用api的微博读取接口函数。

优选方案是:使用svm算法对我播信息进行分类,得到不同的类簇,按照各类簇中所包含的转发数最多的信息从高到低对类簇进行排序,得到转发数最高的类簇。

优选方案是:使用tf-idf算法得到高频词。

优选方案是:高频词数量为α,微群中总体传播最多的高频词为β,取相同基数,得到高频词传播比例γ=α/β。

优选方案是:在微群中体wr值相差不大时,高频词传播人数频率获取δ值,

δ=δ*γ。δ值可作为另一个参考参数,δ值越大,说明微群在微群关系中比重越大,最终得到微群关系传播中的关键微群节点。

本发明的有益效果如下:

通过该方法可以准确的分析出微群间微博信息传播过程中的关键性节点。针对微博网络营销、不实微博舆论以及违法信息活动信息的有效筛选,系统对用户信息以及关键词信息进行数据聚类分析,提取出信息的关键性的行为特征,系统从人物发表微博信息时间、频率、高频词和文本末@关键人物以及相关人物的微博微群信息,实现微群之间以及群内的中关键节点的发掘,不用建立复杂的数据模型,方便快捷的进行群体发现,具有较高的稳定性。

附图说明

图1为本发明的流程框图;

图2为微群关系网络图;

图3为实施例中微群微博信息传播图。

具体实施方式

下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。

应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多个其它元件或其组合的存在或添加。

如图1所示,本发明提供了一种改进pagerank算法的微博信息传播关键节点识别方法,步骤包括:

1)采集某一微博群a内所有成员的信息、发表微博列表信息、微博文本信息、用户关系信息;

2)确定所述微群内转发次数最高的文本信息;

3)通过步骤2获取的文本信息获取使用“@”用户标识的文本信息,该用户为b;

4)通过步骤3获取的文本信息计算高频词;

5)采集用户b的微博文本信息后与所述高频词比对,确定a微群内的成员的转发次数最高文本信息是否被用户b转发,如确定用户b转发,采用上述相同的方法,确定用户b是否把a微群内的成员的转发次数最高文本信息传递给了用户c,从而形成信息的传播路径;

6)确定传播路径上的用户所在的微群,从而构建微群关注网络;

7)通过weiborank算法确定最具影响力的微群,所述weiborank算法的计算步骤为:

71)计算直接号召力f1(v),用户v位于中心点处,按照信息传播路径的距离,我们将与中心点距离为1的所有节点集合起来,组成一个同心圆,形成n1层,可见该层中的节点数目,即为用户v的粉丝集合,记为f1(v),f(v)的大小表征了用户v的直接号召力;

72)计算影响范围r,将与中心点距离为2的所有节点集合起来,形成n2层,可见该层中的节点是f1(v)中各用户的粉丝集合,记为f2(v),以此类推,直到最大的一个同心圆nm层中,所有节点均为叶子节点为止,影响范围

i为中心点距离节点的距离值;

73)计算用户v的wr值,wr值定义为用户v的直接号召力与平均信息负荷量的乘积

j表示信息由节点v能传递到的连通节点;

dvj表示节点v与节点j之间的距离;

表征平均信息负荷量;

用户v的wr值定义为用户v的直接号召力与平均信息负荷量的乘积,用户v的wr值越大,表征该用户的影响力越大,在微博网络中的地位越关键。

优选方案是:采集新浪微博和腾讯微博两大主流媒体数据。

优选方案是:利用web爬虫技术采集了某一微群内成员的用户id,通过api接口,获取json文件格式的微博信息各相关参数;通过调用api的微博读取接口函数。

优选方案是:使用svm算法对我播信息进行分类,得到不同的类簇,按照各类簇中所包含的转发数最多的信息从高到低对类簇进行排序,得到转发数最高的类簇。

优选方案是:使用tf-idf算法得到高频词。

优选方案是:高频词数量为α,微群中总体传播最多的高频词为β,取相同基数,得到高频词传播比例γ=α/β。

优选方案是:在微群中体wr值相差不大时,高频词传播人数频率获取δ值,

δ=δ*γ。δ值可作为另一个参考参数,δ值越大,说明微群在微群关系中比重越大,最终得到微群关系传播中的关键微群节点。

实施例

本发明提供了一种改进pagerank算法的微博信息传播关键节点识别方法,包括:

1)首先采集近三个月热门话题、热搜排行以及敏感型话题舆论等相关命题以及相关群体信息,利用web爬虫技术采集了某一微群内成员的用户id,通过api接口,获取json文件格式的微博信息各相关参数;通过调用api的微博读取接口函数“statuses/user_timeline”,即可获取用户发表的微博列表。获取需要的字段包括:

created_atstring微博创建时间

idint64微博id

idstrstring字符串型的微博id

textstring微博信息内容

sourcestring微博来源

in_reply_to_status_idstring回复id

userobject微博作者的用户信息字段

retweeted_statusobject被转发的原微博信息字段,当该微博为转发微博时返回

reposts_countint转发数

读取接口函数“friendships/show”,以获取两个用户关系的详细情况。接口函数“friendships/followers”,分别获取用户的粉丝列表,然后判断用户之间是否存在粉丝/关注关系。采集用户所关注的其他用户id,仅限制在收集该微群内的用户;同时通过获得微博用户现实身份的信息,可以使分析更加全面,研究更加深入;

2)根据步骤1中采集的文本text微博信息内容,结合经典分类算法svm算法对微博信息进行分类,得到不同的类簇,按照各类簇中所包含的转发数最多的信息从高到低对类簇进行排序,得到转发数最高的类簇。将最高的类簇作为样本,获取该类簇中新闻消息相关得所有用户,这里根据用户关系完成对用户之间的簇类聚合,获取相关的所有用户有了这些用户和传播转发信息最多的文本就可以构建微博传播关系网络,如文体类等热门事件来构建传播网络;

3)获取步骤2中最高的类簇传播信息作为样本,使用tf-idf算法得到高频词,计算文本内容相似度,具体过程:从每篇文章各取出若干个关键词(比如10个),合并成一个集合,计算每篇文章对于这个集合中的词的词频;

4)基于步骤2和步骤3的解析数据,当a用户@b用户后,获取b用户的微博信息,计算ab两个用户文本信息n个文档两两之间的相似性,就可以得到a用户@b用户的微博文本信息在b用户微博中是否有传播,如有传播,分析相似信息是否传递给了c用户,根据abc用户所在的微群组进而构建微群关注网络,如图2所示;

5)根据步骤4的用户之间的传播关系,我们采用级联的方法对信息传播规模进行追踪,在用户关系网络确定的情况下,可以通过判断每条微博信息在两个有边用户之间的关系及是否微群间传播等信息,进而实现微群和传播上的关联,构建微群关系网络。并根据用户所在的所有微群,对微群进行文本聚类,并获取微群中总体传播最多的高频词为β;

6)weiborank算法计算考虑了用户本身的号召力和影响范围,我们统计出微群中传播相似信息的总量wr值,wr越高,说明该微群在微群关系中比重越大。相同信息在微群中传播人数越多,同样会增加微群传播的比重,统计出同一微群中传播相似信息的人数,设置为参数δ。在上文我们也提到了,微群是能够聚合具有相同爱好或者相同标签的用户,如果传播的话题信息和微群中有相同标签的人更符合的话,该信息会在该微群中更广泛的传播,上文已得到相似信息的高频词,设置高频词数量为α,微群中总体传播最多的高频词为β,取相同基数,得到高频词传播比例γ=α/β。在微群中体wr值相差不大时,高频词传播人数频率获取δ值,δ=δ*γ。δ值可作为另一个参考参数,δ值越大,说明微群在微群关系中比重越大,最终得到微群关系传播中的关键微群节点;pagerank算法基于通过“关注/粉丝”关系构建起微博用户关系网络,在pagerank算法中用户的pr值是均匀地传递到链出的用户上去的,这样做的结果会忽略用户本身的重要程度,由于没有考虑到社团之间的弱纽带链接节点并不能解决影响力最大化的问题。而weiborank算法综合考虑用户直接号召力、影响范围,对于一些特征的组织机构微博账户在计算节点上更有优势,使用weiborank算法计算微群和用户之间的关键节点,得到微博信息传播中的关键节点。

7)具体微群wr值示例分析

如图3所示,信息传播中的某人将信息转发或发布,并@了三个不同的微群a、b、c,分别结算出三个微群的wr值。微群a中包含三个人,a1、a2和a3。根据weiborank的定义,可以统计计算出a1的出度数f1(v)为1,影响范围r为1,平均信息负荷量为(1×1)/1=1,则节点a1的wr值为1×1=1,a2的出度数f1(v)为2,影响范围r为4,平均信息负荷量为(1×1+2×2)/4=1.5,则节点a2的wr值为1.5×2=3,a3的出度数f1(v)为3,影响范围r为11,平均信息负荷量为(1×3+2×6+3×2)/11=1.82,则节点a3的wr值为1.82×3=5.46,综合来看微群a的总体wr值为1+3+5.46=9.46。同样方法分别计算出b1的wr值为3、b2的wr值为1.75和b3的wr值为4.88,微群b的总体wr值为9.63,c1的wr值为7.43、c2的wr值为17.33,微群c的总体wr值为24.76。

由统计结果可以看出,微群a和微群b的总体wr值相差不大,微群c虽然群体中只有两个人传播信息,但是总体传播的人数多,因而总和wr值大于微群ab,因而微群c在传播信息的过程中比重要大于ab两个群。

再来比较微群a和微群b,两个群传播的人数都为3人,而且群a和群b的wr相差不大,计算出群a和群b的文本信息的高频词以及3人传播信息的总体高频词,根据步骤6中的方法计算出δ值,由δ值得大小来判别群a和群b的在微群中传播的重要性。由此就可以获取信息传播中最具影响的微群。

尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1