异常微博用户识别方法

文档序号:9288428阅读:405来源:国知局
异常微博用户识别方法
【技术领域】
[0001] 本发明涉及计算机信息技术,尤其是异常微博用户识别方法。
【背景技术】
[0002] 由于微博长度较短,人们可以快速地表达和传播自己的想法和获得的信息,其已 成为互联网上一种时尚的社交交流方式,它在市场营销和信息传播等方面蕴含着巨大的市 场。随着微博的发展,有大量的异常用户传播无用信息,危害公众和互联网环境,因此识别 异常用户是一个迫切需要解决的重要问题。从美国推特的第一次出现到新浪微博,微博用 户数一直呈现爆发式的增长,如今微博用户数已数以亿计。新浪微博目前已成为中国最有 影响力的微博平台。在互联网上,微博用户十分关注自己的粉丝数量,绝大多数用户希望他 们有较多的追随者。很多异常用户往往主动成为微博用户的粉丝。一些用户为获取知名度 和影响力,主动购买僵尸粉,另一方面,一些用户通过操纵假粉丝,污染网络环境。比如他们 发送大量广告等无用信息,困扰用户。同时,扰乱了正常的微博平台的营销和推广。因此, 识别和了解这些垃圾信息的发送者是十分必要的。然而,随着网络技术和微博的发展,垃圾 信息发送者也在同时进化升级,现有检测异常用户的特征在高级的异常用户面前不是那么 的有效。例如,垃圾信息发送者只需花费很少的成本就可从第三方网站购买追随者或者与 他人进行交换追随者,根据其追随者的数量来识别他们的难度增大。

【发明内容】

[0003] 本发明所要解决的技术问题就是提供一种异常微博用户识别方法,提高对异常微 博用户识别的有效性和准确率。
[0004] 为解决上述技术问题,本发明采用如下技术方案:异常微博用户识别方法,包括如 下步骤:
[0005] 第一,采集微博用户的微博数据;
[0006] 第二,根据采集的微博数据绘制社交网络关系图,并根据社交网络关系图分析出 异常用户;
[0007] 第三,根据采集的微博数据,对微博用户的微博内容进行语义特征分析,分析出异 常用户。
[0008] 进一步的,采集微博数据的具体方法为:首先,随机采集一些用户数据作为起始节 点数据,然后收集这些起始节点的个人ID号、粉丝ID号列表、关注者ID号列表、最近10条 的微博内容信息;一直重复这个过程,直到收集到所有相关数据。社交网络关系图涉及个人 ID号、粉丝ID号列表和关注者ID号列表,语义特征分析涉及最近10条微博内容信息。
[0009] 进一步的,在社交网络关系图分析中,利用专业的网络图形分析工具对网络中每 个用户的拉普拉斯中心度进行分析,异常用户从网络中移除,网络的拉普拉斯能量减少很 小。异常用户的拉普拉斯能量平均值比样本集中心区域的正常用户平均值大约少24. 83%。
[0010] 进一步的,在社交网络关系图分析中,还采用局部聚类系数分析异常用户,异常用 户的局部聚类系数比正常用户要小。样本集中异常用户的局部聚类系数平均值比正常用户 平均值大约少25. 31%。
[0011] 进一步的,在社交网络关系图分析中,还采用特征向量中心度分析异常用户,异常 用户的特征向量中心度低于正常用户。样本集中异常用户的特征向量中心度平均值大概只 占正常用户平均值7. 71%,因为特征向量中心度的计算考虑了整个网络节点。
[0012] 进一步的,在语义特征分析中,采用内容相似度分析,使用自然语言分析工具计算 每个用户最近多篇微博内容两两组合的平均相似度,异常用户内容相似度大于正常用户。 样本集异常用户内容相似度比正常用户大约大3. 08%。
[0013] 进一步的,在语义特征分析中,还采用超链接比重分析,异常用户网页超链接比重 高于正常用户。样本集异常用户超链接比重比正常用户大约多66. 76%。
[0014] 进一步的,在语义特征分析中,还采用主题标签比重分析,异常用户主题标签比重 高于正常用户。样本集中异常用户近5次微博内容均有主题标签的比重比正常用户大一倍 左右。
[0015] 本发明通过用户关系图和对微博内容的语义分析这两大特征相融合来检测异常 用户,实验结果表明,本发明方法在识别异常用户方面可以得到很高的正确率。
【具体实施方式】
[0016] 本发明异常微博用户识别方法包括如下步骤:
[0017] 第一,采集微博用户的微博数据;
[0018] 第二,根据采集的微博数据绘制社交网络关系图,并根据社交网络关系图分析出 异常用户;
[0019] 第三,根据采集的微博数据,对微博用户的微博内容进行语义特征分析,分析出异 常用户。
[0020] 在微博数据采集时,使用新浪微博提供的API函数结合网页爬虫工具采集微博数 据。首先,随机采集了一些用户数据作为起始节点数据,然后收集这些起始节点的个人信 息、粉丝列表、关注者列表、微博内容信息。一直重复这个过程,直到收集到足够多数据。
[0021] 在绘制社交网络关系图时,将微博中的社交关系建模为一个有向图G= (V,E)。图 的节点V表示用户,图的边E表示社交关系。一条从节点\^指向节点V_j的边a= (i,j)表 示用户i关注用户j。即使异常用户可以改变自身属性,也较难改变他们在有向图中的位 置。因此,本发明设计了三个基于社交关系图的特征:拉普拉斯中心度、局部聚类系数和特 征向量中心。
[0022] 1 ?拉普拉斯中心度
[0023] -个节点的拉普拉斯中心度指从网络移除该节点后,网络的拉普拉斯能量下降的 程度。拉普拉斯中心度不仅考虑了局部密度信息还考虑瓶颈信息。一个有向图的拉普拉斯 能量被定位为:
V指该图的拉普拉斯矩阵的特征值。它是所有顶 点出度之和。假定A(G)是图形G的邻接矩阵,D(G)是顶点出度的对角矩阵。图形G的拉 普拉斯矩阵为L(G) =D(G)-A(G)。对于有n个顶点,出度分别为山,d2,. . .,dn的图形G来 说,其拉普拉斯能量为它反映了图形内部的连接程度。将一个
:〇 顶点从图形中移除,图形的拉普拉斯能量将减少。减少的部分EJG)反映了这个顶点在图形 中的重要程度。假定将顶点v从图形G中移除之后的图形为H。顶点V的拉普拉斯中心度 大
其中N(v)表示顶点 V的邻居,de(v)表示顶点V的度数。这需要大量邻居节点的信息进行计算。由于异常用户 往往没有稳定的社交网络结构,而且与邻居节点的关系很弱。将这些社交关系不重要的异 常用户从网络中移除,网络的拉普拉斯能量应该减少很小。
[0024] 2.局部聚类系数
[0025]局部集聚系数表示了 一个顶点的相邻节点构成一个完全图的紧密程度。它 表明其邻居的连接程度。在社交网络图里,一个顶点t的邻域^被定义为:N1= : GE八e^GE}。e^指连接节点V;和V的边。假定k:是顶点V;的出入度之和。对 于每个领域队,邻节点之间存在kjki-l)条边。对于每个顶点1,其局部聚类系数可以这样
计算 正常用户的关注者往往 G 是他们的朋友、同学和同事等。他们之间存在着很紧密的联系。而异常用户与其关注者之 间存在着很弱的关系,因为异常用户往往是随机寻找关注
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1