异常微博用户识别方法

文档序号：9288428阅读：405来源：国知局

异常微博用户识别方法
【技术领域】
[0001] 本发明涉及计算机信息技术，尤其是异常微博用户识别方法。
【背景技术】
[0002] 由于微博长度较短，人们可以快速地表达和传播自己的想法和获得的信息，其已成为互联网上一种时尚的社交交流方式，它在市场营销和信息传播等方面蕴含着巨大的市场。随着微博的发展，有大量的异常用户传播无用信息，危害公众和互联网环境，因此识别异常用户是一个迫切需要解决的重要问题。从美国推特的第一次出现到新浪微博，微博用户数一直呈现爆发式的增长，如今微博用户数已数以亿计。新浪微博目前已成为中国最有影响力的微博平台。在互联网上，微博用户十分关注自己的粉丝数量，绝大多数用户希望他们有较多的追随者。很多异常用户往往主动成为微博用户的粉丝。一些用户为获取知名度和影响力，主动购买僵尸粉，另一方面，一些用户通过操纵假粉丝，污染网络环境。比如他们发送大量广告等无用信息，困扰用户。同时，扰乱了正常的微博平台的营销和推广。因此，识别和了解这些垃圾信息的发送者是十分必要的。然而，随着网络技术和微博的发展，垃圾信息发送者也在同时进化升级，现有检测异常用户的特征在高级的异常用户面前不是那么的有效。例如，垃圾信息发送者只需花费很少的成本就可从第三方网站购买追随者或者与他人进行交换追随者，根据其追随者的数量来识别他们的难度增大。

【发明内容】

[0003] 本发明所要解决的技术问题就是提供一种异常微博用户识别方法，提高对异常微博用户识别的有效性和准确率。
[0004] 为解决上述技术问题，本发明采用如下技术方案：异常微博用户识别方法，包括如下步骤：
[0005] 第一，采集微博用户的微博数据；
[0006] 第二，根据采集的微博数据绘制社交网络关系图，并根据社交网络关系图分析出异常用户；
[0007] 第三，根据采集的微博数据，对微博用户的微博内容进行语义特征分析，分析出异常用户。
[0008] 进一步的，采集微博数据的具体方法为：首先，随机采集一些用户数据作为起始节点数据，然后收集这些起始节点的个人ID号、粉丝ID号列表、关注者ID号列表、最近10条的微博内容信息；一直重复这个过程，直到收集到所有相关数据。社交网络关系图涉及个人 ID号、粉丝ID号列表和关注者ID号列表，语义特征分析涉及最近10条微博内容信息。
[0009] 进一步的，在社交网络关系图分析中，利用专业的网络图形分析工具对网络中每个用户的拉普拉斯中心度进行分析，异常用户从网络中移除，网络的拉普拉斯能量减少很小。异常用户的拉普拉斯能量平均值比样本集中心区域的正常用户平均值大约少24. 83%。
[0010] 进一步的，在社交网络关系图分析中，还采用局部聚类系数分析异常用户，异常用户的局部聚类系数比正常用户要小。样本集中异常用户的局部聚类系数平均值比正常用户平均值大约少25. 31%。
[0011] 进一步的，在社交网络关系图分析中，还采用特征向量中心度分析异常用户，异常用户的特征向量中心度低于正常用户。样本集中异常用户的特征向量中心度平均值大概只占正常用户平均值7. 71%，因为特征向量中心度的计算考虑了整个网络节点。
[0012] 进一步的，在语义特征分析中，采用内容相似度分析，使用自然语言分析工具计算每个用户最近多篇微博内容两两组合的平均相似度，异常用户内容相似度大于正常用户。样本集异常用户内容相似度比正常用户大约大3. 08%。
[0013] 进一步的，在语义特征分析中，还采用超链接比重分析，异常用户网页超链接比重高于正常用户。样本集异常用户超链接比重比正常用户大约多66. 76%。
[0014] 进一步的，在语义特征分析中，还采用主题标签比重分析，异常用户主题标签比重高于正常用户。样本集中异常用户近5次微博内容均有主题标签的比重比正常用户大一倍左右。
[0015] 本发明通过用户关系图和对微博内容的语义分析这两大特征相融合来检测异常用户，实验结果表明，本发明方法在识别异常用户方面可以得到很高的正确率。
【具体实施方式】
[0016] 本发明异常微博用户识别方法包括如下步骤：
[0017] 第一，采集微博用户的微博数据；
[0018] 第二，根据采集的微博数据绘制社交网络关系图，并根据社交网络关系图分析出异常用户；
[0019] 第三，根据采集的微博数据，对微博用户的微博内容进行语义特征分析，分析出异常用户。
[0020] 在微博数据采集时，使用新浪微博提供的API函数结合网页爬虫工具采集微博数据。首先，随机采集了一些用户数据作为起始节点数据，然后收集这些起始节点的个人信息、粉丝列表、关注者列表、微博内容信息。一直重复这个过程，直到收集到足够多数据。
[0021] 在绘制社交网络关系图时，将微博中的社交关系建模为一个有向图G= (V，E)。图的节点V表示用户，图的边E表示社交关系。一条从节点\^指向节点V_j的边a= (i,j)表示用户i关注用户j。即使异常用户可以改变自身属性，也较难改变他们在有向图中的位置。因此，本发明设计了三个基于社交关系图的特征：拉普拉斯中心度、局部聚类系数和特征向量中心。
[0022] 1 ?拉普拉斯中心度
[0023] -个节点的拉普拉斯中心度指从网络移除该节点后，网络的拉普拉斯能量下降的程度。拉普拉斯中心度不仅考虑了局部密度信息还考虑瓶颈信息。一个有向图的拉普拉斯能量被定位为：
V指该图的拉普拉斯矩阵的特征值。它是所有顶点出度之和。假定A(G)是图形G的邻接矩阵，D(G)是顶点出度的对角矩阵。图形G的拉普拉斯矩阵为L(G) =D(G)-A(G)。对于有n个顶点，出度分别为山，d2,. . .，dn的图形G来说，其拉普拉斯能量为它反映了图形内部的连接程度。将一个
：〇顶点从图形中移除，图形的拉普拉斯能量将减少。减少的部分EJG)反映了这个顶点在图形中的重要程度。假定将顶点v从图形G中移除之后的图形为H。顶点V的拉普拉斯中心度大
其中N(v)表示顶点 V的邻居，de(v)表示顶点V的度数。这需要大量邻居节点的信息进行计算。由于异常用户往往没有稳定的社交网络结构，而且与邻居节点的关系很弱。将这些社交关系不重要的异常用户从网络中移除，网络的拉普拉斯能量应该减少很小。
[0024] 2.局部聚类系数
[0025]局部集聚系数表示了一个顶点的相邻节点构成一个完全图的紧密程度。它表明其邻居的连接程度。在社交网络图里，一个顶点t的邻域^被定义为：N1= : GE八e^GE}。e^指连接节点V;和V的边。假定k:是顶点V;的出入度之和。对于每个领域队，邻节点之间存在kjki-l)条边。对于每个顶点1，其局部聚类系数可以这样
计算正常用户的关注者往往 G 是他们的朋友、同学和同事等。他们之间存在着很紧密的联系。而异常用户与其关注者之间存在着很弱的关系，因为异常用户往往是随机寻找关注

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：盛斌;吴丹;裴淑炜;高吟;周旭楚;张越青;
技术所有人：嘉兴慧康智能科技有限公司;
我是此专利的发明人

上一篇：一种声音播放方法、移动终端、服务器及系统的制作方法
上一篇：多用户共用设备的场景识别方法和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。