异常微博用户识别方法_2

文档序号：9288428阅读：来源：国知局

者。因此，异常用户的局部聚类系数应该比正常用户要小。
[0026]3?特征向量中心度
[0027] 特征向量中心度度量了顶点在图中的重要程度。它考虑了整个网络结构，网络中每个节点都有一个相对指数值，连接到高指数节点对于特征向量中心度的贡献更大。节点 t的特征向量中心度被定义）
.中X是邻接矩阵A= 的最大特征值，c是对应的特征向量。正常用户的粉丝通常可能相互认识，且之间有着很强的连接，这会导致正常用户的特征向量中心度较高。而异常用户的关注者往往不会反过来关注异常用户，所以其特征向量中心度应该比较低。
[0028]正常用户和异常用户在发布的微博内容方面有着明显的差异，这些微博内容的语义特征也是识别异常用户的关键特征。本发明设计了三个简单有效的语义特征：内容相似度、超链接比重和主题标签比重。
[0029] 1?内容相似度
[0030] 通常来说，异常用户处于自身特定的商业利益，其发布的微博内容往往有很大的相似性，而正常用户发布的微博内容往往相差很大。虽然高级的异常用户会转发一些正常用户的微博内容，他仍然会发布大量重复的微博内容、有害链接等信息，这些信息具有高度的相似性。因此，高内容相似度的微博用户有很大可能是异常用户。本发明使用自然语言工具去分析微博内容的相似度。本发明首先将微博内容分解为词组，然后使用语义分析的方法计算这些词组语义的相似度。本发明有一个封闭的语义集用来计算内容相似度。每个语义集包含一个列表，列表中包含相似语义的词语。通过检查这些词语的相似度，本发明可以得到整个内容的相似度。相似度越高，越有可能是异常用户。
[0031] 2?超链接比重
[0032] 异常用户主要通过网页超链接URL去吸引正常用户，这些超链接的网页往往包含有害信息。这些有害信息可能包括诈骗信息、病毒木马等。有些超链接的网站是钓鱼网站。这些异常用户一般不会只发布一次这样的内容，他们的微博内容中URL的比重往往很高。而正常用户往往倾向于发布个人生活和情感变化的微博内容，URL的比重不会很高。
[0033] 3.主题标签比重
[0034] 微博内容可以包含很多主题。主题标签用井号#表示。对于正常用户来说，微博内容可能包括个人生活内容、感兴趣的新闻、转发的别人的微博。主题标签会有个相对均衡的比例，也就是说它的比重是可以大致预测的。而异常用户通常比正常用户包含更多的主题标签，目的是吸引更多的正常用户的注意。异常用户往往随机获取大量主题标签放在其微博内容内用以引起用户注意，所以其主题标签比重一般较高。
[0035] 最后，使用数据挖掘工具WEKA中的标准分类方法对数据集进行十折交叉验证，检验本发明所提取特征的有效性。使用J48、随机森林RF、逻辑回归Logistic和贝叶斯网络 BN这四种方法对数据集进行分类，计算其分类方法的准确率、召回率和F值，并使用两个标准的属性评估方法：信息增益和增益比率去评估本发明设计的特征属性的有效性。结果表明拉普拉斯中心度和网页链接比重是检测异常用户中贡献最大的两个特征。
[0036] 利用社交网络关系图分析的异常微博用户是在社交网络中关系很弱的节点，其在网络关系中重要性不高，符合异常微博用户的很多行为特征，是异常用户的可能性很大；语义特征分析从发布的微博内容上判断该用户是否为异常微博用户。社交网络分析和语义特征分析这两者须同时参与认定异常微博用户，这类用户符合网络关系弱且发布微博内容异常的特点。
[0037] 社交网络关系图分析有三种特征拉普拉斯中心度、局部聚类系数和特征向量中心度，这种三种特征同时参与认定的微博用户才是从网络关系层面最终认定的异常用户，因为不同手段侧重于网络关系的不同层面的分析，为尽可能地避免将正常用户误判为异常用户，需同时从网络关系多个层面进行认定。语义特征分析包括内容相似度、超链接比重和主题标签比重这三个特征。这三个特征同时参与认定的用户才是从内容层面最终认定的异常用户。最终异常用户的认定需要这六个特征同时参与进来，最终识别出来的异常用户不一定是各个特征分析出来的异常用户的简单交叉重合，因为这六个维度不是简单的线性关系。最终的识别出来的异常用户有可能比各个手段简单的交叉重合的用户多，这依赖于机器学习训练的模型，训练样本特点选取越接近于测试样本特点，则识别准确率越高。
【主权项】
1. 异常微博用户识别方法，其特征在于包括如下步骤：第一，采集微博用户的微博数据；第二，根据采集的微博数据绘制社交网络关系图，并根据社交网络关系图分析出异常用户；第三，根据采集的微博数据，对微博用户的微博内容进行语义特征分析，分析出异常用户。2. 根据权利要求1所述的异常微博用户识别方法，其特征在于：采集微博数据的具体方法为：首先，随机采集一些用户数据作为起始节点数据，然后收集这些起始节点的个人 ID号、粉丝ID号列表、关注者ID号列表、最近10条的微博内容信息；一直重复这个过程，直到收集到所有相关数据。3. 根据权利要求2所述的异常微博用户识别方法，其特征在于：在社交网络关系图分析中，利用专业的网络图形分析工具对网络中每个用户的拉普拉斯中心度进行分析，异常用户从网络中移除，网络的拉普拉斯能量减少很小。4. 根据权利要求3所述的异常微博用户识别方法，其特征在于：在社交网络关系图分析中，还采用局部聚类系数分析异常用户，异常用户的局部聚类系数比正常用户要小。5. 根据权利要求4所述的异常微博用户识别方法，其特征在于：在社交网络关系图分析中，还采用特征向量中心度分析异常用户，异常用户的特征向量中心度低于正常用户。6. 根据权利要求1至5任意一项所述的异常微博用户识别方法，其特征在于：在语义特征分析中，采用内容相似度分析，使用自然语言分析工具计算每个用户最近多篇微博内容两两组合的平均相似度，异常用户内容相似度大于正常用户。7. 根据权利要求6所述的异常微博用户识别方法，其特征在于：在语义特征分析中，还采用超链接比重分析，异常用户网页超链接比重高于正常用户。8. 根据权利要求6所述的异常微博用户识别方法，其特征在于：在语义特征分析中，还采用主题标签比重分析，异常用户主题标签比重高于正常用户。
【专利摘要】本发明公开了一种异常微博用户识别方法，包括如下步骤：第一，采集微博用户的微博数据；第二，根据采集的微博数据绘制社交网络关系图，并根据社交网络关系图分析出异常用户；第三，根据采集的微博数据，对微博用户的微博内容进行语义特征分析，分析出异常用户。本发明通过用户关系图和对微博内容的语义分析这两大特征相融合来检测异常用户，实验结果表明，本发明方法在识别异常用户方面可以得到很高的正确率。
【IPC分类】G06F17/30
【公开号】CN105005594
【申请号】CN201510377075
【发明人】盛斌, 吴丹, 裴淑炜, 高吟, 周旭楚, 张越青
【申请人】嘉兴慧康智能科技有限公司
【公开日】2015年10月28日
【申请日】2015年6月29日...

完整全部详细技术资料下载

当前第2页1 2