一种“网络马甲”的检测方法

文档序号:6526719阅读:213来源:国知局
一种“网络马甲”的检测方法
【专利摘要】本发明公开一种基于“相似观点”网络和文章作者鉴定技术的“网络马甲”的检测方法,该方法包含三个阶段:首先根据虚拟社会用户的交互信息构建“相似观点”网络;然后根据用户的写作风格对“相似观点”网络进行裁剪;最后利用社区发现算法对裁剪后的“马甲”网络进行社区划分,处于同一个社区的ID被看作是某个人的“网络马甲”。该方法具有以下优势:它遵循了“网络马甲”社区的实际意义;可以被应用于实时的网络环境下检测“网络马甲”;增加了社区发现的有效性。本发明主要应用于虚拟空间的舆情分析、“网络马甲”检测等诸多领域。
【专利说明】—种“网络马甲”的检测方法
【技术领域】
[0001]本发明属于Web挖掘领域,涉及一种虚拟空间“网络马甲”智能探测技术,具体的说是一种基于“相似观点”网络和文章作者鉴定技术的“网络马甲”的检测方法。
【背景技术】
[0002]网络社区中,一些用户使用多个用户名或将自己伪装成其他用户(通常被称为“网络马甲”)与其他用户沟通。一些网络社区的成员,为了迷惑大众,利用一些人造的“网络马甲”,伪装成不同的用户,对某个产品或某个人的工作大肆赞扬或否定。更有甚者,制造某个网络谣言,然后利用不同的网络“马甲”大肆传播。
[0003]长期以来,“网络马甲”检测技术的相关文献少之甚少,一些相关工作可以被应用于检测“网络马甲”。这些相关大多集中于文章作者身份鉴定技术和社会网络分析方法。
[0004]在传统的文章作者鉴定模型中,很多分析方法被采纳。其中两种最普遍的技术是基于统计学分析和基于机器学习方法。在20世纪,文章鉴定技术被应用于区别莎士比亚、马克.吐温以及培根文学大师的作品。在这些领域中,Mostteller和Wallace做出了最基本的研究工作。他们使用文章作者鉴定技术准确的将12篇有争议的联邦党文集进行了分类。最近几年,这一方法也被频繁应用于在线文集的作者鉴定。De Vel等人基于网络邮件作者的身份鉴定进行了大量实验分析。他们的研究为基于互联网媒体的文章作者身份鉴定提供了重要研究基础。Zheng等人将De Vel等人的工作进一步扩展,他们对英文和中文网络论坛消息的研究中,加入了多位空间的考量。
[0005]这些工作在某些应用中取得了一定的成果,但是它们主要集中于对一定数量文章的鉴定。现实的网络社区中充斥的着大量的网络用户和文本信息。基于一定数量的文章的传统的文章作者鉴定技术在这样的虚拟空间中可能不够适用。一些学者提出了采用社区划分算法来解决虚拟空间下的“网络马甲”检测。由于网络中同一个社区中的用户可能具备相同的兴趣、职业和爱好;因此他们的“网络马甲”应该出现在同一个网络“社区”中。Zeng等人的工作为这一领域的研究开辟了研究基础。Du等人提出了 ComTector技术来发现大规模社交网络的网络社区。为了发现社交网络的讨论话题,McCallum等人提出了Author - Recipient-Topic模型。Tian等人提出了基于OLAP的归类策略来根据属性相似性对网络用户进行分类,这样处于统一社区的用户具备形似的属性。Zhao等人提出了一种基于话题的社区发现算法,其结合了社会对象聚类和边界分析技术。
[0006]上述基于社区发现算法的技术不能够被直接应用户“网络马甲”检测,这是因为他们混淆了“网络马甲”社区的实际含义。实际人,某个人的多个“网络马甲”彼此之间很少有交互,而是经常回复其他相同的ID。此外,相同个人的“网络马甲”应该具有相似的写作风格,并且对同一个话题应该具备相似的观点。为了更加直观的说明之一问题,首先看一个简单的网络社区用户交互实例(见图1 (a))。图1 (a)展示了一个深度为4的讨论主线的树形结构。方形区域的标识展示了发出有效评论的网络用户与其他用户的交互情况。可见,该帖子P首先吸引了三个用户(A、C和D)对其直接回复;在第二层,五个用户(A、B、D、E和G) 一共发出了 8条评论;在三层,又有五个用户(A、B、D、E和F) —共发出了 7条评论;在最后一层,用户C给予了用户G最后一个条评论。在每个用户回复上,用+ or -分别表示支持/反对的态度。图1 (b)表示基于传统用户交互模型(无向稠密网络)生成的交互网络,其包含7个节点和9条边。每条边界上的权值表示用户之间的交互次数。图1 (c)表示基于次交互网络进行社区发现后的社区结构。尽管社区内的用户在论坛中交互频繁,但是他们的观点并不一致。在图1 (c)左边的社区中,用户B同用户A的观点极为相左,这两个ID不太可能为来自同一个用户的“网络马甲”。图1.4 (d)展示我们期望得到的社区划分结果。其中同一个社区中的ID对对待同一个话题具有相似的观点。在此基础上,再分析不同ID的写作风格,假设相同社区中的ID具有相似的写作风格,那么处于同一个社区的ID可被看为某个人的“网络马甲”。
[0007]图1中的简单例子,为准确发现“网络马甲”提供了一个很好的思路,在进一步讨论之前,需要首先回答下述几个问题:
I)网络模型。由于某个人的多个“网络马甲”彼此之间不会交流频繁,传统的网络模型(无向稠密网络)采用用户间的交互次数来衡量网络连接边的权值对于“网络马甲”检测算法可能并不适用,因此,我们需要提出一种更加准确的用户交互模型。
[0008]2)相似性。两个ID之间的相似性包含两层意思:首先,它们对待同一个话题的观点应该是相似的;再者,两个ID的写作风格也应该是相似的。

【发明内容】

[0009]针对传统方法的缺点,本发明的目的是提供一种基于“相似观点”网络和文章作者鉴定技术的“网络马甲”的检测方法。该方法具有三个优势:1)它遵循了“网络马甲”社区的实际意义;2)可以被应用于实时的网络环境下检测“网络马甲”;3)它增加了社区发现的有效性。
[0010]本发明的目的是通过 以下技术方案来实现的:
一种“网络马甲”的检测方法,其特征在于:该方法包含三个阶段:首先根据虚拟社会用户的交互信息构建“相似观点”网络;然后根据用户的写作风格对“相似观点”网络进行裁剪;最后利用社区发现算法对裁剪后的“马甲”网络进行社区划分,处于同一个社区的ID被看作是某个人的“网络马甲”;具体实施步骤如下:
1)利用给定的网络社区用户交互数据构建“相似观点”网络;
2)从“相似观点”网络中选择节点对(WV),从语料数据库提取这两个ID发表的所有评论,构建两个样本集;调用T检验,判断两个评论样本集是否存在显著性差异;如果两个样本没有显著性差异,将节点对(%4)边界保留;否则,将节点对边界裁剪;
3)利用社区发现算法,对裁剪后的“马甲”网络进行社区划分;根据划分的结果,处于同一个社区的用户ID即为某个人的“网络马甲”。
[0011]本发明,步骤I)中,对于两个用户#卩如果他们存在相似的兴趣、并且对参与讨论的话题有相似的观点,则认定他们是“好友”关系,可以构建“相似观点”网络模型,即将整个虚拟社会网络看成一个图σ=<,5>,其中图中的每个节占h表示网络社区中的注册用户;任意两个节点的边界Oj)e£表示用户之间的某种社会关系,网络社区中的社会关系是根据用户间的评论或留言建立的;设~表示用户i对用户j的评论次数表示用户i和用户?某一话题的态度一致性;如果用户I和用户/满足% >0,^ >?并且>0,其中P尸那么丨和/t间存在一条无向边,且边上的权值%=^^'。
[0012]虚拟社会网络包括四种类型的特征:文本特征、句法特征、结构特征和特殊内容特征;文本特征包括基于字符的词汇特征、词汇丰富性特征和文字长度频率特征;句法特征包括虚词、标点符号和词性特征;结构特征代表作者组织一段文字的方式;特殊内容特征包括与特定主题相关的特殊文字或字符。
[0013]步骤3)中,社区发现算法提取的“马甲”网络具有全局稀疏,局部稠密的特点;其节点也存在明显的“群落”结构,即同一个“群落”中的节点连接紧密,“群落”间的节点连接稀疏。
[0014]本发明最后利用经典的社区发现算法(CNM、FUC、LPA或FPMQA)对“马甲”网络进行社区划分。划分后的社区成员即为某个用户的“网络马甲”。
[0015]本发明基于“相似观点”网络和文章作者鉴定技术的“网络马甲”检测方法,具有三个优势:1)它遵循了“网络马甲”社区的实际意义;2)可以被应用于实时的网络环境下检测“网络马甲”;3)它增加了社区发现的有效性。
[0016]本发明适用于虚拟空间的舆情分析、“网络马甲”检测等诸多领域。
【专利附图】

【附图说明】
[0017]图1为“网络马甲”社区ID交互特点分析图。
【具体实施方式】
[0018]一种“网络马甲”的检测方法,该方法包含三个阶段:首先根据虚拟社会用户的交互信息构建“相似观点”网络;然后根据用户的写作风格对“相似观点”网络进行裁剪;最后利用社区发现算法对裁剪后的“马甲”网络进行社区划分,处于同一个社区的ID被看作是某个人的“网络马甲”;实施步骤如下:
1)利用给定的网络社区用户交互数据构建“相似观点”网络;
2)从“相似观点”网络中选择节点对(I力),从语料数据库提取这两个ID发表的所有评论,构建两个样本集;调用T检验,判断两个评论样本集是否存在显著性差异;如果两个样本没有显著性差异,将节点对(VilVy)边界保留;否则,将节点对(v;,V/)边界裁剪;
3)利用社区发现算法,对裁剪后的“马甲”网络进行社区划分;根据划分的结果,处于同一个社区的用户ID即为某个人的“网络马甲”。
[0019]具体包括以下几方面内容:
1.用户j和用户J的态度一致性^定义
【权利要求】
1.一种“网络马甲”的检测方法,其特征在于:该方法包含三个阶段:首先根据虚拟社会用户的交互信息构建“相似观点”网络;然后根据用户的写作风格对“相似观点”网络进行裁剪;最后利用社区发现算法对裁剪后的“马甲”网络进行社区划分,处于同一个社区的ID被看作是某个人的“网络马甲”;具体实施步骤如下: 1)利用给定的网络社区用户交互数据构建“相似观点”网络; 2)从“相似观点”网络中选择节点对(I力),从语料数据库提取这两个ID发表的所有评论,构建两个样本集;调用T检验,判断两个评论样本集是否存在显著性差异;如果两个样本没有显著性差异,将节点对边界保留;否则,将节点对边界裁剪; 3)利用社区发现算法,对裁剪后的“马甲”网络进行社区划分;根据划分的结果,处于同一个社区的用户ID即为某个人的“网络马甲”。
2.根据权利要求1所述的“网络马甲”的检测方法,其特征在于:步骤I)中,对于两个用户如果他们存在相似的兴趣、并且对参与讨论的话题有相似的观点,则认定他们是“好友”关系,可以构建“相似观点”网络模型,即将整个虚拟社会网络看成一个图G=<F,5 >,其中图中的每个节点表示网络社区中的注册用户;任意两个节点的边界Oj)eS表示 用户之间的某种社会关系,网络社区中的社会关系是根据用户间的评论或留言建立的;设今表示用户i对用户J'的评论次数,表示用户j和用户ι/对某一话题的态度一致性;如果用户3和用户两足.? >0,? >O并且>0,其中j #/?,那么g和之间存在一条无向边,且边上的权值% =ACh
3.根据权利要求2所述的“网络马甲”的检测方法,其特征在于:虚拟社会网络包括四种类型的特征:文本特征、句法特征、结构特征和特殊内容特征;文本特征包括基于字符的词汇特征、词汇丰富性特征和文字长度频率特征;句法特征包括虚词、标点符号和词性特征;结构特征代表作者组织一段文字的方式;特殊内容特征包括与特定主题相关的特殊文字或字符。
4.根据权利要求1所述的“网络马甲”的检测方法,其特征在于:步骤3)中,社区发现算法提取的“马甲”网络具有全局稀疏,局部稠密的特点;其节点也存在明显的“群落”结构,即同一个“群落”中的节点连接紧密,“群落”间的节点连接稀疏。
【文档编号】G06F17/30GK103778186SQ201310746568
【公开日】2014年5月7日 申请日期:2013年12月31日 优先权日:2013年12月31日
【发明者】卜湛, 伍之昂, 曹杰, 李秀怡, 方昌健, 刘英卓 申请人:南京财经大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1