一种基于混合狄利克雷过程的网络水军行为检测方法及系统的制作方法

文档序号:6539165阅读:133来源:国知局
一种基于混合狄利克雷过程的网络水军行为检测方法及系统的制作方法
【专利摘要】本发明涉及一种基于混合狄利克雷过程的网络水军行为检测方法及系统,其方法为,采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示构成用户的历史行为向量,构成待聚类用户数据集;对待聚类用户数据集中的历史行为向量进行聚类,得到至少一个分类用户行为集合;将所有分类用户行为集合中的数据进行转换,对转换后的数据中具有相同用户标识的数据合并,得到序列数据库;模式挖掘模块对序列数据库进行序列模式挖掘,得到分别对应每个分类用户行为集合的至少一个事务序列模式;水军判断模块比较每个事务序列模式,就可以判断出哪个分类用户行为集合是水军账号。本发明很容易分辨出哪一类属于水军账号。
【专利说明】一种基于混合狄利克雷过程的网络水军行为检测方法及系统
【技术领域】
[0001]本发明涉及网络安全领域,尤其涉及一种基于混合狄利克雷过程的网络水军行为检测方法及系统。
【背景技术】
[0002]社交网络的流行升温和迅猛发展不仅带来了信息传播技术的根本性变革,而且正一步一步改变着人们的生产和生活方式、人际交往以及思维方式,对社会生活的各个领域和人类自身的生存与发展产生了广泛而深刻的影响。目前,社交网络含盖以人类社交为核心的所有网络服务形式,从历史维度来看,它将是一个推动互联网向现实世界无限靠近的关键力量。
[0003]在社交网络迅速发展的同时,它所带来的安全问题也越来越突出,其中以来源于“网络水军”的安全问题最为常见。“网络水军”是受雇于网络公关公司,针对特定主题进行发回帖造势的网络用户,据相关机构调查,我国从事网络营销活动的推手已达数百万人,受雇于商业组织的“网络水军”日趋规模化、公开化、集团利益化。从“7.23”动车事故天价赔偿事件到秦火火事件,从“封杀王老吉营销策划方案”到猫扑的“虐猫女事件”再到“蒙牛陷害门”丑闻,可以说,“网络水军”已经触碰到了法律的底线,甚至有一部分“网络水军”在国外别有用心的机构操纵之下,在国内各大论坛发布攻击信息、造谣言论和挑拨语言,制造矛盾,进行恶意的网络文化渗透,危害国家安全。可见,对“网络水军”进行监管已经刻不容缓。
[0004]对网络水军的监管可以通过两种方式:一种是针对每个帖子进行判断,对水军贴进行删帖处理;另一种是针对每个用户行为进行判断,对水军用户封号删帖,甚至追究其法律责任。前一种方式需要对水军贴的特征有客观的、统一的描述,然而中国数亿网民的发帖习惯各不相同,很难找到统一的标准来鉴别水军贴,因此这种方式只用于屏蔽敏感词汇,而对通用水军识别场景不适用。现有的水军识别多采用第二种方式,即通过用户行为判断论坛用户是否水军。
[0005]一种普遍的识别方式是对用户行为进行横向比较,从而发现“网络水军”的行为规律,制定识别方案。现有的“网络水军”发现一般采用决策树、KNN、神经网络等算法,这几种算法设计过程中,需要依据历史经验设定关键参数的值,用于体现用户行为的每个方面对判定结果影响程度的不同,这种方式带有很大的主观性,严重影响了算法的判定准确率。

【发明内容】

[0006]本发明所要解决的技术问题是针对现有技术的不足,提供基于混合狄利克雷过程的网络水军行为检测方法及系统。
[0007]本发明解决上述技术问题的技术方案如下:一种基于混合狄利克雷过程的网络水军行为检测方法,包括如下步骤:
[0008]步骤1:原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示,量化后的原始数据构成用户的历史行为向量,所有用户的历史行为向量集合在一起构成待聚类用户数据集;
[0009]步骤2:聚类模块对待聚类用户数据集中的历史行为向量采用狄利克雷过程混合模型进行聚类,得到至少一个分类用户行为集合;
[0010]步骤3:转换合并模块将一个分类用户行为集合中的数据进行转换,对转换后的数据中具有相同用户标识的数据合并,将具有相同用户标识的数据按时间排序,得到事务集序列;
[0011]步骤4:判断模块判断是否还有未转换的分类用户行为集合;如果有,执行步骤3 ;否则,得到一个事务集序列构成的序列数据库;
[0012]步骤5:模式挖掘模块对序列数据库进行序列模式挖掘,得到分别对应每个分类用户行为集合的至少一个事务序列模式;
[0013]步骤6:水军判断模块比较每个事务序列模式,得到对应分类用户行为集合,通过比较每个分类用户行为集合的用户行为就可以判断出主哪一类是水军账号。
[0014]本发明的有益效果是:本发明首先用混合DP模型对没有分类的样本数据集合进行聚类,聚类分析是通过Gibbs采样算法,反复从条件分布中采样并更新模型参数,估计数据的聚类结果。其中,Gibbs采样法属马尔可夫链蒙特卡罗方法(Markov Chain MonteCarlo, MCMC),是替代精确推理的近似推理方法。和其它MCMC算法一样,Gibbs采样法产生一条马尔可夫链,经过足够次数的采样后,该马尔可夫链可以达到稳态。当经过多次迭代以后,聚类效果比较明显,然后利用序列模式挖掘算法得到每一个类的频繁行为序列,分析这些频繁行为序列得到用户行为,由于“网络水军”的用户行为主要集中在发帖,所以可以很容易分辨出哪一类属于水军账号,这样就可以实现对“网络水军”的识别了。
[0015]在上述技术方案的基础上,本发明还可以做如下改进。
[0016]进一步,步骤2中的具体包括以下步骤:
[0017]步骤2.1:聚类模块接收待聚类用户数据集中的历史行为向量,构造Dirichlet狄利克雷过程混合模型;
[0018]步骤2.2:采用Collapsed Gibbs采样算法对Dirichlet狄利克雷过程混合模型中的模型参数进行不断更新,得到数据集的聚类结果;
[0019]步骤2.3:判断聚类效果是否明显;如果是,继续执行步骤3 ;否则,执行步骤2.2。
[0020]进一步,所述步骤5具体包括以下步骤:
[0021]步骤5.1:扫描序列数据库,根据预设的最小支持阈值min_sup挖掘出频繁项集,并将所述频繁项集映射为简单符号,所述简单符号简单可识别,可以选择字母或连续的数字等来表示;
[0022]步骤5.2:将序列数据库中的每个事务集序列转换成所包含的频繁项集的格式,并采用步骤5.1所述的简单符号表示;
[0023]步骤5.3:对变换后的序列数据库中的数据选取适合的挖掘算法进行序列模式挖掘得到至少一个事务序列模式;
[0024]步骤5.4:对所述事务序列模式优化处理,得到分别对应每个分类用户行为集合的至少一个事务序列模式。
[0025]进一步,所述步骤5.3中根据数据的特点和挖掘的要求等选择挖掘算法进行序列模式挖掘。
[0026]进一步,所述步骤5.4中对事务序列模式的优化处理包括,删除没有应用价值的事务序列模式,归纳、整理、分类事务序列模式。
[0027]本发明解决上述技术问题的技术方案如下:一种基于混合狄利克雷过程的网络水军行为检测系统,包括:原始数据采集模块、聚类模块、转换合并模块、判断模块、模式挖掘模块和水军判断模块;
[0028]所述原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示,量化后的原始数据构成用户的历史行为向量,所有用户的历史行为向量集合在一起构成待聚类用户数据集;
[0029]所述聚类模块对待聚类用户数据集中的历史行为向量采用狄利克雷过程混合模型进行聚类,得到至少一个分类用户行为集合;
[0030]所述转换合并模块将一个分类用户行为集合中的数据进行转换,对转换后的数据中具有相同用户标识的数据合并,将具有相同用户标识的数据按时间排序,得到事务集序列;
[0031]所述判断模块判断是否还有未转换的分类用户行为集合;如果有,返回转换合并模块;否则,得到一个事务集序列构成的序列数据库并将所述序列数据库发送到模式挖掘模块;
[0032]所述模式挖掘模块对序列数据库进行序列模式挖掘,得到分别对应每个分类的事务序列模式;
[0033]所述水军判断模块比较每个事务序列模式,得到每个分类用户行为集合的用户行为,通过比较每个分类的用户行为就可以判断哪一类是水军账号。
[0034]在上述技术方案的基础上,本发明还可以做如下改进。
[0035]进一步,所述聚类模块包括模型构造模块和采样聚类模块;
[0036]所述模型构造模块接收待聚类用户数据集中的历史行为向量,构造Dirichlet狄利克雷过程混合模型;
[0037]所述采样聚类模块采用Collapsed Gibbs采样算法对Dirichlet狄利克雷过程混合模型中的模型参数进行不断更新,得到数据集的聚类结果。
[0038]进一步,所述模式挖掘模块包括扫描映射模块、数据转换模块、模式挖掘模块和优化处理模块;
[0039]所述扫描映射模块扫描序列数据库,根据预设的最小支持阈值min_SUp挖掘出频繁项集,并将所述频繁项集映射为简单符号,所述简单符号简单可识别,可以选择字母或连续的数字等来表示;
[0040]所述数据转换模块将序列数据库中的每个事务集序列转换成所包含的频繁项集的格式,并采用上述简单符号表示;
[0041]所述模式挖掘模块对变换后的序列数据库中的数据选取适合的挖掘算法进行序列模式挖掘得到至少一个事务序列模式;
[0042]所述优化处理模块对所述事务序列模式优化处理,得到分别对应每个分类用户行为集合的至少一个事务序列模式。
[0043]进一步,所述模式挖掘模块中根据数据的特点和挖掘的要求等选择挖掘算法进行序列模式挖掘。
[0044]进一步,所述优化处理模块中对事务序列模式的优化处理包括,删除没有应用价值的事务序列模式,归纳、整理、分类事务序列模式。
[0045]本发明针对现有算法的不足,结合狄利克雷过程混合模型(DPMM)和序列模式挖掘算法对“网络水军”进行识别。DP是一种非参数贝叶斯模型,用于建立混合模型时的类别数目无需人工指定,根据观测数据自动优化模型的结构,使模型的分布参数随着观测数据进行调整。而序列模式挖掘方法可以提取用户行为的频繁序列,分析用户行为特征。这方法能够有效地提取出用户访问的序规则,使得分析结果更加准确。本专利首先建立用户历史行为向量表征用户历史行为,然后通过建立Dirichlet过程无限混合模型对数据开展聚类分析,得出模型中各参数的后验分布,利用Gibbs采样法估计出模型中各参数及数据中潜在的聚类数,最后利用序列模式挖掘算法分析每一类的用户行为,由于“网络水军”在社交网络上的行为主要是发帖,这样就可以很容易识别出哪一类属于“网络水军”,即实现了“网络水军”的识别。
【专利附图】

【附图说明】
[0046]图1为本发明所述一种基于行为特征与内容特征融合的水军识别方法流程图;
[0047]图2为本发明所述步骤7的具体实现流程图;
[0048]图3为本发明所述一种基于行为特征与内容特征融合的水军识别系统结构框图;
[0049]图4为Dirichlet狄利克雷过程混合模型示意图;
[0050]图5为聚类个数K的直方图。
[0051]附图中,各标号所代表的部件列表如下:
[0052]1、原始数据采集模块,2、聚类模块,3、转换合并模块,4、判断模块,5、模式挖掘模块,6、水军判断模块,21、模型构造模块,22、采样聚类模块,51、扫描映射模块,52、数据转换模块,53、模式挖掘模块,54、优化处理模块。
【具体实施方式】
[0053]以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
[0054]如图1所示,一种基于行为特征与内容特征融合的水军识别方法,包括如下步骤:
[0055]一种基于混合狄利克雷过程的网络水军行为检测方法,包括如下步骤:
[0056]步骤1:原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示,量化后的原始数据构成用户的历史行为向量,所有用户的历史行为向量集合在一起构成待聚类用户数据集;
[0057]步骤2:聚类模块接收待聚类用户数据集中的历史行为向量,构造Dirichlet狄利克雷过程混合模型;
[0058]步骤3:采用Collapsed Gibbs采样算法对Dirichlet狄利克雷过程混合模型中的模型参数进行不断更新,得到数据集的聚类结果;
[0059]步骤4:判断聚类效果是否明显;如果是,继续执行步骤5 ;否则,执行步骤3 ;
[0060]步骤5:转换合并模块将一个分类用户行为集合中的数据进行转换,对转换后的数据中具有相同用户标识的数据合并,将具有相同用户标识的数据按时间排序,得到事务集序列;
[0061]步骤6:判断模块判断是否还有未转换的分类用户行为集合;如果有,执行步骤5 ;否则,得到一个事务集序列构成的序列数据库;
[0062]步骤7:模式挖掘模块对序列数据库进行序列模式挖掘,得到分别对应每个分类的至少一个事务序列模式;
[0063]步骤8:水军判断模块比较每个事务序列模式,得到对应分类用户行为集合,通过比较每个分类用户行为集合的用户行为就可以判断出哪一类是水军账号。
[0064]如图2所示,所述步骤7具体包括以下步骤:
[0065]步骤7.1:扫描序列数据库,根据预设的最小支持阈值min_SUp挖掘出频繁项集,并将所述频繁项集映射为简单符号,所述简单符号简单可识别,可以选择字母或连续的数字等来表示;
[0066]步骤7.2:将序列数据库中的每个事务集序列转换成所包含的频繁项集的格式,并采用步骤7.1所述的简单符号表示;
[0067]步骤7.3:对变换后的序列数据库中的数据选取适合的挖掘算法进行序列模式挖掘得到至少一个事务序列模式;
[0068]步骤7.4:对所述事务序列模式优化处理,得到分别对应每个分类用户行为集合的一系列事务序列模式。
[0069]所述步骤7.3中根据数据的特点和挖掘的要求等选择挖掘算法进行序列模式挖掘。
[0070]所述步骤7.4中对事务序列模式的优化处理包括,删除没有应用价值的事务序列模式,归纳、整理、分类事务序列模式。
[0071]如图3所示,一种基于混合狄利克雷过程的网络水军行为检测系统,包括:原始数据采集模块1、聚类模块2、转换合并模块3、判断模块4、模式挖掘模块5和水军判断模块6 ;
[0072]所述原始数据采集模块I采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示构成用户的历史行为向量,所有用户的历史行为向量集合在一起构成待聚类用户数据集;
[0073]所述聚类模块2对待聚类用户数据集中的历史行为向量采用狄利克雷过程混合模型进行聚类,得到至少一个分类用户行为集合;
[0074]所述转换合并模块3将一个分类用户行为集合中的数据进行转换,对转换后的数据中具有相同用户标识的数据合并,将具有相同用户标识的数据按时间排序,得到事务集序列;
[0075]所述判断模块4判断是否还有未转换的分类用户行为集合;如果有,返回转换合并模块3 ;否则,得到一个事务集序列构成的序列数据库并将所述序列数据库发送到模式挖掘模块5 ;
[0076]所述模式挖掘模块5对序列数据库进行序列模式挖掘,得到分别对应每个分类用户行为集合的至少一个事务序列模式;
[0077]所述水军判断模块6比较每个事务序列模式,得到每个分类用户行为集合的主要用户行为,通过比较每个分类的用户行为就可以判断出哪一类是水军账号。[0078]所述聚类模块2包括模型构造模块21和采样聚类模块22 ;
[0079]所述模型构造模块21接收待聚类用户数据集中的历史行为向量,构造Dirichlet狄利克雷过程混合模型;
[0080]所述采样聚类模块22采用Collapsed Gibbs采样算法对Dirichlet狄利克雷过程混合模型中的模型参数进行不断更新,得到数据集的聚类结果。
[0081]所述模式挖掘模块5包括扫描映射模块51、数据转换模块52、模式挖掘模块53和优化处理模块54 ;
[0082]所述扫描映射模块51扫描序列数据库,根据预设的最小支持阈值min_sup挖掘出频繁项集,并将所述频繁项集映射为简单符号,所述简单符号简单可识别,可以选择字母或连续的数字等来表示;
[0083]所述数据转换模块52将序列数据库中的每个事务集序列转换成所包含的频繁项集的格式,并采用上述简单符号表示;
[0084]所述模式挖掘模块53对变换后的序列数据库中的数据选取适合的挖掘算法进行序列模式挖掘得到至少一个事务序列模式;
[0085]所述优化处理模块54对所述事务序列模式优化处理,得到分别对应每个分类用户行为集合的至少一个事务序列模式。
[0086]所述模式挖掘模块53中根据数据的特点和挖掘的要求等选择挖掘算法进行序列模式挖掘。
[0087]所述优化处理模块54中对事务序列模式的优化处理包括,删除没有应用价值的事务序列模式,归纳、整理、分类事务序列模式。
[0088]1.水军账号特征向量表不框架
[0089]在网络论坛中,一个用户包含有很多方面的信息,比如用户名、密码、注册时间、登录次数、最近登录时间、浏览历史记录、发帖记录、回帖记录、朋友圈、浏览历史记录、收藏帖子记录、登录IP记录等等。而正常网民和水军在一些信息维度上是有明显差异的,比如,正常网民的用户名一般是有特定含义的,所以用户名长度一般在4-12个英文字符之间,而水军为了操作简单,经常会使用一个或两个英文字符的用户名;正常网民在论坛所构建的环境中会有相应的朋友圈,构成一个小型的社交网络,而网络水军只以发帖为目的,几乎不会存在社交圈。
[0090]根据上述研究,本专利提出网络论坛用户历史行为多属性描述框架,用向量对用户历史行为进行描述,从而为用户历史行为量化表示及狄利克雷过程混合模型聚类分析奠定基础。网络论坛用户历史行为多属性描述框架如表1所示。
[0091]
【权利要求】
1.一种基于混合狄利克雷过程的网络水军行为检测方法,其特征在于,包括如下步骤: 步骤1:原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示,量化后的原始数据构成用户的历史行为向量,所有用户的历史行为向量集合在一起构成待聚类用户数据集; 步骤2:聚类模块对待聚类用户数据集中的历史行为向量采用狄利克雷过程混合模型进行聚类,得到至少一个分类用户行为集合; 步骤3:转换合并模块将一个分类用户行为集合中的数据进行转换,对转换后的数据中具有相同用户标识的数据合并,将具有相同用户标识的数据按时间排序,得到事务集序列; 步骤4:判断模块判断是否还有未转换的数据;如果有,执行步骤3 ;否则,得到一个事务集序列构成的序列数据库; 步骤5:模式挖掘模块对序列数据库进行序列模式挖掘,得到分别对应每个分类用户行为集合的至少一个事务序列模式; 步骤6:水军判断模块比较每个事务序列模式,得到对应分类用户行为集合,通过比较每个分类用户行为 集合的用户行为就可以判断出哪一类是水军账号。
2.根据权利要求1所述的一种基于混合狄利克雷过程的网络水军行为检测方法,其特征在于,步骤2中的具体包括以下步骤: 步骤2.1:聚类模块接收待聚类用户的历史行为向量数据集,并构造Dirichlet狄利克雷过程混合模型; 步骤2.2:采用Collapsed Gibbs采样算法对Dirichlet狄利克雷过程混合模型中的模型参数进行不断更新,得到数据集的聚类结果; 步骤2.3:判断聚类效果是否明显;如果是,继续执行步骤3 ;否则,执行步骤2.2。
3.根据权利要求1或2所述的一种基于混合狄利克雷过程的网络水军行为检测方法,其特征在于,所述步骤5具体包括以下步骤: 步骤5.1:扫描序列数据库,根据预设的最小支持阈值min_sup挖掘出频繁项集,并将所述频繁项集映射为简单符号; 步骤5.2:将序列数据库中的每个事务集序列转换成所包含的频繁项集的格式,并采用步骤5.1所述的简单符号表示; 步骤5.3:对变换后的序列数据库中的数据选取适合的挖掘算法进行序列模式挖掘得到每个分类的一系列事务序列模式; 步骤5.4:对所述事务序列模式优化处理,得到分别对应每个分类用户行为集合的至少一个事务序列模式。
4.根据权利要求3所述的一种基于混合狄利克雷过程的网络水军行为检测方法,其特征在于,所述步骤5.3中根据数据的特点和挖掘的要求选择挖掘算法进行序列模式挖掘。
5.根据权利要求3所述的一种基于混合狄利克雷过程的网络水军行为检测方法,其特征在于,所述步骤5.4中对事务序列模式的优化处理包括,删除没有应用价值的事务序列模式,归纳、整理、分类事务序列模式。
6.一种基于混合狄利克雷过程的网络水军行为检测系统,其特征在于,包括:原始数据采集模块、聚类模块、转换合并模块、判断模块、模式挖掘模块和水军判断模块; 所述原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示,量化后的原始数据构成用户的历史行为向量,所有用户的历史行为向量集合在一起构成待聚类用户数据集; 所述聚类模块对待聚类用户数据集中的历史行为向量采用狄利克雷过程混合模型进行聚类,得到至少一个分类用户行为集合; 所述转换合并模块将一个分类用户行为集合中的数据进行转换,对转换后的数据中具有相同用户标识的数据合并,将具有相同用户标识的数据按时间排序,得到事务集序列;所述判断模块判断是否还有未转换的分类用户行为集合;如果有,返回转换合并模块;否则,得到一个事务集序列构成的序列数据库并将所述序列数据库发送到模式挖掘模块; 所述模式挖掘模块对序列数据库进行序列模式挖掘,得到分别对应每个分类用户行为集合的至少一个事务序列模式; 所述水军判断模块比较每个事务序列模式,得到每个分类用户行为集合的用户行为,通过比较每个分类的用户行为就可以判断出哪个类别是水军账号。
7.根据权利要求6所述的一种基于混合狄利克雷过程的网络水军行为检测系统,其特征在于,所述聚类模块包括模型构造模块和采样聚类模块; 所述模型构造模块接收待聚类用户数据集中的历史行为向量,构造Dirichlet狄利克雷过程混合模型; 所述采样聚类模块采用Collapsed Gibbs采样算法对Dirichlet狄利克雷过程混合模型中的模型参数进行不断更新,得到数据集的聚类结果。
8.根据权利要求6或7所述的一种基于混合狄利克雷过程的网络水军行为检测系统,其特征在于,所述模式挖掘模块包括扫描映射模块、数据转换模块、模式挖掘模块和优化处理模块; 所述扫描映射模块扫描序列数据库,根据预设的最小支持阈值min_sup挖掘出频繁项集,并将所述频繁项集映射为简单符号; 所述数据转换模块将序列数据库中的每个事务集序列转换成所包含的频繁项集的格式,并采用上述简单符号表示; 所述模式挖掘模块对变换后的序列数据库中的数据选取适合的挖掘算法进行序列模式挖掘得到至少一个事务序列模式; 所述优化处理模块对所述事务序列模式优化处理,得到分别对应每个分类用户行为集合的至少一个事务序列模式。
9.根据权利要求8所述的一种基于混合狄利克雷过程的网络水军行为检测系统,其特征在于,所述模式挖掘模块中根据数据的特点和挖掘的要求选择挖掘算法进行序列模式挖掘。
10.根据权利要求8所述的一种基于混合狄利克雷过程的网络水军行为检测系统,其特征在于,所述优化处理模块中对事务序列模式的优化处理包括,删除没有应用价值的事务序列模式,归纳、整理、分类事务序列模式。
【文档编号】G06F17/30GK103812872SQ201410073426
【公开日】2014年5月21日 申请日期:2014年2月28日 优先权日:2014年2月28日
【发明者】李丹, 李倩, 牛温佳, 管洋洋, 黄超, 孙卫强, 胡玥, 郭莉 申请人:中国科学院信息工程研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1