一种基于改进dbn模型的水军检测方法及系统的制作方法

文档序号:6523513阅读:708来源:国知局
一种基于改进dbn模型的水军检测方法及系统的制作方法
【专利摘要】本发明涉及一种基于改进DBN模型的水军检测方法,具体包括以下步骤:步骤1:采用已分类数据集对原始DBN深度信念网络模型进行训练和检测,构成改进DBN深度信念网络模型;步骤2:将待分类数据集中的数据输入改进DBN深度信念网络模型进行分类,完成对水军用户的识别。本发明结合DBN深度信念网络和PSO粒子群算法对“苍蝇水军”进行识别,然后构造DBN模型,用已分类数据集对模型进行训练,最后用得到的模型对待分类用户数据进行分类,即实现了“苍蝇水军”的识别。该方法是对BP神经网络算法的改进,既可以保证较高的判定准确率,又具有较短的训练时间,且不易陷入局部最优解。
【专利说明】一种基于改进DBN模型的水军检测方法及系统
【技术领域】
[0001]本发明涉及一种基于改进DBN模型的水军检测方法及系统。
【背景技术】
[0002]随着社交网络的普及,论坛已经成为最热门的上网应用之一。但网络论坛的开放性质决定了很难对论坛中的信息进行绝对严格的监管,这就导致论坛中出现了一批以获利为目的,蓄意散播某些言论的网络水军。从“7.23”动车事故天价赔偿事件到秦火火事件,网络水军对网络环境甚至社会秩序造成很严重的影响,可见,对网络水军的识别和监管,已经迫在眉睫。
[0003]对网络水军的监管可以通过两种方式:一种是针对每个帖子进行判断,对水军贴进行删帖处理;另一种是针对每个用户进行判断,对水军用户封号删帖,甚至追究其法律责任。前一种方式需要对水军贴的特征有客观的、统一的描述,然而中国数亿网民的发帖习惯各不相同,很难找到统一的标准来鉴别水军贴,因此这种方式只用于屏蔽敏感词汇,而对通用水军识别场景不适用。现有的水军识别多采用第二种方式,即通过用户行为判断论坛用户是否水军。
[0004]对于论坛中的“老虎水军”,比如“秦火火”、“立二拆四”等,他们活跃在一些用户众多,影响范围较广的论坛上,并拥有大量的粉丝及好友,他们通过捏造事实、蓄意炒作,达到宣传或攻击的目的,进而获取非法利益。这些“老虎水军”活跃在公众视线范围内,经常处于事件的风口浪尖上,因此可以较容易地对他们进行发现和处理。另外一类“苍蝇水军”受雇于网络推手组织,在论坛中发表特定主题的帖子。“苍蝇水军”数量众多,占到水军群体的80%以上,每一个“苍蝇水军”的活动很有限,不易被发现,但是“苍蝇水军”整体的力量不容忽视,他们以积少成多的方式影响了网络舆论的方向,是网络事件背后的强大隐形力量。因此对“苍蝇水军”的识别是水军识别的重点,现在的多数水军识别算法也是针对“苍蝇水军”。一种普遍的识别方式是对用户行为进行横向比较,从而发现“苍蝇水军”的行为规律,制定识别方案。现有的“苍蝇水军”发现一般采用决策树、贝叶斯网络、KNN、神经网络等算法,在前几种算法设计过程中,需要依据历史经验设定关键参数的值,用于体现用户行为的每个方面对判定结果影响程度的不同,这种方式带有很大的主观性,严重影响了算法的判定准确率;神经网络算法在进行“苍蝇水军”识别时,通过训练的方式确定模型参数,可以客观地反映用户行为的不同方面对最终结果的影响程度,但是训练过程耗时太长,且极易因为网络初始权值设置不当而陷入局部最优解。

【发明内容】

[0005]本发明所要解决的技术问题是,针对现有技术的不足,提供一种可以保证较高的判定准确率,又具有较短的训练时间,且不易陷入局部最优解基于改进DBN模型的水军检测方法。
[0006]本发明解决上述技术问题的技术方案如下:一种基于改进DBN模型的水军检测方法,具体包括以下步骤:
[0007]步骤1:采用已分类数据集对原始DBN深度信念网络模型进行训练和检测,构成改进DBN深度信念网络模型;
[0008]步骤2:将待分类数据集中的数据输入改进DBN深度信念网络模型进行分类,完成对水军用户的识别。
[0009]本发明的有益效果是:本发明结合DBN (De印Belief Network,深度信念网络)和PSO (Particle Swarm Optimization,粒子群算法)对“苍蚬水军”进行识别。专利首先建立用户历史行为向量表征用户历史行为,然后构造DBN模型,用已分类数据集对模型进行训练,最后用得到的模型对待分类用户数据进行分类,即实现了 “苍蝇水军”的识别。该方法是对BP神经网络算法的改进,既可以保证较高的判定准确率,又具有较短的训练时间,且不易陷入局部最优解。
[0010]在上述技术方案的基础上,本发明还可以做如下改进。
[0011]进一步,所述步骤I具体包括以下步骤:
[0012]步骤1.1:将已分类数据集分为两组,一组数据为训练数据集,用于训练原始DBN深度信念网络模型;另一组为测试数据集,用于测试原始DBN深度信念网络模型;
[0013]步骤1.2:训练数据集对原始DBN深度信念网络模型进行迭代训练;
[0014]步骤1.3:测试数据集对训练后的改进DBN深度信念网络模型进行测试,判断是否达到预设的判定准确率,如果是,进行步骤2 ;否则,跳转至步骤1.2。
[0015]进一步,所述步骤1.1具体包括以下步骤:
[0016]步骤1.1.1:接收已分类数据集,所述已分类数据集中包含多个用户历史行为向量;
[0017]步骤1.1.2:将所有用户历史行为向量进行归一化处理;
[0018]步骤1.1.3:建立训练数据集和测试数据集;将归一化处理后的用户历史行为向量一部分添加到训练数据集,剩余部分添加到测试数据集。
[0019]进一步,所述步骤1.2具体包括以下步骤:
[0020]步骤1.2.1:对原始DBN深度信念网络模型进行预训练:采用逐层无监督贪婪学习的方法序列权值参数,并设置偏置,预训练完成后的改进DBN深度信念网络模型等同与BP神经网络模型;
[0021]步骤1.2.2:对改进DBN深度信念网络模型进行微调:对上述已完成初始权值和偏置设置的BP神经网络模型进行误差反向传播训练。
[0022]进一步,所述改进DBN深度信念网络模型包括依次连接的第一层RBM受限玻尔兹曼机单元、第二层RBM受限玻尔兹曼机单元和一层BP神经网络单元;第一层RBM受限玻尔兹曼机单元和第二层RBM受限玻尔兹曼机单元之间无向连接,第二层RBM受限玻尔兹曼机单元向BP神经网络单元单向输出数据。
[0023]进一步,所述RBM受限玻尔兹曼机单元包括两层节点,其中一层称为可见层,另一层称为隐蔽层,每个节点都存在一个偏置值;可见层与隐蔽层之间双向连接,具有连接的权值矩阵。
[0024]进一步,所述步骤1.2.1具体包括以下步骤:
[0025]步骤1.2.1.1:对第一层RBM受限玻尔兹曼机单元中的可见层采用能量模型进行特征提取,以无监督学习的方式预测隐蔽层节点的数值、连接权值、可见层偏置向量和隐蔽层偏置向量;
[0026]步骤1.2.1.2:将第一层RBM受限玻尔兹曼机单元的隐蔽层作为第二层RBM受限玻尔兹曼机单元的可见层,采用能量模型进行特征提取,以无监督学习的方式预测隐蔽层节点的数值、连接权值、可见层偏置向量和隐蔽层偏置向量;
[0027]步骤1.2.1.3:将隐蔽层节点的数值、连接权值、可见层偏置向量和隐蔽层偏置向量作为BP神经网络单元的输入值;
[0028]步骤1.2.1.4:将待确定的BP神经网络单元权值向量作为PSO粒子群算法中的粒子位置向量,将某个权值向量下BP神经网络单元的输出与预期输出的差值作为PSO算法中粒子位置优劣的衡量指标,采用PSO粒子群算法得到最优粒子位置,所述最优粒子位置为BP神经网络单元的最优权值向量,完成对BP神经网络单元的预训练。
[0029]进一步,所述步骤1.2.2具体包括以下步骤:
[0030]步骤1.2.2.1:采用PSO粒子群算法对改进DBN深度信念网络模型进行微调,将最优权值向量叠加一个随机向量作为粒子的初始化位置,计算输出初始位置向量组;
[0031]步骤1.2.2.2:判断得到的初始位置向量值与最优权值向量值的差值是否小于预设值,如果是,进行步骤1.3 ;否则,进行步骤1.2.2.10
[0032]进一步,所述PSO粒子群算法中,设搜索空间为m维,第i个粒子位置表示为向量
Xi=UiI, Xi2,......,XiIIi);第i个粒子的历史最优位置为PiMPil, Pi2,......,PiIii), pg为所有
Pi(i=l, 2,......,n)中的最优位置;第i个粒子的速度为向量ViKviI, vp,......,ViIii);每演
化一代,粒子的状态都依据当前群体信息发生变化,其位置更新公式为:
[0033]Xi (t+1) =Xi (t) +Vi (t+1) (I)
[0034]速度更新公式为:
[0035]Vi (t+Ι) = ω X Vi (t) +C1 X rand O X (Pi (t) -Xi (t)) +C2 X rand () X (gj (t) -Xi (t))(2)
[0036]其中ω为惯性权重;Pi和gi分别为该粒子的历史最优位置以及全局历史最优位置K1和C2为学习因子,代表了将每个粒子拉向Pi和gi位置的随机加速项的权重;vmax和Xfflx分别代表速度限制和位置限制。
[0037]本发明所要解决的技术问题是,针对现有技术的不足,提供一种可以保证较高的判定准确率,又具有较短的训练时间,且不易陷入局部最优解基于改进DBN模型的水军检测方法。
[0038]本发明解决上述技术问题的技术方案如下:一种基于改进DBN模型的水军检测系统,包括训练检测模块和水军识别模块;
[0039]所述训练检测模块采用已分类数据集对原始DBN深度信念网络模型进行训练和检测,构成改进DBN深度信念网络模型;
[0040]所述水军识别模块用于将待分类数据集中的数据输入改进DBN深度信念网络模型进行分类,完成对水军用户的识别。
[0041]本发明的有益效果是:本发明结合DBN (De印Belief Network,深度信念网络)和PSO (Particle Swarm Optimization,粒子群算法)对“苍蚬水军”进行识别。专利首先建立用户历史行为向量表征用户历史行为,然后构造DBN模型,用已分类数据集对模型进行训练,最后用得到的模型对待分类用户数据进行分类,即实现了“苍蝇水军”的识别。该方法是对BP神经网络算法的改进,既可以保证较高的判定准确率,又具有较短的训练时间,且不易陷入局部最优解。
[0042]在上述技术方案的基础上,本发明还可以做如下改进。
[0043]进一步,所述训练检测模块包括:分类训练模块、迭代训练模块和模型测试模块;
[0044]所述分类训练模块用于将已分类数据集分为两组,一组数据为训练数据集,用于训练原始DBN深度信念网络模型;另一组为测试数据集,用于测试原始DBN深度信念网络模型;
[0045]所述迭代训练模块用于采用训练数据集对原始DBN深度信念网络模型进行迭代训练;
[0046]所述模型测试模块用于采用测试数据集对训练后的改进DBN深度信念网络模型进行测试,判断是否达到预设的判定准确率。
[0047]进一步,所述分类训练模块包括:接收模块、归一化模块和数据集模块;
[0048]所述接收模块用于接收已分类数据集,所述已分类数据集中包含多个用户历史行为向量;
[0049]所述归一化模块将所有用户历史行为向量进行归一化处理;
[0050]所述数据集模块用于建立训练数据集和测试数据集;将归一化处理后的用户历史行为向量一部分添加到训练数据集,剩余部分添加到测试数据集。
[0051]进一步,所述迭代训练模块包括:预训练模块和微调模块;
[0052]所述预训练模块用于对原始DBN深度信念网络模型进行预训练:采用逐层无监督贪婪学习的方法序列权值参数,并设置偏置,预训练完成后的改进DBN深度信念网络模型等同与BP神经网络模型;
[0053]所述微调模块用于对改进DBN深度信念网络模型进行微调:对上述已完成初始权值和偏置设置的BP神经网络模型进行误差反向传播训练。
[0054]进一步,所述预训练模块包括:第一预训练模块、第二预训练模块和BP预训练模块;
[0055]所述第一预训练模块用于对第一层RBM受限玻尔兹曼机单元中的可见层采用能量模型进行特征提取,以无监督学习的方式预测隐蔽层节点的数值、连接权值、可见层偏置向量和隐蔽层偏置向量;
[0056]所述第二预训练模块用于将第一层RBM受限玻尔兹曼机单元的隐蔽层作为第二层RBM受限玻尔兹曼机单元的可见层,采用能量模型进行特征提取,以无监督学习的方式预测隐蔽层节点的数值、连接权值、可见层偏置向量和隐蔽层偏置向量;
[0057]所述BP预训练模块用于将隐蔽层节点的数值、连接权值、可见层偏置向量和隐蔽层偏置向量作为BP神经网络单元的输入值;将待确定的BP神经网络单元权值向量作为PSO粒子群算法中的粒子位置向量,将某个权值向量下BP神经网络单元的输出与预期输出的差值作为PSO算法中粒子位置优劣的衡量指标,采用PSO粒子群算法得到最优粒子位置,所述最优粒子位置为BP神经网络单元的最优权值向量,完成对BP神经网络单元的预训练。
[0058]进一步,所述微调模块包括:模型微调模块和值判断模块;
[0059]所述模型微调模块用于采用PSO粒子群算法对改进DBN深度信念网络模型进行微调,将最优权值向量叠加一个随机向量作为粒子的初始化位置,计算输出初始位置向量组;
[0060]所述值判断模块用于判断得到的初始位置向量值与最优权值向量值的差值是否小于预设值。
[0061]进一步,所述PSO粒子群算法中,设搜索空间为m维,第i个粒子位置表示为向量
Xi=UiI, Xi2,......,XiIIi);第i个粒子的历史最优位置为PiMPil, Pi2,......,PiIii), pg为所有
Pi(i=l, 2,......,n)中的最优位置;第i个粒子的速度为向量ViKviI, vp,......,ViIii);每演
化一代,粒子的状态都依据当前群体信息发生变化,其位置更新公式为:
[0062]Xi (t+1) =Xi (t) +Vi (t+1) (I)
[0063]速度更新公式为:
[0064]Vi (t+Ι) = ω X Vi (t) +C1 X rand O X (Pi (t) -Xi (t)) +C2 X rand () X (gj (t) -Xi (t))(2)
[0065]其中ω为惯性权重;Pi和gi分别为该粒子的历史最优位置以及全局历史最优位置K1和C2为学习因子,代表了将每个粒子拉向Pi和gi位置的随机加速项的权重;vmax和Xfflx分别代表速度限制和位置限制。
[0066]DBN (Deep Belief Network,深度信念网络)模型是深度神经网络的一种,是由多层随机变量节点组成的概率生成模型,是对BP神经网络初始权值设置阶段的优化。如图2所不,DBN模型由两层RBM (Restricted Boltzmann Machines,受限玻尔兹曼机)和一层BP神经网络组成,其中最底层节点接收模型输入数据,最低三层节点之间存在无向连接,高两层之间存在有向连接。
[0067]RBM (Restricted Boltzmann Machines,受限玻尔兹曼机)是由 Hinton 和Sejnowski于1986年提出的一种生成式随机神经网络。
[0068]BP神经网络(Back Propagation Neural Network)是一种按误差逆传播算法训练的多层前馈神经网络。
[0069]所述PSO (Particle Swarm Optimization,粒子群算法)是一种基于种群的搜索算法,其中每个个体称作粒子,每个粒子代表一个待优化问题的潜在解,且每个粒子保存有其历史最优位置、当前速度以及种群历史最优位置的记忆。每演化一代,粒子利用当前信息和记忆信息调整自己的位置和速度,并更新记忆。粒子在多维搜索空间中不断调整位置,直到种群到达平衡状态,或者超过了计算限制为止。
【专利附图】

【附图说明】
[0070]图1为本发明具体实施例1所述的一种基于改进DBN模型的水军检测方法流程图;
[0071]图2为本发明具体实施例1所述的一种基于改进DBN模型的水军检测方法中的预训练流程图;
[0072]图3为本发明具体实施例1所述的一种基于改进DBN模型的水军检测系统结构框图;
[0073]图4为本发明具体实施例2所述的一种基于改进DBN模型的水军检测方法中DBN模型示意图;[0074]图5为本发明具体实施例2所述的一种基于改进DBN模型的水军检测方法中单层RBM模型示意图;
[0075]图6为本发明具体实施例2所述的一种基于改进DBN模型的水军检测方法中单层BP单元结构图;
[0076]图7为本发明具体实施例2所述的一种基于改进DBN模型的水军检测方法中PSO算法寻优过程示意图。
[0077]附图中,各标号所代表的部件列表如下:
[0078]1、训练检测模块,2、水军识别模块,11、分类训练模块,12、迭代训练模块,13、模型测试模块,111、接收模块,112、归一化模块,113、数据集模块,121、预训练模块,122、微调模±夹,1211、第一预训练模块,1212、第二预训练模块,1213、BP预训练模块,1221、模型微调模块,1222、值判断模块。
【具体实施方式】
[0079]以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
[0080]如图1所示,本发明具体实施例1所述的一种基于改进DBN模型的水军检测方法流程图,具体包括以下步骤:
[0081]步骤1:接收已分类数据集,所述已分类数据集中包含多个用户历史行为向量;
[0082]步骤2:将所有用户历史行为向量进行归一化处理;
[0083]步骤3:建立训练数据集和测试数据集;将归一化处理后的用户历史行为向量一部分添加到训练数据集,剩余部分添加到测试数据集;
[0084]步骤4:对原始DBN深度信念网络模型进行预训练:采用逐层无监督贪婪学习的方法序列权值参数,并设置偏置,预训练完成后的改进DBN深度信念网络模型等同与BP神经网络模型;
[0085]步骤5:采用PSO粒子群算法对改进DBN深度信念网络模型进行微调,将最优权值向量叠加一个随机向量作为粒子的初始化位置,计算输出初始位置向量组;
[0086]步骤6:判断得到的初始位置向量值与最优权值向量值的差值是否小于预设值,如果是,进行步骤7 ;否则,进行步骤5 ;
[0087]步骤7:测试数据集对训练后的改进DBN深度信念网络模型进行测试,判断是否达到预设的判定准确率,如果是,进行步骤8 ;否则,跳转至步骤4 ;
[0088]步骤8:将待分类数据集中的数据输入改进DBN深度信念网络模型进行分类,完成对水军用户的识别。
[0089]所述改进DBN深度信念网络模型包括依次连接的第一层RBM受限玻尔兹曼机单元、第二层RBM受限玻尔兹曼机单元和一层BP神经网络单元;第一层RBM受限玻尔兹曼机单元和第二层RBM受限玻尔兹曼机单元之间无向连接,第二层RBM受限玻尔兹曼机单元向BP神经网络单元单向输出数据。
[0090]所述RBM受限玻尔兹曼机单元包括两层节点,其中一层称为可见层,另一层称为隐蔽层,每个节点都存在一个偏置值;可见层与隐蔽层之间双向连接,具有连接的权值矩阵。[0091]如图2所示,为本发明具体实施例1所述的一种基于改进DBN模型的水军检测方法中的预训练流程图,所述步骤4具体包括以下步骤:
[0092]步骤4.1:对第一层RBM受限玻尔兹曼机单元中的可见层采用能量模型进行特征提取,以无监督学习的方式预测隐蔽层节点的数值、连接权值、可见层偏置向量和隐蔽层偏
置向量;
[0093]步骤4.2:将第一层RBM受限玻尔兹曼机单元的隐蔽层作为第二层RBM受限玻尔兹曼机单元的可见层,采用能量模型进行特征提取,以无监督学习的方式预测隐蔽层节点的数值、连接权值、可见层偏置向量和隐蔽层偏置向量;
[0094]步骤4.3:将隐蔽层节点的数值、连接权值、可见层偏置向量和隐蔽层偏置向量作为BP神经网络单元的输入值;
[0095]步骤4.4:将待确定的BP神经网络单元权值向量作为PSO粒子群算法中的粒子位置向量,将某个权值向量下BP神经网络单元的输出与预期输出的差值作为PSO算法中粒子位置优劣的衡量指标,采用PSO粒子群算法得到最优粒子位置,所述最优粒子位置为BP神经网络单元的最优权值向量,完成对BP神经网络单元的预训练。
[0096]所述PSO粒子群算法中,设搜索空间为m维,第i个粒子位置表示为向量
Xi=UiI, Xi2,......,XiIIi);第i个粒子的历史最优位置为PiMPil, Pi2,......,PiIii), pg为所有
Pi(i=l, 2,......,n)中的最优位置;第i个粒子的速度为向量ViKviI, vp,......,ViIii);每演
化一代,粒子的状态都依据当前群体信息发生变化,其位置更新公式为:
[0097]Xi (t+1) =Xi (t) +Vi (t+1) (I)
[0098]速度更新公式为:
[0099]Vi (t+Ι) = ω X Vi (t) +C1 X rand O X (Pi (t) -Xi (t)) +C2 X rand () X (gj (t) -Xi (t))
(2)
[0100]其中ω为惯性权重;Pi和gi分别为该粒子的历史最优位置以及全局历史最优位置K1和C2为学习因子,代表了将每个粒子拉向Pi和gi位置的随机加速项的权重;vmax和Xfflx分别代表速度限制和位置限制。
[0101]如图3所述,本发明具体实施例1所述的一种基于改进DBN模型的水军检测系统,包括训练检测模块I和水军识别模块2 ;
[0102]所述训练检测模块I采用已分类数据集对原始DBN深度信念网络模型进行训练和检测,构成改进DBN深度信念网络模型;
[0103]所述水军识别模块2用于将待分类数据集中的数据输入改进DBN深度信念网络模型进行分类,完成对水军用户的识别。
[0104]所述训练检测模块I包括:分类训练模块11、迭代训练模块12和模型测试模块13 ;
[0105]所述分类训练模块11用于将已分类数据集分为两组,一组数据为训练数据集,用于训练原始DBN深度信念网络模型;另一组为测试数据集,用于测试原始DBN深度信念网络模型;
[0106]所述迭代训练模块12用于采用训练数据集对原始DBN深度信念网络模型进行迭代训练;
[0107]所述模型测试模块13用于采用测试数据集对训练后的改进DBN深度信念网络模型进行测试,判断是否达到预设的判定准确率。
[0108]所述分类训练模块11包括:接收模块111、归一化模块112和数据集模块113 ;
[0109]所述接收模块111用于接收已分类数据集,所述已分类数据集中包含多个用户历史行为向量;
[0110]所述归一化模块112将所有用户历史行为向量进行归一化处理;
[0111]所述数据集模块113用于建立训练数据集和测试数据集;将归一化处理后的用户历史行为向量一部分添加到训练数据集,剩余部分添加到测试数据集。
[0112]所述迭代训练模块12包括:预训练模块121和微调模块122 ;
[0113]所述预训练模块121用于对原始DBN深度信念网络模型进行预训练:采用逐层无监督贪婪学习的方法序列权值参数,并设置偏置,预训练完成后的改进DBN深度信念网络模型等同与BP神经网络模型;
[0114]所述微调模块122用于对改进DBN深度信念网络模型进行微调:对上述已完成初始权值和偏置设置的BP神经网络模型进行误差反向传播训练。
[0115]所述预训练模块121包括:第一预训练模块1211、第二预训练模块1212和BP预训练模块1213 ;
[0116]所述第一预训练模块1211用于对第一层RBM受限玻尔兹曼机单元中的可见层采用能量模型进行特征提取,以无监督学习的方式预测隐蔽层节点的数值、连接权值、可见层偏置向量和隐蔽层偏置向量;
[0117]所述第二预训练模块1212用于将第一层RBM受限玻尔兹曼机单元的隐蔽层作为第二层RBM受限玻尔兹曼机单元的可见层,采用能量模型进行特征提取,以无监督学习的方式预测隐蔽层节点的数值、连接权值、可见层偏置向量和隐蔽层偏置向量;
[0118]所述BP预训练模块1213用于将隐蔽层节点的数值、连接权值、可见层偏置向量和隐蔽层偏置向量作为BP神经网络单元的输入值;将待确定的BP神经网络单元权值向量作为PSO粒子群算法中的粒子位置向量,将某个权值向量下BP神经网络单元的输出与预期输出的差值作为PSO算法中粒子位置优劣的衡量指标,采用PSO粒子群算法得到最优粒子位置,所述最优粒子位置为BP神经网络单元的最优权值向量,完成对BP神经网络单元的预训练。
[0119]所述微调模块122包括:模型微调模块1221和值判断模块1222 ;
[0120]所述模型微调模块1221用于采用PSO粒子群算法对改进DBN深度信念网络模型进行微调,将最优权值向量叠加一个随机向量作为粒子的初始化位置,计算输出初始位置
向量组;
[0121]所述值判断模块1222用于判断得到的初始位置向量值与最优权值向量值的差值是否小于预设值。
[0122]以下是本发明具体实施例2所述的一种基于改进DBN模型的水军检测方法的具体过程:
[0123]网络论坛用户历史行为多属性描述框架
[0124]由于对用户是否“苍蝇水军”的判断建立在用户历史行为的基础之上,因此本专利首先对用户历史行为进行描述。相关社会学研究表明,反映网络论坛用户历史行为的因素包括用户注册时间、历次登陆时间、用户名、密码、登陆!P、浏览历史记录、发帖历史记录、回帖历史记录、论坛好友记录、粉丝记录、关注用户记录等。
[0125]根据上述研究,本专利提出网络论坛用户历史行为多属性描述框架,用向量对用户历史行为进行描述,从而为用户历史行为量化表示及DBN模型训练奠定基础。网络论坛用户历史行为多属性描述框架如表1所示。
[0126]
【权利要求】
1.一种基于改进DBN模型的水军检测方法,其特征在于,具体包括以下步骤: 步骤1:采用已分类数据集对原始DBN深度信念网络模型进行训练和检测,构成改进DBN深度信念网络模型; 步骤2:将待分类数据集中的数据输入改进DBN深度信念网络模型进行分类,完成对水军用户的识别。
2.根据权利要求1所述的一种基于改进DBN模型的水军检测方法,其特征在于,所述步骤I具体包括以下步骤: 步骤1.1:将已分类数据集分为两组,一组数据为训练数据集,用于训练原始DBN深度信念网络模型;另一组为测试数据集,用于测试原始DBN深度信念网络模型; 步骤1.2:训练数据集对原始DBN深度信念网络模型进行迭代训练; 步骤1.3:测试数据集对训练后的改进DBN深度信念网络模型进行测试,判断是否达到预设的判定准确率,如果是,进行步骤2 ;否则,跳转至步骤1.2。
3.根据权利要求2所述的一种基于改进DBN模型的水军检测方法,其特征在于,所述步骤1.1具体包括以下步骤: 步骤1.1.1:接收已分类数据集,所述已分类数据集中包含多个用户历史行为向量; 步骤1.1.2:将所有用户历史行为向量进行归一化处理; 步骤1.1.3:建立训练数据集和测试数据集;将归一`化处理后的用户历史行为向量一部分添加到训练数据集,剩余部分添加到测试数据集。
4.根据权利要求3所述的一种基于改进DBN模型的水军检测方法,其特征在于,所述步骤1.2具体包括以下步骤: 步骤1.2.1:对原始DBN深度信念网络模型进行预训练:采用逐层无监督贪婪学习的方法序列权值参数,并设置偏置,预训练完成后的改进DBN深度信念网络模型等同与BP神经网络模型; 步骤1.2.2:对改进DBN深度信念网络模型进行微调:对上述已完成初始权值和偏置设置的BP神经网络模型进行误差反向传播训练。
5.根据权利要求1-4任一项所述的一种基于改进DBN模型的水军检测方法,其特征在于,所述改进DBN深度信念网络模型包括依次连接的第一层RBM受限玻尔兹曼机单元、第二层RBM受限玻尔兹曼机单元和一层BP神经网络单元;第一层RBM受限玻尔兹曼机单元和第二层RBM受限玻尔兹曼机单元之间无向连接,第二层RBM受限玻尔兹曼机单元向BP神经网络单元单向输出数据。
6.根据权利要求5所述的一种基于改进DBN模型的水军检测方法,其特征在于,所述RBM受限玻尔兹曼机单元包括两层节点,其中一层称为可见层,另一层称为隐蔽层,每个节点都存在一个偏置值;可见层与隐蔽层之间双向连接,具有连接的权值矩阵。
7.根据权利要求6所述的一种基于改进DBN模型的水军检测方法,其特征在于,所述步骤1.2.1具体包括以下步骤: 步骤1.2.1.1:对第一层RBM受限玻尔兹曼机单元中的可见层采用能量模型进行特征提取,以无监督学习的方式预测隐蔽层节点的数值、连接权值、可见层偏置向量和隐蔽层偏置向量; 步骤1.2.1.2:将第一层RBM受限玻尔兹曼机单元的隐蔽层作为第二层RBM受限玻尔兹曼机单元的可见层,采用能量模型进行特征提取,以无监督学习的方式预测隐蔽层节点的数值、连接权值、可见层偏置向量和隐蔽层偏置向量; 步骤1.2.1.3:将隐蔽层节点的数值、连接权值、可见层偏置向量和隐蔽层偏置向量作为BP神经网络单元的输入值; 步骤1.2.1.4:将待确定的BP神经网络单元权值向量作为PSO粒子群算法中的粒子位置向量,将某个权值向量下BP神经网络单元的输出与预期输出的差值作为PSO算法中粒子位置优劣的衡量指标,采用PSO粒子群算法得到最优粒子位置,所述最优粒子位置为BP神经网络单元的最优权值向量,完成对BP神经网络单元的预训练。
8.根据权利要求7所述的一种基于改进DBN模型的水军检测方法,其特征在于,所述步骤1.2.2具体包括以下步骤: 步骤1.2.2.1:采用PSO粒子群算法对改进DBN深度信念网络模型进行微调,将最优权值向量叠加一个随机向量作为粒子的初始化位置,计算输出初始位置向量组; 步骤1.2.2.2:判断得到的初始位置向量值与最优权值向量值的差值是否小于预设值,如果是,进行步骤1.3 ;否则,进行步骤1.2.2.1。
9.根据权利要求8所述的一种基于改进DBN模型的水军检测方法,其特征在于,所述PSO粒子群算法中,设搜索空间为m维,第i个粒子位置表示为向量Xi=UiI, Xi2,......,XiIii);第i个粒子的历史最优位置为Pi= (PiI, Pi2,......,PiHihPg为所有Pi (i=l, 2,......,η)中的最优位置;第i个粒子的速度为向量Vi= (Vil,Vi2,……,Vim);每演化一代,粒子的状态都依据当前群体信息发生变化,其位置更新公式为:
Xi (t+l)=xi(t)+vi (t+1) (I) 速度更新公式为:
Vi (t+Ι) = ω Xvi (t) +C1Xrand O X (Pi (t) -Xi (t)) +C2 Xrand () X (gj (t) -Xi (t)) (2)其中ω为惯性权重;Pi和gi分别为该粒子的历史最优位置以及全局历史最优位置;Cl和C2为学习因子,代表了将每个粒子拉向Pi和gi位置的随机加速项的权重;vmax和Xmx分别代表速度限制和位置限制。
10.一种基于改进DBN模型的水军检测系统,其特征在于,包括训练检测模块和水军识别丰旲块; 所述训练检测模块采用已分类数据集对原始DBN深度信念网络模型进行训练和检测,构成改进DBN深度信念网络模型; 所述水军识别模块用于将待分类数据集中的数据输入改进DBN深度信念网络模型进行分类,完成对水军用户的识别。
11.根据权利要求10所述的一种基于改进DBN模型的水军检测系统,其特征在于,所述训练检测模块包括:分类训练模块、迭代训练模块和模型测试模块;所述分类训练模块用于将已分类数据集分为两组,一组数据为训练数据集,用于训练原始DBN深度信念网络模型;另一组为测试数据集,用于测试原始DBN深度信念网络模型;所述迭代训练模块用于采用训练数据集对原始DBN深度信念网络模型进行迭代训练;所述模型测试模块用于采用测试数据集对训练后的改进DBN深度信念网络模型进行测试,判断是否达到预设的判定准确率。
12.根据权利要求11所述的一种基于改进DBN模型的水军检测系统,其特征在于,所述分类训练模块包括:接收模块、归一化模块和数据集模块;所述接收模块用于接收已分类数据集,所述已分类数据集中包含多个用户历史行为向量; 所述归一化模块将所有用户历史行为向量进行归一化处理; 所述数据集模块用于建立训练数据集和测试数据集;将归一化处理后的用户历史行为向量一部分添加到训练数据集,剩余部分添加到测试数据集。
13.根据权利要求12所述的一种基于改进DBN模型的水军检测系统,其特征在于,所述迭代训练模块包括:预训练模块和微调模块; 所述预训练模块用于对原始DBN深度信念网络模型进行预训练:采用逐层无监督贪婪学习的方法序列权值参数,并设置偏置,预训练完成后的改进DBN深度信念网络模型等同与BP神经网络模型; 所述微调模块用于对改进DBN深度信念网络模型进行微调:对上述已完成初始权值和偏置设置的BP神经网络模型进行误差反向传播训练。
14.根据权利要求13所述的一种基于改进DBN模型的水军检测系统,其特征在于,所述预训练模块包括:第一预训练模块、第二预训练模块和BP预训练模块; 所述第一预训练模块用于对第一层RBM受限玻尔兹曼机单元中的可见层采用能量模型进行特征提取,以无监督学习的方式预测隐蔽层节点的数值、连接权值、可见层偏置向量和隐蔽层偏置向量; 所述第二预训练模块用于将第一层RBM受限玻尔兹曼机单元的隐蔽层作为第二层RBM受限玻尔兹曼机单元的可见层,采用能量模型进行特征提取,以无监督学习的方式预测隐蔽层节点的数值、连接权值、可见层偏置向量和隐蔽层偏置向量; 所述BP预训练模块用于将隐蔽层节点的数值、连接权值、可见层偏置向量和隐蔽层偏置向量作为BP神经网络单元的输入值;将待确定的BP神经网络单元权值向量作为PSO粒子群算法中的粒子位置向量,将某个权值向量下BP神经网络单兀的输出与预期输出的差值作为PSO算法中粒子位置优劣的衡量指标,采用PSO粒子群算法得到最优粒子位置,所述最优粒子位置为BP神经网络单元的最优权值向量,完成对BP神经网络单元的预训练。
15.根据权利要求14所述的一种基于改进DBN模型的水军检测系统,其特征在于,所述微调模块包括:模型微调模块和值判断模块; 所述模型微调模块用于采用PSO粒子群算法对改进DBN深度信念网络模型进行微调,将最优权值向量叠加一个随机向量作为粒子的初始化位置,计算输出初始位置向量组; 所述值判断模块用于判断得到的初始位置向量值与最优权值向量值的差值是否小于预设值。
16.根据权利要求14或15所述的一种基于改进DBN模型的水军检测系统,其特征在于,所述PSO粒子群算法中,设搜索空间为m维,第i个粒子位置表示为向量Xi= (Xil,Xi2,……,XiIIi);第i个粒子的历史最优位置为Pi= (PiI, Pi2,......,PiIH) ,Pg为所有Pi (i=l, 2,......,n)中的最优位置;第i个粒子的速度为向量Vi=(Vil,Vi2,……,Vim);每演化一代,粒子的状态都依据当前群体信息发生变化,其位置更新公式为:
Xi (t+l)=xi(t)+vi (t+1) (1) 速度更新公式为:Vi (t+1) = ω Xvi (t) +C1Xrand() X (Pi (t) -Xi (t)) +C2Xrand() X (gj (t) -Xi (t)) (2) 其中ω为惯性权重;Pi和gi分别为该粒子的历史最优位置以及全局历史最优位置;Cl和C2为学习因子,代表了将每个粒子拉向Pi和gi位置的随机加速项的权重;vmax和Xmx分别代表速度限制和位置限制。
【文档编号】G06N3/02GK103729678SQ201310681479
【公开日】2014年4月16日 申请日期:2013年12月12日 优先权日:2013年12月12日
【发明者】管洋洋, 牛温佳, 李倩, 黄超, 孙卫强, 胡玥, 刘萍, 郭丽 申请人:中国科学院信息工程研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1