一种基于行为特征与内容特征融合的水军识别方法及系统的制作方法

文档序号:6536785阅读:559来源:国知局
一种基于行为特征与内容特征融合的水军识别方法及系统的制作方法
【专利摘要】本发明涉及一种基于行为特征与内容特征融合的水军识别方法及系统,其方法为,采集包括用户行为特征和内容特征的原始数据;利用马尔可夫链蒙特卡罗随机模型进行行为特征维度和内容特征维度的融合,组成用户特征向量;利用用户特征向量进行DBN模型训练,得到DBN模型;对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则结束;否则根据检测结果生成相应的调节命令,分别调节特征融合阶段和DBN模型训练阶段的相关参数;在DBN训练过程中根据识别准确率不断优化行为特征与内容特征的比例分配,具体特征的选取,以及对DBN模型训练过程中迭代次数的调整,达到较优的训练效果,最终提高识别准确率和识别方法的自适应性。
【专利说明】一种基于行为特征与内容特征融合的水军识别方法及系统【技术领域】
[0001]本发明涉及网络安全领域,尤其涉及一种基于行为特征与内容特征融合的水军识别方法及系统。
【背景技术】
[0002]网络空间(Cyber Space)已成为继陆、海、空、天四维空间之外的人类活动第五维空间,网络空间的安全会直接影响国家安全和社会发展。近年来,网络安全形势日益严峻,其中很大一部分威胁来源于随时随地影响网络社会秩序的“网络水军”(Hidden PaidPosters/Internet Water Army)。网络水军”泛指为牟利而在网络上发布倾向性评论的专职或兼职团体,他们通过绑架舆论和干扰民意以达到某种商业或其他目的,从蒙牛陷害门,陆川电影《王的盛宴》影评事件,到秦火火造谣事件,都折射出“网络水军”的恶劣影响。政府从法律制定和执法力度层面都加大了对网络水军的打击力度,IT业界和学术界也对网络水军的识别技术进行了深入的研究。
[0003]现有的水军识别多采用机器学习的方法,分析已知分类用户的Profile信息、历史行为、发帖内容等,从中训练出水军用户的识别模型,进而对未知用户信息进行分类,判定哪些用户最可能是“网络水军”。当前常用于分类问题的机器学习算法包括贝叶斯网络、支持向量机(SVM)、KNN、神经网络等。本专利属于基于神经网络DBN(De印Belief Network,深度信任网络)的水军识别方法。
[0004]然而在DBN训练过程中,主要面临两个方面的问题:第一,水军特征主要分为行为特征和内容特征,而且每类特征的选择并没有统一的准则。一般认为,综合考虑行为特征和内容特征的训练模型,应该对水军的刻画有着更好的效果。但如何进行融合,具体选择那些行为特征和选择那些内容特征加入到训练模型,目前缺乏有效的选择准则和融合方法。第二,DBN模型训练前需要确定输入特征的维度,且训练过程中不能改变具体选取的特征。然而,随着水军的变化,特征·也是变化的,因此人工指定特征维度进行学习,是无法有效刻画特征变化和实现识别方法的动态适配。因此,如何摒弃人工特征的选择,用不断反馈调节的方式在特征选择上进行调节和优化,决定使用哪些维度,而放弃哪些维度,需要研究有效地非人工选择的自动特征融合选取。

【发明内容】

[0005]本发明所要解决的技术问题是针对现有技术的不足,提供一种基于行为特征和内容特征融合的水军识别方法及系统。
[0006]本发明解决上述技术问题的技术方案如下:一种基于行为特征与内容特征融合的水军识别方法,包括如下步骤:
[0007]步骤1:原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示;
[0008]步骤2:特征融合模块利用马尔可夫链蒙特卡罗随机模型进行用户行为特征维度和内容特征维度的融合,组成用户特征向量;
[0009]步骤3:DBN模型训练模块利用用户特征向量进行DBN模型训练,得到DBN模型;
[0010]步骤4:协同反馈模块对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则执行步骤6 ;否则根据检测结果生成相应的调节命令,分别发送给特征融合模块和DBN模型训练模块;
[0011]步骤5:特征融合模块和DBN模型训练模块根据调节命令调节自身相关参数,进一步进行特征融合的DBN模型训练,返回步骤4 ;
[0012]步骤6:结束执行过程。
[0013]本发明的有益效果是:本发明利用了马尔可夫链蒙特卡罗随机模型作为用户特征维度的随机选择模型,并引入反馈调节机制,在DBN训练过程中根据识别准确率不断优化行为特征与内容特征的比例分配,具体行为特征和内容特征的选取,以及对DBN模型训练过程中迭代次数的调整,达到较优的训练效果,最终提高识别准确率和识别方法的自适应性。
[0014]在上述技术方案的基础上,本发明还可以做如下改进。
[0015]进一步,步骤2中的具体实现为:
[0016]步骤2.1:设定用户特征总维度为K ;
[0017]步骤2.2:根据用户特征总维度数K,利用直接抽样法确定用户特征总维度中行为特征维度与内容特征维度的融合比例;
[0018]步骤2.3:根据行为特征维度与内容特征维度的融合比例,利用MCMC的Gibbs采样模拟联合正态分布的采样过程,分别确定具体选取的行为特征和内容特征,组成用户特征向量。
[0019]进一步,步骤3的具体实现为:
[0020]步骤3.1:DBN模型训练模块根据用户特征向量利用逐层无监督贪婪学习法进行DBN模型的预训练;
[0021]步骤3.2:按照BP神经网络的训练方式进行DBN模型的误差反向传播训练,经过预定迭代次数L的模型训练后,得到DBN模型。
[0022]进一步,步骤4的具体实现为:
[0023]步骤4.1:协同反馈模块检测DBN模型是否收敛,如果是则执行步骤4.2 ;否则执行步骤4.3 ;
[0024]步骤4.2:检测DBN模型是否达到预定的识别准确率阈值,如果是则执行步骤4.4 ;否则执行步骤4.3 ;
[0025]步骤4.3:向特征融合模块发送调节行为特征维度和内容特征维度的融合情况的命令,向DBN模型训练模块发送增加模型训练的迭代次数阈值的命令;
[0026]步骤4.4:结束执行过程。
[0027]进一步,步骤2.2的具体实现为:
[0028]步骤2.2.1:生成一个[0,I]之间的随机数作为参数P,参数P代表行为特征维度在用户特征总维度中所占比例;
[0029]步骤2.2.2:初始化用于记录迭代次数的计数器的初始值k=0;
[0030]步骤2.2.3:生成一个[0,I]之间的随机数q,并与参数P进行比较,[0031 ] 当q〈p时,选取一个内容特征维度,内容特征维度数加I,
[0032]当q>p时,选取一个行为特征维度,行为特征维度数加I ;
[0033]步骤2.2.4:k值增加1,判断是否k>=K,其中K代表用户特征总维度数,如果是则统计待选入用户特征向量的行为特征和内容特征的个数,分别记录为A和B,结束采样过程;否则返回步骤2.2.3。
[0034]进一步,步骤2.3中确定具体选取哪些行为特征的实现过程为:
[0035]步骤2.3.1A:设定转移次数阈值为T,初始化转移次数t=0 ;
[0036]步骤2.3.2A:统计采集的原始数据中行为特征的个数,记录为M,生成M个[0,I]之间的随机数作为初始状态x(0) = [X1(O), X2(O),…Xi(O)...xM(0)];
[0037]步骤2.3.3A:转移次数t每增加1,对每个变量Xi(t),i e {1,2...,Μ},按以下由联合概率分布得到的条件概率分布公式进行如下计算:
[0038]P (Xi (t+1) I X1 (t+1),X2 (t+1),…Xh (O),xi+1 (t)...xM(t))
[0039]其中,联合概率分布的均值为X ;
[0040]步骤2.3.4A:判断是否t〈T,如果是则返回步骤2.3.3,否则得到P⑴=[P (X1 (T) ),P (? (T)),…P (Xi (T) ),...P (xu (T))];
[0041]步骤2.3.5A:根据步骤2.2.4中计算的待选入用户特征向量的行为特征个数A,选取前A个对应概率Pxi (T)最大的行为特征作为选入用户特征向量的行为特征。
[0042]进一步,步骤2.3中确定具体选取哪些内容特征的实现过程为:
[0043]步骤2.3.1B:设定转移次`数阈值为T,初始化转移次数t=0 ;
[0044]步骤2.3.2B:统计采集的原始数据中内容特征的个数,记录为N,生成N个[0,I]之间的随机数作为初始状态y (O) =;
[0045]步骤2.3.3B:转移次数t每增加1,对每个变量,j e {1,2...,N},按以下条件概率对其采样:
[0046]P (Yi (t+1) I Y1 (t+1),y2 (t+1),…Yj^1 (0),yJ+1 (t)...yN (t))
[0047]步骤2.3.4B:判断是否t〈T,如果是则返回步骤2.3.3,否则得到P⑴=[P (Y1 (T)),P (y2 (T)),...P (yj (T)),...P (yN (T))];
[0048]步骤2.3.5B:根据步骤2.2.4中计算的待选入用户特征向量的内容特征个数B,选取前B个对应概率P& (T)最大的内容特征作为选入用户特征向量的内容特征。
[0049]进一步,步骤5的具体实现为:特征融合模块根据调节命令采用固定因变量的方法调节与行为特征维度和内容特征维度比例分配相关的参数P,以及与具体行为特征和内容特征选取相关的联合正态分布的均值X ;DBN训练模块根据调节命令增加模型训练的迭代次数阈值L。
[0050]本发明解决上述技术问题的技术方案如下:一种基于行为特征与内容特征融合的水军识别方法的系统,包括原始数据采集模块、特征融合模块、DBN模型训练模块和协同反馈丰吴块;
[0051]所述原始数据采集模块,其用于采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示;
[0052]所述特征融合模块,其用于利用马尔可夫链蒙特卡罗随机模型进行用户行为特征维度和内容特征维度的融合,组成用户特征向量,还用于根据调节命令调节自身相关参数,进一步进行特征融合;
[0053]所述DBN模型训练模块,其用于利用用户特征向量进行DBN模型训练,还用于根据调节命令调节自身相关参数,进一步进行DBN模型训练;
[0054]所述协同反馈模块,其用于对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则结束执行过程;否则根据检测结果生成相应的调节命令,分别发送给特征融合模块和DBN模型训练模块。
[0055]在上述技术方案的基础上,本发明还可以做如下改进。
[0056]进一步,所述特征融合模块包括维度比例分配单元和具体特征选取单元;
[0057]所述维度比例分配单元,其用于根据用户特征总维度数K,利用直接抽样法确定用户特征总维度中行为特征维度与内容特征维度的融合比例;
[0058]所述具体特征选取单元,其用于根据行为特征维度与内容特征维度的融合比例,利用MCMC的Gibbs采样模拟联合正态分布的采样过程,确定具体选取的行为特征和内容特征,组成用户特征向量。
【专利附图】

【附图说明】
[0059]图1为本发明所述一种基于行为特征与内容特征融合的水军识别方法流程图;
[0060]图2为本发明所述步骤4的具体实现流程图;
[0061]图3为本发明所述步骤2.2的具体实现流程图;
[0062]图4为本发明所述步骤2.3的具体实现流程图;
[0063]图5为本发明所述一种基于行为特征与内容特征融合的水军识别系统框图;
[0064]图6为本发明所述特征融合模块结构示意图。
[0065]附图中,各标号所代表的部件列表如下:
[0066]1、原始数据采集模块,2、特征融合模块,3、DBN模型训练模块,4协同反馈模块,201、维度比例分配单元,202、具体特征选取单元。
【具体实施方式】
[0067]以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
[0068]如图1所示,一种基于行为特征与内容特征融合的水军识别方法,包括如下步骤:
[0069]步骤1:原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示;
[0070]步骤2:特征融合模块利用马尔可夫链蒙特卡罗随机模型进行用户行为特征维度和内容特征维度的融合,组成用户特征向量;
[0071]步骤3:DBN模型训练模块利用用户特征向量进行DBN模型训练,得到DBN模型;
[0072]步骤4:协同反馈模块对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则执行步骤6 ;否则根据检测结果生成相应的调节命令,分别发送给特征融合模块和DBN模型训练模块;
[0073]步骤5:特征融合模块和DBN模型训练模块根据调节命令调节自身相关参数,进一步进行特征融合的DBN模型训练,返回步骤4 ;[0074]步骤6:结束执行过程。
[0075]其中,步骤2中的具体实现为:
[0076]步骤2.1:设定用户特征总维度为K ;
[0077]步骤2.2:根据用户特征总维度数K,利用直接抽样法确定用户特征总维度中行为特征维度与内容特征维度的融合比例;
[0078]步骤2.3:根据行为特征维度与内容特征维度的融合比例,利用MCMC的Gibbs采样模拟联合正态分布的采样过程,分别确定具体选取的行为特征和内容特征,组成用户特征向量。
[0079]其中,步骤3的具体实现为:
[0080]步骤3.1:DBN模型训练模块根据用户特征向量利用逐层无监督贪婪学习法进行DBN模型的预训练;
[0081]步骤3.2:按照BP神经网络的训练方式进行DBN模型的误差反向传播训练,经过预定迭代次数L的RBM运算后,得到DBN模型。
[0082]如图2所示,步骤4的具体实现为:
[0083]步骤4.1:协同反馈模块检测DBN模型是否收敛,如果是则执行步骤4.2 ;否则执行步骤4.3 ;
[0084]步骤4.2:检测DBN模型是否达到预定的识别准确率阈值,如果是则执行步骤4.4 ;否则执行步骤4.3 ;
[0085]步骤4.3:向特征融合模块发送调节行为特征维度和内容特征维度的融合情况的命令,向DBN模型训练模块发送增加模型训练的迭代次数的命令;
[0086]步骤4.4:结束执行过程。
[0087]步骤5的具体实现为:特征融合模块根据调节命令采用固定因变量的方法进行行为特征维度和内容特征维度融合比例的调整,以及具体行为特征和内容特征选取的调整;DBN训练模块根据调节命令增加模型训练的迭代次数。
[0088]如图3所示,步骤2.2的具体实现为:
[0089]步骤2.2.1:生成一个[0,I]之间的随机数作为参数P,参数P代表行为特征维度在用户特征总维度中所占比例;
[0090]步骤2.2.2:初始化用于记录迭代次数的计数器的初始值k=0;
[0091]步骤2.2.3:生成一个[0,1]之间的随机数q,并与参数P进行比较,
[0092]当q〈p时,选取一个内容特征维度,内容特征维度数加I,
[0093]当q>p时,选取一个行为特征维度,行为特征维度数加I ;
[0094]步骤2.2.4:k值增加1,判断是否k>=K,其中K代表用户特征总维度数,如果是则统计待选入用户特征向量的行为特征和内容特征的个数,分别记录为A和B,结束采样过程;否则返回步骤2.2.3。
[0095]假设设定的用户特征总维度数K=8,随机生成的参数ρ=0.4,经过8次上述过程的迭代得到待入选的行为特征的个数Α=3,内容特征的个数Β=5,则在后续的具体特征选取过程中要选取3个行为特征和5个内容特征。
[0096]如图4所示,步骤2.3中确定具体选取哪些行为特征的实现过程为:
[0097]步骤2.3.1A:设定转移次数阈值为Τ,初始化转移次数t=0 ;[0098]步骤2.3.2A:统计采集的原始数据中行为特征的个数,记录为M,生成M个[0,I]之间的随机数作为初始状态x(0) = [X1(O), X2(O),…Xi(O)...xM(0)];
[0099]步骤2.3.3A:转移次数t每增加1,对每个变量Xi(t),i e {1,2...,Μ},按以下由联合概率分布得到的条件概率分布公式进行如下计算:
[0100]P (Xi (t+1) I X1 (t+1),X2 (t+1),…Xh (O),xi+1 (t)...xM(t))
[0101]其中,联合概率分布的均值为X ;
[0102]步骤2.3.4A:判断是否t〈T,如果是则返回步骤2.3.3,否则得到P⑴=[P (X1 (T) ),P (? (T)),…P (Xi (T) ),...P (xu (T))];
[0103]步骤2.3.5A:根据步骤2.2.4中计算的待选入用户特征向量的行为特征个数A,选取前A个对应概率Pxi (T)最大的行为特征作为选入用户特征向量的行为特征。
[0104]步骤2.3中确定具体选取哪些内容特征的实现过程参见上述实现过程。 [0105]比如,如果上步中采集的原始数据中行为特征维度共5个,步骤2.2.4中计算出的待加入用户特征向量的行为特征维度为2两个,则首先要随机生成[0,I]只之间的5个数,本实施例中 X0(O) = [0.2,0.3,0.4,0.5,0.6] ;t=0 时,根据 Pxi (t+1) = [X1 (t+1), x2(t+l),...X1-1 (O), xi+1(t)...xM (t)]依次得到 Px1 ⑴、PxJl)、Pxjl)、PxJl)、PxJl),假设计算得到Pxi (I) = [0.5,0.6,0.2,0.8,0.1]。依次循环,直到达到预定转移次数,本实施例中T=50,计算得到Pxi (50),假设计算得到Pxi (50) = [0.6,0.2,0.5,0.8,0.9],则选取对应最大概率的两个行为特征加入用户特征向量。
[0106]步骤5的具体实现为:特征融合模块根据调节命令采用固定因变量的方法调节与行为特征维度和内容特征维度比例分配相关的参数P,以及与具体行为特征和内容特征选取相关的联合正态分布的均值X ;DBN训练模块根据调节命令增加模型训练的迭代次数阈值L。
[0107]其中,对于特征融合模块2内相关参数的调整,本专利利用固定因变量的方法,对行为特征与内容特征比例分配,以及具体特征选取这两个过程进行调节,即,调节过程中,先固定一个变量,比如,固定变量P,调节变量X,找到X的某个值X’使得DBN模型收敛性及判别准确率较好,再固定变量X,调节P,进一步优化DBN模型的性能,直到模型达到设定的判别准确率阈值。
[0108]对于DBN训练模块3中相关参数的调整,采用增加模型训练的迭代次数阈值L的方式进行。
[0109]如图5所示,一种实现基于行为特征与内容特征融合的水军识别方法的系统,包括原始数据采集模块1、特征融合模块2、DBN模型训练模块3和协同反馈模块4 ;
[0110]所述原始数据采集模块I,其用于采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示;
[0111]所述特征融合模块2,其用于利用马尔可夫链蒙特卡罗随机模型进行用户行为特征维度和内容特征维度的融合,组成用户特征向量,还用于根据调节命令调节自身相关参数,进一步进行特征融合;
[0112]所述DBN模型训练模块3,其用于利用用户特征向量进行DBN模型训练,还用于根据调节命令调节自身相关参数,进一步进行DBN模型训练;
[0113]所述协同反馈模块4,其用于对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则结束执行过程;否则根据检测结果生成相应的调节命令,分别发送给特征融合模块和DBN模型训练模块。
[0114]如图6所示,所述特征融合模块2包括维度比例分配单元201和具体特征选取单元 202 ;
[0115]所述维度比例分配单元201,其用于根据用户特征总维度数K,利用直接抽样法确定用户特征总维度中行为特征维度与内容特征维度的融合比例;
[0116]所述具体特征选取单元202,其用于根据行为特征维度与内容特征维度的融合比例,利用MCMC的Gibbs米样模拟联合正态分布的米样过程,确定具体选取的行为特征和内容特征,组成用户特征向量。
[0117]下面进一步介绍系统中的各个模块。
[0118]I原始数据采集模块
[0119]现有的用户描述信息从对象上分为两类:行为特征信息和内容特征信息。前者主要通过建模对主体相关的注册、社交、转发与评论等操作进行刻画,常用的行为特征信息包括用户注册时间、历次登陆时间、用户名、密码、登陆IP、浏览历史记录、发帖历史记录、回帖历史记录、论坛好友记录、粉丝记录、关注用户记录等;后者更强调从发帖内容本身入手,刻画语言特征统计,常用的发贴内容信息包括发帖内容本身、发帖内容中的关键词、发帖内容的自相似性、发帖内容长度等。本专利分别提取用户的行为特征和内容特征信息,并据此提出用户信息多维度描述框架。本实施例中,用户行为特征多维度描述框架框架结构如表1所示,用户内容特征多维度描述框架框架结构如表2所示。
[0120]表1
【权利要求】
1.一种基于行为特征与内容特征融合的水军识别方法,其特征在于,包括如下步骤: 步骤1:原始数据采集模块采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示; 步骤2:特征融合模块利用马尔可夫链蒙特卡罗随机模型进行用户行为特征维度和内容特征维度的融合,组成用户特征向量; 步骤3:DBN模型训练模块利用用户特征向量进行DBN模型训练,得到DBN模型; 步骤4:协同反馈模块对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则执行步骤6 ;否则根据检测结果生成相应的调节命令,分别发送给特征融合模块和DBN模型训练模块; 步骤5:特征融合模块和DBN模型训练模块根据调节命令调节自身相关参数,进一步进行特征融合的DBN模型训练,返回步骤4 ; 步骤6:结束执行过程。
2.根据权利要求1所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤2中的具体实现为: 步骤2.1:设定用户特征总维度为K ; 步骤2.2:根据用户特征总维度数K,利用直接抽样法确定用户特征总维度中行为特征维度与内容特征维度的融合比例; 步骤2.3:根据行为特征维度与内容特征维度的融合比例,利用MCMC的Gibbs采样模拟联合正态分布的采样过程,分别确定具体选取的行为特征和内容特征,组成用户特征向量。
3.根据权利要求1所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤3的具体实现为: 步骤3.1:DBN模型训练模块根据用户特征向量利用逐层无监督贪婪学习法进行DBN模型的预训练; 步骤3.2:按照BP神经网络的训练方式进行DBN模型的误差反向传播训练,经过预定迭代次数L的模型训练后,得到DBN模型。
4.根据权利要求1所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤4的具体实现为: 步骤4.1:协同反馈模块检测DBN模型是否收敛,如果是则执行步骤4.2 ;否则执行步骤 4.3 ; 步骤4.2:检测DBN模型是否达到预定的识别准确率阈值,如果是则执行步骤4.4 ;否则执行步骤4.3 ; 步骤4.3:向特征融合模块发送调节行为特征维度和内容特征维度的融合情况的命令,向DBN模型训练模块发送增加模型训练的迭代次数阈值的命令; 步骤4.4:结束执行过程。
5.根据权利要求2所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤2.2的具体实现为: 步骤2.2.1:生成一个[O,1]之间的随机数作为参数P,参数P代表行为特征维度在用户特征总维度中所占比例;步骤2.2.2:初始化用于记录迭代次数的计数器的初始值k=0; 步骤2.2.3:生成一个[O,I]之间的随机数q,并与参数P进行比较, 当q〈p时,选取一个内容特征维度,内容特征维度数加1, 当q>P时,选取一个行为特征维度,行为特征维度数加I ; 步骤2.2.4:k值增加1,判断是否k>=K,其中K代表用户特征总维度数,如果是则统计待选入用户特征向量的行为特征和内容特征的个数,分别记录为A和B,结束采样过程;否则返回步骤2.2.3。
6.根据权利要求5所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤2.3中确定具体选取哪些行为特征的实现过程为: 步骤2.3.1A:设定转移次数阈值为T,初始化转移次数t=0 ; 步骤2.3.2A:统计采集的原始数据中行为特征的个数,记录为M,生成M个[O,I]之间的随机数作为初始状态x(0) = [X1(O), X2(O),…Xi(O)...xM(0)]; 步骤2.3.3A:转移次数t每增加1,对每个变量XiU), i e {1,2...,Μ},按以下由联合概率分布得到的条件概率分布公式进行如下计算:
P (Xi (t+1) I X1 (t+ 1),X2 (t+1),…Xh (O),xi+1 (t)…Xm (t)) 其中,联合概率分布的均值为X ; 步骤2.3.4A:判断是否t〈T,如果是则返回步骤2.3.3,否则得到P⑴=[P (X1 (T) ),P (? (T)),…P (Xi (T) ),...P (xu (T))]; 步骤2.3.5A:根据步骤2.2.4中计算的待选入用户特征向量的行为特征个数A,选取前A个对应概率Pxi (T)最大的行为特征作为选入用户特征向量的行为特征。
7.根据权利要求5所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤2.3中确定具体选取哪些内容特征的实现过程为: 步骤2.3.1B:设定转移次数阈值为T,初始化转移次数t=0 ; 步骤2.3.2B:统计采集的原始数据中内容特征的个数,记录为N,生成N个[0,1]之间的随机数作为初始状态y (O) =; 步骤2.3.3B:转移次数t每增加I,对每个变量,j e {1,2...,N},按以下条件概率对其采样:
P (Yi (t+1) I Y1 (t+1),y2 (t+1),…Yj^1 (0),yJ+1 (t)...yN (t)) 步骤2.3.4B:判断是否t〈T,如果是则返回步骤2.3.3,否则得到P⑴=[P (Y1 (T)),P (y2 (T)),…P (yj (T)),…P (yN (T))]; 步骤2.3.5B:根据步骤2.2.4中计算的待选入用户特征向量的内容特征个数B,选取前B个对应概率Ρ&(Τ)最大的内容特征作为选入用户特征向量的内容特征。
8.根据权利要求7所述一种基于行为特征与内容特征融合的水军识别方法,其特征在于,步骤5的具体实现为:特征融合模块根据调节命令采用固定因变量的方法调节与行为特征维度和内容特征维度比例分配相关的参数P,以及与具体行为特征和内容特征选取相关的联合正态分布的均值X ;DBN训练模块根据调节命令增加模型训练的迭代次数阈值L。
9.一种实现权利要求1-8中任一所述基于行为特征与内容特征融合的水军识别方法的系统,其特征在于,包括原始数据采集模块、特征融合模块、DBN模型训练模块和协同反馈模块;所述原始数据采集模块,其用于采集包括用户行为特征和内容特征的原始数据,并对每个维度的原始数据进行量化表示; 所述特征融合模块,其用于利用马尔可夫链蒙特卡罗随机模型进行用户行为特征维度和内容特征维度的融合,组成用户特征向量,还用于根据调节命令调节自身相关参数,进一步进行特征融合; 所述DBN模型训练模块,其用于利用用户特征向量进行DBN模型训练,还用于根据调节命令调节自身相关参数,进一步进行DBN模型训练; 所述协同反馈模块,其用于对DBN模型进行检测,判断检测结果是否达到预定标准,如果是则结束执行过程;否则根据检测结果生成相应的调节命令,分别发送给特征融合模块和DBN模型训练模块。
10.根据权利要求9所述一种基于行为特征与内容特征融合的水军识别系统,其特征在于,所述特征融合模块包括维度比例分配单元和具体特征选取单元; 所述维度比例分配单元,其用于根据用户特征总维度数K,利用直接抽样法确定用户特征总维度中行为特征维度与内容特征维度的融合比例; 所述具体特征选取单元,其用于根据行为特征维度与内容特征维度的融合比例,利用MCMC的Gibbs采样模拟联合正态分布的采样过程,确定具体选取的行为特征和内容特征,组成用户特征向量。`
【文档编号】G06F17/30GK103745002SQ201410035139
【公开日】2014年4月23日 申请日期:2014年1月24日 优先权日:2014年1月24日
【发明者】牛温佳, 李倩, 管洋洋, 黄超, 孙卫强, 李丹, 胡玥, 郭莉 申请人:中国科学院信息工程研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1