一种多视图网络垃圾页面检测方法

文档序号:6441947阅读:194来源:国知局
专利名称:一种多视图网络垃圾页面检测方法
技术领域
本发明涉及一种多视图网络垃圾页面检测方法,属于internet信息检索领域。
背景技术
部分网站拥有者为获取商业利益,采用不正当手段欺骗搜索引擎网站排序算法, 使不重要网站或页面排序靠前,破坏引擎搜索结果。其相关技术有搜索引擎优化(SEO)及搜索引擎市场(SEM)等,统称为搜索引擎spam,即ffeb spam(网络垃圾页面)。目前Web spam已成为各种Web搜索面临的重要挑战,严重影响信息检索效果,同时ffeb spam发展迅速,新的spamming技术不断出现。Web spam主要三种表现形式基于内容、链接(link)及页面隐藏。目前检测spam页面的方法多采用启发式函数,检测特定形式的spam页面,不能同时检测多种spam页面,检测时间复杂度高,同时对训练数据的不平衡性敏感。所谓训练数据不平衡是指在训练数据中正常页面的数量要远大于spam页面的数量。Web页面数量为海量数据,人工标注页面为正常页面还是spam页面费时费力,只能人工标注部分页面,用标注好的页面训练分类器,对大量的未标注页面进行机器标注,即用学习好的分类器将未标注的页面检测为正常页面或spam页面。检测spam页面的主要技术手段有依据页面内容的方法、基于link的方法、统计方法及图论方法等。基于内容的spam检测依据spam页面内容特征,采用启发式函数对其检测,难以形成统一模型。有些方法通过应用统计技术,分析页面关键词分布检测spam页面, 可用于解决因重复关键字、修改页面内容等对搜索结果页面排序的改变;基于链接的搜索引擎页面排序算法如I^ageRank及HITS,由于忽略了页面内容对页面排序的影响,也可以用来检测基于内容的spam页面。应用机器学习方法在检测内容spam页面时,首先提取页面内容特征,再使用分类技术实现页面检测。基于链接的页面排序算法在搜索引擎中得到广泛应用,可用于检测基于link的 spam页面。启发式方法有二分图方法,依据link邻接矩阵中是否存在相关子图判断链接是否为link spam。另外,通过分析统计上不寻常的链接结构及新的页面排序算法可检测 link spam 页面。近年来,机器学习技术在ffeb spam检测方面得到应用,通过提取页面特征,训练分类器,获得较好的检测性能。但当数据维数较大时,都存在如下问题对训练数据的不平衡性敏感、不能同时检测多种不同的spam页面以及检测时间复杂度高的问题。传统分类器如决策树、神经网络及支持向量机等都假设训练数据中属于不同类的数据基本平衡,即各类数据的数量差异不大。研究表明,一旦当各类数量差异较大时,尤其对于两类问题,当一类数据的数量远多于另一类数据的数量时,通过学习得到的分类器,对数量少的那一类(少数类)的分类准确度将会大大降低。提高少数类的分类准确度往往意义更大。Spam页面数据较少,也就是说,我们收集的页面中绝大部分都是正常页面,而少数为spam页面,降低训练数据不平衡对分类器的影响对提高spam页面的识别率特别重要。

发明内容
本发明的目的就是为了解决上述问题,提供一种多视图web spam检测方法,该方法只需依据训练数据学习权重矩阵,不需要训练分类器,所以具有对训练数据不平衡性不敏感特点;该方法可同时检测多类spam页面,优于现有只针对特定spam页面检测有效的方法;检测过程简单,只需要根据训练数据学习到权重矩阵、计算范数的差,依据范数差的大小决定新页面识别为正常页面还是spam页面。为了实现上述目的,本发明采用如下技术方案一种多视图web spam检测方法,该方法包括如下步骤步骤1 首先获取训练数据中所有正常页面和spam页面的内容视图及链接视图;步骤2 然后获取待检测页面的内容视图及链接视图;步骤3 将步骤1中所有正常页面的内容视图及链接视图各自构造矩阵,得到正常内容矩阵和正常链接矩阵;步骤4:将步骤1中所有spam页面的内容视图及链接视图各自构造矩阵,得到 spam内容矩阵及spam链接矩阵;步骤5 用待检测页面的内容视图及链接视图各自构造矩阵,得到待检测内容矩阵及待检测链接矩阵;步骤6 利用正常内容矩阵和待检测内容矩阵求解权重矩阵W_,利用spam内容矩阵及待检测内容矩阵求解权重矩阵W+ ;步骤7 利用正常链接矩阵及权重矩阵W_求解近似矩阵B1,利用spam链接矩阵及权重矩阵w+求解近似矩阵化;步骤8 利用步骤7中的近似矩阵B1和待检测链接矩阵求解正常范数E1,利用近似矩阵4和待检测链接矩阵求解spam范数E+ ;步骤9 比较正常范数E1与spam范数E+的大小;若正常范数小于spam范数,则待检测页面为正常页面;若正常范数大于spam范数,则待检测页面为spam页面;若两者相等,则待检测页面随机识别为正常页面或spam页面;步骤10 如果待检测页面被识别为正常页面,就被保留下来,否则将待检测页面从页面库中删除,检测结束。 所述的步骤6中,求解权重矩阵I的公式如下min| I [AJ-[AJlI I2s. t. IIiII2 = I公式表示在满足约束条件I |W_| I2 = 1的情况下,求解使得I I [AX]-[AJW_| I2取得最小值的权重矩阵w_;该最小化表示通过权重W-与[A_]构造出的内容矩阵[A_]W_与待测页面的内容矩阵[AJ间的差异性尽可能小。所述的步骤6中,求解权重矩阵W+的公式如下min| | [Aj-[AjffJ |2s. t. IW +1 12 = 1公式表示在满足约束条件IffJI2 = I的情况下,求解使得I I [AJ-[AJffJ I2取得最小值的权重矩阵W+;该最小化表示通过权重W+与[AJ构造出的内容矩阵[AJW+与待测页面P的内容矩阵[AJ间的差异性尽可能小。
所述的步骤7中,计算近似矩阵B1和化的公式如下B1 = [Bjff_ (1)B2 = [B+]ff+ (2)公式(1)通过变换矩阵W_和[B_]计算待检测页面的近似矩阵B1 ;公式( 通过变换矩阵W+和[BJ计算待检测页面的近似矩阵4。所述的步骤8中,求解正常范数E_和spam范数E+公式如下E_ = I I [Bj-Bj I2 ;E+ = I I [BJ-B2I I2 ;范数的大小表示两个近似矩阵与待检测链接矩阵差异性的大小,范数越大,表示近似矩阵与待检测链接矩阵差异性越大;反之范数越小,表示近似矩阵与待检测链接矩阵差异性越小。本发明的有益效果本发明提出了一种多视图spam页面检测方法,因其可以同时检测多种类型spam页面,从而提高了检测的效率;同时本发明不需要训练分类器,从而避免了训练数据的不平衡对分类效果的影响,检测算法对数据不平衡不敏感。


图1为训练数据的视图转换成矩阵;图2为待检测页面的视图转换成矩阵;图3a为求解权重矩阵I的过程;
图北为求解权重矩阵W+的过程图如为近似矩阵B1计算;图4b为近似矩阵化计算;图5为页面检测过程。
具体实施例方式下面结合附图与实施例对本发明作进一步说明。本发明的目的在于提供一种面向多种spam页面的通用检测方法。为实现上述目的,本发明的技术解决方案是提出了页面特征多视图表示的方法, 与传统的页面特征表示方法不同。本方法采用两视图表示一个页面,所述的两视图表示,是指对同一个web页面,既采用基于内容的特征向量表示(称为内容视图),又采用基于超链接的特征向量表示(称为链接视图),即一个页面对应两个视图,分别称为内容视图及链接视图。所述的训练数据是指已经明确标记为正常的页面数据及spam的页面数据。训练数据中标记为正常的所有页面的内容视图构成正常内容矩阵,记为[AJ,训练数据中标记为正常的所有页面的链接视图构成正常链接矩阵,记为[B_];训练数据中标记为spam的所有页面的内容视图构成spam内容矩阵,记为[A+],训练数据中标记为spam的所有页面的链接视图构成spam链接矩阵,记为[B+],如图1所示;每个待检测的页面P的内容视图构成待检测内容矩阵,记为[Αχ],每个待检测页面P的链接视图构成待检测链接矩阵,记为[Βχ],如图2所示。通过[AJ及[AJ视图通过矩阵变换的方式,分别构建出[Αχ],学习得到对应的变换矩阵I和W+,如图3a和北所示;通过变换矩阵I及[B_],构造出待检测页面近似矩阵B1,通过变换矩阵W+及[B+]构造出待检测页面近似矩阵B2,如图如和4b所示。具体构造方法如下详细说明。然后计算矩阵&及化与[Bx]差的模,并由两个模的大小,决定将待检测页面P识别为正常页面还是spam页面。以下对本发明中变换矩阵I和W+的学习及近似矩阵的构造作进一步说明。具体包括1 学习变换矩阵I和W+通过下面方法求解变换矩阵W_ min| I [AJ-[AJlI I2 (1)s. t. IIiII2 = I公式(1)表示在满足约束条件ι III I2 = 1的情况下,求解使得I I [AJ-[AJffJ I2 取得最小值的权重矩阵I。该最小化表示通过权重W_与[AJ构造出的内容矩阵[幻1_与待测页面P的内容矩阵[AJ间的差异性尽可能小。通过下面方法求解变换矩阵W+min| | [Aj-[AjffJ |2(2)s. t. IW +1 12 = 1公式(2)表示在满足约束条件I |ff+| I2 = 1的情况下,求解使得I I [AJ-[AJffJ I2 取得最小值的权重矩阵W+。该最小化表示通过权重W+与[A+]构造出的内容矩阵[A+]W+与待测页面P的内容矩阵[AJ间的差异性尽可能小。2:计算近似矩阵B1和化
通过下面的方法计算B1和化B1 = [B_]W_ (3)B2 = [B+]ff+ (4)公式( 通过变换矩阵I和[B_]计算待检测页面P的待检测页面近似矩阵B1 ;公式(4)通过变换矩阵W+和[BJ计算待检测页面P的待检测页面近似矩阵化。3 计算待检测页面P的待检测链接矩阵[Bx]与B1和化差矩阵的范数计算范数&= I I [BJ-B1 12及范数E+= I I [BJ-B2 |2。范数的大小表示两个近似矩阵与待检测链接矩阵差异性的大小。范数越大,表示近似矩阵与待检测链接矩阵差异性越大;反之范数越小,表示近似矩阵与待检测链接矩阵差异性越小。4:决定页面P的归类如果E > E+,则将P页面识别为spam页面;如果E_ < E+,则将P页面识别为正常页面;如果E_ = E+则将P页面随机识别为二者之一,如图5所示。如果页面P被识别为正常页面,就被保留下来,否则将P从页面库中删除。上述虽然结合附图对本发明的具体实施方式
进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
权利要求
1.一种多视图web spam检测方法,其特征是,该方法包括如下步骤步骤1 首先获取训练数据中所有正常页面和spam页面的内容视图及链接视图; 步骤2 然后获取待检测页面的内容视图及链接视图;步骤3 将步骤1中所有正常页面的内容视图及链接视图各自构造矩阵,得到正常内容矩阵和正常链接矩阵;步骤4 将步骤1中所有spam页面的内容视图及链接视图各自构造矩阵,得到spam内容矩阵及spam链接矩阵;步骤5 用待检测页面的内容视图及链接视图各自构造矩阵,得到待检测内容矩阵及待检测链接矩阵;步骤6 利用正常内容矩阵和待检测内容矩阵求解权重矩阵评_,利用spam内容矩阵及待检测内容矩阵求解权重矩阵W+ ;步骤7 利用正常链接矩阵及权重矩阵I求解近似矩阵B1,利用spam链接矩阵及权重矩阵W+求解近似矩阵化;步骤8 利用步骤7中的近似矩阵B1和待检测链接矩阵求解正常范数E_,利用近似矩阵 B2和待检测链接矩阵求解spam范数E+ ;步骤9 比较正常范数E_与spam范数E+的大小;若正常范数小于spam范数,则待检测页面为正常页面;若正常范数大于spam范数,则待检测页面为spam页面;若两者相等,则待检测页面随机识别为正常页面或spam页面;步骤10 如果待检测页面被识别为正常页面,就被保留下来,否则将待检测页面从页面库中删除,检测结束。
2.如权利要求书1所述的一种多视图webspam检测方法,其特征是,所述的步骤6中, 求解权重矩阵W_的公式如下min| I [AJ-[A_]l I 2 s. t. IIiII2 = I公式表示在满足约束条件I |w_| I2 = ι的情况下,求解使得11 [Ax]-[A_]w_| I2取得最小值的权重矩阵w_;该最小化表示通过权重W-与[A+]构造出的内容矩阵[AJ W_与待测页面的内容矩阵[AJ间的差异性尽可能小。
3.如权利要求书1所述的一种多视图webspam检测方法,其特征是,所述的步骤6中, 求解权重矩阵W+的公式如下min| I [AJ-[AJffJ 2 S. t. ι |w+ I2 = ι公式表示在满足约束条件I |w+| I2 = ι的情况下,求解使得11 [AX]-[A+]W+| I2取得最小值的权重矩阵W+;该最小化表示通过权重W+与[A+]构造出的内容矩阵[A+] W+与待测页面的内容矩阵[AJ间的差异性尽可能小。
4.如权利要求书1所述的一种多视图webspam检测方法,其特征是,所述的步骤7中, 计算近似矩阵B1和化的公式如下B1 = [B_]l (1) B2 = [B+] W+ (2)公式(1)通过变换矩阵W_和[BJ计算待检测页面的近似矩阵B1 ;公式( 通过变换矩阵W+和[BJ计算待检测页面的近似矩阵4。
5.如权利要求书1所述的一种多视图web spam检测方法,其特征是,所述的步骤8中, 求解正常范数E_和spam范数E+公式如下E-= ![BJ-B1M2;E+= I I [BJ-B2I I2;范数的大小表示两个近似矩阵与待检测链接矩阵差异性的大小,范数越大,表示近似矩阵与待检测链接矩阵差异性越大;反之范数越小,表示近似矩阵与待检测链接矩阵差异性越小。本发明公开了提供一种多视图web spam检测方法,该方法包括如下步骤首先获取训练数据中所有正常页面和spam页面的两视图;然后获取待检测页面的两视图;对获得的两视图各自构造矩阵;求出正常范数及spam范数;比较正常范数与spam范数的大小;若正常范数小于spam范数,则待检测页面为正常页面;若正常范数大于spam范数,则待检测页面为spam页面;若两者相等,则待检测页面随机识别为正常页面或spam页面。它具有对训练数据不平衡性不敏感、可同时检测多种spam页面及检测过程简单等优点。
全文摘要
本发明公开了提供一种多视图webspam检测方法,该方法包括如下步骤首先获取训练数据中所有正常页面和spam页面的两视图;然后获取待检测页面的两视图;对获得的两视图各自构造矩阵;求出正常范数及spam范数;比较正常范数与spam范数的大小;若正常范数小于spam范数,则待检测页面为正常页面;若正常范数大于spam范数,则待检测页面为spam页面;若两者相等,则待检测页面随机识别为正常页面或spam页面。它具有对训练数据不平衡性不敏感、可同时检测多种spam页面及检测过程简单等优点。
文档编号G06F17/30GK102521369SQ20111042470
公开日2012年6月27日 申请日期2011年12月16日 优先权日2011年12月16日
发明者张化祥 申请人:山东师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1