一种搜索引擎作弊检测的优化方法

文档序号:6460192阅读:138来源:国知局
专利名称:一种搜索引擎作弊检测的优化方法
技术领域
本发明涉及信息检索和搜索引擎技术领域,尤其涉及一种搜索引 擎作弊检测的优化方法。
背景技术
互联网作为有史以来最大的信息库,其内容仍在以指数级增长。
互联网搜索已经成为人们日常生活的一部分,CNNIC2007年7月发布 的报告称网民中每日使用搜索引擎的比例高达61.91%。
N. Eiron等学者使用著名的PageRank算法对1亿网页进行排序, 结果发现排在最前面的20个网站中有11个是色情网站,这些网站通 过篡改超链接以获取靠前的排名。根据美国商业调查局的调查,2006 年,美国的电子商务销售额达到1141亿美元,比2005年的930亿美 元增长了 22.7%。而2007年,这一统计的第一个季度就达到了 315亿 美元,比2006年同期增长了 18.4%。BernardJ. Jansen禾Q Amanda Spink 的研究结果显示,大约80%的用户在使用搜索引擎时只会浏览前3页 的返回结果。
互联网上巨大的利润和搜索引擎的门户作用,驱使很多网站管理 者和网页制作者想方设法使其站点和页面变得有名,以期待用户在进 行相关内容查询时,排在结果的前列。搜索引擎作弊(Web Spam), 又叫搜索引擎作弊,是指采用一些迷惑、欺骗搜索引擎的手段,使得 Web页面在检索结果中的排名高于实际应得排名的行为,它导致搜索 引擎检索结果的质量严重下降。
互联网作弊广义上可以分为内容作弊、链接作弊两类。内容作弊 指网站利用内容信息欺骗搜索引擎,提高某些页面的重要性,包含关 键词作弊、针对标题作弊等。链接作弊指作弊网站针对PageRank算法 构造出一些网络链接结构,迷惑搜索引擎排序算法,从而提高某些页面的重要性。
针对以上作弊形式,大量相关应对策略被提了出来。在基于内容
分析的作弊网页检测方面,A. Ntoulas等人考察作弊网页与一般网页中 平均字长、可显示部分的比例、内容压縮比例、锚文本的数量和流行 词汇在文本中的比例等,总结出一系列启发式特征,把内容作弊网页 检测作为二分类问题,训练决策树分类器,多数的内容欺诈网页可以 被检测出来。在基于链接的作弊检测方面,最早的有影响力的工作是 Gyongyi等人提出的TmstRank算法,其出发点是"好的页面很少指向作 弊页面"。通过手工挑选信誉好的种子集合,沿网络图中的超链接进行 信任度传播。从而获得各个页面的信任度,进而把所有页面分为Spam 和Normal两种。
搜索引擎和网络作弊制造者之间的战争如同一场军备竞赛,每当 搜索引擎发现了一个有效的方法并加以使用后,经过一段时间作弊者 就找出应对方法,发明出新的作弊形式。基于机器学习的方法针对新 的作弊形式,通过增加、删除相应特征,保持系统对作弊检测的有效 性,而不必修改系统结构。基于机器学习的作弊检测方法成为近期研 究的热点。Carlos Castillo等人将以往文献中提到的大量启发式方法作 为检测特征,形成236维包含了内容和链接相关属性的特征向量,采 用机器学习的方法对作弊行为进行检测。无论是检测精度和还是稳定 性都远好于以往的方法。然而Carlos最后又走了前人的老路——基于 检测置信度,利用图聚类、链接学习和栈图学习等启发式方法优化第 一轮检测的精度。
为了在优化检测性能的同时,最大限度的避免这些启发式方法所 带来的不稳定性,我们提出了基于二级特征的作弊检测优化方法。

发明内容
(一)要解决的技术问题 有鉴于此,本发明的主要目的在于提供一种搜索引擎作弊检测的 优化方法,以解决现有技术中启发式作弊检测方法的不稳定性问题, 并最大程度上优化搜索弓I擎作弊检测的性能。(二)技术方案
为达到上述目的,本发明提供了一种搜索引擎作弊检测的优化方 法,该方法包括
步骤Sl:预处理所有网页和超链接,进行特征提取,针对提取的 特征进行初步作弊检测;
步骤S2:在初步作弊检测结果的基础上,进行二级特征提取,提 取出聚类特征、传递特征和近邻特征;
步骤S3:在初步作弊检测结果和二级特征提取结果的基础上,采
用机器学习算法对作弊进行再检测,并生成检测结果。
优选地,步骤Sl中所述初步作弊检测包括
网页抓取、网页内容提取、网络超链接图构建、特征提取、训练 集生成、测试集生成、学习分类器、检测训练集,以及初步检测结果 的生成与存储。
优选地,所述特征提取,所提取的特征包含页面内容特征和超链 接相关的特征,该超链接相关特征进一步包括网页级链接相关特征和 网站级链接相关特征。
优选地,所述在进行初步检测结果的生成时,作弊检测算法采用
模式分类算法SVM、 AdaBoost或C4.5。
优选地,所述初步作弊检测的结果为检测的置信度,是进行二级 特征提取前提,该初步作弊检测的结果连同网站级超链接图一起作为 二级特征提取的输入。
优选地,所述网站级链接相关特征的计算是基于网站级链接图。
优选地,步骤S2中所述聚类特征的提取是基于图划分的特征,该 基于图划分的聚类方法,包括基于布尔链接的图划分和基于权重链接 的图划分,并分别划分为不同大小的子图,对特定子图内的节点的置 信度计算算数平均,以生成再次分类所用的聚类特征。
优选地,步骤S2中所述传递特征的提取,是基于有向图的置信度 传递、基于反向图的置信度传递和基于无向图的置信度传递,以对每 个站点生成三个特征。
优选地,步骤S2中所述近邻特征的提取,是基于一级近邻关系的特征提取和基于二级近邻关系的特征提取;针对该一级近邻关系和二
级近邻关系,分别就链接的方向和反方向节点的不同组合生成多个特征。
优选地,步骤S3中所述采用机器学习算法对作弊进行再检测所使 用的特征,是由步骤Sl初步作弊检测的特征和步骤S2 二级特征提取
的特征组合而成的,所述对作弊进行再检测具体包括
在扩充后的特征空间上对训练集和测试集进行重新表示,同时使
用初步特征和二次提取特征表示样本;在训练集上训练分类器,分类 器被训练结束后,使用训练好的分类器对测试集中的站点样本进行作 弊检测,完成对初步检测的优化,生成最终的作弊检测结果。
优选地,所述在训练集上训练分类器时,分类器选择C4.5、Bagging 或Adaboost。
优选地,步骤S2中所述二级特征的提取可进一步扩充为多级特征 提取。
(三)有益效果
从上述技术方案可以看出,本发明提供的基于二级特征的搜索引 擎作弊检测的优化方法,克服了基于机器学习的搜索引擎作弊检测所 面临的特征提取难的问题。与启发式的方法相比,不仅可以更好的提 高检测性能,最大程度上优化了搜索引擎作弊检测的性能,而且大大 提高了检测系统的鲁棒性。


图1是本发明提供的基于二级特征的搜索引擎作弊检测的方法流 程图2是本发明提供的从预处理到初步检测的数据流程图3是本发明提供的二级特征提取的示意图4是本发明提供的图(聚类)划分的示意图5是本发明提供的近邻关系特征提取的示意图6是本发明提供的基于扩展后的特征空间进行作弊检测的方法流程图。
具体实施例方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具 体实施例,并参照附图,对本发明进一步详细说明。
下面将结合附图对本发明加以详细说明,应指出的是,所描述的 实施例仅旨在便于对本发明的理解,而对其不起任何限定作用。
为了实现本发明的方法,考虑到算法要处理海量网页的超链接图,
如果在单机实现,最好保证处理器主频不小于2GHz,内存不小于2G, 可采用任何常用编程语言编写。
本发明提出的基于二级特征的搜索引擎作弊检测优化方法,总体 流程如图l所示,步骤S1为初步作弊检测,即预处理所有网页和超链 接,进行特征提取,针对提取的特征进行初步作弊检测,该步骤为步 骤S2的二级特征提取提供初步检测的检测置信度;步骤S2为在初步 作弊检测结果的基础上,进行二级特征提取,提取出聚类特征、传递 特征和近邻特征;为了叙述方便,本发明将步骤S1中的"特征提取" 称为"一级特征提取",步骤S2中的"特征提取"称为"二级特征提 取",在这一过程中,将基于超链接图和初步检测置信度提取三类不同 的特征;步骤S3为在初步作弊检测结果和二级特征提取结果的基础上, 采用机器学习算法对作弊进行再检测,并生成检测结果。
大量统计表明互联网中作弊网页所在的网站往往就是作弊网站, 该领域的标准数据集Webspam-UK2006的制定就是基于这一点,如无 特殊说明,本发明中的作弊样本和Spam均表示作弊网站。接下来详细 叙述各主要步骤。
1、预处理所有网页和超链接,进行特征提取,针对提取的特征进 行初步作弊检测(步骤S1)。
初步检测完成的工作如图2所示,包括网页抓取(步骤Sll)、网 页内容提取(步骤S12)、网络超链接图构建(步骤S13)、特征提取(步 骤S14)、训练集生成(步骤S15)、测试集生成(步骤S16)、学习分 类器和检测训练集(步骤S17),以及初步检测结果的生成与存储。网页抓取、网页内容提取和网络超链接图构建已经有成熟的方法, 这里就不再赘述。
特征提取部分所提取的特征包含页面内容相关特征和超链接相关 的特征,其中超链接相关特征又可以细分为网页级链接相关特征和网 站级特征相关特征。
网页级链接相关特征和页面内容特征参见[C. Castillo , D. Donato, A. Gionis: Know your Neighbors: Web Spam Detection using the Web Topology. Sigir 2007],网站级链接相关特征包括
^鼎、,
<formula>formula see original document page 9</formula>(//) = S"eSw/ ; oWe"D, (//)D/ e (1,2,3,4} 其中,Score(/z) e (T/oW^"A:(/2), 7Vwo^fi 尸agei a"A(/7), 7>W/ a"^:(/7)},艮卩分 别为网站的HostRank , TrucatedPageRank和TrustRank值,和 0威"A:(i/)分别表示网站的入链接集和入链接集。幼eSw;^o他^d, (//)表
示网站Z/在不同距离A上的支持者,即在不同距离上的邻居个数。
步骤S1中进行初步检测结果的生成时,作弊检测算法可采用任何 成熟的模式分类算法,比如SVM、 AdaBoost、 C4.5等。所述初步作弊检测的结果为检测的置信度,是进行二级特征提取前提,该初步作弊 检测的结果连同网站级特征相关特征(即网站级链接图) 一起作为二 级特征提取的输入。
2、在初步作弊检测结果的基础上,进行二级特征提取,提取出聚 类特征、传递特征和近邻特征(步骤S2)。
步骤S2是在步骤Sl生成的初步检测结果(包括检测置信度)和
网站级互联网超链接图的基础上,提取出一系列新的特征,为机器学 习算法所用,以提高检测精度和检测稳定性。
图3中步骤S21、步骤S22、步骤S23分别提取三类不同性质的特 征,即聚类特征、传递特征和近邻特征。下面就这三类特征的提取方 法分别进行论述。
步骤S21所述聚类特征的提取是基于图划分的特征,该基于图划
分的聚类方法,包括基于布尔链接的图划分和基于权重链接的图划分, 并分别划分为不同大小的子图,对特定子图内的节点的置信度计算算 数平均,以生成再次分类所用的聚类特征。
考虑到现有的成熟的图划分算法大多针对无向图,同时为了简化 运算,这里把整个网站级的链接图看作无向图进行处理。图4是一个 图划分的示意图。链接图可以形式化的表示为G-(F,E,w),其中r表示 所有站点的集合,w是从KxF到整数的映射函数,分别取映射函数 w(",力为,w(",v) = fog(w + 1)"">0,咖,"^,'"〉o或w(M,v) = w,其
中W为站点"和v之间的超链接数,E是无向图中边的集合。聚类图G使
用METIS图聚类算法,针对前面三种不同的权重函数,分别将链接图 中包含的站点聚为《个类,通过以下公式1计算站点/Z的聚类特征。
C(//)|
10其中,c/(if)为站点Z/的聚类特征,0(//)表示//所在的聚类集合, ^謹/c/MW为初检测阶段给出的站点A的作弊度,0 <=印flm/c^(/z) 1 , 如果印,/"MW等于0,表示/2为作弊站点,同样印am/c!XK/z)等于1,表 示/7为非作弊站点。通过调整^的取值,经公式(1)可以获得多个聚 类特征。
步骤S22所述传递特征的提取,是基于有向图的置信度传递、基 于反向图的置信度传递和基于无向图的置信度传递,以对每个站点生
成三个特征,计算如公式(2)所示
p/(i/)(') = (1 - ")w謡/"Xy(//) + " Z,(':),、 (2 )
其中#(/0(')为站点//的传递特征,^表示迭代次数,实际使用时,
可以认为设定迭代次数,取/7/(/0(<>) = W"冊'c/(K/ ) , ow/Agree(/2)表示A的出 链接集合,相应的可以计算/"Agree(/0或同时考虑出入链接,这样可以 至少得到3个传递特征,即基于有向图的置信度传递、基于反向图的 置信度传递和基于无向图的置信度传递。"是阻尼因子,取值在0到1 之间。
步骤S23所述近邻特征的提取,是基于一级近邻关系的特征提取
和基于二级近邻关系的特征提取;针对该一级近邻关系和二级近邻关 系,分别就链接的方向和反方向节点的不同组合生成多个特征。
实验表明近邻特征的提取只需要考虑两级近邻关系就可以达到比 较好的效果,即分别为最近邻(出入节点,称作一级近邻)和最近邻
的最近邻(出入节点的出入节点,称作二级近邻)。如图5所示,最内 层的白点表示要进行近邻特征提取的站点Z/,在标有D1的内层大圆上
的灰色节点表示/z的一级近邻,最外层大圆上黑色节点表示//的二级
近邻。近邻特征的值通过公式(3)计算
11<formula>formula see original document page 12</formula>其中,"/(//)表示站点//的近邻特征,^(//)表示//的近邻集合,
表示权重,权重的取值可以根据近邻间链接的数目的确定,v^妙f 取1时不考虑任何权重信息。如果节点没有近邻节点,则将该节点的 <(//)值置为0.5,即不确定值。近邻集合的选择可以选择最近邻,二 级近邻,以及多级近邻,图5给出了四种不同的二级近邻的示意图, 箭头表示超链接的方向。实验证明近邻特征是很有效的检测特征。
以上所述近邻特征、聚类特征和传递特征即为提取的二级特征, 连同步骤1中提取的一级特征一起作为步骤S3的输入,以进行最终的 作弊检测优化。
3、在初步作弊检测结果和二级特征提取结果的基础上,采用机器 学习算法对作弊进行再检测,并生成检测结果(步骤S3)。
步骤S3中所述采用机器学习算法对作弊进行再检测所使用的特 征,是由步骤Sl初步作弊检测的特征和步骤S2 二级特征提取的特征 组合而成的。
所述对作弊进行再检测具体包括在扩充后的特征空间上对训练 集和测试集进行重新表示(步骤S31和步骤S32),同时使用初步特征 和二次提取特征表示样本;步骤S33为在训练集上训练分类器,分类 器的选择可以为任何现有模式分类器,如C4.5、 Bagging、 Adaboost 等,分类器被训练结束后,使用训练好的分类器对测试集中的站点样 本进行作弊检测,完成对初步检测的优化,生成最终的作弊检测结果。
以上所述的二级特征的提取可以类似的扩充为多级特征提取,其 他步骤类似,但实验表明提取多级特征较之提取二级特征不会再次明 显的提高系统的检测性能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果 进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而己,并不用于限制本发明,凡在本发明的精神和原则之内, 所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围 之内。
权利要求
1、一种搜索引擎作弊检测的优化方法,其特征在于,该方法包括步骤S1预处理所有网页和超链接,进行特征提取,针对提取的特征进行初步作弊检测;步骤S2在初步作弊检测结果的基础上,进行二级特征提取,提取出聚类特征、传递特征和近邻特征;步骤S3在初步作弊检测结果和二级特征提取结果的基础上,采用机器学习算法对作弊进行再检测,并生成检测结果。
2、 根据权利要求1所述的搜索引擎作弊检测的优化方法,其特征 在于,步骤S1中所述初步作弊检测包括网页抓取、网页内容提取、网络超链接图构建、特征提取、训练 集生成、测试集生成、学习分类器、检测训练集,以及初步检测结果 的生成与存储。
3、 根据权利要求2所述的搜索引擎作弊检测的优化方法,其特征 在于,所述特征提取,所提取的特征包含页面内容特征和超链接相关 的特征,该超链接相关特征进一步包括网页级链接相关特征和网站级 链接相关特征。
4、 根据权利要求2所述的搜索引擎作弊检测的优化方法,其特征 在于,所述在进行初步检测结果的生成时,作弊检测算法采用模式分 类算法SVM、 AdaBoost或C4.5。
5、 根据权利要求l所述的搜索引擎作弊检测的优化方法,其特征 在于,所述初步作弊检测的结果为检测的置信度,是进行二级特征提 取前提,该初步作弊检测的结果连同网站级超链接图一起作为二级特 征提取的输入。
6、 根据权利要求3或5所述的搜索引擎作弊检测的优化方法,其 特征在于,所述网站级链接相关特征的计算基于网站级链接图。
7、 根据权利要求l所述的搜索引擎作弊检测的优化方法,其特征 在于,步骤S2中所述聚类特征的提取是基于图划分的特征,该基于图 划分的聚类方法,包括基于布尔链接的图划分和基于权重链接的图划分,并分别划分为不同大小的子图,对特定子图内的节点的置信度计 算算数平均,以生成再次分类所用的聚类特征。
8、 根据权利要求1所述的搜索引擎作弊检测的优化方法,其特征在于,步骤S2中所述传递特征的提取,是基于有向图的置信度传递、 基于反向图的置信度传递和基于无向图的置信度传递,以对每个站点 生成三个特征。
9、 根据权利要求l所述的搜索引擎作弊检测的优化方法,其特征 在于,步骤S2中所述近邻特征的提取,是基于一级近邻关系的特征提取和基于二级近邻关系的特征提取;针对该一级近邻关系和二级近邻关系,分别就链接的方向和反方向节点的不同组合生成多个特征。
10、 根据权利要求1所述的搜索引擎作弊检测的优化方法,其特 征在于,步骤S3中所述采用机器学习算法对作弊进行再检测所使用的 特征,是由步骤Sl初步作弊检测的特征和步骤S2 二级特征提取的特征组合而成的,所述对作弊进行再检测具体包括在扩充后的特征空间上对训练集和测试集进行重新表示,同时使用初步特征和二次提取特征表示样本;在训练集上训练分类器,分类 器被训练结束后,使用训练好的分类器对测试集中的站点样本进行作 弊检测,完成对初步检测的优化,生成最终的作弊检测结果。
11、 根据权利要求10所述的搜索引擎作弊检测的优化方法,其特 征在于,所述在训练集上训练分类器时,分类器选择C4.5、 Bagging 或Adaboost。
12、 根据权利要求1所述的搜索引擎作弊检测的优化方法,其特 征在于,步骤S2中所述二级特征的提取可进一步扩充为多级特征提取。
全文摘要
本发明公开了一种搜索引擎作弊检测的优化方法,该方法包括步骤S1预处理所有网页和超链接,进行特征提取,针对提取的特征进行初步作弊检测;步骤S2在初步作弊检测结果的基础上,进行二级特征提取,提取出聚类特征、传递特征和近邻特征;步骤S3在初步作弊检测结果和二级特征提取结果的基础上,采用机器学习算法对作弊进行再检测,并生成检测结果。利用本发明,解决了现有技术中启发式作弊检测方法的不稳定性问题,并最大程度上优化了搜索引擎作弊检测的性能。
文档编号G06F17/30GK101493819SQ20081005672
公开日2009年7月29日 申请日期2008年1月24日 优先权日2008年1月24日
发明者戴汝为, 李秋丹, 王春恒, 耿光刚 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1