基于域名解析特征的网站作弊检测方法

文档序号:7982977阅读:203来源:国知局
基于域名解析特征的网站作弊检测方法
【专利摘要】本发明涉及基于域名解析特征的网站作弊检测方法,其步骤为:对取样出的样本网站进行分类得到训练集L和测试集T,提取出所述训练集L和测试集T中网站的特征向量;特征向量包括解析量和独立IP访问页数和基于所述解析量和独立IP访问页数的变换率向量、出入链接平均数向量和出入链接方差向量确定的多维向量;在所述训练集L中建立每个网站的多维向量形式,根据分类算法训练网站作弊分类器,建立判别模型;用户输入待检测网站后利用所述判别模型对待检测网站进行判定,输出作弊或非作弊结果给用户。本发明充分利用作弊网站以提升流量为目标的特点,以解析数据为核心的特征,并在该特征空间上训练分类器,利用该分类器对未知样本进行作弊与否的判定。
【专利说明】基于域名解析特征的网站作弊检测方法
【技术领域】
[0001]本发明涉及一种网站作弊检测方法,特别涉及一种基于域名解析特性的网站作弊检测方法,属于网络安全领域。
【背景技术】
[0002]互联网搜索已经成为网民使用最多的互联网服务,CNNIC 2011年7月发布的报告称网民中每日使用搜索引擎的比例高达79.6%。研究结果显示,大约80%的用户在使用搜索引擎时只会浏览前3页的返回结果。网站作弊(Web Spam),又叫搜索引擎作弊,是指采用一些迷惑、欺骗搜索引擎的手段,使得Web页面在检索结果中的排名高于实际应得排名的行为,它导致搜索引擎检索结果的质量严重下降。
[0003]针对网站作弊,大量相关应对策略被提了出来。现有的检测方法主要是基于内容分析和超链接分析,需要大量的计算和存储资源。另一方面,搜索引擎和网站作弊制造者之间的战争如同一场军备竞赛,每当搜索引擎发现了一个有效的方法并加以使用后,经过一段时间作弊者就找出应对方法,发明出新的作弊形式。
[0004]网站作弊是通过欺骗等不法手段提高网站的访问率,针对这一基本事实,本发明提出一种基于域名解析信息的网站作弊检测方法,通过分析网站的解析量变化情况,挖掘作弊与非作弊网站的潜在异同,从而打击各种以提高排名、提升访问量为手段牟利的作弊行为。域名解析特征可参考 DNS and BIND, Fifth Edition by Paul Albitz, CricketLiu.2006.1SBN 0-596-10057-4。

【发明内容】

[0005]本发明从网站解析的特征出发,辅以网站出入超链接特征,对网站作弊与否做出判断。该发明的判定特征易于提取,判定特征的维数低,判定效率高,可对各类作弊行为进行统一检测。值得一提的是,该发明尤其适用于对新出现的作弊网站进行检测。
[0006]本发明的技术方案如下:基于域名解析特征的网站作弊检测方法,其步骤为:
[0007]I)对样本网站进行分类得到训练集L和测试集T ;
[0008]2)提取出所述训练集L和测试集T中网站的特征向量;所述特征向量包括解析量、独立IP访问页数、基于所述解析量和独立IP访问页数的变换率向量、出入链接平均数向量和出入链接方差向量确定的多维向量;
[0009]3)在所述训练集L中建立每个网站的多维向量形式,根据分类算法训练网站作弊分类器,建立判别模型;
[0010]4)利用所述判别模型对用户输入的待检测网站进行检测,确定是否存在作弊行为。
[0011]所述解析量R= (R2 (X)+Rl (X) )/2,其中Rl (X)和R2 (X)分别表示网站X对应的域名在不同时刻的解析量。
[0012]所述独立IP 访问页数 N = (R2 (X) /N2 (x) +Rl (x) /NI (X)) /2,其中 NI (X)和 N2 (X)分别表示不同时段访问网站X对应域名的独立IP数。
[0013]所述特征向量包括:解析量R,独立IP访问页数N,解析量变化率RR,独立IP平均访问页数变化率NR,入链接网站的平均R,入链接网站的平均N,入链接网站的平均RR,入链接网站的平均NR,入链接网站的R方差,入链接网站的NR方差,入链接网站的RR方差,入链接网站的NR方差,出链接网站的平均R,出链接网站的平均N,出链接网站的平均RR,出链接网站的平均NR,出链接网站的R方差,出链接网站的N方差,出链接网站的RR方差,出链接网站的NR方差;提取特征向量后所述每个网站表示成二十维向量形式。
[0014]所述分类算法包括Adaboost算法、支持向量机算法、决策树算法、神经网络算法。
[0015]所述判别模型对训练集L中所有样本向量空间中同一维的所有值进行归一化处理。
[0016]所述特征向量基于两个不同时间段的域名解析日志,所述时间段为I?3个月。
[0017]所述域名解析日志包括域名递归服务解析日志或域名权威解析日志。
[0018]所述待检测网站以所述特征向量形式表示,再放入未归一化前的训练集L,进行归
一化处理。
[0019]所述归一化采用0-1归一化算法。
[0020]本发明的有益效果:
[0021]本发明的核心是提取一系列以解析数据为核心的特征,并在该特征空间上训练分类器,利用该分类器对未知样本进行作弊与否的判定。从域名解析信息出发,充分利用作弊网站以提升流量为目标的特点,充分从解析层面挖掘作弊与非作弊网站的异同。利用该分类器不仅可对未知样本进行作弊与否的判定还可以对任何形式的网站作弊进行检测,适用范围广。
【专利附图】

【附图说明】
[0022]图1为本发明基于域名解析特征的网站作弊检测方法实施例的流程示意图。【具体实施方式】
[0023]下面结合附图和具体实施例进一步说明本发明实施例的技术方案。本实施例涉及的域名解析日志,可以为域名递归服务解析日志或域名权威解析日志,该日志是对网民访问DNS的记录,具体记录了网址、IP地址和访问时间等信息,本发明不做限定。
[0024]本发明中构建了一个包含各类作弊形式的数据集,数据集包含300作弊样本和2000非作弊样本,在该数据集上根据本发明的方法(其中,两次特征提取的时间间隔是I个月)进行判定,无论是准确率、召回率还是ROC曲线的面积(参考文献:Swets,JohnA.;Signal detection theory and ROC analysis in psychology and diagnostics:collected papers, Lawrence Erlbaum Associates, Mahwah, NJ, 1996),均取得了良好的效果,其中ROC曲线的面积0.86,好于基于链接分析和内容分析的作弊检测方法,实验结果证明了本发明方法的有效性。其基本步骤为:
[0025]1.将所有网站分成两个集合,分别是训练集(L)和测试集(T),其中训练集中所有的网站有人工标注的是否作弊的标号。测试集则没有标号。在模式识别领域这是通用的训练集和测试集的构建方法。提取训练集(L)和测试集(T)上的所有样本(即网站)的时序特征,形成特征向量表示的样本集合;提取特征包括:解析量(R),独立IP访问页数(N),解析量变化率(RR),独立IP平均访问页数变化率(NR),入链接网站的平均R(MR),入链接网站的平均N (IMN),入链接网站的平均RR (IMRR),入链接网站的平均NR (IMNR),入链接网站的R方差(IVR),入链接网站的NR方差(IVN),入链接网站的RR方差(IVRR),入链接网站的NR方差(IVNR),出链接网站的平均R (OMR)、和平均N (OMN),出链接网站的平均RR (OMRR)、和平均NR(OMNR),出链接网站的R方差(OVR),出链接网站的N方差(OVN),出链接网站的RR方差(OVRR),出链接网站的NR方差(OVNR)。提取特征后每个网站表示成20维向量形式,特征空间 R = {R, N, RR, NR, IMR, MN,IMRR, IMNR, IVRR, IVNR, IVR, IVN, OMR, OMN, 0MRR,OMNR,OVR, OVN, OVRR, 0VNR}。经过以上特征提取步骤,某一网站x将被表示为:x = (R(x),N (X),RR (X),NR (X),IMR (x),MN (x),IMRR (x),IMNR (x),IVR (x),IVN (x),IVRR (x),IVNR (x),OMR(x),OMN(x),OMRR(x),OMNR (x),OVR (x),OVN (x),OVRR (x),OVNR (x)), x 所属的类别为作弊类(ω?)或非作弊类(ω2)网站,该关系表示为C(x) e {ω?,ω 2}。C表示类别,SPClassification的简写,在本领域内普遍用大写C表示,即x所属的类别。 [0026]2.基于训练集,通过分类算法构造一个自适应模型用来判断网站是否作弊,在特征空间R上训练分类器(分类算法),即进行模式学习,训练一个判定网站作弊与否的模型(M)。分类算法的选择不限于任何特定分类算法,可以为Adaboost,支持向量机、决策树、神经网络等,可参考文献 Cortes, Corinna ;and Vapnik, Vladimir N.; " Support-VectorNetworks" , Machine Learning,20,1995.[0027]3.基于上一个步骤学习的模型M,对训练集上的样本进行逐一的作弊判定。基于模型M也可以对任意未知的网站进行作弊与否的判定,判定前需要将该未知样本表示为特征空间R上的向量。所有判定的输出结果均为某网站Y作弊,或非作弊,即给出C(Y)的值:ω I 或 ω 2。
[0028]该方法克服了现有的大规模链接分析(通过链接分析实现作弊检测的,例如参考文件 Zolt' an Gy " ongyi, Hector Garcia-Molina, and JanPedersen.Combating webspam with TrustRank.1n Proceedings of the 30th International Conference on VeryLarge Databases (VLDB), 2004.)和内容分析的作弊检测方法计算复杂高、存储空间大的缺点。本发明的方法,特征提取均围绕解析日志,所有特征的提取负责度均为线性的,方便快捷。另一方面,该发明也克服了原有的方法对新作弊形式无能为力的缺点,对任何作弊(链接作弊、内容作弊、隐藏作弊、跳转作弊等)方式均有效。
[0029]如图1为本发明基于域名解析特征的网站作弊检测方法实施例的流程示意图,如图1所示,本发明基于域名解析特征的网站作弊检测方法包括以下步骤:
[0030]步骤100、特征提取:一系列以网站解析信息为核心的特征提取,在特征空间R上表示所有样本网站。提取训练集(L)和测试集(T)上的所有样本(即网站)的特征,形成特征向量表示的样本集合。本实施例的所有特征都是基于两个不同时间段的域名解析日志,两个时间段中间要有一段相对较长的时间间隔,20维特征都是基于两个时间段统计的。
[0031]该间隔一般为1-3个月,两个时段分别为Tl和T2,可以任意选择,其中,Tl在前,T2在后。只是说明T2的时间段发生在Tl后,T2的数据并不一定比Tl的内容多。比如某年I月I日(Tl),某网站解析100次,同年的2月I日(T2)该网站解析20次。Tl和T2仅仅是统计的时间不一样。[0032]本步骤提取的特征包括:解析量(R),独立IP访问页数(N),解析量变化率(RR),独立IP平均访问页数变化率(NR),入链接网站的平均R(MR),入链接网站的平均N(MN),入链接网站的平均RR (IMRR),入链接网站的平均NR (IMNR),入链接网站的RR方差(IVR),入链接网站的NR方差(IVN),入链接网站的RR方差(IVRR),入链接网站的NR方差(IVNR),出链接网站的平均R (OMR)、和平均N (OMN),出链接网站的平均RR (OMRR)、和平均NR (OMNR),出链接网站的R方差(OVR),出链接网站的N方差(OVN),出链接网站的RR方差(OVRR),出链接网站的NR方差(0VNR)。以上特征的提取,针对解析量和独立IP访问量这两个核心点,并分析其变化率、以及充分挖掘网站的拓扑依赖,力求从多层面挖掘作弊与非作弊网站的统计差异。以下具体描述这些特征的计算公式:
[0033]解析量(R),R(x) = (R2 (x) +Rl (X)) /2,其中Rl (X)和R2 (X)分别表示网站x对应的域名在Tl和T2时刻的解析量,即用户的访问量。
[0034]独立IP 访问页数(N),N = (R2 (x) /N2 (x) +Rl (x) /NI (X)) /2,其中 NI (X)和 N2 (X)分别表示Tl和T2时段访问网站X对应域名的独立IP数。
[0035]解析量变化率(RR),RR(x) = (R2 (x) -Rl (x)) / (R2 (x) +Rl (x)),提取解析量变化率是基于:所有的网站作弊行为的目的都是提高网站的访问量,从而进一步将关注转化为金钱。因此网站访问量的变化,将会很大程度上反应作弊网站和非作弊网站的统计差异。
[0036]独立IP平均访问页数变化率(NR),提取NR的理由:相比较于正常网站,作弊网站通过欺骗手段获得的点击,往往不会带来网民的多次站内点击。一般来说,一个正规的网站,会随着网站的品质的提升,不断吸引用户的页面浏览量不断提高。该特征潜在的可以给出作弊、非作弊的不同统计表现。即NR= (R2 (x) /N2 (x) -Rl (x) /NI (x)) / (R2 (x) /N2 (X) +Rl (X) /NI (X))
[0037]入链接网站的平均R(MR),
【权利要求】
1.基于域名解析特征的网站作弊检测方法,其步骤为: 1)对样本网站进行分类得到训练集L和测试集T; 2)提取出所述训练集L和测试集T中网站的特征向量;所述特征向量包括解析量、独立IP访问页数、基于所述解析量和独立IP访问页数的变换率向量、出入链接平均数向量和出入链接方差向量确定的多维向量; 3)在所述训练集L中建立每个网站的多维向量形式,根据分类算法训练网站作弊分类器,建立判别模型; 4)利用所述判别模型对用户输入的待检测网站进行检测,确定是否存在作弊行为。
2.如权利要求1所述的基于域名解析特征的网站作弊检测方法,其特征在于,所述解析量R= (R2 (X)+Rl (X))/2,其中Rl (X)和R2 (x)分别表示网站x对应的域名在不同时刻的解析量。
3.如权利要求1所述的基于域名解析特征的网站作弊检测方法,其特征在于,所述独立IP访问页数N= (R2 (X)/N2 (X)+Rl (X)/NI (X))/2,其中Nl(X)和N2 (x)分别表示不同时段访问网站X对应域名的独立IP数。
4.如权利要求1所述的基于域名解析特征的网站作弊检测方法,其特征在于,所述特征向量包括:解析量R,独立IP访问页数N,解析量变化率RR,独立IP平均访问页数变化率NR,入链接网站的平均R,入链接网站的平均N,入链接网站的平均RR,入链接网站的平均NR,入链接网站的R方差,入链接网站的NR方差,入链接网站的RR方差,入链接网站的NR方差,出链接网站的平均R,出链接网站的平均N,出链接网站的平均RR,出链接网站的平均NR,出链接网站的R方差,出链接网站的N方差,出链接网站的RR方差,出链接网站的NR方差;提取特征向量后所述每个网站表示成二十维向量形式。
5.如权利要求1所述的基于域名解析特征的网站作弊检测方法,其特征在于,所述分类算法包括Adaboost算法、支持向量机算法、决策树算法、神经网络算法。
6.如权利要求1所述的基于域名解析特征的网站作弊检测方法,其特征在于,所述判别模型对训练集L中所有样本向量空间中同一维的所有值进行归一化处理。
7.如权利要求1所述的基于域名解析特征的网站作弊检测方法,其特征在于,所述特征向量基于两个不同时间段的域名解析日志,所述时间段为I?3个月。
8.如权利要求7所述的基于域名解析特征的网站作弊检测方法,其特征在于,所述域名解析日志包括域名递归服务解析日志或域名权威解析日志。
9.如权利要求1所述的基于域名解析特征的网站作弊检测方法,其特征在于,所述待检测网站以所述特征向量形式表示,再放入未归一化前的训练集L,进行归一化处理。
10.如权利要求9所述的基于域名解析特征的网站作弊检测方法,其特征在于,所述归一化米用ο-1归一化算法。
【文档编号】H04L12/26GK103684896SQ201210333167
【公开日】2014年3月26日 申请日期:2012年9月7日 优先权日:2012年9月7日
【发明者】耿光刚, 王利明, 胡安磊 申请人:中国科学院计算机网络信息中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1