网站访问异常的检测方法及装置与流程

文档序号:11063545阅读:263来源:国知局
网站访问异常的检测方法及装置与制造工艺
本发明涉及互联网领域,具体而言,涉及一种网站访问异常的检测方法及装置。
背景技术
:访问量是网站运营及维护中的一个重要信息,通过访问量可以直接对网站的运营状态进行调控、或判断网站是否发生访问异常。目前,通过访问量判断网站是否发生访问异常的方法主要有ARIMA(AutoregressiveIntegratedMovingAverageModel,自回归积分滑动平均模型)和Holt-winters(霍尔特-温特斯预测模型)。这两种方法主要是对网站每天的访问量进行预测,再通过统计分析的方法对预测值和实际值进行分析判断,确定是否发生网站访问异常。采用上述方法,在某个时间段内,即使网站访问量的实际值接近预测值,在该时间段内访问量的具体变化情况却是不得而知的。由于访问量的变化也会导致访问异常,而采用现有技术中的方法无法通过访问量的变化准确判断网站是否发生访问异常。针对上述的问题,目前尚未提出有效的解决方案。技术实现要素:本发明实施例提供了一种网站访问异常的检测方法及装置,以至少解决现有技术中网站访问异常检测不准确的技术问题。根据本发明实施例的一个方面,提供了一种网站访问异常的检测方法,该检测方法包括:获取网站在预设时间段的访问样本;基于上述访问样本确定上述预设时间段内各个统计时间段的访问总量;确定多个上述访问总量中的访问总量极值和各个上述访问总量极值对应的统计时间段;根据各个上述访问总量极值确定上述网站在对应的上述统计时间段内是否发生访问异常。进一步地,确定多个上述访问总量中的访问总量极值和各个上述访问总量极值对应的统计时间段包括:根据多个上述访问总量生成统计图,其中,上述统计图中标示的访问总量按照时间顺序排列;确定上述统计图中的各个上述访问总量极值;读取上 述统计图中上述各个上述访问总量极值分别对应的上述统计时间段。进一步地,确定上述统计图中的各个上述访问总量极值包括:判断上述统计图中是否存在访问总量比相邻两个统计时间段的访问总量大或小的统计时间段;若存在,则判断出上述访问总量比相邻两个统计时间段的访问总量大或小的统计时间段对应的访问总量为上述访问总量极值。进一步地,根据各个上述访问总量极值确定上述网站在对应的上述统计时间段内是否发生访问异常包括:加载预设单分类检测程序对上述访问总量极值和上述访问总量极值对应的上述统计时间段进行分类检测,得到检测结果;若上述检测结果指示上述统计时间段对应的上述访问总量异常,则确定上述网站在上述统计时间段发生上述访问异常;若上述检测结果指示上述统计时间段对应的上述访问总量正常,则确定上述网站在上述统计时间段未发生上述访问异常。进一步地,上述加载预设单分类检测程序对上述访问总量极值和对应的上述统计时间段进行分类检测,得到检测结果包括:对上述访问总量极值进行归一化处理,得到访问总量参数;通过上述预设单分类检测程序对上述访问总量参数和上述访问总量参数对应的上述统计时间段进行分类检测,得到上述检测结果。进一步地,根据各个上述访问总量极值确定上述网站在对应的上述统计时间段内是否发生访问异常包括:若上述访问总量极值与上述统计时间段对应的预设访问量之差大于预设阈值,则确定上述网站在上述统计时间段发生上述访问异常;若上述访问总量极值与上述统计时间段对应的预设访问量之差不大于预设阈值,则确定上述网站在上述统计时间段未发生上述访问异常。根据本发明实施例的另一方面,还提供了一种网站访问异常的检测装置,该检测装置包括:第一获取模块,用于获取网站在预设时间段的访问样本;第二获取模块,用于基于上述访问样本确定上述预设时间段内各个统计时间段的访问总量;第一确定模块,用于确定多个上述访问总量中的访问总量极值和各个上述访问总量极值对应的统计时间段;第二确定模块,用于根据各个上述访问总量极值确定上述网站在对应的上述统计时间段内是否发生访问异常。进一步地,上述第一确定模块包括:生成子模块,用于根据多个上述访问总量生成统计图,其中,上述统计图中标示的访问总量按照时间顺序排列;获取子模块,用于确定上述统计图中的各个上述访问总量极值;读取子模块,用于读取上述统计图中上述各个上述访问总量极值分别对应的上述统计时间段。进一步地,上述获取子模块包括:判断子模块,用于判断上述统计图中是否存在 访问总量比相邻两个统计时间段的访问总量大或小的统计时间段;确定子模块,用于若存在,则判断出上述访问总量比相邻两个统计时间段的访问总量大或小的统计时间段对应的访问总量为上述访问总量极值。进一步地,上述第二确定模块包括:第一检测子模块,用于加载预设单分类检测程序对上述访问总量极值和上述访问总量极值对应的上述统计时间段进行分类检测,得到检测结果;第一确定子模块,用于若上述检测结果指示上述统计时间段对应的上述访问总量异常,则确定上述网站在上述统计时间段发生上述访问异常;第二确定子模块,用于若上述检测结果指示上述统计时间段对应的上述访问总量正常,则确定上述网站在上述统计时间段未发生上述访问异常。在本发明实施例中,采用获取访问样本在预设时间段内每个统计时间段的访问总量的方式,通过确定多个访问总量中的访问总量极值和各个访问总量极值对应的统计时间段,达到了根据各个访问总量极值确定网站在对应的统计时间段内是否发生访问异常的目的,从而实现了准确检测网站是否发生访问异常的技术效果,进而解决了现有技术中网站访问异常检测不准确的技术问题。附图说明此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:图1是根据本发明实施例的一种可选地网站访问异常的检测方法的流程图;图2是根据本发明实施例的另一种可选地网站访问异常的检测方法的流程图;图3是根据本发明实施例的一种可选地网站访问异常的检测方法的示意图;图4是根据本发明实施例的又一种可选地网站访问异常的检测方法的流程图;图5是根据本发明实施例的另一种可选地网站访问异常的检测方法的示意图;图6是根据本发明实施例的又一种可选地网站访问异常的检测方法的流程图;图7是根据本发明实施例的一种可选地网站访问异常的检测装置的示意图。具体实施方式为了使本
技术领域
的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例 仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本发明实施例,提供了一种网站访问异常的检测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。实施例1图1是根据本发明实施例的一种网站访问异常的检测方法的流程图,如图1所示,该方法可以包括如下步骤:步骤S102,获取网站在预设时间段的访问样本;步骤S104,基于访问样本确定预设时间段内各个统计时间段的访问总量;步骤S106,确定多个访问总量中的访问总量极值和各个访问总量极值对应的统计时间段;步骤S108,根据各个访问总量极值确定网站在对应的统计时间段内是否发生访问异常。在本发明实施例中,采用获取访问样本在预设时间段内每个统计时间段的访问总量的方式,通过确定多个访问总量中的访问总量极值和各个访问总量极值对应的统计时间段,达到了根据各个访问总量极值确定网站在对应的统计时间段内是否发生访问异常的目的,从而实现了准确检测网站是否发生访问异常的技术效果,进而解决了现有技术中网站访问异常检测不准确的技术问题。其中,预设时间段可以为人为选取的某一时间范围或预先设置好的时间范围,访问样本可以为服务器采集的在该预设时间段内的网站的访问数据,需要说明的是,在 人为选取预设时间段和设置访问样本时,可以基于如下因素:历史数据中的网站异常高发时间段、网站异常检测时的准确度要求等。访问样本可以包含访问量和访问时间等,访问量可以通过pv(pageview,页面浏览量)来表示,页面浏览量pv是评价网络流量最常用的指标之一,页面浏览量pv中的page(页面)可以包括普通的HTML(HyperTextMarkupLanguage,超文本标记语言)网页,也可以包括PHP(HyperTextPreprocessor,超文本预处理器)、JSP(JavaServerPages,Java服务器页面)等动态产生的HTML内容。来自浏览器的一次HTML内容请求会被看作一个pv,访问量反映多次访问过程中逐渐累积的pv总数。此外,访问量还可以通过访问者ip来表示,在此不做赘述。可选地,如表1所示,预设时间段可以为一周,因此可以将一周之内每天的访问量作为访问样本,且设置每个访问样本的必要抽样单位数目为12(即在一天24小时中,每两小时进行一次抽样)。表1星期一星期二星期三星期四星期五星期六星期天0-2点52pv56pv48pv53pv42pv67pv64pv2-4点48pv43pv51pv52pv46pv59pv58pv4-6点32pv38pv32pv33pv25pv38pv45pv6-8点62pv67pv68pv72pv75pv85pv88pv8-10点105pv112pv121pv119pv127pv138pv147pv10-12点157pv134pv146pv148pv152pv163pv171pv12-14点149pv154pv164pv168pv170pv181pv183pv14-16点171pv183pv190pv187pv196pv208pv215pv16-18点186pv193pv197pv220pv213pv243pv231pv18-20点175pv164pv175pv186pv177pv221pv204pv20-22点254pv246pv265pv249pv266pv289pv275pv22-0点196pv186pv185pv196pv191pv183pv201pv可选地,如表1所示,在该预设时间段包含7个访问样本,例如,“访问样本1” 为(52pv、48pv、32pv、62pv、105pv、157pv、149pv、171pv、186pv、175pv、254pv、196pv),访问样本1中的第二个个体“48pv”表示在2点之后、4点之前(不超过4点)的时间段内,该网站的访问量为48pv。在该预设时间段内除过“访问样本1”之外的其余6个访问样本,在抽样规则和样本容量上与“访问样本1”类同,在此不一一列举。可选地,如表1所示,可以将一天中的每两小时作为一个统计时间段,则每天共有12个统计时间段。例如,在表中“2-4点”、即凌晨2点至凌晨4点的时间段为一个统计时间段,因此,可以依据7个访问样本将7天中的每天在该时间段的访问量进行求和,作为该统计时间段的访问总量,则“2-4点”的访问总量G(2-4)=48pv+43pv+51pv+52pv+46pv+59pv+58pv=357pv。在所有统计时间段内除过“2-4点”之外的其余11个统计时间段,在访问总量的计算方法上与“2-4点”类同,在此不一一计算并列举。由上述可知,表1中共计12个统计时间段,则12个统计时间段中的每个统计时间段对应唯一的访问总量,可以将12个访问总量按照统计时间段的时间顺序以图表的方式进行排列或示出。例如,可以以折线统计图或条形统计图的方式示出所有访问总量以及每个访问总量对应的统计时间段,所有访问总量可以按照统计时间段的时间顺序在图中依次排列。此外,也可以选用扇形统计图示出所有访问总量以及每个访问总量对应的统计时间段,但由于扇形统计图并不能直观示出所有访问总量的排列顺序,因此不作为本实施例的优选方案,但并不排除在某些特殊情况下的适用。可选地,在获取到所有访问总量并按照时间顺序进行排列之后,确定多个访问总量中的访问总量极值和各个访问总量极值对应的统计时间段,其中,该访问总量极值包括访问总量极大值和访问总量极小值。可选地,根据各个访问总量极值确定网站在对应的统计时间段内是否发生访问异常。考虑到现有技术中的网站访问异常的检测都是使用传统的时间序列方法,但并未考虑到网站访问异常的主要特征。例如,正常情况下10点、16点、21点为访问高峰,7点、13点、19点是访问低谷,若存在访问异常,则访问高峰或低谷出现的时间会偏离正常情况对应的时间,产生明显访问异常的时间特征。在上述实施例中,在设置统计时间段时,为达到更高的检测准确性,可以以每小时或每半小时的时间长度为统计时间段,例如,以每小时的时间长度为统计时间段,则每天共计24个统计时间段,因而对应于24个访问总量。在上述实施例中,表1仅作为对本发明的示例性说明,并不用于限定本发明的发 明精神和适用范围,表1的表格形式和表格内容都可以根据访问异常检测时的具体需求进行变动或优化。可选地,图2是根据本发明实施例的另一种可选地网站访问异常的检测方法的流程图,如图2所示,该方法可以包括如下步骤:步骤S202,根据多个访问总量生成统计图,其中,统计图中标示的访问总量按照时间顺序排列;步骤S204,确定统计图中的各个访问总量极值;步骤S206,读取统计图中各个访问总量极值分别对应的统计时间段。可选地,统计图中的访问总量极值可以包括访问总量极大值和访问总量极小值,而且访问总量极值可以出现多个。在确定访问总量极值时,可以在统计图中读取到各个访问总量极值分别对应的统计时间段。因此,统计图不仅反映了各个访问总量在统计时间段按照时间顺序排列时的变化情况,还反映了访问总量的数值大小和对应的统计时间段。可选地,如图3所示,图3为某网站在一个月内的访问量条形统计图,通过图3可直观得到以下信息:图3中共计24个统计时间段;图3中共计6个访问总量极值,分别包括3个访问总量极大值和3个访问总量极小值,其中,3个访问总量极大值分别出现在11点、16点和20点,而3个访问总量极小值分别出现在4点、13点和18点;图3中包括2个访问总量最值(有别于访问总量极值,访问总量极值在一天中可能出现多个,而访问总量最值只有2个),分别为访问总量最大值和访问总量最小值,其中,访问总量最大值出现在20点,访问总量最小值出现在4点。可选地,图4是根据本发明实施例的又一种可选地网站访问异常的检测方法的流程图,如图4所示,该方法可以包括如下步骤:步骤S402,判断统计图中是否存在访问总量比相邻两个统计时间段的访问总量大或小的统计时间段;步骤S404,若存在,则判断出访问总量比相邻两个统计时间段的访问总量大或小的统计时间段对应的访问总量为访问总量极值。可选地,判断统计图中是否存在比相邻的访问总量大或小的访问总量可以通过人为直观判断,也可以借助计算机等判断结果更为精准的辅助工具。其中,统计图中比相邻的访问总量大的访问总量为一个访问总量极大值,统计图中比相邻的访问总量小的访问总量为一个访问总量极小值。此外,统计图中比其余的访问总量都大的访问总 量为唯一的访问总量最大值,统计图中比其余的访问总量都小的访问总量为唯一的访问总量最小值。可选地,如图5所示,图5为某网站在一个月内的访问量折线统计图,通过该访问量折线统计图可以直观得到该网站在一天的统计总量的变化情况,通过该折线图中线段的走势可以直观判断出现访问总量极值的统计时间段。例如,在16点至18点的时间段内,反映访问总量变化的折线出现了先下降后上升的趋势,因此产生了一个访问总量极小值;而在18点至20点的时间段内,反映访问总量变化的折线出现了先上升后下降的趋势,因此产生了一个访问总量极大值。可选地,可以加载预设单分类检测程序对访问总量极值和访问总量极值对应的统计时间段进行分类检测,得到检测结果;若检测结果指示统计时间段对应的访问总量异常,则确定网站在统计时间段发生访问异常;若检测结果指示统计时间段对应的访问总量正常,则确定网站在统计时间段未发生访问异常。其中,单分类检测程序为一种可以进行数值处理的计算机程序,通过该程序能够得到被处理数值所实际反映的访问总量极值在对应的统计时间段是否发生异常的处理结果,该处理结果包括:访问异常,用于指示访问总量极值在对应的统计时间段发生异常;访问正常,用于指示访问总量极值在对应的统计时间段未发生异常。例如,在将数值输入运行在计算机中的单分类检测程序的信息输入界面并进行处理之后,单分类检测程序的显示界面会显示访问异常或访问正常的信息或符号。可选地,单分类检测程序可以包括:单类支持向量机算法One-Class-SVM(One-Class-SupportVectorMachine)和支持向量数据描述算法SVDD(SupportVectorDataDescription)。可选地,图6是根据本发明实施例的又一种可选地网站访问异常的检测方法的流程图,如图6所示,该方法可以包括如下步骤:步骤S602,对访问总量极值进行归一化处理,得到访问总量参数。其中,可以通过上述的归一化处理,将访问总量极值使用数值范围在(0,1)区间内的访问总量参数表示,该访问总量参数可以为小数。可选地,以上述全部访问总量极值的总和为基准参数,对各个访问总量进行归一化处理,如,计算各个访问总量与该全部访问总量极值的总和的比值;也可以将各个访问总量极值中的访问最大值作为基准参数,各个访问总量与该访问最大值的比值。在对访问总量进行归一化处理的过程中,还可以选取其他的基准参数,本申请对此不做限制。下面以将全部访问总量极值的总和为基准的处理方式为例,说明上述实施例:例如,获取某网站的各个访问总量极值为25000pv、35000pv、5000pv和15000pv,对各个访问总量极值进行如下处理:计算全部访问总量极值的总和:25000+35000+5000+15000=80000pv;分别计算各个访问总量与该全部访问总量极值的总和的比值:25000/80000=0.3125;35000/80000=0.4375;5000/80000=0.0625;15000/80000=0.1875。通过上述方式可以得到该网站的各个访问总量极值经归一化处理后的访问总量参数,分别为0.3125、0.4375、0.0625和0.1875。需要说明的是,以上所示的归一化处理的方法仅作示例性说明,并不用于限制其他适用于本发明的具体处理方法。步骤S604,通过预设单分类检测程序对访问总量参数和访问总量参数对应的统计时间段进行分类检测,得到检测结果。可选地,该预设的单分类检测程序可以在计算机上安装或运行,经归一化处理后得到的每一个访问总量参数都可以作为一个检测样本通过该计算机的输入设备输入至预设单分类检测程序,预设单分类检测程序将会根据检测样本的样本值、样本数量和VC维(Vapnik-ChervonenkisDimension,统计学中有关函数集学习性能的一个重要指标)等参数进行单分类检测,并最终得到检测结果。该检测结果可以在该计算机屏幕中的该预设单分类检测程序的显示界面上以字母、文字、数字或图像等方式显示,用于指示网站是否发生访问异常。例如,经预设单分类检测程序完成检测后,若用户读取到该显示界面上出现“Normal”单词字样,则了解到该网站未发生访问异常;若用户读取到该显示界面上出现“Abnormal”单词字样,则了解到该网站发生访问异常。其中的单类支持向量机算法One-Class-SVM(One-Class-SupportVectorMachine)可以根据所获得的目标数据(如,输入至单类支持向量机的访问总量参数和访问总量参数对应的统计时间段)估计目标数据的边界,并对该访问总量参数做出正确的分类。具体地,该单类支持向量机可以通过参数化或非参数化的方法估计访问总量参数的概率密度,然后通过设置阈值判别访问总量参数中的异常数据。其中,常用的分类方法 有基于Parzen窗的概率密度估计、各种聚类算法等。其中的支持向量数据描述算法SVDD(SupportVectorDataDescription)通过对访问总量参数和访问总量参数对应的统计时间段进行学习,得到该访问总量参数的分布区域,基于该分布区域将该访问总量参数分成正常和异常两类数据。具体到上述实施例中,通过上述的预设单分类检测程序可以基于访问总量参数和访问总量参数对应的统计时间段确定该访问总量参数的分布区域或边界,基于该确定的分布区域或边界对访问总量参数进行分类,得到正常或异常的检测结果。可选地,根据各个访问总量极值确定网站在对应的统计时间段内是否发生访问异常包括:若访问总量极值与统计时间段对应的预设访问量之差大于预设阈值,则确定网站在统计时间段发生访问异常;若访问总量极值与统计时间段对应的预设访问量之差不大于预设阈值,则确定网站在统计时间段未发生访问异常。在本发明实施例中,采用获取访问样本在预设时间段内每个统计时间段的访问总量的方式,通过确定多个访问总量中的访问总量极值和各个访问总量极值对应的统计时间段,达到了根据各个访问总量极值确定网站在对应的统计时间段内是否发生访问异常的目的,从而实现了准确检测网站是否发生访问异常的技术效果,进而解决了现有技术中网站访问异常检测不准确的技术问题。实施例2根据本申请实施例,还提供了一种网站访问异常的检测装置,如图7所示,该检测装置可以包括:第一获取模块72、第二获取模块74、第一确定模块76以及第二确定模块78。其中,第一获取模块72,用于获取网站在预设时间段的访问样本;第二获取模块74,用于基于访问样本确定预设时间段内各个统计时间段的访问总量;第一确定模块76,用于确定多个访问总量中的访问总量极值和各个访问总量极值对应的统计时间段;第二确定模块78,用于根据各个访问总量极值确定网站在对应的统计时间段内是否发生访问异常。在本发明实施例中,采用获取访问样本在预设时间段内每个统计时间段的访问总量的方式,通过第一确定模块76确定多个访问总量中的访问总量极值和各个访问总量 极值对应的统计时间段,达到了第二确定模块78根据各个访问总量极值确定网站在对应的统计时间段内是否发生访问异常的目的,从而实现了准确检测网站是否发生访问异常的技术效果,进而解决了现有技术中网站访问异常检测不准确的技术问题。其中,预设时间段可以为人为选取的某一时间范围,访问样本可以为人为设置的一个或多个样本,需要说明的是,在人为选取预设时间段和设置访问样本时,可以基于如下因素:历史数据中的网站异常高发时间段、网站异常检测时的准确度要求等。访问样本可以包含访问量和访问时间等,访问量可以通过pv(pageview,页面浏览量)来表示,页面浏览量pv是评价网络流量最常用的指标之一,页面浏览量pv中的page(页面)可以包括普通的HTML(HyperTextMarkupLanguage,超文本标记语言)网页,也可以包括PHP(HyperTextPreprocessor,超文本预处理器)、JSP(JavaServerPages,Java服务器页面)等动态产生的HTML内容。来自浏览器的一次HTML内容请求会被看作一个pv,访问量反映多次访问过程中逐渐累积的pv总数。此外,访问量还可以通过访问者ip来表示,在此不做赘述。可选地,如表1所示,预设时间段可以为一周,因此可以将一周之内每天的访问量作为访问样本,且设置每个访问样本的必要抽样单位数目为12(即在一天24小时中,每两小时进行一次抽样)。可选地,如表1所示,在该预设时间段包含7个访问样本,例如,“访问样本1”为(52pv、48pv、32pv、62pv、105pv、157pv、149pv、171pv、186pv、175pv、254pv、196pv),访问样本1中的第二个个体“48pv”表示在2点之后、4点之前(不超过4点)的时间段内,该网站的访问量为48pv。在该预设时间段内除过“访问样本1”之外的其余6个访问样本,在抽样规则和样本容量上与“访问样本1”类同,在此不一一列举。可选地,如表1所示,可以将一天中的每两小时作为一个统计时间段,则每天共有12个统计时间段。例如,在表中“2-4点”、即凌晨2点至凌晨4点的时间段为一个统计时间段,因此,可以依据7个访问样本将7天中的每天在该时间段的访问量进行求和,作为该统计时间段的访问总量,则“2-4点”的访问总量G(2-4)=48pv+43pv+51pv+52pv+46pv+59pv+58pv=357pv。在所有统计时间段内除过“2-4点”之外的其余11个统计时间段,在访问总量的计算方法上与“2-4点”类同,在此不一一计算并列举。由上述可知,表1中共计12个统计时间段,则12个统计时间段中的每个统计时间段对应唯一的访问总量,可以将12个访问总量按照统计时间段的时间顺序以图表的方式进行排列或示出。例如,可以以折线统计图或条形统计图的方式示出所有访问总 量以及每个访问总量对应的统计时间段,所有访问总量可以按照统计时间段的时间顺序在图中依次排列。此外,也可以选用扇形统计图示出所有访问总量以及每个访问总量对应的统计时间段,但由于扇形统计图并不能直观示出所有访问总量的排列顺序,因此不作为本实施例的优选方案,但并不排除在某些特殊情况下的适用。可选地,在第二获取模块74获取到所有访问总量并按照时间顺序进行排列之后,确定多个访问总量中的访问总量极值和各个访问总量极值对应的统计时间段,其中,该访问总量极值包括访问总量极大值和访问总量极小值。可选地,根据各个访问总量极值确定网站在对应的统计时间段内是否发生访问异常。考虑到现有技术中的网站访问异常的检测都是使用传统的时间序列方法,但并未考虑到网站访问异常的主要特征。例如,正常情况下10点、16点、21点为访问高峰,7点、13点、19点是访问低谷,若存在访问异常,则访问高峰或低谷出现的时间会偏离正常情况对应的时间,产生明显访问异常的时间特征。在上述实施例中,在设置统计时间段时,为达到更高的检测准确性,可以以每小时或每半小时的时间长度为统计时间段,例如,以每小时的时间长度为统计时间段,则每天共计24个统计时间段,因而对应于24个访问总量。可选地,第一确定模块76包括:生成子模块,用于根据多个访问总量生成统计图,其中,统计图中标示的访问总量按照时间顺序排列;获取子模块,用于确定统计图中的各个访问总量极值;读取子模块,用于读取统计图中各个访问总量极值分别对应的统计时间段。可选地,统计图中的访问总量极值可以包括访问总量极大值和访问总量极小值,而且访问总量极值可以出现多个。在确定访问总量极值时,可以在统计图中读取到各个访问总量极值分别对应的统计时间段。因此,统计图不仅反映了各个访问总量在统计时间段按照时间顺序排列时的变化情况,还反映了访问总量的数值大小和对应的统计时间段。可选地,获取子模块包括:判断子模块,用于判断统计图中是否存在访问总量比相邻两个统计时间段的访问总量大或小的统计时间段;确定子模块,用于若存在,则判断出访问总量比相邻两个统计时间段的访问总量大或小的统计时间段对应的访问总量为访问总量极值。可选地,判断统计图中是否存在比相邻的访问总量大或小的访问总量可以通过人为直观判断,也可以借助计算机等判断结果更为精准的辅助工具。其中,统计图中比相邻的访问总量大的访问总量为一个访问总量极大值,统计图中比相邻的访问总量小 的访问总量为一个访问总量极小值。此外,统计图中比其余的访问总量都大的访问总量为唯一的访问总量最大值,统计图中比其余的访问总量都小的访问总量为唯一的访问总量最小值。可选地,第二确定模块78包括:第一检测子模块,用于加载预设单分类检测程序对访问总量极值和访问总量极值对应的统计时间段进行分类检测,得到检测结果;第一确定子模块,用于若检测结果指示统计时间段对应的访问总量异常,则确定网站在统计时间段发生访问异常;第二确定子模块,用于若检测结果指示统计时间段对应的访问总量正常,则确定网站在统计时间段未发生访问异常。其中,单分类检测程序为一种可以进行数值处理的计算机程序,通过该程序能够得到被处理数值所实际反映的访问总量极值在对应的统计时间段是否发生异常的处理结果,该处理结果包括:访问异常,用于指示访问总量极值在对应的统计时间段发生异常;访问正常,用于指示访问总量极值在对应的统计时间段未发生异常。例如,在将数值输入运行在计算机中的单分类检测程序的信息输入界面并进行处理之后,单分类检测程序的显示界面会显示访问异常或访问正常的信息或符号。可选地,单分类检测程序可以包括:一类支持向量机算法One-Class-SVM(One-Class-SupportVectorMachine)和支持向量数据描述算法SVDD(SupportVectorDataDescription)。可选地,第一检测子模块包括:第一处理子模块,用于对访问总量极值进行归一化处理,得到访问总量参数;第二检测子模块,用于通过预设单分类检测程序对访问总量参数和访问总量参数对应的统计时间段进行分类检测,得到检测结果。其中,可以通过上述的归一化处理,将访问总量极值使用数值范围在(0,1)区间内的访问总量参数表示,该访问总量参数可以为小数。可选地,以上述全部访问总量极值的总和为基准参数,对各个访问总量进行归一化处理,如,计算各个访问总量与该全部访问总量极值的总和的比值;也可以将各个访问总量极值中的访问最大值作为基准参数,各个访问总量与该访问最大值的比值。在对访问总量进行归一化处理的过程中,还可以选取其他的基准参数,本申请对此不做限制。下面以将全部访问总量极值的总和为基准的处理方式为例,说明上述实施例:例如,获取某网站的各个访问总量极值为25000pv、35000pv、5000pv和15000pv,对各个访问总量极值进行如下处理:计算全部访问总量极值的总和:25000+35000+5000+15000=80000pv;分别计算各个访问总量与该全部访问总量极值的总和的比值:25000/80000=0.3125;35000/80000=0.4375;5000/80000=0.0625;15000/80000=0.1875。通过上述方式可以得到该网站的各个访问总量极值经归一化处理后的访问总量参数,分别为0.3125、0.4375、0.0625和0.1875。需要说明的是,以上所示的归一化处理的方法仅作示例性说明,并不用于限制其他适用于本发明的具体处理方法。可选地,该预设的单分类检测程序可以在计算机上安装或运行,经归一化处理后得到的每一个访问总量参数都可以作为一个检测样本通过该计算机的输入设备输入至预设单分类检测程序,预设单分类检测程序将会根据检测样本的样本值、样本数量和VC维(Vapnik-ChervonenkisDimension,统计学中有关函数集学习性能的一个重要指标)等参数进行单分类检测,并最终得到检测结果。该检测结果可以在该计算机屏幕中的该预设单分类检测程序的显示界面上以字母、文字、数字或图像等方式显示,用于指示网站是否发生访问异常。例如,经预设单分类检测程序完成检测后,若用户读取到该显示界面上出现“Normal”单词字样,则了解到该网站未发生访问异常;若用户读取到该显示界面上出现“Abnormal”单词字样,则了解到该网站发生访问异常。其中的单类支持向量机算法One-Class-SVM(One-Class-SupportVectorMachine)可以根据所获得的目标数据(如,输入至单类支持向量机的访问总量参数和访问总量参数对应的统计时间段)估计目标数据的边界,并对该访问总量参数做出正确的分类。具体地,该单类支持向量机可以通过参数化或非参数化的方法估计访问总量参数的概率密度,然后通过设置阈值判别访问总量参数中的异常数据。其中,常用的分类方法有基于Parzen窗的概率密度估计、各种聚类算法等。其中的支持向量数据描述算法SVDD(SupportVectorDataDescription)通过对访问总量参数和访问总量参数对应的统计时间段进行学习,得到该访问总量参数的分布区域,基于该分布区域将该访问总量参数分成正常和异常两类数据。具体到上述实施例中,通过上述的预设单分类检测程序可以基于访问总量参数和 访问总量参数对应的统计时间段确定该访问总量参数的分布区域或边界,基于该确定的分布区域或边界对访问总量参数进行分类,得到正常或异常的检测结果。可选地,第二确定模块78还包括:第三确定子模块,用于若访问总量极值与统计时间段对应的预设访问量之差大于预设阈值,则确定网站在统计时间段发生访问异常;第四确定子模块,用于若访问总量极值与统计时间段对应的预设访问量之差不大于预设阈值,则确定网站在统计时间段未发生访问异常。在本发明实施例中,采用获取访问样本在预设时间段内每个统计时间段的访问总量的方式,通过确定多个访问总量中的访问总量极值和各个访问总量极值对应的统计时间段,达到了根据各个访问总量极值确定网站在对应的统计时间段内是否发生访问异常的目的,从而实现了准确检测网站是否发生访问异常的技术效果,进而解决了现有技术中网站访问异常检测不准确的技术问题。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一 台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。以上所述仅是本发明的优选实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1