网站流量异常的检测方法和装置与流程

文档序号:12829111阅读:374来源:国知局
网站流量异常的检测方法和装置与流程

本申请涉及计算机领域,具体而言,涉及一种网站流量异常的检测方法和装置。



背景技术:

在现有的流量异常检测方法中,通常选取网站地址(url)的请求数量、流量、服务器的处理时间等指标作为分析网站流量异常的指标。在该方法中,简单的设定阈值,如果上述指标超过设定的阈值则认为网站流量异常。

在上述方法中,设定的阈值没有概率统计的基础,均为程序员人为设置,随意性很大,结果不可靠。并且指标本身是随时间变化的,譬如在工作日和节假日,流量本身就不一样;晚上九点钟的流量和凌晨四点的流量,也不一样。而设定一定阈值来判断网站的流量是否异常必然带来误判。

针对上述的问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请实施例提供了一种网站流量异常的检测方法和装置,以至少解决现有技术中检测网站流量异常准确率较低的技术问题。

根据本申请实施例的一个方面,提供了一种网站流量异常的检测方法,包括:获取预设时间段内使用多种浏览器访问多个网站的访问行为数据,得到访问行为数据集合;计算使用所述访问行为数据集合中使用每种浏览器的访问行为数据的第一比值,得到第一访问行为数据分布;计算所述多个网站中每个网站的访问行为数据中使用每种浏览器的访问行为数据的第二比值,得到与所述多个网站一一对应的多个第二访问行为数据分布;计算所述多个第二访问行为数据分布中每个第二访问行为数据分布与所述第一访问行为数据分布的相似度,得到与所述多个网站一一对应的多个相似度;根据计算出的相似度从所述多个网站中确定出目标网站,其中,所述目标网站为流量异常的网站。

进一步地,根据计算出的相似度从所述多个网站中确定出目标网站包括:从所述多个网站中选择相似度小于预设比例阈值的网站,作为所述目标网站;对所述多个相似度从小到大进行排序,选择前n个相似度对应的网站作为所述目标网站,其中,n为大于或者等于1的正整数;或者对所述多个相似度从小到大进行排序,选择前m%个相似度对应的网站作为所述目标网站,其中,m为大于或者等于1,且小于或者等于100的正整数。

进一步地,计算所述多个第二访问行为数据分布中每个第二访问行为数据分布与所述第一访问行为数据分布的相似度,得到与所述多个网站一一对应的多个相似度包括:通过公式计算所述相似度,其中,xi为所述第一访问行为分布中的第一比值、yi为所述第二访问行为分布中的第二比值,i依次取1至n,n为所述第一比值和所述第二比值的数量;或者通过公式计算所述相似度,其中,xi为所述第一访问行为分布中的第一比值、yi为所述第二访问行为分布中的第二比值,i依次取1至n,n为所述第一比值和所述第二比值的数量。

进一步地,在计算使用所述访问行为数据集合中使用每种浏览器的访问行为数据的第一比值,得到第一访问行为数据分布之前,所述方法还包括:按照所述第一比值对所述多种浏览器进行合并,得到多个目标浏览器;其中,计算使用所述访问行为数据集合中使用每种浏览器的访问行为数据的第一比值,得到第一访问行为数据分布包括:计算使用所述多个目标浏览器访问所述多个网站的访问行为数据中使用所述多个目标浏览器中每个目标浏览器的访问行为数据的第一比值,得到所述第一访问行为数据分布。

进一步地,所述多个目标浏览器包括第一目标浏览器和第二目标浏览器,按照所述第一比值对所述多种浏览器进行合并,得到多个目标浏览器包括:将所述第一比值按照降序进行排序;确定前k-1个第一比值对应的浏览器为所述第一目标浏览器,其中,k为大于或者等于1的正整数;将剩余n-k+1个第一比值所对应的浏览器合并为所述第二目标浏览器,并将所述n-k+1个第一比值合并为所述第二目标浏览器的占比,其中,所述第二目标浏览器的占比小于第k-1个第一比值。

根据本申请实施例的另一方面,还提供了一种网站流量异常的检测装置,包括:获取单元,用于获取预设时间段内使用多种浏览器访问多个网站的访问行为数据,得到访问行为数据集合;第一计算单元,用于计算使用所述访问行为数据集合中使用每种浏览器的访问行为数据的第一比值,得到第一访问行为数据分布;第二计算单元,用于计算所述多个网站中每个网站的访问行为数据中使用每种浏览器的访问行为数据的第二比值,得到与所述多个网站一一对应的多个第二访问行为数据分布;第三计算单元,用于计算所述多个第二访问行为数据分布中每个第二访问行为数据分布与所述第一访问行为数据分布的相似度,得到与所述多个网站一一对应的多个相似度;确定单元,用于根据计算出的相似度从所述多个网站中确定出目标网站,其中,所述目标网站为流量异常的网站。

进一步地,所述确定单元包括:第一选择模块,用于从所述多个网站中选择相似度小于预设比例阈值的网站,作为所述目标网站;第二选择模块,用于对所述多个相似度从小到大进行排序,选择前n个相似度对应的网站作为所述目标网站,其中,n为大于或者等于1的正整数;或者第三选择模块,用于对所述多个相似度从小到大进行排序,选择前m%个相似度对应的网站作为所述目标网站,其中,m为大于或者等于1,且小于或者等于100的正整数。

进一步地,所述第三计算单元包括:第一计算模块,用于通过公式计算所述相似度,其中,xi为所述第一访问行为分布中的第一比值、yi为所述第二访问行为分布中的第二比值,i依次取1至n,n为所述第一比值和所述第二比值的数量;或者第二计算模块,用于通过公式计算所述相似度,其中,xi为所述第一访问行为分布中的第一比值、yi为所述第二访问行为分布中的第二比值,i依次取1至n,n为所述第一比值和所述第二比值的数量。

进一步地,所述装置还包括:合并单元,用于在所述第一计算单元计算使用所述访问行为数据集合中使用每种浏览器的访问行为数据的第一比值,得到第一访问行为数据分布之前,按照所述第一比值对所述多种浏览器进行合并,得到多个目标浏览器;其中,所述第一计算单元包括:计算模块,用于计算使用所述访问行为数据集合中使用所述多个目标浏览器中每个目标浏览器的访问行为数据的第一比值,得到所述第一访问行为数据分布。

进一步地,所述多个目标浏览器包括第一目标浏览器和第二目标浏览器,所述合并单元包括:排序模块,用于将所述第一比值按照降序进行排序;确定模块,用于确定前k-1个第一比值对应的浏览器为所述第一目标浏览器,其中,k为大于或者等于1的正整数;合并模块,用于将剩余n-k+1个第一比值所对应的浏览器合并为所述第二目标浏览器,并将所述n-k+1个第一比值合并为所述第二目标浏览器的占比,其中,所述第二目标浏览器的占比小于第k-1个第一比值。

在本申请实施例中,采用获取预设时间段内使用多种浏览器访问多个网站的访问行为数据,得到访问行为数据集合;计算使用所述访问行为数据集合中使用每种浏览器的访问行为数据的第一比值,得到第一访问行为数据分布;计算所述多个网站中每个网站的访问行为数据中使用每种浏览器的访问行为数据的第二比值,得到与所述多个网站一一对应的多个第二访问行为数据分布;计算所述多个第二访问行为数据分布中每个第二访问行为数据分布与所述第一访问行为数据分布的相似度,得到与所述多个网站一一对应的多个相似度;根据计算出的相似度从所述多个网站中确定出目标网站,其中,所述目标网站为流量异常的网站的方式,通过根据访问行为数据计算第一访问行为数据分布和第二访问行为数据分布,并根据第一访问行为数据分布和第二访问行为数据分布计算相似度值,通过相似度来确定流量异常的网站,相对于现有技术中依赖人工排查异常网站的方法,达到了快速并准确检测流量异常网站的目的,进而解决了现有技术中检测网站流量异常准确率较低的技术问题,从而实现了提高流量异常网站检测效率的技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的一种网站流量异常的检测方法的流程图;以及

图2是根据本申请实施例的一种网站流量异常的检测装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例,提供了一种网站流量异常的检测方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的一种网站流量异常的检测方法的流程图,如图1所示,该方法包括如下步骤s102至步骤s110:

步骤s102,获取预设时间段内使用多种浏览器访问多个网站的访问行为数据,得到访问行为数据集合。

预设时间段可以选取为一天、一周或者一个月,浏览器可以为ie浏览器,360浏览器,或者其他浏览器,例如,chrome,safari,sougo,firefox等等。网站的访问行为数据可以有多种,在本实施例中,可以为该网站在预设时间段内的访问量和该网站在预设时间段内的访问流量等。

步骤s104,计算使用访问行为数据集合中使用每种浏览器的访问行为数据的第一比值,得到第一访问行为数据分布。

例如,ie浏览器,360浏览器,chrome浏览器,safari浏览器,sougo浏览器和firefox浏览器中多个网站的访问行为数据分别为a条、b条、c条、d条、e条和f条,则上述浏览器中每种浏览器的访问行为数据的第一比值分别为其中,x=a+b+c+d+e+f。上述多个第一比值即为第一访问行为数据分布,也称为benchmark分布。

步骤s106,计算多个网站中每个网站的访问行为数据中使用每种浏览器的访问行为数据的第二比值,得到与多个网站一一对应的多个第二访问行为数据分布。

例如,任意一个网站“a网站”,在ie浏览器,360浏览器,chrome浏览器,safari浏览器,sougo浏览器和firefox等浏览器中“a网站”的访问行为数据分别为a2条、b2条、c2条、d2条、e2条和f2条,a网站在上述浏览器中使用每种浏览器的访问行为数据的第二比值分别为:其中,x2=a2+b2+c2+d2+e2+f2,上述多个第二比值即为第二访问行为数据分布。

步骤s108,计算多个第二访问行为数据分布中每个第二访问行为数据分布与第一访问行为数据分布的相似度,得到与多个网站一一对应的多个相似度。

具体地,通过计算每个网站的第二访问行为数据分布与第一访问行为数据分布的相似度,可以确定流量异常的网站,还可以确定该流量异常网站的访问渠道,即用户在哪个浏览器中访问了该网站。

步骤s110,根据计算出的相似度从多个网站中确定出目标网站,其中,目标网站为流量异常的网站。

具体地,在本申请实施例中,计算出的相似度越小,表明网站流量异常的概率越高。

在本申请实施例中,通过根据访问行为数据计算第一访问行为数据分布和第二访问行为数据分布,并根据第一访问行为数据分布和第二访问行为数据分布计算相似度值,通过相似度来确定流量异常的网站,相对于现有技术中依赖人工排查异常网站的方法,达到了快速并准确检测流量异常网站的目的,进而解决了现有技术中检测网站流量异常准确率较低的技术问题,从而实现了提高流量异常网站检测效率的技术效果。

根据相似度从多个网站中确定出目标网站的有多种,在另一可选实施例中,可以包括以下任意一种方式:

方式一:

从多个网站中选择相似度小于预设比例阈值的网站,作为目标网站。

具体地,可以考虑设置预设比例阈值,来确定目标网站,即将计算出的相似度的值分别与预设比例阈值进行比较,并确定小于预设比例阈值的相似度对应的网站为流量异常的网站,还可以确定该流量异常网站的访问渠道。

方式二:

对多个相似度从小到大进行排序,选择前n个相似度对应的网站作为目标网站,其中,n为大于或者等于1的正整数。

具体地,可以对计算得到的多个相似度进行升序排序,得到一个相似度序列,选取该序列中的前n个较小相似度对应的网站作为流量异常的网站(即,目标网站),其中,n的取值用户可根据实际浏览器的种类和网站的数量决定。例如,1000个网站中,选取相似度序列中前10个相似度或前15个相似度所对应的网站为目标网站。

方式三:

对多个相似度从小到大进行排序,选择前m%个相似度对应的网站作为目标网站,其中,m为大于或者等于1,且小于或者等于100的正整数。

具体地,可以对计算得到的多个相似度进行升序排序,得到一个相似度序列,选取该序列中前m%个较小的相似度对应的网站为流量异常的网站。其中,m%为一个百分比值,m%的取值用户可根据实际需要来选取,例如选取相似度序列中前1%的相似度对应的网站为流量异常的网站。若网站的数量为1000,则流量异常的网站为10个。

可选地,在本申请实施例中,预设算法可以有多种,例如,皮尔逊相关系数算法或者通过kl散度公式等算法来计算相似度。优选地,计算多个第二访问行为数据分布中每个第二访问行为数据分布与第一访问行为数据分布的相似度,得到与多个网站一一对应的多个相似度包括:

通过kl散度公式计算相似度,kl散度计算的公式为:其中,xi为第一访问行为分布中的第一比值、yi为第二访问行为分布中的第二比值,i依次取1至n,n为第一比值和第二比值的数量。

还可以通过皮尔逊相关系数算法计算相似度,皮尔逊相关系数算法的计算公式为:其中,xi为第一访问行为分布中的第一比值、yi为第二访问行为分布中的第二比值,i依次取1至n,n为第一比值和第二比值的数量,x为第一访问行为分布中的第一比值的平均值,y为第二访问行为分布中的第二比值的平均值。

除上述两种计算方式外,在本申请中,还可以选取其他的计算方式来计算多个第二访问行为数据分布中每个第二访问行为数据分布于第一访问行为数据分布的相似度。例如,马氏距离算法、切比雪夫距离算法等。

可选地,在计算使用访问行为数据集合中使用每种浏览器的访问行为数据的第一比值,得到第一访问行为数据分布之前,方法还包括如下步骤s1:按照第一比值对多种浏览器进行合并,得到多个目标浏览器。

具体地,若浏览器的数量较多时,由于某些浏览器计算得到的占比较小,会导致计算得到的相似度的误差较大。因此,在得到第一访问行为数据分布之前,可以按照第一比值对多种浏览器进行合并,得到合并之后的多种浏览器(即,目标浏览器)。例如,浏览器由合并之前的100个变为合并之后的10个。

计算使用访问行为数据集合中使用每种浏览器的访问行为数据的第一比值,得到第一访问行为数据分布包括步骤s3:计算使用多个目标浏览器访问多个网站的访问行为数据中使用多个目标浏览器中每个目标浏览器的访问行为数据的第一比值,得到第一访问行为数据分布。具体地,当多种浏览器合并得到多个目标浏览器之后,得到多个目标浏览器的第一访问行为数据,进而计算多个网站中每个网站的访问行为数据中使用每个目标浏览器的访问行为数据的第二比值,得到第二访问行为数据分布。

可选地,多个目标浏览器包括第一目标浏览器和第二目标浏览器,按照占比对多种浏览器进行合并,得到多个目标浏览器包括如下步骤s11至步骤s15:

步骤s11,将多个第一比值按照降序进行排序。

步骤s13,确定前k-1个第一比值对应的浏览器为第一目标浏览器,其中,k为大于或者等于1的正整数。

步骤s15,将剩余n-k+1个第一比值所对应的浏览器合并为第二目标浏览器,并将n-k+1个第一比值合并为第二目标浏览器的占比,其中,第二目标浏览器的占比小于第k-1个第一比值。

假设,浏览器的数量n=100个,通过计算可以得到100个第一比值,分别为x1~x100,可以将该100第一比值按照降序进行排序,得到第一比值的排序序列。用户可以根据计算出的第一比值来确定k的取值,例如,选取前9个(即,k=10)较大的第一比值对应的浏览器为第一目标浏览器,即,得到9个第一目标浏览器。然后将序列中的后n-k+1=91个浏览器合并为第二目标浏览器,并计算后91个浏览器的第一比值的和,该和即为第二目标浏览器的占比。通过合并之后,得到的10个目标浏览器的第一比值分别为x1、x2、x3、x4、x5、x6、x7、x8、x9和y10,其中,y10=x10+x11+x12+……+x100。

在得到上述10个目标浏览器的第一比值后,得到目标浏览器的第一访问行为数据的分布,然后,分别计算该“a网站”与上述10个目标浏览器的占比。假设,在10个目标浏览器中“a网站”的访问行为数据分别为k1、k2、k3、k4、k5、k6、k7、k8、k9、和k10,计算第二比值分别为:其中,m=k1+k2+...+k10,根据第二比值得到的第二访问行为数据分布为:

进而根据第一访问行为数据分布{x1、x2、x3、x4、x5、x6、x7、x8、x9、y10}和计算相似度,最后,根据相似度确定目标网站。

通过本申请提供的网站流量异常的检测方法,不再依赖于传统的人工排查,通过全网数据计算benchmark分布,并计算每个网站的分布与benchmark分布的相似度,进而根据相似度即可准确快速地确定流量异常的网站。

本申请实施例还提供了一种网站流量异常的检测装置,该检测装置主要用于执行本申请实施例上述内容所提供的网站流量异常的检测方法,以下对本申请实施例所提供的网站流量异常的检测装置做具体介绍。

图2是根据本申请实施例的一种网站流量异常的检测装置的示意图,如图2所示,该网站流量异常的检测装置主要包括获取单元10、第一计算单元20、第二计算单元30、第三计算单元40和确定单元50,其中:

获取单元10,用于获取预设时间段内使用多种浏览器访问多个网站的访问行为数据,得到访问行为数据集合。

预设时间段可以选取为一天、一周或者一个月,浏览器可以为ie浏览器,360浏览器,或者其他浏览器,例如,chrome,safari,sougo,firefox等等。网站的访问行为数据可以有多种,在本实施例中,可以为该网站在预设时间段内的访问量和该网站在预设时间段内的访问流量等。

第一计算单元20,用于计算使用访问行为数据集合中使用每种浏览器的访问行为数据的第一比值,得到第一访问行为数据分布。

例如,ie浏览器,360浏览器,chrome浏览器,safari浏览器,sougo浏览器和firefox浏览器中多个网站的访问行为数据分别为a条、b条、c条、d条、e条和f条,则上述浏览器中每种浏览器的访问行为数据的第一比值分别为其中,x=a+b+c+d+e+f。上述多个第一比值即为第一访问行为数据分布。

第二计算单元30,用于计算多个网站中每个网站的访问行为数据中使用每种浏览器的访问行为数据的第二比值,得到与多个网站一一对应的多个第二访问行为数据分布。

例如,任意一个网站“a网站”,在ie浏览器,360浏览器,chrome浏览器,safari浏览器,sougo浏览器和firefox等浏览器中“a网站”的访问行为数据分别为a2条、b2条、c2条、d2条、e2条和f2条,a网站在上述浏览器中使用每种浏览器的访问行为数据的第二比值分别为:其中,x2=a2+b2+c2+d2+e2+f2。上述多个第二比值即为第二访问行为数据分布。

第三计算单元40,用于计算多个第二访问行为数据分布中每个第二访问行为数据分布与第一访问行为数据分布的相似度,得到与多个网站一一对应的多个相似度。

具体地,通过计算每个网站的第二访问行为数据分布与第一访问行为数据分布的相似度,可以确定流量异常的网站,还可以确定该流量异常网站的访问渠道,即用户在哪个浏览器中访问了该网站。

确定单元50,用于根据计算出的相似度从多个网站中确定出目标网站,其中,目标网站为流量异常的网站。

具体地,在本申请实施例中,计算出的相似度越小,表明网站流量异常的概率越高。

在本申请实施例中,通过根据访问行为数据计算第一访问行为数据分布和第二访问行为数据分布,并根据第一访问行为数据分布和第二访问行为数据分布计算相似度值,通过相似度来确定流量异常的网站,相对于现有技术中依赖人工排查异常网站的方法,达到了快速并准确检测流量异常网站的目的,进而解决了现有技术中检测网站流量异常准确率较低的技术问题,从而实现了提高流量异常网站检测效率的技术效果。

可选地,确定单元包括:第一选择模块,用于从多个网站中选择相似度小于预设比例阈值的网站,作为目标网站;第二选择模块,用于对多个相似度从小到大进行排序,选择前n个相似度对应的网站作为目标网站,其中,n为大于或者等于1的正整数;或者第三选择模块,用于对多个相似度从小到大进行排序,选择前m%个相似度对应的网站作为目标网站,其中,m为大于或者等于1,且小于或者等于100的正整数。

具体地,可以考虑设置预设比例阈值,来确定目标网站,即将计算出的相似度的值分别与预设比例阈值进行比较,并确定小于预设比例阈值的相似度对应的网站为流量异常的网站,还可以确定该流量异常网站的访问渠道。

还可以对计算得到的多个相似度进行升序排序,得到一个相似度序列,通过调用第二选择模块来选取该序列中的前n个较小相似度对应的网站作为流量异常的网站(即,目标网站),其中,n的取值用户可根据实际浏览器的种类和网站的数量决定。例如,1000个网站中,选取相似度序列中前10个相似度或前15个相似度对应的网站为目标网站。

可以对计算得到的多个相似度进行升序排序,得到一个相似度序列,通过调用第三选取模块来选取该序列中前m%个较小的相似度对应的网站为流量异常的网站。其中,m%为一个百分比值,m%的取值用户可根据实际需要来选取,例如选取相似度序列中前1%的相似度对应的网站为流量异常的网站。若网站的数量为1000,则流量异常的网站为10个。

可选地,第三计算单元包括:第一计算模块,用于通过公式计算相似度,其中,xi为第一访问行为分布中的第一比值、yi为第二访问行为分布中的第二比值,i依次取1至n,n为第一比值和第二比值的数量;或者第二计算模块,用于通过公示计算相似度,其中,xi为第一访问行为分布中的第一比值、yi为第二访问行为分布中的第二比值,i依次取1至n,n为第一比值和第二比值的数量。

通过kl散度公式计算相似度,kl散度计算的公式为:其中,xi为第一访问行为分布中的第一比值、yi为第二访问行为分布中的第二比值,i依次取1至n,n为第一比值和第二比值的数量。

还可以通过皮尔逊相关系数算法计算相似度,皮尔逊相关系数算法的计算公式为:其中,xi为第一访问行为分布中的第一比值、yi为第二访问行为分布中的第二比值,i依次取1至n,n为第一比值和第二比值的数量。

除上述两种计算方式外,在本申请中,还可以选取其他的计算方式来计算多个第二访问行为数据分布中每个第二访问行为数据分布于第一访问行为数据分布的相似度。例如,马氏距离算法、切比雪夫距离算法等。

可选地,检测装置还包括:合并单元,用于在第一计算单元计算使用访问行为数据集合中使用每种浏览器的访问行为数据的第一比值,得到第一访问行为数据分布之前,按照第一比值对多种浏览器进行合并,得到多个目标浏览器;具体地,若浏览器的数量较多时,由于某些浏览器计算得到的占比较小,会导致计算得到的相似度的误差较大。因此,在得到第一访问行为数据分布之前,可以按照第一比值对多种浏览器进行合并,得到合并之后的多种浏览器(即,目标浏览器)。例如,浏览器由合并之前的100个变为合并之后的10个。

其中,第一计算单元包括:计算模块,用于计算使用多个目标浏览器访问多个网站的访问行为数据中使用多个目标浏览器中每个目标浏览器的访问行为数据的第一比值,得到第一访问行为数据分布。具体地,当多种浏览器合并得到多个目标浏览器之后,得到多个目标浏览器的第一访问行为数据,进而计算多个网站中每个网站的访问行为数据中使用每个目标浏览器的访问行为数据的第二比值,得到第二访问行为数据分布。

可选地,多个目标浏览器包括第一目标浏览器和第二目标浏览器,合并单元包括:排序模块,用于将多个第一比值按照降序进行排序;确定模块,用于确定前k-1个第一比值对应的浏览器为第一目标浏览器,其中,k为大于或者等于1的正整数;合并模块,用于将剩余n-k+1个第一比值所对应的浏览器合并为第二目标浏览器,并将n-k+1个第一比值合并为第二目标浏览器的占比,其中,第二目标浏览器的占比小于第k-1个第一比值。

假设,浏览器的数量n=100个,通过计算可以得到100个第一比值,分别为x1~x100,通过调用排序模块将该100第一比值按照降序进行排序,得到第一比值的排序序列。并通过调用确定模块根据计算出第一比值的值,来确定k的取值,例如,选取前9个(即,k=10)较大的第一比值对应的浏览器为第一目标浏览器,即,得到9个第一目标浏览器。然后通过调用合并模块将序列中的后n-k+1=91个浏览器合并为第二目标浏览器,并计算后91个浏览器的第一比值的和,该和即为第二目标浏览器的占比。通过合并之后,得到的10个目标浏览器的第一比值的值分别为x1、x2、x3、x4、x5、x6、x7、x8、x9和y10,其中,y10=x10+x11+x12+……+x100。

所述网站流量异常的检测装置包括处理器和存储器,上述获取单元、第一计算单元、第二计算单元、第三计算单元和确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来快速并准确检测流量异常网站,进而解决了现有技术中检测网站流量异常准确率较低的技术问题,从而实现了提高流量异常网站检测效率的技术效果。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取预设时间段内使用多种浏览器访问多个网站的访问行为数据,得到访问行为数据集合;计算使用所述访问行为数据集合中使用每种浏览器的访问行为数据的第一比值,得到第一访问行为数据分布;计算所述多个网站中每个网站的访问行为数据中使用每种浏览器的访问行为数据的第二比值,得到与所述多个网站一一对应的多个第二访问行为数据分布;计算所述多个第二访问行为数据分布中每个第二访问行为数据分布与所述第一访问行为数据分布的相似度,得到与所述多个网站一一对应的多个相似度;以及根据计算出的相似度从所述多个网站中确定出目标网站,其中,所述目标网站为流量异常的网站。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1