异常流量的检测方法和装置与流程

文档序号:11063870阅读:641来源:国知局
异常流量的检测方法和装置与制造工艺

本申请涉及数据处理领域,具体而言,涉及一种异常流量的检测方法和装置。



背景技术:

互联网广告就是通过网络平台在网络上投放广告,利用网站上的广告条幅、文本链接、多媒体的方法,在互联网上刊登或发布广告,通过网络传递到互联网用户的一种高科技广告运作方法。与传统的四大媒体(报纸、杂志、电视、广播)广告及户外广告相比,互联网广告具有得天独厚的优势,是实施现代营销媒体战略的重要的一部分。

对于广告主在互联网广告平台上投放的广告,互联网用户的访问情况是评价一个广告效果的重要指标,如广告的曝光量、点击量、访客的访问量、访问时长、访问页面数等等。广告的曝光量、点击量是广告媒体收取费用的凭借之一,实际投放中,有不少媒体利用虚假流量来提高广告主的广告曝光量和点击量,从而获得更多的利益,广告主就要对没有任何效果的虚假流量买单,流量作弊对广告主的利益产生了损害。

针对上述的问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请实施例提供了一种异常流量的检测方法和装置,以至少解决现有技术中由于某些访客流量作弊造成的广告主利益受损害的技术问题。

根据本申请实施例的一个方面,提供了一种异常流量的检测方法,包括:从广告的监测数据中提取访客访问所述广告的访客数据,其中,所述访客和所述访客数据均为多个,每个所述访客数据均包括访客标识和访问所述广告的时间信息;从多个所述访客数据中提取第一访客数据,其中,所述第一访客数据为多个所述访客数据中时间信息在第一预设时间内的访客数据,并且所述第一访客数据的数量为多个;判断访客标识为同一个第一访客标识的任意两个所述第一访客数据的时间差是否在第二预设时间内;如果判断出访客标识为同一个所述第一访客标识的相邻的任意两个所述第一访客数据的时间差在所述第二预设时间内,从所述第一访客数据中提取出第二访客数据, 并确定所述第二访客为导致流量异常的访客,其中,所述第二访客数据为满足第一预设条件的所述第一访客数据,所述第一预设条件为访客标识为同一个所述第一访客标识的任意两个所述第一访客数据的时间差在所述第二预设时间内。

进一步地,在从多个所述访客数据中提取第一访客数据之后,所述方法还包括:将所述第一访客数据存储至第一数据库。

进一步地,在从所述第一访客数据中提取出第二访客数据之后,所述方法还包括:将所述第二访客数据存储至第二数据库。

进一步地,在从所述第一访客数据中提取出第二访客数据之后,所述方法还包括:根据所述第二访客数据的时间信息,计算访客标识相同的所述第二访客数据随时间的分布。

进一步地,在计算访客标识相同的所述第二访客数据随时间的分布之后,所述方法还包括:提取目标访客的目标时间段,其中,所述目标访客是所述第二访客数据的访客标识所标识的访客,所述目标时间段是满足第二预设条件的时间段,所述第二预设条件是在所述目标时间段内,所述第二访客数据的个数大于第一阈值;对多个所述目标访客的相同的目标时间段的个数进行求和,得到多个所述目标时间段的数量;筛选出多个所述目标时间段中数量大于第二阈值的目标时间段,得到容易产生异常流量的时间段。

根据本申请实施例的另一方面,提供了一种异常流量的检测装置,包括:第一提取单元,用于从广告的监测数据中提取访客访问所述广告的访客数据,其中,所述访客和所述访客数据均为多个,每个所述访客数据均包括访客标识和访问所述广告的时间信息;第二提取单元,用于从多个所述访客数据中提取第一访客数据,其中,所述第一访客数据为多个所述访客数据中时间信息在第一预设时间内的访客数据,并且所述第一访客数据的数量为多个;判断单元,用于判断访客标识为同一个第一访客标识的任意两个所述第一访客数据的时间差是否在第二预设时间内;第三提取单元,用于当判断出访客标识为同一个所述第一访客标识的相邻的任意两个所述第一访客数据的时间差在所述第二预设时间内时,从所述第一访客数据中提取出第二访客数据,并确定所述第二访客为导致流量异常的访客,其中,所述第二访客数据为满足第一预设条件的所述第一访客数据,所述第一预设条件为访客标识为同一个所述第一访客标识的任意两个所述第一访客数据的时间差在所述第二预设时间内。

进一步地,所述装置还包括:第一存储单元,用于在所述第二提取单元从多个所述访客数据中提取第一访客数据之后,将所述第一访客数据存储至第一数据库。

进一步地,所述装置还包括:第二存储单元,用于在所述第三提取单元从所述第一访客数据中提取出第二访客数据之后,将所述第二访客数据存储至第二数据库。

进一步地,所述装置还包括:第一计算单元,用于在所述第三提取单元从所述第一访客数据中提取出第二访客数据之后,根据所述第二访客数据的时间信息,计算访客标识相同的所述第二访客数据随时间的分布。

进一步地,所述装置还包括:第四提取单元,用于在所述第一计算单元计算访客标识相同的所述第二访客数据随时间的分布之后,提取目标访客的目标时间段,其中,所述目标访客是所述第二访客数据的访客标识所标识的访客,所述目标时间段是满足第二预设条件的时间段,所述第二预设条件是在所述目标时间段内,所述第二访客数据的个数大于第一阈值;第二计算单元,用于对多个所述目标访客的相同的目标时间段的个数进行求和,得到多个所述目标时间段的数量;筛选单元,用于筛选出多个所述目标时间段中数量大于第二阈值的目标时间段,得到容易产生异常流量的时间段。

在本申请实施例中,采用从广告的监测数据中提取访客访问广告的访客数据,其中,访客和访客数据均为多个,每个访客数据均包括访客标识和访问广告的时间信息,从多个访客数据中提取第一访客数据,其中,第一访客数据为多个访客数据中时间信息在第一预设时间内的访客数据,并且第一访客数据的数量为多个,判断访客标识为同一个第一访客标识的相邻的任意两个第一访客数据的时间差是否在第二预设时间内,如果判断出访客标识为同一个第一访客标识的任意两个第一访客数据的时间差在第二预设时间内,从第一访客数据中提取出第二访客数据,并确定所述第二访客为导致流量异常的访客,其中,第二访客数据为满足第一预设条件的第一访客数据,第一预设条件为访客标识为同一个第一访客标识的任意两个第一访客数据的时间差在第二预设时间内。通过提取出指定时间段内的访客数据,判断提取出来的访客数据中,属于同一个访客的若干条访客数据中相邻的任意两条访客数据的时间差是不是非常短,如果判断出属于同一个访客的若干条访客数据的相邻的任意两条访客数据的时间差非常短,那么确定这个访客为进行了流量作弊的访客,该访客产生的流量为作弊流量,即虚假流量,也可以说是异常流量,实现了筛选出进行了流量作弊的访客的技术效果,进而解决了现有技术中由于某些访客流量作弊造成的广告主利益受损害的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例的异常流量的检测方法的流程图;

图2是根据本申请实施例所提供的异常流量的检测方法进行异常流量检测的流程图;以及

图3是根据本申请实施例的异常流量的检测装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例,提供了一种异常流量的检测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的异常流量的检测方法的流程图,如图1所示,该方法包括如下步骤:

步骤S102,从广告的监测数据中提取访客访问广告的访客数据,其中,访客和访客数据均为多个,每个访客数据均包括访客标识和访问广告的时间信息。访客为多个,一般来说,每个访客的访问数据也有多个,每个访客数据均包括访客标识和访问广告的时间信息,访客标识唯一标识了一个访客。本申请实施例所提供的异常流量的检测方法,既可以应用于筛选曝光异常的访客数据,也可以应用于筛选点击异常的访客数据。

步骤S104,从多个访客数据中提取第一访客数据,其中,第一访客数据为多个访 客数据中时间信息在第一预设时间内的访客数据,并且第一访客数据的数量为多个。提取出访问时间在指定时间段内的访客数据,指定时间段是普通访客访问广告的行为很少发生的时间段,即第一预设时间,如凌晨00:00:00-06:00:00,凌晨00:00:00-05:00:00,等等,指定时间段可以根据实际需要进行设置。如果有一个访客在该指定时间段对广告进行了访问,那么该访客就比较可疑,有可能进行了流量作弊行为,需要进一步判断。在第一预设时间内产生的访客数据是第一访客数据。

步骤S106,判断访客标识为同一个第一访客标识的相邻的任意两个第一访客数据的时间差是否在第二预设时间内。即,如果发现有一个访客在指定时间段对广告进行了访问,判断这个访客产生的访客数据中相邻的任意两条访客数据的时间差是否小于一个很短的时间段,如1秒钟、2秒钟、3秒钟,等等,这个很短的时间段即为第二预设时间。

步骤S108,如果判断出访客标识为同一个第一访客标识的任意两个第一访客数据的时间差在第二预设时间内,从第一访客数据中提取出第二访客数据,并确定第二访客为导致流量异常的访客,其中,第二访客数据为满足第一预设条件的第一访客数据,第一预设条件为访客标识为同一个第一访客标识的任意两个第一访客数据的时间差在第二预设时间内。

如果判断出有一个访客在指定时间段对广告进行了访问,且这个访客的相邻的任意两条访客数据的时间差在第二预设时间内,则这个访客进行了流量作弊行为,此访客产生的访问数据为作弊流量,也是异常流量。

例如,从广告的监测数据中提取出300条访客数据,假设第一预设时间为00:00:00-01:00:00,这300条访客数据中有20条访客数据的访问时间在00:00:00-01:00:00之间,提取出这20条访客数据,如表1所示,这20条访客数据即为第一访客数据。这20条访客数据具有4个不同的访客标识,分别为访客标识A、访客标识B、访客标识C、访客标识D,也就是说,这20条数据是由4个不同的访客产生的。假设访客标识A所标识的访客为访客甲,访客标识B所标识的访客为访客乙,访客标识C所标识的访客为访客丙,访客标识D所标识的访客为访客丁。

访客甲产生了3条第一访客数据,分别为第一访客数据6、第一访客数据14、第一访客数据19。访客乙产生了3条第一访客数据,分别为第一访客数据7、第一访客数据15、第一访客数据18。访客丙产生了10条第一访客数据,分别为第一访客数据1、第一访客数据2、第一访客数据3、第一访客数据4、第一访客数据5、第一访客数据8、第一访客数据10、第一访客数据11、第一访客数据12、第一访客数据13。访客丁产生了4条第一访客数据,分别为第一访客数据9、第一访客数据16、第一访客 数据17、第一访客数据20。

接下来判断访客标识为同一个第一访客标识的相邻的任意两个第一访客数据的时间差是否在第二预设时间内,假设第二预设时间为3秒钟。由表1可以看出,访客标识为A的3条第一访客数据中,第一访客数据6的访问时间为00:03:06、第一访客数据14的访问时间为00:03:16、第一访客数据19的访问时间为00:58:35。这3条第一访客数据的相邻的两条第一访客数据的时间差大于3秒钟。同理,可判断出访客标识为B的3条第一访客数据相邻的两条第一访客数据的时间差大于3秒钟,访客标识为D的4条第一访客数据相邻的两条第一访客数据的时间差大于3秒钟。访客标识为C的10条第一访客数据相邻的任意两条第一访客数据的时间差在3秒钟之内,因此,提取出访客标识为C的10条第一访客数据,这10条第一访客数据即为第二访客数据。

由于普通的访客很少在00:00:00-01:00:00之间访问广告,所以访客甲、访客乙、访客丙和访客丁都可能进行了流量作弊,但这仅是一种可能性,还需要进行进一步判断。访客甲、访客乙、访客丁的访客数据的时间差较长,符合正常访客的行为模式,而访客丙的访客数据的时间差非常短,正常访客不会如此频繁地点击广告,所以访客丙为进行了流量作弊的访客,访客丙的访客数据为作弊流量,即虚假流量,也可以称为异常流量。

虚假流量一般是某些进行了流量作弊行为的访客在某个特定的时间段频繁访问广告造成的。通过上述实施例,提取出指定时间段内的访客数据,判断提取出来的访客数据中,属于同一个访客的若干条访客数据中相邻的任意两条访客数据的时间差是不是非常短,如果判断出属于同一个访客的若干条访客数据的相邻的任意两条访客数据的时间差非常短,那么确定这个访客为进行了流量作弊的访客,该访客产生的流量为作弊流量,即虚假流量,也可以说是异常流量,实现了筛选出进行了流量作弊的访客的技术效果,进而解决了现有技术中由于某些访客流量作弊造成的广告主利益受损害的技术问题。

表1

可选地,在从多个访客数据中提取第一访客数据之后,本申请实施例所提供的异常流量的检测方法还包括:将第一访客数据存储至第一数据库。即,将访问广告的访问时间在指定时间内(第一预设时间)的访客数据存储至数据库,这些访客数据是可疑的,有可能是虚假流量,需要进一步判断。

可选地,在从第一访客数据中提取出第二访客数据之后,本申请实施例所提供的异常流量的检测方法还包括:将第二访客数据存储至第二数据库。即,将访问广告的访问时间在指定时间内,且相邻的访问数据的时间差极短的访客数据存储在数据库中,这些访客数据是虚假流量,产生这些访客数据的访客进行了流量作弊。

可选地,在从第一访客数据中提取出第二访客数据之后,本申请实施例所提供的异常流量的检测方法还包括:根据第二访客数据的时间信息,计算访客标识相同的第二访客数据随时间的分布。即,提取出作弊产生的访客数据之后,将访客标识相同的访客数据归为一组,为同一个访客产生。计算出进行了流量作弊行为的访客的作弊流量随时间的分布。

例如,计算每一个进行了流量作弊的访客在00:00:00-05:00:00之间每一分钟产生的访客数据数量。再例如,计算每一个进行了流量作弊的访客在00:00:00-23:59:59之间每一分钟产生的访客数据数量。又例如,计算每一个进行了流量作弊的访客在23:00:00-次日07:00:00之间每一小时产生的访客数据数量。

可选地,在计算访客标识相同的第二访客数据随时间的分布之后,本申请实施例所提供的异常流量的检测方法还包括:提取目标访客的目标时间段,其中,目标访客是第二访客数据的访客标识所标识的访客,目标时间段是满足第二预设条件的时间段, 第二预设条件是在目标时间段内,第二访客数据的个数大于第一阈值;对多个目标访客的相同的目标时间段的个数进行求和,得到多个目标时间段的数量;筛选出多个目标时间段中数量大于第二阈值的目标时间段,得到容易产生异常流量的时间段。

即,当计算出进行了流量作弊的访客的访客数据的数量随时间的分布关系后,提取出虚假流量大的时间段,即目标时间段,每一个进行了流量作弊的访客都存在一个或者几个目标时间段,将多个进行了流量作弊的访客的目标时间段中相同的目标时间段的个数进行求和,得到每个目标时间段进行流量作弊的访客的个数,筛选出那些访客进行流量作弊行为集中的时间段。

例如,提取出的第二访客数据的访客标识所标识的访客有10个,分别为访客1、访客2、访客3、访客4、访客5、访客6、访客7、访客8、访客9、访客10。

计算这10个访客在00:00:00-05:00:00之间的每一小时的访客数据的数量,得到表2。

表2

假设访客访问数据数量最多的3个时间段为目标时间段,则由表2可以看出:

访客1的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、04:00:01-05:00:00。

访客2的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、03:00:01-04:00:00。

访客3的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、04:00:01-05:00:00。

访客4的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、03:00:01-04:00:00。

访客5的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、03:00:01-04:00:00。

访客6的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、02:00:01-03:00:00。

访客7的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、02:00:01-03:00:00。

访客8的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、04:00:01-05:00:00。

访客9的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、02:00:01-03:00:00。

访客10的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、02:00:01-03:00:00。

时间段00:00:01-01:00:00为访客1、访客2、访客3、访客4、访客5、访客6、访客7、访客8、访客9、访客10的目标时间段,所以目标时间段00:00:01-01:00:00的个数为10,同理,目标时间段01:00:01-02:00:00的个数为10,目标时间段02:00:01-03:00:00的个数为4,目标时间段03:00:01-04:00:00的个数为3,目标时间段04:00:01-05:00:00的个数为3。

筛选出这5个目标时间段中个数大于5的目标时间段,得到目标时间段00:00:01-01:00:00和目标时间段01:00:01-02:00:00。则时间段00:00:01-01:00:00和时间段01:00:01-02:00:00是异常流量高发时段,也就是说,作弊流量的相当大的一部分都发生在这个时间,也可以说,这个时间产生的流量不能真实地反映访客对广告所推销的产品的需求。

图2是根据本申请实施例所提供的异常流量的检测方法进行异常流量检测的流程图。如图2所示,在进行异常流量的检测过程中,主要包括以下步骤:

步骤S202,在广告平台部署广告监测代码。

步骤S204,获取访客访问广告的访客数据。步骤S204与上述步骤S102的具体实施方式相同,不再赘述。

步骤S206,判断任意访客数据的访问时间是否在00:00:00-05:00:00之间。如果判断出访客数据的访问时间在00:00:00-05:00:00之间,执行步骤S208;如果判断出访客数据的访问时间不在00:00:00-05:00:00之间,执行步骤S220。步骤S206与上述步骤S104的具体实施方式相同。

步骤S208,将访客数据存储至数据库1。

步骤S210,判断同一个user id的相邻的任意两条访客数据的时间差是否在0-3s之内。如果判断出同一个user id的相邻的任意两条访客数据的时间差在0-3s之内,执行步骤S212;如果判断出同一个user id的相邻的任意两条访客数据的时间差不都在0-3s之内,执行步骤S220。步骤S210与上述步骤S106、步骤S108的具体实施方式相同。

步骤S212,将此user id的访客数据存储至数据库2。

步骤S214,计算00:00:01-05:00:00之间每分钟同一个user id的访客数据的数量。

步骤S216,对于同一个user id,以分钟为单位,提取出访客数量排在前10位的时间段,并存储至数据库4。

步骤S218,通过计算同一时间段不同user id的数量,提取出user id的数量最多的5个时间段,得到容易产生异常流量的时间。

步骤S220,将访客数据存储至数据库3。

虚假流量一般是某些进行了流量作弊行为的访客在某个特定的时间段频繁访问广告造成的。通过上述实施例,提取出指定时间段内的访客数据,判断提取出来的访客数据中,属于同一个访客的若干条访客数据中相邻的任意两条访客数据的时间差是不是非常短,如果判断出属于同一个访客的若干条访客数据的相邻的任意两条访客数据的时间差非常短,那么确定这个访客为进行了流量作弊的访客,该访客产生的流量为作弊流量,即虚假流量,也可以说是异常流量,计算进行了流量作弊的访客在单位时间产生的作弊流量,计算出作弊访客的作弊流量随时间的分布,提取出每个作弊访客作弊流量集中的时间段,对这些时间段的作弊访客的个数进行汇总,经过筛选得到异常流量高发时段,实现了筛选出进行了流量作弊的访客,判断出异常流量高发时段的技术效果,进而解决了现有技术中由于某些访客流量作弊造成的广告主利益受损害的 技术问题。

根据本发明实施例,还提供了一种异常流量的检测装置。该异常流量的检测装置可以执行上述异常流量的检测方法,上述异常流量的检测方法也可以通过该异常流量的检测装置实施。

图3是根据本申请实施例的异常流量的检测装置的示意图。如图3所示,该异常流量的检测装置包括第一提取单元32、第二提取单元34、判断单元36和第三提取单元38。

第一提取单元32用于从广告的监测数据中提取访客访问广告的访客数据,其中,访客和访客数据均为多个,每个访客数据均包括访客标识和访问广告的时间信息。访客为多个,一般来说,每个访客的访问数据也有多个,每个访客数据均包括访客标识和访问广告的时间信息,访客标识唯一标识了一个访客。本申请实施例所提供的异常流量的检测装置,既可以应用于筛选曝光异常的访客数据,也可以应用于筛选点击异常的访客数据。

第二提取单元34用于从多个访客数据中提取第一访客数据,其中,第一访客数据为多个访客数据中时间信息在第一预设时间内的访客数据,并且第一访客数据的数量为多个。提取出访问时间在指定时间段内的访客数据,指定时间段是普通访客访问广告的行为很少发生的时间段,即第一预设时间,如凌晨00:00:00-06:00:00,凌晨00:00:00-05:00:00,等等,指定时间段可以根据实际需要进行设置。如果有一个访客在该指定时间段对广告进行了访问,那么该访客就比较可疑,有可能进行了流量作弊行为,需要进一步判断。在第一预设时间内产生的访客数据是第一访客数据。

判断单元36用于判断访客标识为同一个第一访客标识的任意两个第一访客数据的时间差是否在第二预设时间内。即,如果发现有一个访客在指定时间段对广告进行了访问,判断这个访客产生的访客数据中相邻的任意两条访客数据的时间差是否小于一个很短的时间段,如1秒钟、2秒钟、3秒钟,等等,这个很短的时间段即为第二预设时间。

第三提取单元38用于当判断出访客标识为同一个第一访客标识的相邻的任意两个第一访客数据的时间差在第二预设时间内时,从第一访客数据中提取出第二访客数据,并确定第二访客为导致流量异常的访客,其中,第二访客数据为满足第一预设条件的第一访客数据,第一预设条件为访客标识为同一个第一访客标识的任意两个第一访客数据的时间差在第二预设时间内。

如果判断出有一个访客在指定时间段对广告进行了访问,且这个访客的相邻的任 意两条访客数据的时间差在第二预设时间内,则这个访客进行了流量作弊行为,此访客产生的访问数据为作弊流量,也是异常流量。

例如,从广告的监测数据中提取出300条访客数据,假设第一预设时间为00:00:00-01:00:00,这300条访客数据中有20条访客数据的访问时间在00:00:00-01:00:00之间,提取出这20条访客数据,如表1所示,这20条访客数据即为第一访客数据。这20条访客数据具有4个不同的访客标识,分别为访客标识A、访客标识B、访客标识C、访客标识D,也就是说,这20条数据是由4个不同的访客产生的。假设访客标识A所标识的访客为访客甲,访客标识B所标识的访客为访客乙,访客标识C所标识的访客为访客丙,访客标识D所标识的访客为访客丁。

访客甲产生了3条第一访客数据,分别为第一访客数据6、第一访客数据14、第一访客数据19。访客乙产生了3条第一访客数据,分别为第一访客数据7、第一访客数据15、第一访客数据18。访客丙产生了10条第一访客数据,分别为第一访客数据1、第一访客数据2、第一访客数据3、第一访客数据4、第一访客数据5、第一访客数据8、第一访客数据10、第一访客数据11、第一访客数据12、第一访客数据13。访客丁产生了4条第一访客数据,分别为第一访客数据9、第一访客数据16、第一访客数据17、第一访客数据20。

接下来判断访客标识为同一个第一访客标识的相邻的任意两个第一访客数据的时间差是否在第二预设时间内,假设第二预设时间为3秒钟。由表1可以看出,访客标识为A的3条第一访客数据中,第一访客数据6的访问时间为00:03:06、第一访客数据14的访问时间为00:03:16、第一访客数据19的访问时间为00:58:35。这3条第一访客数据的相邻的两条第一访客数据的时间差大于3秒钟。同理,可判断出访客标识为B的3条第一访客数据相邻的两条第一访客数据的时间差大于3秒钟,访客标识为D的4条第一访客数据相邻的两条第一访客数据的时间差大于3秒钟。访客标识为C的10条第一访客数据相邻的任意两条第一访客数据的时间差在3秒钟之内,因此,提取出访客标识为C的10条第一访客数据,这10条第一访客数据即为第二访客数据。

由于普通的访客很少在00:00:00-01:00:00之间访问广告,所以访客甲、访客乙、访客丙和访客丁都可能进行了流量作弊,但这仅是一种可能性,还需要进行进一步判断。访客甲、访客乙、访客丁的访客数据的时间差较长,符合正常访客的行为模式,而访客丙的访客数据的时间差非常短,正常访客不会如此频繁地点击广告,所以访客丙为进行了流量作弊的访客,访客丙的访客数据为作弊流量,即虚假流量,也可以称为异常流量。

虚假流量一般是某些进行了流量作弊行为的访客在某个特定的时间段频繁访问广 告造成的。通过上述实施例,第一提取单元32和第二提取单元34提取出指定时间段内的访客数据,判断单元36判断提取出来的访客数据中,属于同一个访客的若干条访客数据中相邻的任意两条访客数据的时间差是不是非常短,如果判断单元36判断出属于同一个访客的若干条访客数据的相邻的任意两条访客数据的时间差非常短,那么第三提取单元38确定这个访客为进行了流量作弊的访客,将进行了流量作弊的访客的访客数据提取出来,该访客产生的流量为作弊流量,即虚假流量,也可以说是异常流量,实现了筛选出进行了流量作弊的访客的技术效果,进而解决了现有技术中由于某些访客流量作弊造成的广告主利益受损害的技术问题。

可选地,本申请实施例所提供的异常流量的检测装置还包括第一存储单元。该第一存储单元用于在第二提取单元34从多个访客数据中提取第一访客数据之后,将第一访客数据存储至第一数据库。即,将访问广告的访问时间在指定时间内(第一预设时间)的访客数据存储至数据库,这些访客数据是可疑的,有可能是虚假流量,需要进一步判断。

可选地,本申请实施例所提供的异常流量的检测装置还包括第二存储单元。该第二存储单元用于在第三提取单元38从第一访客数据中提取出第二访客数据之后,将第二访客数据存储至第二数据库。即,将访问广告的访问时间在指定时间内,且相邻的访问数据的时间差极短的访客数据存储在数据库中,这些访客数据是虚假流量,产生这些访客数据的访客进行了流量作弊。

可选地,本申请实施例所提供的异常流量的检测装置还包括第一计算单元。该第一计算单元用于在第三提取单元38从第一访客数据中提取出第二访客数据之后,根据第二访客数据的时间信息,计算访客标识相同的第二访客数据随时间的分布。即,提取出作弊产生的访客数据之后,将访客标识相同的访客数据归为一组,为同一个访客产生。计算出进行了流量作弊行为的访客的作弊流量随时间的分布。

例如,计算每一个进行了流量作弊的访客在00:00:00-05:00:00之间每一分钟产生的访客数据数量。再例如,计算每一个进行了流量作弊的访客在00:00:00-23:59:59之间每一分钟产生的访客数据数量。又例如,计算每一个进行了流量作弊的访客在23:00:00-次日07:00:00之间每一小时产生的访客数据数量。

可选地,本申请实施例所提供的异常流量的检测装置还包括第四提取单元、第二计算单元和筛选单元。第四提取单元用于在第一计算单元计算访客标识相同的第二访客数据随时间的分布之后,提取目标访客的目标时间段,其中,目标访客是第二访客数据的访客标识所标识的访客,目标时间段是满足第二预设条件的时间段,第二预设条件是在目标时间段内,第二访客数据的个数大于第一阈值。第二计算单元用于对多 个目标访客的相同的目标时间段的个数进行求和,得到多个目标时间段的数量。筛选单元用于筛选出多个目标时间段中数量大于第二阈值的目标时间段,得到容易产生异常流量的时间段。

即,当计算出进行了流量作弊的访客的访客数据的数量随时间的分布关系后,提取出虚假流量大的时间段,即目标时间段,每一个进行了流量作弊的访客都存在一个或者几个目标时间段,将多个进行了流量作弊的访客的目标时间段中相同的目标时间段的个数进行求和,得到每个目标时间段进行流量作弊的访客的个数,筛选出那些访客进行流量作弊行为集中的时间段。

例如,提取出的第二访客数据的访客标识所标识的访客有10个,分别为访客1、访客2、访客3、访客4、访客5、访客6、访客7、访客8、访客9、访客10。

计算这10个访客在00:00:00-05:00:00之间的每一小时的访客数据的数量,得到表2。

假设访客访问数据数量最多的3个时间段为目标时间段,则由表2可以看出:

访客1的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、04:00:01-05:00:00。

访客2的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、03:00:01-04:00:00。

访客3的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、04:00:01-05:00:00。

访客4的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、03:00:01-04:00:00。

访客5的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、03:00:01-04:00:00。

访客6的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、02:00:01-03:00:00。

访客7的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、02:00:01-03:00:00。

访客8的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、04:00:01-05:00:00。

访客9的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、02:00:01-03:00:00。

访客10的目标时间段是00:00:01-01:00:00、01:00:01-02:00:00、02:00:01-03:00:00。

时间段00:00:01-01:00:00为访客1、访客2、访客3、访客4、访客5、访客6、访客7、访客8、访客9、访客10的目标时间段,所以目标时间段00:00:01-01:00:00的个数为10,同理,目标时间段01:00:01-02:00:00的个数为10,目标时间段02:00:01-03:00:00的个数为4,目标时间段03:00:01-04:00:00的个数为3,目标时间段04:00:01-05:00:00的个数为3。

筛选出这5个目标时间段中个数大于5的目标时间段,得到目标时间段00:00:01-01:00:00和目标时间段01:00:01-02:00:00。则时间段00:00:01-01:00:00和时间段01:00:01-02:00:00是异常流量高发时段,也就是说,作弊流量的相当大的一部分都发生在这个时间,也可以说,这个时间产生的流量不能真实地反映访客对广告所推销的产品的需求。

所述异常流量的检测装置包括处理器和存储器,上述第一提取单元32、第二提取单元34、判断单元36和第三提取单元38等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高异常流量检测的精确度。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(f l ash RAM),存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:从广告的监测数据中提取访客访问广告的访客数据,其中,访客和访客数据均为多个,每个访客数据均包括访客标识和访问广告的时间信息;从多个访客数据中提取第一访客数据,其中,第一访客数据为多个访客数据中时间信息在第一预设时间内的访客数据,并且第一访客数据的数量为多个;判断访客标识为同一个第一访客标识的相邻的任意两个第一访客数据的时间差是否在第二预设时间内;如果判断出访客标识为同一个第一访客标识的任意两个第一访客数据的时间差在第二预设时间内,从第一访客数据中提取出第二访客数据,其中,第二访客数据为满足第一预设条件的第一访客数据,第一预设条件为访客标识为同一个第一访客标识 的任意两个第一访客数据的时间差在第二预设时间内。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1