异常点击检测方法及装置、点击量统计方法及装置与流程

文档序号:11177028阅读:538来源:国知局

本发明涉及一种异常点击检测方法及装置,属于信息处理技术领域。



背景技术:

在计算机、互联网等技术飞速发展的今天,节目或者网站的点击量,对于广告投放商、内容提供商等具有重要的参考意义。然而,目前点击量的作假,比如水军的刷流量,让统计出来的点击量与实际不符。点击行为的造假会造成估值与实际背离,广告商、投资商的评估被掺水,对整个产业具有严重的影响。因此有必要对点击行为进行有效的鉴别,以提供真实有效的点击量统计数据。

现有防止点击量作弊的技术通常是从被点击的对象(例如电子商务网站中商品、网页中的广告、多媒体点播系统提供的音视频等)的角度出发,通过将某一对象的被点击量与该对象的历史点击数据进行比对来判断针对该对象的点击行为是否异常。现有的这种检测方式通常针对某特定网页或者商品,其行为和判别标准不能直接复制到其他点击对象上,因此对每一个特定网页,或者至少是每一个特定类型的网页,需要制定不同的参数标准;一方面作弊检测的算法复杂,对软硬件要求过高,另一方面检测准确率也较低。因此有必要从其他角度出发探究新的点击作弊检测技术。



技术实现要素:

本发明所要解决的技术问题在于克服现有技术不足,提供一种异常点击检测方法及装置,从用户的角度出发并基于相似用户群组的点击行为特征进行异常点击的检测,检测结果更准确,检测过程更简单。

本发明的异常点击检测方法,包括以下步骤:

步骤1、从被检测用户在检测周期内的点击行为统计数据中提取出被检测用户在所述检测周期内的点击行为特征;并从被检测用户所在的相似用户群组在所述检测周期内的点击行为统计数据中提取出相似用户群组在所述检测周期内的点击行为特征;

步骤2、计算被检测用户在所述检测周期内的点击行为特征与第一标准点击行为特征之间的差异度,以及所述相似用户群组在所述检测周期内的点击行为特征与第二标准点击行为特征之间的差异度;

步骤3、判断上述两个差异度之间的差值是否超出预设范围,如是,则判定被检测用户在所述检测周期内的点击行为均为异常点击;否则,判定被检测用户在所述检测周期内的点击行为均为正常点击。

优选地,被检测用户在所述检测周期内的点击行为特征为被检测用户在所述检测周期内的点击数的时间分布;相似用户群组在所述检测周期内的点击行为特征为相似用户群组中各用户在所述检测周期内的点击数的时间分布均值。

或者,被检测用户在所述检测周期内的点击行为特征为被检测用户在所述检测周期内的点击数的时间分布;相似用户群组在所述检测周期内的点击行为特征为相似用户群组中除被检测用户以外的各用户在所述检测周期内的点击数的时间分布均值。

优选地,点击行为统计数据中仅统计可确定用户信息的点击行为。

优选地,第一标准点击行为特征与第二标准点击行为特征相等。

优选地,所述第一标准点击行为特征和/或第二标准点击行为特征为被检测用户所在的相似用户群组在之前若干个检测周期内的点击行为特征的均值。

优选地,所述差异度为两个特征间相似度的倒数。

为了进一步提高检测准确度,如果步骤3中将被检测用户在所述检测周期内的点击行为均判定为异常点击,则按照以下方法对其进行进一步判定:

步骤4、对被检测用户在检测周期内所点击的每个对象,分别获取被检测用户所在的相似用户群组在所述检测周期内对该对象的人均点击次数,并取这些对象的人均点击次数的最大值,用预设的一个大于等于1的系数乘以该最大值,所得到的乘积作为标准点击数;

步骤5、对被检测用户在检测周期内所点击的每个对象,判断被检测用户在所述检测周期内对该对象的点击数是否小于所述标准点击数,如是,则从步骤3中所判定的异常点击行为中将被检测用户在所述检测周期内对该对象的所有点击行为剔除。

所述系数的取值范围优选为(1,2)。

本发明异常点击检测装置包括:

特征提取模块,用于从被检测用户在检测周期内的点击行为统计数据中提取出被检测用户在所述检测周期内的点击行为特征;并从被检测用户所在的相似用户群组在所述检测周期内的点击行为统计数据中提取出相似用户群组在所述检测周期内的点击行为特征;

差异度计算模块,用于计算被检测用户在所述检测周期内的点击行为特征与第一标准点击行为特征之间的差异度,以及所述相似用户群组在所述检测周期内的点击行为特征与第二标准点击行为特征之间的差异度;

判断模块,用于判断上述两个差异度之间的差值是否超出预设范围,如是,则判定被检测用户在所述检测周期内的点击行为均为异常点击;否则,判定被检测用户在所述检测周期内的点击行为均为正常点击。

优选地,被检测用户在所述检测周期内的点击行为特征为被检测用户在所述检测周期内的点击数的时间分布;相似用户群组在所述检测周期内的点击行为特征为相似用户群组中各用户在所述检测周期内的点击数的时间分布均值。

或者,被检测用户在所述检测周期内的点击行为特征为被检测用户在所述检测周期内的点击数的时间分布;相似用户群组在所述检测周期内的点击行为特征为相似用户群组中除被检测用户以外的各用户在所述检测周期内的点击数的时间分布均值。

优选地,点击行为统计数据中仅统计可确定用户信息的点击行为。

优选地,第一标准点击行为特征与第二标准点击行为特征相等。

优选地,所述第一标准点击行为特征和/或第二标准点击行为特征为被检测用户所在的相似用户群组在之前若干个检测周期内的点击行为特征的均值。

优选地,所述差异度为两个特征间相似度的倒数。

为了进一步提高检测准确度,该装置还包括:

检测结果修正模块,用于对判断模块所输出的异常点击进行进一步判定,其包括标准点击数计算子模块和修正子模块;所述标准点击数计算子模块用于对被检测用户在检测周期内所点击的每个对象,分别获取被检测用户所在的相似用户群组在所述检测周期内对该对象的人均点击次数,并取这些对象的人均点击次数的最大值,用预设的一个大于等于1的系数乘以该最大值,所得到的乘积作为标准点击数;所述修正子模块用于对被检测用户在检测周期内所点击的每个对象,判断被检测用户在所述检测周期内对该对象的点击数是否小于所述标准点击数,如是,则从判断模块所输出的异常点击行为中将被检测用户在所述检测周期内对该对象的所有点击行为剔除。

优选地,所述系数的取值范围为(1,2)。

根据相同的发明思路还可以得到以下技术方案:

一种点击量统计方法,首先对所有点击行为进行记录;然后使用如上任一技术方案所述方法进行异常点击检测;最后从所记录的所有点击行为中将检测出的异常点击去除并对剩余的点击行为进行点击量统计。

一种点击量统计装置,包括:

记录单元,用于对所有点击行为进行记录;

如上任一技术方案所述异常点击检测装置,用于进行异常点击检测;

点击量统计单元,用于从记录单元所记录的所有点击行为中将异常点击检测装置检测出的异常点击去除并对剩余的点击行为进行点击量统计。

相比现有技术,本发明具有以下有益效果:

本发明从用户的角度出发并基于相似用户群组的点击行为特征进行异常点击的检测,检测结果更准确,检测过程更简单。

具体实施方式

针对现有技术的不足之处,本发明的思路是从用户的角度出发,对特定用户一段时间内的点击行为与其所在相似用户群组的点击行为进行比较分析,从而找出与相似用户群组整体的点击行为差异较大的用户,并将该用户在检测周期内所发出的点击行为判定为异常点击行为。该方法的检测结果更准确,检测过程更简单,尤其对于来自合法用户的异常点击行为(例如注册用户的刷单或刷流量行为)的检测效果更好。

本发明异常点击检测装置包括:

特征提取模块,用于从被检测用户在检测周期内的点击行为统计数据中提取出被检测用户在所述检测周期内的点击行为特征;并从被检测用户所在的相似用户群组在所述检测周期内的点击行为统计数据中提取出相似用户群组在所述检测周期内的点击行为特征;

差异度计算模块,用于计算被检测用户在所述检测周期内的点击行为特征与第一标准点击行为特征之间的差异度,以及所述相似用户群组在所述检测周期内的点击行为特征与第二标准点击行为特征之间的差异度;

判断模块,用于判断上述两个差异度之间的差值是否超出预设范围,如是,则判定被检测用户在所述检测周期内的点击行为均为异常点击;否则,判定被检测用户在所述检测周期内的点击行为均为正常点击。

为了便于公众理解,下面对本发明技术方案进行进一步详细说明。

本发明的异常点击检测方法,包括以下步骤:

步骤1、从被检测用户在检测周期内的点击行为统计数据中提取出被检测用户在所述检测周期内的点击行为特征;并从被检测用户所在的相似用户群组在所述检测周期内的点击行为统计数据中提取出相似用户群组在所述检测周期内的点击行为特征。

本发明方法是针对每个用户进行检测。可以根据系统所记录的点击行为统计出每个用户在任一时间段内的点击行为统计数据。具体的检测周期可根据实际需要设定,例如一周、一月或一个季度等。为了提高检测的准确性,点击行为统计数据中仅统计可确定用户信息的点击行为,无法确定用户信息的点击行为均不计入点击行为统计数据。

所谓相似用户群组是指根据预先设定的某种标准将具有相近偏好或者相近行为模式的用户分为同一用户组,而偏好或行为差异较大的用户分在不同的用户组。相似用户的分组对于加强服务的针对性、提升用户体验具有重要意义,因此已广泛应用于电子商务、多媒体在线点播等诸多方面。相似用户的分组方法通常是在某种用户相似度度量(例如目前最常用的余弦相似性、皮尔森系数、调整余弦相似性、欧式距离等)基础上,通过聚类算法来实现。其为现有成熟技术,为节省篇幅起见,此处不再赘述。

相似用户群组中的用户对于影视作品、商品、广告等对象的点击行为会体现出一致性,本发明即利用这种一致性,将群组中个体的点击行为与群组整体的点击行为进行比较,以实现异常点击的检测。要实现点击行为的比较,首先要将点击行为抽象为可比较的行为特征。具体的点击行为特征可以是点击行为在对象这个维度上的分布,也可以是点击行为在时间维度上的分布,或者两者的综合。例如,对于多媒体在线点播服务,可以用户在检测周期内对不同类型视频(恐怖、动作、惊悚、爱情、伦理等)的点击次数分布作为该用户在检测周期内的点击行为特征,也可以用户在检测周期内的各时段的点击数分布作为该用户在检测周期内的点击行为特征,还可以是用户在检测周期内的各时段对不同类型视频(恐怖、动作、惊悚、爱情、伦理等)的点击次数分布作为该用户在检测周期内的点击行为特征。点击行为特征的具体表达可采用曲线、图表、矩阵、向量等形式。

综合考虑算法的准确度和复杂度,本发明优选以点击行为的时域分布作为点击行为特征,具体的:被检测用户在所述检测周期内的点击行为特征为被检测用户在所述检测周期内的点击数的时间分布;相似用户群组在所述检测周期内的点击行为特征为相似用户群组中各用户在所述检测周期内的点击数的时间分布均值,或者为相似用户群组中除被检测用户以外的各用户在所述检测周期内的点击数的时间分布均值。

步骤2、计算被检测用户在所述检测周期内的点击行为特征与第一标准点击行为特征之间的差异度,以及所述相似用户群组在所述检测周期内的点击行为特征与第二标准点击行为特征之间的差异度。

得到被检测用户在所述检测周期内的点击行为特征以及相似用户群组在所述检测周期内的点击行为特征后,即可利用两者的差异性来判断检测用户在所述检测周期内的点击行为偏离多数用户的正常行为。但考虑到时间周期的不确定性,如特定的节假日,促销活动,重大集体活动等会导致周期重复性出现差异的状况,本发明并未直接进行两者的比较,而是先计算被检测用户在所述检测周期内的点击行为特征与第一标准点击行为特征之间的差异度,以及所述相似用户群组在所述检测周期内的点击行为特征与第二标准点击行为特征之间的差异度。

作为预设的两个比较基准,第一标准点击行为特征与第二标准点击行为特征可以相同,也可以不同。例如,第一标准点击行为特征可以取被检测用户在前若干个未被检测出异常点击行为的检测周期中的点击行为特征的均值,即利用该用户自身的历史数据生成第一标准点击行为特征;类似地,第二标准点击行为特征可以取被检测用户所在的相似用户群组在之前若干个检测周期内的点击行为特征的均值。本发明优选的方案是:第一标准点击行为特征和/或第二标准点击行为特征为被检测用户所在的相似用户群组在之前若干个检测周期内的点击行为特征的均值。即二者中的至少一个采用相似用户群组的历史数据作为比较依据。

差异度的具体度量方式有很多,最方便的是采用相似度的倒数的形式,也可以使用其它与相似度反向变化的度量形式。两个特征向量间的相似度度量方式多种多样,例如可以是距离(如欧式距离、切比雪夫距离、曼哈顿距离等)、皮尔森相关系数、互信息熵等。

步骤3、判断上述两个差异度之间的差值是否超出预设范围,如是,则判定被检测用户在所述检测周期内的点击行为均为异常点击;否则,判定被检测用户在所述检测周期内的点击行为均为正常点击。

假设计算出的被检测用户在所述检测周期内的点击行为特征与第一标准点击行为特征之间的差异度为x1,被检测用户所在相似用户群组在所述检测周期内的点击行为特征与第二标准点击行为特征之间的差异度为x2。如果x1与x2之间的差值超过预设范围,则表明被检测用户在所述检测周期内的点击行为与其所在相似用户群组在所述检测周期内整体的点击行为差异过大,可将被检测用户在所述检测周期内的点击行为均判定为异常点击;否则,判定为正常点击。

经过上述三个步骤即可初步完成对被检测用户在检测周期内的点击行为的检测,依照同样的方式对所有用户在检测周期内的点击行为进行检测,即得到该检测周期内的所有点击行为检测结果。

上述方案在最终判断时将差异度差值超过预设范围的被检测用户在所述检测周期内的所有点击行为均判断为异常点击,虽然简单,但考虑到该用户在检测周期内可能会点击若干不同的对象,可能存在该用户对部分对象的点击是正常的,而仅仅是对少量特定对象的点击存在异常的可能性,这样难免会产生部分误判。为此,为了解决上述问题,进一步提高检测准确度,本发明从对象这个维度出发,对上述被判定为异常的点击行为再进行一次检测,具体为:

步骤4、对被检测用户在检测周期内所点击的每个对象,分别获取被检测用户所在的相似用户群组在所述检测周期内对该对象的人均点击次数,并取这些对象的人均点击次数的最大值,用预设的一个大于等于1的系数乘以该最大值,所得到的乘积作为标准点击数。

假设被检测用户在检测周期内对n个对象一共进行了m次点击,根据点击记录可获得这m次点击在这n个对象上的分布情况。对于这n个特定对象中的每一个,获取被检测用户所在的相似用户群组在所述检测周期内对该对象的人均点击次数,即用相似用户群组在所述检测周期内对该对象的总点击次数除以相似用户群组人数,或者用相似用户群组中除被检测用户以外的所有用户在所述检测周期内对该对象的总点击次数除以相似用户群组除被检测用户以外的总人数;然后从这n个人均点击次数中找出最大值,将该最大值乘以一个预设的大于等于1的系数(取值范围最好为(1,2)),最后得到的乘积作为标准点击数,并以其作为进一步判断的判断基准。

步骤5、对被检测用户在检测周期内所点击的每个对象,判断被检测用户在所述检测周期内对该对象的点击数是否小于所述标准点击数,如是,则从步骤3中所判定的异常点击行为中将被检测用户在所述检测周期内对该对象的所有点击行为剔除。

将被检测用户在检测周期内对每个对象的点击数与所述标准点击数进行比较,如果小于标准点击数,则认为被检测用户在检测周期内对该对象的点击行为属于正常点击行为,将其从此前检测出的异常点击中剔除出去;如果等于或大于标准点击数,则认为被检测用户在检测周期内对该对象的点击行为异常,将其作为最终的异常点击输出。

相应的,本发明异常点击检测装置也可进一步包括:

检测结果修正模块,用于对判断模块所输出的异常点击进行进一步判定,其包括标准点击数计算子模块和修正子模块;所述标准点击数计算子模块用于对被检测用户在检测周期内所点击的每个对象,分别获取被检测用户所在的相似用户群组在所述检测周期内对该对象的人均点击次数,并取这些对象的人均点击次数的最大值,用预设的一个大于等于1的系数乘以该最大值,所得到的乘积作为标准点击数;所述修正子模块用于对被检测用户在检测周期内所点击的每个对象,判断被检测用户在所述检测周期内对该对象的点击数是否小于所述标准点击数,如是,则从判断模块所输出的异常点击行为中将被检测用户在所述检测周期内对该对象的所有点击行为剔除。

本发明异常点击检测方案可应用于电子商务、多媒体在线点播、网页广告等方面的点击量统计中,从而有效提高点击量数据的准确性,所述点击量统计方法具体如下:首先对所有点击行为进行记录;然后使用以上方法进行异常点击检测;最后从所记录的所有点击行为中将检测出的异常点击去除并对剩余的点击行为进行点击量统计。

类似的,本发明点击量统计装置,包括:

记录单元,用于对所有点击行为进行记录;

如上所述异常点击检测装置,用于进行异常点击检测;

点击量统计单元,用于从记录单元所记录的所有点击行为中将异常点击检测装置检测出的异常点击去除并对剩余的点击行为进行点击量统计。

此外,在进行最终的点击量统计时,也可以利用被检测用户的正常点击历史数据或者被检测用户所在相似用户群组的点击历史数据或当前点击数据对检测出的异常点击的数量进行替换或平滑修正。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1