本发明属于广告流量过滤,尤其涉及一种广告异常地理偏移流量过滤方法、装置、设备及存储介质。
背景技术:
1、为了对广告主进行准确计费,广告监测方通常需要对用户设备产生的曝光流量进行过滤,将其中的无效流量剔除。
2、过滤无效流量不仅需要应对通用的一般场景,同时也要考虑特殊的复杂场景。目前,存在通过用户设备恶意刷广告流量的行为,针对这种行为,广告监测方建立了相应的机制可以过滤用户设备在同一ip地址下产生的过量流量,然而,对于恶意修改用户设备的ip地址进行刷流量的行为,广告监测方还没有相应的手段进行过滤。
技术实现思路
1、基于此,针对上述技术问题,提供一种广告异常地理偏移流量过滤方法、装置、设备及存储介质。
2、本发明采用的技术方案如下:
3、作为本发明的第一方面,提供一种广告异常地理偏移流量过滤方法,包括:
4、从预设时间段内的广告流量中,确定发生广告会话所处的位置的数量大于1的目标设备,所述位置为地级城市;
5、构造特征向量:
6、a、根据所述广告流量生成与所述目标设备对应的序列数据,所述序列数据的每个元素分别对应所述目标设备所发生的一次广告会话,该元素由对应广告会话发生的时间戳和所处的位置构成;
7、b、对所述序列数据中的元素,按照时间戳进行升序排列,得到目标序列数据;
8、c、计算所述目标序列数据中相邻的前一个元素和后一个元素的时间戳差,得到时间序列数据计算所述目标序列数据中相邻的前一个元素和后一个元素的位置距离,得到距离序列数据根据距离序列数据计算得到累计距离序列数据
9、其中,n=1,2,3,…,n-1,n为所述目标序列数据中的时间戳的个数;
10、d、将所述时间序列数据、距离序列数据和累计距离序列数据进行合并得到1*n*3维向量:
11、
12、将所述1*n*3维向量输入dbscan无监督分类模型,得到各样本点所在的类别,确定每个类别下的样本点数量,并计算每个类别的异常值g=g1/g2,若异常值g大于阈值,则相应类别下的全部样本点均为异常点,若异常点的总数量大于所有样本点的h%,则相应的目标设备为异常设备,其中,所述样本点为所述1*n*3维向量的一行向量,所述g1为相应类别下各样本点的距离和,所述g2为相应类别下各样本点的时间差之和,所述阈值的取值范围为0.18-0.28,所述h的取值范围为30-40;
13、过滤所述异常设备的广告流量。
14、作为本发明的第二方面,提供一种广告异常地理偏移流量过滤装置,包括:
15、目标设备筛选模块,用于从预设时间段内的广告流量中,确定发生广告会话所处的位置的数量大于1的目标设备,所述位置为地级城市;
16、特征构造模块,用于构造特征向量:
17、a、根据所述广告流量生成与所述目标设备对应的序列数据,所述序列数据的每个元素分别对应所述目标设备所发生的一次广告会话,该元素由对应广告会话发生的时间戳和所处的位置构成;
18、b、对所述序列数据中的元素,按照时间戳进行升序排列,得到目标序列数据;
19、c、计算所述目标序列数据中相邻的前一个元素和后一个元素的时间戳差,得到时间序列数据计算所述目标序列数据中相邻的前一个元素和后一个元素的位置距离,得到距离序列数据根据距离序列数据计算得到累计距离序列数据
20、其中,n=1,2,3,…,n-1,n为所述目标序列数据中的时间戳的个数;
21、d、将所述时间序列数据、距离序列数据和累计距离序列数据进行合并得到1*n*3维向量:
22、
23、分类模块,用于将所述1*n*3维向量输入dbscan无监督分类模型,得到各样本点所在的类别,确定每个类别下的样本点数量,并计算每个类别的异常值g=g1/g2,若异常值g大于阈值,则相应类别下的全部样本点均为异常点,若异常点的总数量大于所有样本点的h%,则相应的目标设备为异常设备,其中,所述样本点为所述1*n*3维向量的一行向量,所述g1为相应类别下各样本点的距离和,所述g2为相应类别下各样本点的时间差之和,所述阈值的取值范围为0.18-0.28,所述h的取值范围为30-40;
24、过滤模块,用于过滤所述异常设备的广告流量。
25、作为本发明的第三方面,提供一种电子设备,包括存储模块,所述存储模块包括由处理器加载并执行的指令,所述指令在被执行时使所述处理器执行上述第一方面的一种广告异常地理偏移流量过滤方法。
26、作为本发明的第四方面,提供一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现上述第一方面的一种广告异常地理偏移流量过滤方法。
27、本发明针对恶意修改设备ip地址进行刷流量的行为,提供一种流量过滤手段,可以有效过滤上述行为产生的无效流量。
1.一种广告异常地理偏移流量过滤方法,其特征在于,包括:
2.根据权利要求1所述的一种广告异常地理偏移流量过滤方法,其特征在于,所述阈值为0.25,所述h为33。
3.根据权利要求1所述的一种广告异常地理偏移流量过滤方法,其特征在于,以实时拟合方式确定所述dbscan无监督分类模型的密度半径eps参数,所述实时拟合方式包括:
4.根据权利要求3所述的一种广告异常地理偏移流量过滤方法,其特征在于,所述k=4。
5.根据权利要求4所述的一种广告异常地理偏移流量过滤方法,其特征在于,所述利用k近邻算法计算所有样本点的距离,进一步包括:
6.一种广告异常地理偏移流量过滤装置,其特征在于,包括:
7.一种电子设备,其特征在于,包括存储模块,所述存储模块包括由处理器加载并执行的指令,所述指令在被执行时使所述处理器执行根据权利要求1-5任一项所述的一种广告异常地理偏移流量过滤方法。
8.一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,其特征在于,所述一个或多个程序当被处理器执行时,实现权利要求1-5任一项所述的一种广告异常地理偏移流量过滤方法。