跨时间、多维度异常数据监测的方法和系统与流程

文档序号:12272768阅读:607来源:国知局
跨时间、多维度异常数据监测的方法和系统与流程

本发明涉及计算机技术领域,尤其涉及一种跨时间、多维度异常数据监测的方法和系统。



背景技术:

在线广告投放后容易产生的各种作弊行为,包括通过程序或脚本恶意模拟用户的点击等带来的非正当途径流量产生的广告点击,损害了广告主及广告平台的利益,现有技术中,对异常广告点击行为的建模方法主要是基于监督学习方法,从原始日志中提取各个记录的特征,经历人工打标签,再生成模型,这种方法不仅效率低,而且无法适应业务的拓展,当接入数据量达到TB甚至PB级别以上的时候,无论从时效性和处理性能都无法满足业务需求。

因此,目前需要本领域技术人员迫切解决的一个技术问题就是:如何能够创新地提出一种有效措施,通过对线上广告系统的海量展示日志、点击日志进行多维分析查询,制定异常广告点击行为的反作弊模型,过滤作弊点击的功能,以对作弊广告点击得以监测。



技术实现要素:

为解决上述问题,本发明公开了一种跨时间、多维度异常数据监测的方法和系统,以制定异常广告点击行为的反作弊模型,过滤作弊点击的功能,以对作弊广告点击得以监测。

根据本发明实施例的一个方面,提供的一种跨时间、多维度异常数据监测的方法,包括:

收集Web日志和OLAP日志查询,获得网站信息、投放广告信息和用户信息,通过收集Web日志和OLAP日志查询,获取网站点击记录、网站网址、网站访问时间戳、网站IP地址、访问网站主题,广告类目、广告位置、广告形式、广告大小和用户名、访问浏览器、用户兴趣标签;

在Spark环境下利用Python将获得的异构数据进行清洗,生成各维度对应的电子表格,准备建模分析;

使用GBDT算法建立正常广告点击行为模型,所述正常广告点击行为模型为使用未发现作弊点击的用户、广告、流量数据建立的模型,GBDT算法将在Spark环境下利用Python将获得的异构数据进行清洗后,生成各维度的数据集作为输入,GBDT是一种集成学习方法,基学习器是CART决策树,用于回归和分类预测,GBDT训练T轮,每一轮根据之前模型的误差训练的CART树,最终采用线性加权的方法将多个基学习器组合到一起形成一个强学习器;

采用支持向量机对异常数据样本进行建模分析,建立异常广告点击行为模型,所述支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上,根据有限样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力,通过计算类别边界支撑向量对样本数据下的进行分类,在SVM建模中使得不同类别的样本宽划分,扩大边界距离;

得到正常广告点击行为模型和建立异常广告点击行为模型后,将两个模型融合,生成作弊点击监测模型,部署在线反作弊模型,并实时对点击信息进行分析。

基于上述方法的另一个实施例中,所述收集Web日志和OLAP日志查询,获得网站信息、投放广告信息和用户信息包括:

收集Web日志和OLAP日志查询,获取网站信息、投放广告信息和用户信息;

将收集的信息区分为正常的网站信息、投放广告信息和用户信息,和异常的网站信息、投放广告信息和用户信息。

基于上述方法的另一个实施例中,所述Web日志为网络用户访问Web服务器时,Web服务器自动建立的访问日志信息,包括用户ID、受访Web的URL、用户的IP地址、访问日期和时间。

基于上述方法的另一个实施例中,所述生成各维度对应的电子表格内容包括:是否点击、网站地址、广告位大小、网站标签、投放广告类别、用户名、浏览器名称、时间戳。

根据本发明实施例的另一个方面,提供的一种跨时间、多维度异常数据监测的系统,包括:Web日志模块、OLAP日志查询模块、本地分析数据并建模模块、线上反作弊模型部署模块;

通过收集web日志模块和OLAP日志查询模块,获取正常数据和异常数据;通过本地分析数据并建模模块对获得数据进行清洗并建立模型;通过线上反作弊模型部署模块在线上对多维数据进行分析评估,部署在线反作弊模型,实时对点击信息进行分析。

基于上述系统的另一个实施例中,所述web日志模块存储网络用户访问Web服务器时,Web服务器自动建立的访问日志信息,包括用户ID、受访Web的URL、用户的IP地址、访问日期和时间信息。

基于上述系统的另一个实施例中,所述本地分析数据并建模模块通过在Spark环境下利用Python将获得的异构数据进行清洗,生成正常数据,使用GBDT算法来建立正常广告点击行为模型,支持向量机来对异常数据进行建模分析,建立异常广告点击行为模型。

基于上述系统的另一个实施例中,所述线上反作弊模型部署模块将正常广告点击行为模型和异常广告点击行为模型融合,生成作弊点击监测模型,部署在线反作弊模型,实时对点击信息进行分析。

与现有技术相比,本发明包括以下优点:

本发明通过监测作弊互联网广告流量,利用机器学习和云计算技术,解决多种异构数据融合分析及小样本分类准确度问题,本发明还能在整个机器学习链条中记录下后续互联网广告点击数据,并对此进行分析,完善反作弊模型,以便更好的实现广告投放的精准度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所使用的附图做一简单地介绍。

图1是本发明的一种跨时间、多维度异常数据监测的方法一个实施例的流程图。

图2是本发明的一种跨时间、多维度异常数据监测的方法另一个实施例的流程图。

图3是本发明的一种跨时间、多维度异常数据监测的系统一个实施例的结构示意图。

图中:1 Web日志模块、2 OLAP日志查询模块、3本地分析数据并建模模块、4线上反作弊模型部署模块。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1是本发明的一种跨时间、多维度异常数据监测的方法一个实施例的流程图,如图1所示,所述一种跨时间、多维度异常数据监测的方法,包括:

10,收集Web日志和OLAP日志查询,获得网站信息、投放广告信息和用户信息,通过收集Web日志和OLAP日志查询,获取网站点击记录、网站网址、网站访问时间戳、网站IP地址、访问网站主题,广告类目、广告位置、广告形式、广告大小和用户名、访问浏览器、用户兴趣标签;

20,在Spark环境下利用Python将获得的异构数据进行清洗,生成各维度对应的电子表格,准备建模分析;

30,使用GBDT算法建立正常广告点击行为模型,所述正常广告点击行为模型为使用未发现作弊点击的用户、广告、流量数据建立的模型,GBDT算法将在Spark环境下利用Python将获得的异构数据进行清洗后,生成各维度的数据集作为输入,GBDT是一种集成学习方法,基学习器是CART决策树,用于回归和分类预测,GBDT训练T轮,每一轮根据之前模型的误差训练的CART树,最终采用线性加权的方法将多个基学习器组合到一起形成一个强学习器;

40,采用支持向量机对异常数据样本进行建模分析,建立异常广告点击行为模型,所述支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上,根据有限样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力,通过计算类别边界支撑向量对样本数据下的进行分类,在SVM建模中使得不同类别的样本宽划分,扩大边界距离;

50,得到正常广告点击行为模型和建立异常广告点击行为模型后,将两个模型融合,生成作弊点击监测模型,部署在线反作弊模型,并实时对点击信息进行分析。

图2是本发明的一种跨时间、多维度异常数据监测的方法另一个实施例的流程图,如图2所示,所述收集Web日志和OLAP日志查询,获得网站信息、投放广告信息和用户信息包括:

11,收集Web日志和OLAP日志查询,获取网站信息、投放广告信息和用户信息;

12,将收集的信息区分为正常的网站信息、投放广告信息和用户信息,和异常的网站信息、投放广告信息和用户信息。

基于本发明上述实施例提供的跨时间、多维度异常数据监测的方法,所述Web日志为网络用户访问Web服务器时,Web服务器自动建立的访问日志信息,包括用户ID、受访Web的URL、用户的IP地址、访问日期和时间。

基于本发明上述实施例提供的跨时间、多维度异常数据监测的方法,所述生成各维度对应的电子表格内容包括:是否点击、网站地址、广告位大小、网站标签、投放广告类别、用户名、浏览器名称、时间戳。

图3是本发明的一种跨时间、多维度异常数据监测的系统一个实施例的结构示意图,如图3所示,一种跨时间、多维度异常数据监测的系统,包括:Web日志模块1、OLAP日志查询模块2、本地分析数据并建模模块3、线上反作弊模型部署模块4;

通过收集web日志模块1和OLAP日志查询模块2,获取正常数据和异常数据;通过本地分析数据并建模模块3对获得数据进行清洗并建立模型;通过线上反作弊模型部署模块4在线上对多维数据进行分析评估,部署在线反作弊模型,实时对点击信息进行分析。

基于本发明上述实施例提供的跨时间、多维度异常数据监测的系统,所述web日志模块1存储网络用户访问Web服务器时,Web服务器自动建立的访问日志信息,包括用户ID、受访Web的URL、用户的IP地址、访问日期和时间信息。

基于本发明上述实施例提供的跨时间、多维度异常数据监测的系统,所述本地分析数据并建模模块3通过在Spark环境下利用Python将获得的异构数据进行清洗,生成正常数据,使用GBDT算法来建立正常广告点击行为模型,支持向量机来对异常数据进行建模分析,建立异常广告点击行为模型。

基于本发明上述实施例提供的跨时间、多维度异常数据监测的系统,所述线上反作弊模型部署模块4将正常广告点击行为模型和异常广告点击行为模型融合,生成作弊点击监测模型,部署在线反作弊模型,实时对点击信息进行分析。

以上对本发明所提供的一种跨时间、多维度异常数据监测的方法和系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1