基于SparkStreaming的广告点击异常检测系统及检测方法与制造工艺

文档序号:11155275
基于Spark Streaming的广告点击异常检测系统及检测方法与制造工艺
基于SparkStreaming的广告点击异常检测系统及检测方法技术领域本发明涉及计算机技术应用领域,具体是基于SparkStreaming广告点击异常检测系统及检测方法。

背景技术:
随着数据爆发式的增长,大数据的时代已来临,安全、快速、实时、高效的数据处理,不仅能够让企业提前规避风险,而且能够及时提供数据信息为企业发展,产品生产和开发提供真实有效的依据。然而,由于网络具有开放性,在方便大众的同时也带来了信息不真实、恶意访问、恶意攻击等。这是各个开放网站都面临的问题,怎样防止这些问题,怎样提取真实有效数据,减轻服务器恶意荷载是各个开放性网站的研究重点。其中投放广告的恶意点击就是一种典型问题,及时掌握异常数据阻止恶意点击,获得有效的广告点击数据,对开放性网站的合理收费提供依据,能够有效改善服务器负载,为投放广告商户提供合理的商业规划和业务指导具有重要意义。当下的处理技术,一般是基于离线批处理,这样的处理技术不能实时的解决线上问题,对某些需快速决策方案无法快速给出理论依据。对于实时型系统如:Storm,它虽然具备实时处理数据的能力,但是在数据安全性和大批量的数据处理上效果表现弱于SparkStreaming。Spark是一个类似于MapReduce的分布式计算框架,其核心是弹性分布式数据集,提供了比MapReduce更丰富的模型,可以在快速在内存中对数据集进行多次迭代,以支持复杂的数据挖掘算法和图形计算算法。SparkStreaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力。SparkStreaming的优势在于:·能运行在100+的结点上,并达到毫秒级延迟。·使用基于内存的Spark作为执行引擎,具有高效和容错的特性。·能集成Spark的批处理和交互查询。·为实现复杂的算法提供和批处理类似的简单接口。所以基于以上问题,结合现有的Spark大数据计算框架,及强大的电脑硬件支撑,合理的机器学习算法,能够快速、高效、精准的解决此类问题。本发明的一个目的就是提供基于SparkStreaming广告点击异常检测系统,它可以对投放于用户端的广告点击异常进行分析过滤,及时掌握有效广告点击情况,合理有效的广告投放计费,分析异常数据的行为和特征,更有助于分析用户行为和兴趣,为广告投放商提供商业规划,产品合理性等起到了事实依据,预测市场未来行情等。

技术实现要素:
本发明旨在解决以上现有技术的问题。提出了一种能够快速、高效、精准的为广告投放商提供商业规划、产品合理性等起到了事实依据、预测市场未来行情的基于SparkStreaming的广告点击异常检测系统及检测方法。本发明的技术方案如下:一种基于SparkStreaming的广告点击异常检测系统,其包括数据采集单元、数据清洗单元、分布式数据消息系统、第一异常数据检测单元、嫌疑数据提取单元、正常数据和异常数据分类器以及分类数据数据库单元;其中数据采集单元,用于采集用户点击广告的日志信息;数据清洗单元,对数据采集单元采集到的日志进行清洗及标准化处理,最后将标准化后的数据发送到分布式数据消息系统中,等待被消费;分布式数据消息系统,主要存储数据标准后的数据,还存储嫌疑数据提取单元发送来的的嫌疑数据,生成SparkStreaming所需消费的主题数据,不同的数据生成各自Topic;第一异常数据检测单元,采用了KNN算法对来自于分布式消息系统(3)中的数据在SparkStreaming中进行准实时处理,得到嫌疑数据、异常数据、正常数据;嫌疑数据提取单元,主要用于对第一异常数据检测单元单元产生的嫌疑数据发送回分布式数据消息系统中;正常数据和异常数...
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1