一种Hadoop集群下的用户行为异常检测方法与流程

文档序号:11206301
一种Hadoop集群下的用户行为异常检测方法与流程
本发明涉及一种用户行为异常检测方法,尤其是一种基于Hadoop集群下的用户行为异常检测方法。

背景技术:
近年来,Hadoop平台作为一个优秀的分布式计算系统,在企业大规模数据处理方面扮演着越来越重要的角色。然而,由于Hadoop在开发之初并未考虑安全因素,虽然后续加入了一些安全机制,但Hadoop的安全审计机制、访问控制机制和身份认证机制等都属于被动的静态安全技术,不能对用户行为活动进行监控,这就导致容易遭受隐藏的安全攻击。比如:非法用户盗取合法用户的账号和密码,获得相关权限非法访问数据;在恶意入侵、维修和介质丢失时容易产生数据泄露问题,集群的数据安全难以得到保障。数据是信息的载体,一旦遭遇数据灾难,可能给用户造成不可估量的损失。因此,需要对用户的数据访问行为建立有效的监控,及时的发现异常行为,保障Hadoop集群的数据安全。在基于用户行为活动的监控方面,国内研究相对较少。AshishKamra等人提出了一种针对关系型数据库访问模式的异常检测方法,它是基于用户的SQL查询日志,但这种方法只针对关系数据库,不适用于大数据平台的用户行为监控;MohiuddinSolaimani等人提出了一种基于Spark的虚拟机性能异常检测框架,目的是通过对虚拟机性能异常检测发现哪些用户占用大量资源,造成资源的共享不均衡影响集群运行效率,但Spark是基于内存的计算,当数据规模很大或是中间结果超过内存大小时就无法处理;刘朋提出了一个针对数据库的抽象架构和通用的异常行为检测解决方法,但却没有给出具体的算法;FredrikValeur等人提出了一种基于机器学习的SQL攻击行为检测方法,但只针对基于网络的后端数据库。传统的用户行为异常检测方法主要是在数据库以及集群性能异常方面。数据库一般是针对关系型数据库等,在Hadoop集群分布式环境下无法适用,而集群性能异常在Hadoop平台本身的负载均衡等机制下,表现并不突出,异常检测的结果正确性不高。此外,Hadoop集群下的数据规模通常很大,基于传统的主成分分析的模型训练算法,效率相对较低。因此本发明的优化方法将对用户的数据访问行为建立有效的监控,及时的发现异常行为,保障Hadoop集群的数据安全,并且还通过并行化主成分分析算法提高模型训练效率,解决传统模型训练效率低的问题。

技术实现要素:
本发明的目的在于克服现有的技术不足,提供一种Hadoop集群下的用户行为异常检测方法,不仅能够解决在Hadoop集群下针对用户访问HDFS数据的异常行为监控问题,而且还对传统的主成分分析算法进行了并行化处理,解决模型训练效率较低的问题。本发明的目的是通过以下技术方案来实现的:一种Hadoop集群下的用户行为异常检测方法,包括以下步骤:S1:用户行为数据采集:通过Hadoop日志管理服务(Log4j)从集群NameNode节点获得HDFS的审计日志并存储于数据库;S2:数据预处理;S3:模型训练:抽取其中一个用户的部分特征向量集作为训练数据并构造为样本数据矩阵,基于本发明提出的并行主成分分析算法对样本数据进行降维处理,得到样本均值和变换矩阵,存入该用户模型库。其他用户的模型训练方法相同。其中变换矩阵主要完成把样本由原空间映射到主成分子空间的功能;S4:用户行为异常检测:针对某一个用户,把该用户当...
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1