一种基于大数据平台审计日志的用户行为分析方法及系统与流程

文档序号:24033970发布日期:2021-02-23 14:16阅读:156来源:国知局
一种基于大数据平台审计日志的用户行为分析方法及系统与流程

[0001]
本发明涉及信息安全技术领域,具体来说,涉及一种基于大数据平台审计日志的用户行为分析方法及系统。


背景技术:

[0002]
随着互联网的发展,在电子商务、电子政务、电子服务、休闲娱乐等各个领域都产生了大量的用户网站,用户在网络上浏览这些网站及页面的时候就会产生海量的行为日志,这些海量的日志信息包含了大量的隐藏价值,通过对用户行为信息的研究,可以从中发现用户在访问网站时所表现出来的规律、个性化的习惯等信息,从而为提升用户体验、精准营销、信息推送等提供科学、准确的依据,同时可以根据规律和用户行为偏好,对网站的页面布局、功能完善、系统架构做出更加优化的调整。
[0003]
针对用户行为的研究与应用,最有效的手段是记录用户的所有行为带来的全部用户行为信息,并对全部的用户行为信息日志进行统计、分析。但是,目前现有的用户操作日志数据,只能简单的获取用户做了什么操作,而不能深度分析用户的操作意图,无法提前快速地了解用户在市场上的需求。
[0004]
针对相关技术中的问题,目前尚未提出有效的解决方案。


技术实现要素:

[0005]
针对相关技术中的问题,本发明提出一种基于大数据平台审计日志的用户行为分析方法及系统,以克服现有相关技术所存在的上述技术问题。
[0006]
为此,本发明采用的具体技术方案如下:
[0007]
根据本发明的一个方面,提供了一种基于大数据平台审计日志的用户行为分析方法,该方法包括以下步骤:
[0008]
s1、依据用户的历史行为数据预先构建行为处理模型,并进行训练;
[0009]
s2、通过预设方法从大数据平台获取用户行为数据包,得到安全审计日志;
[0010]
s3、采用预设规则对所述审计日志进行预处理,得到标签事务数据集;
[0011]
s4、利用所述行为处理模型对标签事务数据集进行分析,得到标准结构化行为;
[0012]
s5、对所述标准结构化行为进行聚类分析,得到行为分类结果;
[0013]
s6、采用关联分析算法对所述行为分类结果进行挖掘分析,得到用户行为分析结果。
[0014]
进一步的,所述s1中依据用户的历史行为数据预先构建行为处理模型,并进行训练具体包括以下步骤:
[0015]
s11、利用数据获取模块获取用户的历史行为数据;
[0016]
s12、依据所述历史行为数据通过模型构建模块构建行为处理模型;
[0017]
s13、对所述行为处理模型进行网络训练,并采用最小化损失函数来更新行为处理模型的参数。
[0018]
进一步的,所述s13中对所述行为处理模型进行训练还包括以下步骤:
[0019]
对于训练不足的情况,通过增加网络中的节点,或者增加网络的训练周期来达到训练效果;
[0020]
对于过度拟合的情况,通过减少或控制训练周期,在数据出现拐点前,停止对网络的训练来达到训练效果。
[0021]
进一步的,所述s2中通过预设方法获取用户行为数据包,得到安全审计日志具体包括以下步骤:
[0022]
s21、通过镜像端口和软件探针从大数据平台中获取所有用于用户行为分析的数据包;
[0023]
s22、对数据报文进行解析,还原真实的访问行为,生成安全审计日志。
[0024]
进一步的,所述s22中审计日志采用常规审计规则和高级审计规则的方式进行审计;
[0025]
其中,常规审计规则包括:加固点名称、数据库实例、数据库类型-数据库用户、操作系统用户、主机、数据库ip、客户端ip、数据库局域网地址、客户端局域网地址、客户端程序、客户端用户名、客户端端口、请求发生时间、执行时长、结构化查询语言内容关键字以及结构化查询语言结果关键字;
[0026]
高级审计规则包括:多关键字,基于自主的高速多关键字匹配算法,当多个关键字同时出现时,触发该规则;正则表达式,可以使用正则表达式定义复杂审计规则,如身份证号码、邮件地址;语句级规则,结构化查询语言语句代表的句型的规则;生产完整审计记录。
[0027]
进一步的,所述s3中采用预设规则对所述审计日志进行预处理,得到标签事务数据集包括以下步骤:
[0028]
s31、提取、分解所述审计日志中的数据,合并、去除审计日志中不需要的字段,填充缺失内容,并对数据进行归约化表示,得到事务数据集;
[0029]
s32、通过分析算法对所述事务数据集中的用户行为数据进行分析处理,并根据分析结果打上特定的标签,得到标签事务数据集;
[0030]
s33、根据所述标签事务数据集的访问次数进行分级存储。
[0031]
进一步的,所述s32中通过分析算法对所述事务数据集中的用户行为数据进行分析处理,并根据分析结果打上特定的标签包括以下步骤:
[0032]
通过分析算法对所述事务数据集中的用户行为数据进行分析处理,并判断是否分析成功;若分析成功,则根据分析结果给事务数据集打上特定的标签;若分析不成功,则给事务数据集打上通用标签。
[0033]
进一步的,所述s33中根据所述标签事务数据集的访问次数进行分级存储具体包括以下步骤:
[0034]
s331、根据所述标签事务数据集的访问次数生成对应的动态数据热度表;
[0035]
s332、根据所述动态数据热度表对标签事务数据集进行分级存储,热度高的标签事务数据集存储在高速存储区域,热度低的标签事务数据集存放在低速存储区域。
[0036]
进一步的,所述s5中对所述标准结构化行为进行聚类分析,得到行为分类结果包括以下步骤:
[0037]
s51、根据所述标准结构化行为构建行为特征数据库;
[0038]
s52、依据预设的指标因素,计算所述行为特征数据库中各行为特征的权重,并筛选出优选特征集;
[0039]
s53、基于所述优选特征集,采用聚类算法进行聚类分析,得到行为分类结果。
[0040]
根据本发明的另一个方面,提供了一种基于大数据平台审计日志的用户行为分析系统,该系统包括数据获取模块、模型构建模块、数据处理模块、数据预处理模块、数据聚类模块、数据挖掘分析模块及数据存储模块;
[0041]
其中,所述数据获取模块用于从大数据平台获取用户行为的数据包,还用于获取数据库中用户的历史行为数据;
[0042]
所述模型构建模块用于依据历史行为数据构建行为处理模型;
[0043]
所述数据处理模块用于对系统中的所有日志数据进行分析及处理;
[0044]
所述数据预处理模块用于提取、分解审计日志中的数据,还用于合并、去除审计日志中不需要的字段,填充缺失内容,并对数据进行归约化表示;
[0045]
所述数据聚类模块用于对标准结构化行为进行特征优选和聚类分析,得出优选特征集和行为分类结果;
[0046]
所述数据挖掘分析模块用于基于优选特征集和行为分类结果,采用关联分析算法进行挖掘分析,得出行为分析结果;
[0047]
所述数据存储模块用于对标签事务数据集进行分级存储,还用于对用户的历史行为数据进行存储。
[0048]
本发明的有益效果为:
[0049]
1)、本发明通过从大数据平台审计日志中基于用户行为进行数据挖掘,比传统的基于关键字过滤更加准确,减少了安全事件的误报和漏报;此外,通过对用户行为进行归一处理,能够有效解决源数据质量要求较高的问题,降低特征选取的难度,且结合优选特征集和用户行为分类结果进行关联分析,能够提供更为全面的用户行为分析结果。
[0050]
2)、本发明通过从大数据平台审计日志中对用户的操作日志数据进行分析和挖掘,能够对用户的日志数据进行更深度的智能分析,进一步了解用户的日常行为和动态,进而实现更快速地了解用户在市场上的需求。
[0051]
3)、本发明通过对标签事务数据集进行热度计算,并使用该热度高低来进行分级管理,从而使得本发明对标签事务数据集的分级更加的人性化,可以更好的便于用户对标签事务数据集的查看。
附图说明
[0052]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0053]
图1是根据本发明实施例的一种基于大数据平台审计日志的用户行为分析方法的流程图;
[0054]
图2是根据本发明实施例的一种基于大数据平台审计日志的用户行为分析系统的结构框图。
具体实施方式
[0055]
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
[0056]
根据本发明的实施例,提供了一种基于大数据平台审计日志的用户行为分析方法及系统。
[0057]
现结合附图和具体实施方式对本发明进一步说明,如图1所示,根据本发明的一个实施例,提供了一种基于大数据平台审计日志的用户行为分析方法,该方法包括以下步骤:
[0058]
s1、依据用户的历史行为数据预先构建行为处理模型,并进行训练;
[0059]
其中,所述s1具体包括以下步骤:
[0060]
s11、利用数据获取模块获取用户的历史行为数据;
[0061]
s12、依据所述历史行为数据通过模型构建模块构建行为处理模型(rnn模型);
[0062]
s13、对所述行为处理模型进行网络训练,并采用最小化损失函数来更新行为处理模型的参数。
[0063]
具体的,所述s13中对所述行为处理模型进行训练还包括以下步骤:
[0064]
对于训练不足的情况,通过增加网络中的节点,或者增加网络的训练周期来达到训练效果;
[0065]
对于过度拟合的情况,通过减少或控制训练周期,在数据出现拐点前,停止对网络的训练来达到训练效果。
[0066]
s2、通过预设方法从大数据平台获取用户行为数据包,得到安全审计日志;
[0067]
其中,所述s2具体包括以下步骤:
[0068]
s21、通过镜像端口和软件探针从大数据平台中获取所有用于用户行为分析的数据包;
[0069]
s22、对数据报文进行解析,还原真实的访问行为,生成安全审计日志。
[0070]
具体的,所述s22中审计日志采用常规审计规则和高级审计规则的方式进行审计;
[0071]
其中,常规审计规则包括:加固点名称、数据库实例、数据库类型-数据库用户、操作系统用户、主机、数据库ip、客户端ip、数据库局域网地址、客户端局域网地址、客户端程序、客户端用户名、客户端端口、请求发生时间、执行时长、结构化查询语言内容关键字以及结构化查询语言结果关键字;
[0072]
高级审计规则包括:多关键字,基于自主的高速多关键字匹配算法,当多个关键字同时出现时,触发该规则;正则表达式,可以使用正则表达式定义复杂审计规则,如身份证号码、邮件地址;语句级规则,结构化查询语言语句代表的句型的规则;生产完整审计记录。
[0073]
s3、采用预设规则对所述审计日志进行预处理,得到标签事务数据集;
[0074]
其中,所述s3包括以下步骤:
[0075]
s31、提取、分解所述审计日志中的数据,合并、去除审计日志中不需要的字段,填充缺失内容,并对数据进行归约化表示,得到事务数据集;
[0076]
s32、通过分析算法对所述事务数据集中的用户行为数据进行分析处理,并根据分析结果打上特定的标签,得到标签事务数据集;
[0077]
具体的,所述s32包括以下步骤:
[0078]
通过分析算法对所述事务数据集中的用户行为数据进行分析处理,并判断是否分析成功;若分析成功,则根据分析结果给事务数据集打上特定的标签;若分析不成功,则给事务数据集打上通用标签。
[0079]
s33、根据所述标签事务数据集的访问次数进行分级存储。
[0080]
具体的,所述s33具体包括以下步骤:
[0081]
s331、根据所述标签事务数据集的访问次数生成对应的动态数据热度表;
[0082]
s332、根据所述动态数据热度表对标签事务数据集进行分级存储,热度高的标签事务数据集存储在高速存储区域,热度低的标签事务数据集存放在低速存储区域。
[0083]
s4、利用所述行为处理模型对标签事务数据集进行分析,得到标准结构化行为;
[0084]
s5、对所述标准结构化行为进行聚类分析,得到行为分类结果;
[0085]
本实施例中,为减少用户行为数据特征间的分类信息冗余,实现高维特征的降维,可以是对标准结构化行为进行特征优选和聚类分析,选取出有效的特征,得出优选特征集。具体的,可以是根据预设的指标信息,对候选的用户行为特征进行评价计算,筛选出优选特征集,进而根据优选特征集和用户行为分类结果进行聚类分析,提高聚类准确率并减少计算复杂性的有效性,完成用户行为分析的优化。
[0086]
其中,所述s5包括以下步骤:
[0087]
s51、根据所述标准结构化行为构建行为特征数据库;
[0088]
s52、依据预设的指标因素,计算所述行为特征数据库中各行为特征的权重,并筛选出优选特征集;
[0089]
s53、基于所述优选特征集,采用聚类算法进行聚类分析,得到行为分类结果。
[0090]
s6、采用关联分析算法对所述行为分类结果进行挖掘分析,得到用户行为分析结果。
[0091]
本实施例中,采用的关联分析算法为优化后的apriori算法,具体的,优化处理包括在apriori算法基础上通过扫描待处理的分析事务,生成候选集、并根据预设的最小支持度生成频繁项集,而后,再通过连接进行项集筛选确定目标特征数据,最后对目标特征数据进行分析,缩小待分析事务集合的范围并降低算法的时间复杂度。在算法中还包括利用时间序列的相关性分析,将时间序列事务通过指定时间间隔进行划分,同时,对获取的频繁项集进行去重并对支持度和置信度进行过程调优。
[0092]
为了方便理解本发明的上述技术方案,以下就本发明的rnn模型进行说明。
[0093]
循环神经网络(recurrent neural networks,rnn),也称递归神经网络,是近年来深度学习领域热点技术之一。在机器翻译、语音识别及图像识别领域都取得了巨大成功,在传统神经网络中,通常假设所有的输入层和输出层间是相互独立的,但对于许多任务来说,并不是一个好办法,以企业的财务数据为例,未来财务数据态势是依赖于历史时刻的态势值。
[0094]
rnn出现的目的是来处理序列数据的。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,也就是说隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。理论上,rnn能够对任何长度的序列数据进行处理。在rnn中,每输入一步,每一层各自都共享参数u,v,w。其
反映着rnn中的每一步都在做相同的事,只是输入不同,因此大大地降低了网络中需要学习的参数,而且rnn的关键之处在于隐藏层,隐藏层能够捕捉序列的信息。
[0095]
根据本发明的另一个实施例,如图2所示,提供了一种基于大数据平台审计日志的用户行为分析系统,该系统包括数据获取模块、模型构建模块、数据处理模块、数据预处理模块、数据聚类模块、数据挖掘分析模块及数据存储模块;
[0096]
其中,所述数据获取模块用于从大数据平台获取用户行为的数据包,还用于获取数据库中用户的历史行为数据;
[0097]
所述模型构建模块用于依据历史行为数据构建行为处理模型;
[0098]
所述数据处理模块用于对系统中的所有日志数据进行分析及处理;
[0099]
所述数据预处理模块用于提取、分解审计日志中的数据,还用于合并、去除审计日志中不需要的字段,填充缺失内容,并对数据进行归约化表示;
[0100]
所述数据聚类模块用于对标准结构化行为进行特征优选和聚类分析,得出优选特征集和行为分类结果;
[0101]
所述数据挖掘分析模块用于基于优选特征集和行为分类结果,采用关联分析算法进行挖掘分析,得出行为分析结果;
[0102]
所述数据存储模块用于对标签事务数据集进行分级存储,还用于对用户的历史行为数据进行存储。
[0103]
综上所述,借助于本发明的上述技术方案,本发明通过从大数据平台审计日志中基于用户行为进行数据挖掘,比传统的基于关键字过滤更加准确,减少了安全事件的误报和漏报;此外,通过对用户行为进行归一处理,能够有效解决源数据质量要求较高的问题,降低特征选取的难度,且结合优选特征集和用户行为分类结果进行关联分析,能够提供更为全面的用户行为分析结果。
[0104]
同时,本发明通过从大数据平台审计日志中对用户的操作日志数据进行分析和挖掘,能够对用户的日志数据进行更深度的智能分析,进一步了解用户的日常行为和动态,进而实现更快速地了解用户在市场上的需求。
[0105]
同时,本发明通过对标签事务数据集进行热度计算,并使用该热度高低来进行分级管理,从而使得本发明对标签事务数据集的分级更加的人性化,可以更好的便于用户对标签事务数据集的查看。
[0106]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1