基于集成学习的高危授权用户识别方法与流程

文档序号:37019231发布日期:2024-02-09 13:11阅读:28来源:国知局
基于集成学习的高危授权用户识别方法与流程

本发明属于安全保护,具体涉及一种基于集成学习的高危授权用户识别方法。


背景技术:

1、随着各类应用的演进与扩张,有效的管理用户授权以及防止用户的高危授权变得越来越重要,现有技术中的应用管理服务可以提前从用户中筛选出高危授权用户,对筛选出来的实际高危授权用户执行安全限制操作;这样做虽然提升了对高危授权用户的管理能力;但是,随着目前技术和威胁的不断发展,此种识别方法已不能在实际访问过程中,实现对各个用户的准确识别,很容易遗漏某些用户异常特征导致漏报,且实时性以及准确性较低,会因无法准确判断访问用户是否为高危授权用户而影响用户的会话操作;基于此,如何提供一种实时性以及准确性高的高危授权用户的识别方法,已成为一个亟待解决的问题。


技术实现思路

1、本发明的目的是提供基于集成学习的高危授权用户识别方法,用以解决现有技术中所存在的实时性和准确性较低的问题。

2、为了实现上述目的,本发明提供了一种基于集成学习的高危授权用户识别方法,包括:

3、获取目标用户的用户数据,并对目标用户的用户数据进行etl操作,过程中还包括数据抽取、数据转换和数据加载步骤,以消除错误和重复的用户数据;其中,所述用户数据包括所述目标用户的行为数据、个人信息数据以及设备信息数据;

4、对所述用户数据中的行为数据、个人信息数据以及设备信息数据进行特征提取,以得到所述目标用户的用户特征;

5、对所述目标用户的用户特征进行特征选择,通过消除不相关或冗余的特征来减少用户数据的维度,从而降低计算复杂度;

6、使用线性判别分析法lda将用户数据从高维映射到低维的空间;

7、获取基于集成学习的高危授权用户识别模型,其中,所述高危授权用户识别模型是以多个样本的用户特征为输入,各个样本的用户识别结果为输出而训练得到的;

8、将所述目标用户的用户特征输入至所述高危授权用户识别模型,获取目标用户的用户识别结果;高危授权用户识别模型根据用户识别结果中的量化异常数据和正常数据的差异给出一个评分,分值越小,异常程度越高。根据得分统计异常数据的来源及有哪些数据特征影响来判定是否为高危授权用户。

9、基于上述公开的内容,本发明预先构建了基于集成学习的高危授权用户识别模型,其中,该高危授权用户识别模型是以海量样本用户的样本用户特征为输入,各个样本用户的用户识别结果为输出来训练得到的;如此,在应用时,只需要获取目标用户的行为数据、个人信息数据以及设备信息数据,对数据进行etl数据清洗,然后对前述数据进行特征提取,得到目标用户的用户特征;对用户特征进行特征选择,减少需要处理的数据量;最后,将其输入至前述高危授权用户识别模型,根据得到的异常得分,通过进一步优化即可判定出目标用户是否为高危授权用户。授权用户每一次登录时都会收到自己的风险评分,以此对授权用户进行管理和提醒。

10、通过上述设计,本发明在堡垒机中通过集成学习来构建出了高危授权用户识别模型,其中,集成学习能够获得比已存在的其他模型更高的预测性能,不但可以适用于不同数据类型的异常检测,能够更有效地处理高维非线性可分数据空间中的难例异常识别问题,从而更准确地捕获潜在的风险模式,不会漏掉异常信息;同时,在进行识别时,综合考虑了包含有用户行为、个人信息以及设备信息的多维度特征;如此,在使用训练得到的模型来检测异常行为时,能够准确地辨别可能存在高风险授权行为的用户;由此,本发明将基于梯度提升树的高危授权用户识别模型应用至堡垒机中梯度提升决策树(gradient boostingdecision tree,gbdt),在堡垒机中识别高危用户时,使用梯度提升树的方式具有显著的优势。一方面,梯度提升树是一种基于boosting集成学习思想的加法模型,它通过多轮迭代训练一系列的弱分类器,并在每轮迭代中,根据上一轮分类器的残差来拟合一个新的决策树。另一方面,梯度提升决策树模型能够处理大量的特征和样本,对非线性问题有较好的解决能力,因此可以有效地应用于这种场景中,帮助我们从海量的数据中识别出潜在的高危用户。这使得梯度提升树模型具有优秀的预测性能和泛化能力。在实际访问过程中,实时的且有效地识别出潜在的高危授权用户,并进行相应的报警;基于此,本发明加强了系统的安全性和身份验证过程,相比于传统技术,其实时性以及准确性得到了大幅提升,准确性跟此前比较提升了很多,非常适用于在系统安全保护技术领域的大规模应用与推广。

11、在一个可能的设计中,所述目标用户的用户识别结果还包括高危用户置信度,并对其进行安全认证,所述方法包括:

12、基于所述目标用户的高危用户置信度,确定出所述目标用户的风险等级;

13、根据所述目标用户的风险等级,采取与所述目标用户的风险等级相对应的操作策略,对所述目标用户进行安全认证。

14、一个可能的设计中,基于所述目标用户的高危用户置信度,确定出所述目标用户的风险等级,包括:

15、若所述目标用户的高危用户置信度处于置信度阈值与第一风险阈值之间,则确定所述目标用户的风险等级为三级风险用户;

16、若所述目标用户的高危用户置信度处于第一风险阈值与第二风险阈值之间,则确定所述目标用户的风险等级为二级风险用户;

17、若所述目标用户的高危用户置信度大于第二风险阈值,则确定所述目标用户的风险等级为一级风险用户,其中,所述一级风险用户、所述二级风险用户以及所述三级风险用户的风险等级依次降低。

18、在一个可能的设计中,在对所述目标用户进行安全认证后,所述方法还包括:

19、判断所述目标用户是否通过安全认证;

20、若否,则生成所述目标用户的封锁指令,并执行所述封锁指令,以阻断所述目标用户对敏感系统或资源的访问。

21、在一个可能的设计中,在获取目标用户的用户数据前,所述方法还包括:

22、获取多个样本用户的历史用户数据,其中,任一样本用户的历史用户数据包括该任一样本用户的历史行为数据、历史个人信息数据、历史设备信息数据以及该任一样本用户的用户标签,且所述用户标签包括高危授权用户或低风险授权用户;

23、对各个历史用户数据中的历史行为数据、历史个人信息数据以及历史设备信息数据进行特征提取处理,以得到各个样本用户的样本用户特征;

24、将各个样本用户的样本用户特征与各个样本用户的用户标签进行关联处理,得到多个关联特征数据,并将多个关联特征数据划分为训练集和测试集;

25、以训练集中的每条训练数据为输入,每条训练数据对应样本用户的用户识别结果为输出,来训练梯度提升树模型,并在训练完成后,使用测试集测试训练后的梯度提升树模型,以在测试结果满足预设条件时,将训练后的梯度提升树模型,作为所述高危授权用户识别模型。

26、在一个可能的设计中,对各个历史用户数据中的历史行为数据、历史个人信息数据以及历史设备信息数据进行特征提取处理,以得到各个样本用户的样本用户特征,包括:

27、对于任一样本用户对应的历史用户数据,对所述任一样本用户对应的历史用户数据中的历史行为数据、历史个人信息数据以及历史设备信息数据进行初次特征提取处理,得到所述任一样本用户的初始用户特征;

28、对所述任一样本用户对应的初始用户特征中的各个特征进行特征选择处理,以提取出所述任一样本用户对应初始用户特征中的关键特征;

29、利用提取出的关键特征,组成所述任一样本用户对应的样本用户特征。

30、在一个可能的设计中,以训练集中的每条训练数据为输入,每条训练数据对应样本用户的用户识别结果为输出,来训练梯度提升树模型,包括:

31、1.初始化:首先确定模型的基本参数,提取授权用户操作日志数据,如登录时间、登录地点、登录设备、操作频率等,作为学习模型的输入变量。

32、2.迭代训练决策树:迭代地训练一系列弱分类器,并将这些弱分类器的结果进行加权组合,得到最终的强分类器。具体包括在每一轮迭代中,梯度提升树都会根据上一轮分类器的残差来拟合一个新的决策树。具体来说,梯度提升树的目标是最小化损失函数,而这个损失函数是通过梯度下降法来求解的。梯度提升树会计算出当前模型的残差,然后根据这个残差来拟合出一颗新的决策树,从而更新模型参数。

33、3.异常得分计算:确定特征数据的信息熵和条件熵。信息熵是对数据集中的不确定性或混乱程度的度量,而条件熵则表示在已知某一特征的条件下,对数据的不确定性的度量。根据信息增益方法,量化的表示特征数据对训练数据集的信息贡献度,而每一种异常数据都存在独有的异常评分。当识别出异常以后,再根据高危行为是由哪一类异常数据带来评出最后的异常得分。

34、本发明的有益效果是:本发明在堡垒机中通过集成学习方式来构建出了高危授权用户识别模型,其中,集成学习能够获得比单个模型更高的预测性能,可以更准确地捕获潜在的风险模式;同时,在进行识别时,综合考虑了包含有用户行为、个人信息以及设备信息的多维度特征;如此,在使用集成学习而训练得到的模型来检测异常行为时,能够准确地辨别可能存在高风险授权行为的用户;由此,本发明将基于集成学习的高危授权用户识别模型应用至堡垒机中,可以在实际访问过程中,实时的且有效地识别出潜在的高危授权用户,并进行相应的报警;基于此,本发明加强了系统的安全性和身份验证过程,相比于传统技术,其实时性以及准确性得到了大幅提升,非常适用于在系统安全保护技术领域的大规模应用与推广。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1