基于机器学习算法的用户网络异常行为发现方法及系统与流程

文档序号:17585677发布日期:2019-05-03 21:17阅读:232来源:国知局
基于机器学习算法的用户网络异常行为发现方法及系统与流程

本发明涉及网络安全技术领域,具体涉及一种基于机器学习算法的用户网络异常行为发现方法及系统。



背景技术:

随着互联网的飞速发展,通过对网络的被动监测,可以在用户无感知的环境下对网络情况进行深入洞察,从而针对日趋边界淡化的网络安全进行有效监测及防护,但存在以下问题:

1)传统的网络风险发现方式,主要是利用特征匹配、通讯检测等手段来发现通讯和应用中违反安全策略的行为,其依赖静态规则,很容易被颠覆,也很难动态更新。

2)传统的网络行为分析,主要针对网络的使用、连接进行全局性的分析,没有涉及到具体的网络交易行为,对于细节的用户行为把控及其可能产生的安全风险发现存在发现能力的不足。

3)针对用户画像技术虽可对用户的操作全貌进行总览,但目前的用户画像技术大多通过阈值设定的技术来生成指标值,标签值的量化存在局限性。

由于人类行为不稳定,难以预测,且网络中存在海量的用户操作行为,所涉及的数据量极大,通过人类自身无法实现识别,因此,用户行为分析一直是一个难题。



技术实现要素:

本发明的目的在于针对现有技术的不足,提供一种至少能够克服上述部分问题的基于机器学习算法的用户网络异常行为发现方法及系统。

为实现上述第一个目的,本发明采用以下技术方案:

基于机器学习算法的用户网络异常行为发现方法,其包括以下步骤:

1)采集网络流量数据,对所得到的网络流量数据进行深度包解析,获得用户网络访问行为数据;

2)对用户网络访问行为数据进行清洗、集成、变换和规约,得到历史预处理数据和实时预处理数据;

3)对历史预处理数据采用机器学习算法进行计算,得到与用户历史网络访问行为特征相对应的多个历史特征向量,并根据多个历史特征向量构建用户行为模式矩阵;

4)采用熵权法对用户行为模式矩阵进行计算,得到用户各历史特征向量的权重;

5)对实时预处理数据采用朴素贝叶斯算法进行计算,得到与用户当前网络访问行为特征相对应的多个实时特征向量;

6)将多个实时特征向量与用户各历史特征向量的权重进行加权计算,得到用户网络访问行为信任度评分,并采用熵权法对多个实时特征向量进行计算,以更新用户各历史特征向量的权重;

7)重复步骤5)和步骤6)多次,以跟踪用户网络访问行为信任度评分变化,判断用户网络访问行为信任度评分是否多次降低,若是,则判定用户存在异常行为。

作为优选,所述历史特征向量和实时特征向量均由单维度特征和多维度特征构成,所述单维度特征由用户网络访问行为的url参数、源ip、时间和操作系统中的一种以上构成,所述多维度特征由用户网络访问行为的登录地与host的组合特征、host与延迟的组合特征、host与操作系统的组合特征、以及时间与登录地的组合特征中的一种以上构成。

作为优选,步骤4)中采用熵权法对用户行为模式矩阵进行计算的方法是:通过熵权法将用户行为模式矩阵中的用户各历史特征向量纳入计算,获取不同特征值的混乱度,混乱度低的特征信息量更大,在综合评价中所起作用越大,则赋予该历史特征向量更高的权重。

为实现上述第二个目的,本发明采用以下技术方案:

基于机器学习算法的用户网络异常行为发现系统,其包括采集解析层、数据加工层、模型分析层和结果展示层;

所述采集解析层具有数据采集模块、解析模块和匹配模块,所述数据采集模块采集网络流量数据,解析模块对采集到的网络流量数据进行深度包解析,以获得用户网络访问行为数据,匹配模块将用户网络访问行为数据匹配关联至每个用户,形成每个用户的行为轨迹,实现对用户网络访问行为的全生命周期跟踪;

所述数据加工层具有数据类型转换模块、去噪模块、数据清洗模块和数据标准化模块,所述数据类型转换模块、去噪模块、数据清洗模块和数据标准化模块分别对数据进行清洗、集成、变换及规约,以得到历史预处理数据和实时预处理数据;

所述模型分析层具有大数据分析引擎,所述大数据分析引擎对历史预处理数据采用机器学习算法进行计算,得到与用户历史网络访问行为特征相对应的多个历史特征向量,并根据多个历史特征向量构建用户行为模式矩阵,采用熵权法对用户行为模式矩阵进行计算,得到用户各历史特征向量的权重,采用朴素贝叶斯算法对实时预处理数据进行计算,得到与用户当前网络访问行为特征相对应的多个实时特征向量,将多个实时特征向量与用户各历史特征向量的权重进行加权计算,得到用户网络访问行为信任度评分,并采用熵权法对多个实时特征向量进行计算,以更新用户各历史特征向量的权重;

所述结果展示层具有判断模块和显示模块,所述判断模块储存并跟踪用户网络访问行为信任度评分变化,并判断用户网络访问行为信任度评分是否多次降低,若是,则判定用户存在异常行为,并将用户存在异常行为的信号发送给显示模块显示。

作为优选,所述历史特征向量和实时特征向量均由单维度特征和多维度特征构成,所述单维度特征由用户网络访问行为的url参数、源ip、时间和操作系统中的一种以上构成,所述多维度特征由用户网络访问行为的登录地与host的组合特征、host与延迟的组合特征、host与操作系统的组合特征、以及时间与登录地的组合特征中的一种以上构成。

本发明采用以上技术方案,由于用户的网络操作行为是否存在风险是和对其的信任度存在强相关性,本发明通过采集网络流量数据,对所得到的网络流量数据进行深度包解析,获得细节化的用户网络访问行为数据,并引入大数据分析引擎进行无监督机器学习算法,提供一定程度的灵活模式识别,尤其针对正在预测但从未发生过,或者曾发生过但频次很低的事件时,能够通过分析多个维度上的数据并应用贝叶斯概率度量来生成复杂的用户行为模式矩阵,并采用熵权法对用户行为模式矩阵进行计算,得到用户各历史特征向量的权重,以及采用熵权法对多个实时特征向量进行计算,以自动更新用户各历史特征向量的权重,同时将多个实时特征向量与用户各历史特征向量的权重进行加权计算,得到用户网络访问行为信任度评分,以赋予用户网络访问行为信任度的定量评价,然后通过持续跟踪用户网络访问行为信任度评分变化,以产生关于一个人具备可信度或缺乏可信度的有价值的线索,针对信任度的持续降低及突然降低进行重点用户及其对应行为的关注,判断用户网络访问行为信任度评分是否多次降低,若是,则即可判定用户存在异常行为,从而直观量化风险值。

附图说明

现结合附图对本发明作进一步阐述:

图1为本发明基于机器学习算法的用户网络异常行为发现方法的流程图;

图2为本发明基于机器学习算法的用户网络异常行为发现系统的示意框图。

具体实施方式

如图1或者图2所示,本发明基于机器学习算法的用户网络异常行为发现方法,其包括以下步骤:

1)采集网络流量数据,对所得到的网络流量数据进行深度包解析,获得用户网络访问行为数据;

2)对用户网络访问行为数据进行清洗、集成、变换和规约,得到历史预处理数据和实时预处理数据;

3)对历史预处理数据采用机器学习算法进行计算,得到与用户历史网络访问行为特征相对应的多个历史特征向量,并根据多个历史特征向量构建用户行为模式矩阵;

4)采用熵权法对用户行为模式矩阵进行计算,得到用户各历史特征向量的权重;

5)对实时预处理数据采用朴素贝叶斯算法进行计算,得到与用户当前网络访问行为特征相对应的多个实时特征向量;

6)将多个实时特征向量与用户各历史特征向量的权重进行加权计算,得到用户网络访问行为信任度评分,并采用熵权法对多个实时特征向量进行计算,以更新用户各历史特征向量的权重;

7)重复步骤5)和步骤6)多次,以跟踪用户网络访问行为信任度评分变化,判断用户网络访问行为信任度评分是否多次降低,若是,则判定用户存在异常行为。

作为优选,所述历史特征向量和实时特征向量均由单维度特征和多维度特征构成,所述单维度特征由用户网络访问行为的url参数、源ip、时间和操作系统中的一种以上构成,所述多维度特征由用户网络访问行为的登录地与host的组合特征、host与延迟的组合特征、host与操作系统的组合特征、以及时间与登录地的组合特征中的一种以上构成。

作为优选,步骤4)中采用熵权法对用户行为模式矩阵进行计算的方法是:通过熵权法将用户行为模式矩阵中的用户各历史特征向量纳入计算,获取不同特征值的混乱度,混乱度低的特征信息量更大,在综合评价中所起作用越大,则赋予该历史特征向量更高的权重。

本发明基于机器学习算法的用户网络异常行为发现系统,其包括采集解析层、数据加工层、模型分析层和结果展示层;

所述采集解析层具有数据采集模块、解析模块和匹配模块,所述数据采集模块采集网络流量数据,解析模块对采集到的网络流量数据进行深度包解析,以获得用户网络访问行为数据,匹配模块将用户网络访问行为数据匹配关联至每个用户,形成每个用户的行为轨迹,实现对用户网络访问行为的全生命周期跟踪;

所述数据加工层具有数据类型转换模块、去噪模块、数据清洗模块和数据标准化模块,所述数据类型转换模块、去噪模块、数据清洗模块和数据标准化模块分别对数据进行清洗、集成、变换及规约,以得到历史预处理数据和实时预处理数据;

所述模型分析层具有大数据分析引擎,所述大数据分析引擎对历史预处理数据采用机器学习算法进行计算,得到与用户历史网络访问行为特征相对应的多个历史特征向量,并根据多个历史特征向量构建用户行为模式矩阵,采用熵权法对用户行为模式矩阵进行计算,得到用户各历史特征向量的权重,采用朴素贝叶斯算法对实时预处理数据进行计算,得到与用户当前网络访问行为特征相对应的多个实时特征向量,将多个实时特征向量与用户各历史特征向量的权重进行加权计算,得到用户网络访问行为信任度评分,并采用熵权法对多个实时特征向量进行计算,以更新用户各历史特征向量的权重;

所述结果展示层具有判断模块和显示模块,所述判断模块储存并跟踪用户网络访问行为信任度评分变化,并判断用户网络访问行为信任度评分是否多次降低,若是,则判定用户存在异常行为,并将用户存在异常行为的信号发送给显示模块显示。

作为优选,所述历史特征向量和实时特征向量均由单维度特征和多维度特征构成,所述单维度特征由用户网络访问行为的url参数、源ip、时间和操作系统中的一种以上构成,所述多维度特征由用户网络访问行为的登录地与host的组合特征、host与延迟的组合特征、host与操作系统的组合特征、以及时间与登录地的组合特征中的一种以上构成。

本发明采用以上技术方案,由于用户的网络操作行为是否存在风险是和对其的信任度存在强相关性,本发明通过采集网络流量数据,对所得到的网络流量数据进行深度包解析,获得细节化的用户网络访问行为数据,并引入大数据分析引擎进行无监督机器学习算法,提供一定程度的灵活模式识别,尤其针对正在预测但从未发生过,或者曾发生过但频次很低的事件时,能够通过分析多个维度上的数据并应用贝叶斯概率度量来生成复杂的用户行为模式矩阵,并采用熵权法对用户行为模式矩阵进行计算,得到用户各历史特征向量的权重,以及采用熵权法对多个实时特征向量进行计算,以自动更新用户各历史特征向量的权重,同时将多个实时特征向量与用户各历史特征向量的权重进行加权计算,得到用户网络访问行为信任度评分,以赋予用户网络访问行为信任度的定量评价,然后通过持续跟踪用户网络访问行为信任度评分变化,以产生关于一个人具备可信度或缺乏可信度的有价值的线索,针对信任度的持续降低及突然降低进行重点用户及其对应行为的关注,判断用户网络访问行为信任度评分是否多次降低,若是,则即可判定用户存在异常行为,从而直观量化风险值。

以上描述不应对本发明的保护范围有任何限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1