基于随机森林和长短期记忆网络的工业物联网数据异常检测方法与流程

文档序号:31928273发布日期:2022-10-25 23:29阅读:138来源:国知局
基于随机森林和长短期记忆网络的工业物联网数据异常检测方法与流程

1.本发明涉及基于随机森林和长短期记忆网络的工业物联网数据异常检测方法,属于工业网络安全检测技术领域。


背景技术:

2.随着新一代通信技术的快速发展和应用,融合终端传感技术、计算、通信、存储于一体的物联网设备在工业领域的应用越来越广泛,一旦工业物联网设备受到攻击,将会严重影响工业系统的实时性和可用性,因此工业物联网安全成为了各国关键信息基础设施重要的防护领域。工业物联网具有多维时间序列的特点,相比单维时间序列,具有复杂的相关性,各维度之间也存在着更为复杂的关联情况,使得对于多维时间序列的研究难度呈指数级增长。
3.当前工业物联网面临多种网络攻击事件,需要在建立工业物联网数据异常检测模型时输入多种特征。但输入特征过多不仅会加大计算难度,而且易导致检测精度下降,因此选取合适的特征组合对于提高检测精度具有重要意义。
4.现有技术中,诸如基于k近邻和树种子算法的ids方法进行特征选择,但是该方法仅能降低特征的冗余性,虽检测效率有小幅提升,但准确率没有较好的改善。


技术实现要素:

5.本发明所要解决的技术问题是提供基于随机森林和长短期记忆网络的工业物联网数据异常检测方法,采用全新设计逻辑,不仅注重数据质量,更考虑到特征重要性,能够有效提高异常流量检测的效率与准确性。
6.本发明为了解决上述技术问题采用以下技术方案:本发明设计了基于随机森林和长短期记忆网络的工业物联网数据异常检测方法,用于针对目标工业物联网进行数据异常检测,包括执行如下步骤a至步骤d,获得工业物联网数据异常检测模型;应用工业物联网数据异常检测模型,执行如下步骤i,针对目标工业物联网中的待分析工业物联网流量实现异常检测;
7.步骤a.采集目标工业物联网历史数据中分别对应正常类别、以及预设各异常类别的各工业物联网样本流量,然后进入步骤b;
8.步骤b.针对各工业物联网样本流量执行数据预处理,获得各个工业物联网待处理样本流量,然后进入步骤c;
9.步骤c.基于各工业物联网待处理样本流量分别所对应预设各流量待选特征,获得相关性排序中顺序前个流量待选特征,作为各个目标流量特征,然后进入步骤d;n表示流量待选特征的数量,a表示预设比例,0《a《1,表示向上取整;
10.步骤d.基于各个工业物联网待处理样本流量,以工业物联网待处理样本流量所对应各目标流量特征为输入,工业物联网待处理样本流量所对应类别为输出,针对目标神经
网络进行训练,获得工业物联网数据异常检测模型;
11.步骤i.获得目标工业物联网中待分析工业物联网流量所对应各目标流量特征,应用工业物联网数据异常检测模型,获得待分析工业物联网流量所对应类别,实现对待分析工业物联网流量的异常检测。
12.作为本发明的一种优选技术方案:所述各异常类别包括丢包类别、回注类别、恶意软件感染类别、拒绝服务类别、未授权访问类别、以及虚假数据包注入类别。
13.作为本发明的一种优选技术方案:所述步骤b中包括如下步骤b1至步骤b3;
14.步骤b1.针对各工业物联网样本流量,分别依次执行数据填充处理、数据去噪处理,以及针对全部工业物联网样本流量,依次执行数据去重处理、数据不平衡处理,获得各个工业物联网待处理样本流量,然后进入步骤b2;
15.步骤b2.针对各工业物联网待处理样本流量,执行数据标准化处理,更新各工业物联网待处理样本流量,然后进入步骤b3;
16.步骤b3.针对各工业物联网待处理样本流量,执行数据标归一化处理,更新各工业物联网待处理样本流量,然后进入步骤c。
17.作为本发明的一种优选技术方案:所述数据填充处理采用拉格朗日插值法、平均值或中位数填充中的任意一种;所述数据去噪处理采用规则约束法或3σ原则;所述数据不平衡处理采用采用上采样或下采样方法;所述数据标准化处理采用z-score标准化方法;所述数据标归一化处理采用logistic函数方法。
18.作为本发明的一种优选技术方案:所述步骤c中,基于各工业物联网待处理样本流量分别所对应预设各流量待选特征,应用随机森林算法,获得各流量待选特征相关性排序,并顺序获得其中前个流量待选特征,作为各个目标流量特征。
19.作为本发明的一种优选技术方案:所述目标神经网络为长短期记忆网络。
20.本发明所述基于随机森林和长短期记忆网络的工业物联网数据异常检测方法,采用以上技术方案与现有技术相比,具有以下技术效果:
21.本发明所设计基于随机森林和长短期记忆网络的工业物联网数据异常检测方法,首先进行数据预处理,然后通过随机森林算法筛选出各目标流量特征,最后基于长短期记忆网络,训练获得工业物联网数据异常检测模型,用于对目标工业物联网中的待分析工业物联网流量实现异常检测;设计方法不仅综合考量了多维度数据特征,使模型能过适应真实的应用环境,提升检测准确性,而且针对多维度特征分析,引入随机森林算法对多维数据进行特征提取,以信息熵为度量构造熵值下降最快的树,到叶子节点处的熵值为零或接近零,能够很好的选择出多维数据的重要特征;整个设计方法能够有效应对工业网络物联网安全威胁,提高异常流量检测的准确率。
附图说明
22.图1是本发明设计基于随机森林和长短期记忆网络的工业物联网数据异常检测方法流程图。
具体实施方式
23.下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
24.本发明设计了基于随机森林和长短期记忆网络的工业物联网数据异常检测方法,用于针对目标工业物联网进行数据异常检测,实际应用当中,执行如下步骤a至步骤d,获得工业物联网数据异常检测模型。
25.步骤a.通过流量探针等设备,采集目标工业物联网历史数据中分别对应正常类别、以及预设各异常类别的各工业物联网样本流量,然后进入步骤b。
26.应用中,各异常类别包括丢包类别、回注类别、恶意软件感染类别、拒绝服务类别、未授权访问类别、以及虚假数据包注入类别。
27.步骤b.针对各工业物联网样本流量执行数据预处理,获得各个工业物联网待处理样本流量,然后进入步骤c。
28.实际应用中,上述步骤b中包括如下步骤b1至步骤b3;
29.步骤b1.工业物联网流量常常是存在缺失值、有噪声的,针对各工业物联网样本流量,分别依次执行数据填充处理、数据去噪处理,以及针对全部工业物联网样本流量,依次执行数据去重处理、数据不平衡处理,获得各个工业物联网待处理样本流量,然后进入步骤b2。
30.并且上述设计实际实施中,数据填充处理采用拉格朗日插值法、平均值或中位数填充中的任意一种;所述数据去噪处理采用规则约束法或3σ原则;所述数据不平衡处理采用采用上采样或下采样方法。
31.步骤b2.针对各工业物联网待处理样本流量,采用z-score标准化方法,执行数据标准化处理,更新各工业物联网待处理样本流量,然后进入步骤b3。
32.数据标准化处理,即对样本数据在不同维度上进行一个伸缩变化,不改变原始数据的几何距离,去除不同特征之间的一个度量,保留原样本数据在各个维度上的信息(分布)。
33.在多特征评价体系中,由于各特征指标的性质不同,通常具有不同的量纲和数量级,当各特征间的水平相差很大时,如果直接用原始特征值进行分析,就会突出数值较高的特征在综合分析中的作用,相对削弱数值水平较低特征的作用。
34.步骤b3.针对各工业物联网待处理样本流量,采用logistic函数方法,执行数据标归一化处理,更新各工业物联网待处理样本流量,使得所有特征的数据范围都压缩在0-1之间,以保证数据不会因为特征的取值而影响模型的权重,然后进入步骤c。
35.步骤c.基于各工业物联网待处理样本流量分别所对应预设各流量待选特征,应用随机森林算法,获得各流量待选特征相关性排序,并顺序获得其中前个流量待选特征,作为各个目标流量特征,然后进入步骤d;n表示流量待选特征的数量,a表示预设比例,0《a《1,表示向上取整。
36.随机森林算法是一种简单高效、鲁棒性好的集成学习方法,其自身具有特征重要性评价机制,可以将多维数据中相关性较大的特征进行筛选,找出影响较大的关键特征。它是基于一组决策树分类器{h(x,θk),k=1,2,

,k}的组合算法,其中{θk}为服从独立同分布的随机向量,k为随机森林中决策树的个数。利用随机森林算法对特征重要性进行排序,采用序列后向搜索方法,每次从特征集合中去掉重要性得分最小的特征,通过反复选择,最终得到最重要的特征集合,优化多维数据特征,形成新的数据集,从而提升模型检测效率,提高模型检测精确度。
37.步骤d.基于各个工业物联网待处理样本流量,以工业物联网待处理样本流量所对应各目标流量特征为输入,工业物联网待处理样本流量所对应类别为输出,针对诸如长短期记忆网络的目标神经网络进行训练,获得工业物联网数据异常检测模型。
38.长短期记忆网络是深度学习算法的一种,是为解决一般的循环神经网络存在长期依赖问题而专门设计出来的,适合用于处理和检测时间序列中间隔和延迟相对较长的重要事件,对于工业物联网数据中时间序列的处理具有很好的效果。
39.基于上述工业物联网数据异常检测模型的获得,应用工业物联网数据异常检测模型,执行如下步骤i,针对目标工业物联网中的待分析工业物联网流量实现异常检测。
40.步骤i.获得目标工业物联网中待分析工业物联网流量所对应各目标流量特征,应用工业物联网数据异常检测模型,获得待分析工业物联网流量所对应类别,实现对待分析工业物联网流量的异常检测。
41.实际应用当中,对于工业物联网数据维度多、特征选择难度大的问题,本发明设计方案使用随机森林的方法对特征重要性进行了刻画和分析,有效筛选出重要特征,形成新的数据集,降低数据复杂程度,提升检测效率;整个方案设计考虑到工业物联网数据具有时间序列特性,使用随机森林和长短期神经网络组合的方式,执行工业物联网数据异常事件检测,可以有效对工业物联网时间序列进行分析,提升检测准确率。
42.上述技术方案所设计基于随机森林和长短期记忆网络的工业物联网数据异常检测方法,首先进行数据预处理,然后通过随机森林算法筛选出各目标流量特征,最后基于长短期记忆网络,训练获得工业物联网数据异常检测模型,用于对目标工业物联网中的待分析工业物联网流量实现异常检测;设计方法不仅综合考量了多维度数据特征,使模型能过适应真实的应用环境,提升检测准确性,而且针对多维度特征分析,引入随机森林算法对多维数据进行特征提取,以信息熵为度量构造熵值下降最快的树,到叶子节点处的熵值为零或接近零,能够很好的选择出多维数据的重要特征;整个设计方法能够有效应对工业网络物联网安全威胁,提高异常流量检测的准确率。
43.上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1