技术特征:
1.基于rfe-dagmm的高维数据异常检测方法,其特征是,包括步骤如下:步骤1:我们选择了公开的高维数据异常检测数据集,对该数据进行预处理,采用数字特征归一化处理,使得处理后的数值处于[0,1]之间,归一化采用最大最小归一化方法;步骤2:将所述预处理完成的数据通过rfe进行特征选择,给定每个特征一个权重,通过所选择的基估计器进行训练,得到每个特征的排名,按照排名重新对特征进行排序,消除较差的特征,直至达到所指定的特征数目,将特征选择后的数据作为下一阶段的输入x’;步骤3:构建压缩网络,将x’输入到编码器中对高维数据进行降维得到z
c
, zc通过解码器进行重构得到x
’’
,计算重构误差得到z
r,
将z
c
和z
r
结合为z作为下一阶段的输入;步骤4:构建估计网络,将z通过多层神经网络后输入到gmm(高斯混合模型)当中,使得自编码器与gmm模型一起进行密度估计,把得到的低维特征表示作为em算法(期望最大化算法)中e步骤的隐含变量,对其求极大似然估计值,然后最大化似然值,以此对模型进行训练求出gmm的各个参数,得到样本能量,计算完成后将样本能量进行输出;步骤5:设定阈值,阈值的设定是根据样本能量和数据比例来进行设定的,将样本能量大于阈值的样本判断视为异常,小于阈值的样本视为正常;步骤6:设置损失函数,对模型进行训练损失函数的制定有三个部分,其中包括重构误差、似然函数、以及防止矩阵不可逆的协方差矩阵;步骤7:通过构建好的模型对高维数据进行异常检测测试对模型进行测试,利用训练时学习的 gmm的参数,可以直接计算得出样本能量值,将所得到的样本能量通过设定的阈值来判断该条数据是否是异常数据,最终得出异常检测结果。2.如权利要求1所述的基于rfe-dagmm的高维数据异常检测方法,其特征在于,根据步骤2中的rfe特征选择方法所采用的基估计器是随机森林,首先把随机森林的n_estimators属性设置为41,建立41棵决策树,将rfe的步长设置为10,每次消除10个特征,然后通过训练随机森林的方式按照重要性进行排序,剔除排序最低的特征,将剩余的特征再次传入随机森林中进行训练,以此来进行迭代,消除无关特征或者较差特征。3.如权利要求1所述的基于rfe-dagmm的高维数据异常检测方法,其特征在于,根据步骤5中阈值的设定是根据样本能量以及数据比例所决定,其中所选数据集中有396743条正常数据,97278条异常数据;正常异常数据比为4:1,通过得出的样本能量按照从小到大进行排序,设定第80%分位,以此作为检测异常的阈值。4.如权利要求1所述的基于rfe-dagmm的高维数据异常检测方法,其特征在于,根据步骤3中的压缩网络,采用的自编码器结构,它的优点是能够使得网络变为非线性结构,更好地还原输入,对三个隐藏层的维度设置分别为40、20、10,将高维数据压缩为维度为1的低维数据,然后将其重构,用余弦相似度和相对欧几里得距离的方法来计算重构误差。5.如权利要求1所述的基于rfe-dagmm的高维数据异常检测方法,其特征在于,根据步骤4中估计网络的设定,是通过传入的重构误差与低维特征表示来一起进行密度估计,通过并行的方式解决了传统的以递归方式进行的先降维完成后再进行密度估计的方式中所存在的陷入局部最优化问题,这样可以做到更好地利用低维特征中的重要信息,通过联合优化的方式来达到减少重构误差的效果。
技术总结
本发明公开了一种针对高维数据进行异常检测的方法,将RFE(递归特征消除)和DAGMM(深度自编码高斯混合模型)相结合,通过降维和重构的方式来检测异常数据。首先对数据预处理;通过RFE方法进行特征选择,然后构建压缩网络,获得重构误差和低维特征表示,将两部分作为估计网络的输入,通过估计网络计算能量值。在测试时,通过设置阈值进行异常检测。本发明提供的高维数据异常检测方法,相比于传统的异常检测方法在处理高纬度数据上提高了检测精确,降低了训练时长和误警率,解决了数据维度高,数据类型复杂的高纬数据在异常检测方面精度低,误报率高,时效差等问题。例如能够很好地应用在网络方面来检测流量异常。在网络方面来检测流量异常。在网络方面来检测流量异常。
技术研发人员:李刚 杨泽宇 周鸣乐 李敏 刘一鸣 李旺
受保护的技术使用者:山东省计算中心(国家超级计算济南中心)
技术研发日:2021.12.17
技术公布日:2022/3/25