一种智能运维异常检测方法及装置与流程

文档序号:30287427发布日期:2022-06-04 13:09阅读:174来源:国知局
一种智能运维异常检测方法及装置与流程

1.本发明涉及异常检测计算领域,尤其涉及一种智能运维异常检测方法及装置。


背景技术:

2.在智能运维的场景中,运维人员常常需要从诸多与系统事务关联的指标中及时捕捉异常信号并进行诊断,从而达到快速排查故障、避免事故产生的目的。与系统事务关联的指标包括页面打开时延、用户点击量、cpu利用率等。在这个场景中常常面临的挑战是,需要进行追踪的指标维度非常多,难以及时捕捉异常点,并且没有标签标记该样本是否为异常样本。现有的异常检测技术中,常规的无监督训练精准度较差,而如果使用人工来对每个样本点打标签,则成本将会非常高昂。
3.例如,专利文献cn111026925a公开了一种基于flink的孤立森林算法并行化的异常检测方法及装置,从历史数据中抽取待测试数据集构造二叉树,进而形成独立森林,再根据样本点在每个独立二叉树中的深度进行异常度评分,依据异常度评分判断数据集中的样本是否异常。
4.该方案采用无监督检测算法对样本进行异常检测,通过独立树对样本点异常度进行评分,能够实现对异常点的及时识别。但是,仅通过独立森林中的异常度评分进行异常点判定,存在效率低下、准确度不高的问题。


技术实现要素:

5.本发明提供了一种智能运维异常检测方法及装置,根据初步识别出的异常点对独立树和独立森林进行重构,实现无监督的独立森林算法与监督学习的融合,异常检测效率高且精准度高。
6.一种智能运维异常检测方法,包括:采集运维数据并进行降维处理,获得运维数据的样本;根据所述样本建立独立树并组成独立森林;根据所述独立树和独立森林,计算每个样本的初步异常评分,将初步异常评分大于预设值的样本标记为初步异常点;对部分正样本进行标记;根据标记的初步异常点识别有效树;对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出初步异常点的独立树的数量和标记的正样本的数量计算总分值;根据所述总分值计算特征选取概率并重构独立树和独立森林;根据重构的独立树和独立森林进行异常检测。
7.进一步地,采集运维数据并进行降维处理,包括:将各条运维数据按列组成矩阵;将所述矩阵的每一行进行零均值化;
求解零均值化处理后矩阵的协方差矩阵;求解所述协方差矩阵的特征值以及对应的特征;将所述特征按照所述特征值大小按行排列成特征矩阵作为样本。
8.进一步地,根据所述样本建立独立树并组成独立森林,包括:随机选取一个特征作为根节点;选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;将样本分为两组分别进入两个子节点中;重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本,形成独立树:从每个子节点,选取一个特征的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;不同特征作为根节点生成的独立树组成独立森林。
9.进一步地,每个样本的初步异常评分通过以下公式计算:;其中,表示初步异常评分,l(p)表示样本p在一棵独立树所处叶子节点的路径长度,e(l(p))则表示样本p在独立森林中每棵独立树的路径长度的平均值;;表示样本的数量。
10.进一步地,根据标记的初步异常点识别有效树,包括:将在路径长度不超过预设值时识别出初步异常点的独立树确定为有效树。
11.进一步地,所述总分值通过以下公式进行计算:;;其中,表示初步异常点p一个特征赋予的分值,n表示识别出异常点p的独立树的数量,表示初步异常点p相关特征的分值之和,表示总分值,n表示标记的正样本的数量。
12.进一步地,所述特征选取概率通过以下公式进行计算:;其中,表示第m个特征选取概率,表示总分值,表示
第m个特征。
13.进一步地,根据所述总分值计算特征选取概率并重构独立树和独立森林,包括:对随机变量u进行采样,所述随机变量u服从0-1之间的均匀分布;选取第i个特征作为根节点,所述特征满足: ,其中,表示第m个特征选取概率;选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;将样本分为两组分别进入两个子节点中;重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本:从每个子节点,随机选取一个特征向量的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;不同特征作为根节点生成的独立树重新组成独立森林。
14.进一步地,根据重构的独立树和独立森林进行异常检测,包括:根据重构的独立树和独立森林,计算每个样本的最终异常评分,将最终异常评分大于预设值的样本标记为异常点;所述最终异常评分通过以下公式计算:;其中,表示最终异常评分,表示样本p在一棵重组独立树所处叶子节点的路径长度,则表示样本p在重组的独立森林中每棵独立树的路径长度的平均值;;表示样本的数量。
15.一种智能运维异常检测装置,包括:数据处理模块,用于采集运维数据并进行降维处理,获得运维数据的样本;初步森林建立模块,用于根据所述样本建立独立树并组成独立森林;初步判断模块,用于根据所述独立树和独立森林,计算每个样本的初步异常评分,将初步异常评分大于预设值的样本标记为初步异常点;标记模块,用于对部分正样本进行标记;识别模块,用于根据标记的初步异常点识别有效树;总分计算模块,用于对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出初步异常点的独立树的数量和标记的正样本的数量计算总分值;重构模块,用于根据所述总分值计算特征选取概率并重构独立树和独立森林;
异常检测模块,用于根据重构的独立树和独立森林进行异常检测。
16.本发明提供的智能运维异常检测方法及装置,至少包括如下有益效果:(1)在进行异常检测前对运维数据降维处理,简化了应用于异常检测的样本数据,节约了运算时间,提升了异常检测算法的工作效率。
17.(2)采用人工标注的方式标记部分的正样本,将有标注的监督学习的方式加入无监督的独立森林算法中,从而能够结合两种算法的优点,在提升算法精确度的同时保证算法的效率。
18.(3)通过多个正样本的多个有效树对样本中涉及到的全部特征进行赋分,并计算特征总分值以描述每个特征在异常检测过程中起到的作用大小,作为重构独立树时选取根节点的依据,提升了重构独立森林的识别精准度。
19.(4)通过对随机变量进行均匀分布采样来进行根节点选取,能够保证每个特征被选中的概率为特征选取概率,从而保证了重构独立森林的准确性。
附图说明
20.图1为本发明提供的智能运维异常检测方法一种实施例的流程图。
21.图2为本发明提供的方法中重构独立树和独立森林的方法一种实施例的流程图。
22.图3为本发明提供的智能运维异常检测装置一种实施例的结构示意图。
23.图4为本发明提供的电子设备一种实施例的结构示意图。
24.附图标记:1-处理器,2-存储装置,101-数据处理模块,102-初步森林建立模块,103-初步判断模块,104-标记模块,105-识别模块,106-总分计算模块,107-重构模块,108-异常检测模块。
具体实施方式
25.为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
26.参考图1,在一些实施例中,提供一种智能运维异常检测方法,包括:s1、采集运维数据并进行降维处理,获得运维数据的样本;s2、根据所述样本建立独立树并组成独立森林;s3、根据所述独立树和独立森林,计算每个样本的初步异常评分,将初步异常评分大于预设值的样本标记为初步异常点;s4、对部分正样本进行标记;s5、根据标记的初步异常点识别有效树;s6、对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出初步异常点的独立树的数量和标记的正样本的数量计算总分值;s7、根据所述总分值计算特征选取概率并重构独立树和独立森林;s8、根据重构的独立树和独立森林进行异常检测。
27.智能运维数据包含多个与设备、系统、网络环境运行相关的特征,包括但不限于:网络延时、请求并发数、数据库容量。采集得到的运维数据中,一个维度对应一个特征,也即运维数据是多维度数据,因此在对运维数据进行异常检测之前,需要先进行降维处理。
28.具体地,步骤s1中,采集运维数据并进行降维处理,包括:s11、将各条运维数据按列组成矩阵;s12、将所述矩阵的每一行进行零均值化;s13、求解零均值化处理后矩阵的协方差矩阵;s14、求解所述协方差矩阵的特征值以及对应的特征;s15、将所述特征按照所述特征值大小按行排列成特征矩阵作为样本。
29.作为一种较优的实施方式,对运维数据进行pca(principal component analysis)降维处理。将k个m维数据降至m维,首先将原始运维数据按列组成m行k列的矩阵x0,然后将矩阵x0中每一行的数据减去这一行的均值,得到经过零均值化处理后的矩阵x,再对矩阵x求解其协方差矩阵,求出协方差矩阵的特征值及对应的特征,将特征按对应特征值大小从上到下按行排列成矩阵,取前m行组成矩阵 p,从而得到降维至m维后的样本,降维之后的特征为后的样本,降维之后的特征为,... 。
30.步骤s2中,根据所述样本建立独立树并组成独立森林,包括:s21、随机选取一个特征作为根节点;s22、选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;s23、将样本分为两组分别进入两个子节点中;s24、重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本,形成独立树:从每个子节点,选取一个特征的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;s25、不同特征作为根节点生成的独立树组成独立森林。
31.本实施例提供的异常检测方法采用独立森林算法,独立森林算法是一种适用于连续数据的无监督异常检测方法,通过对样本点孤立来检测异常值。独立森林算法中每个独立树的本质是一个决策树,每个样本会从根节点开始依据节点的划分方式流向其子节点,最后落到一个叶子节点上。生成独立树的数目没有统一的规则,独立树的数目与样本的数量没有直接关联。每棵独立树之间互相独立,采用独立森林算法进行异常评分需要综合考虑每棵独立树对于样本的判断。
32.在步骤s21-s25中,由于异常数据样本与其他数据样本较为疏离,相较于其他样本而言,异常样本被单独划分出来需要的划分次数较少,即异常样本在独立树中的路径长度较短。因此,可以根据每个样本被单独划分出来所经过的路径长度来判断样本是异常样本的可能性,并用初步异常评分来表示,初步异常评分大于预设值的样本标记为初步异常点。
33.具体地,步骤s3中每个样本的初步异常评分通过以下公式计算:;其中,表示初步异常评分,l(p)表示样本p在一棵独立树所处叶子
节点的路径长度,e(l(p))则表示样本p在独立森林中每棵独立树的路径长度的平均值;;表示样本的数量。
34.作为一种较优的实施方式,将根据上述公式得出的初步异常评分大于0.9的样本标记为初步异常点。
35.步骤s4中,采用人工标注的方式对部分少量正样本进行标记,人工标记的正样本记为:{}。通过对部分正样本进行标注,为实现无监督的独立森林算法与监督学习的融合提供基础,从而能够结合两种算法的优点,在提升算法精确度的同时保证算法的效率,此外,相较于全部样本的打标,还可以节省人工标记的成本。
36.初步识别出的初步异常点识别精度不高,因此,还需进一步进行独立树和独立森林的重构。
37.步骤s5中,根据标记的初步异常点识别有效树,包括:将在路径长度不超过预设值时识别出初步异常点的独立树确定为有效树。
38.步骤s6中,对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出异常点的独立树的数量和标记的正样本的数量计算总分值,包括:s61、为每个特征赋予零值作为初始分值;s62、对初步异常点执行如下步骤,直至遍历全部有效树和全部初步异常点,得到某一特征的总分值:为某一有效树中识别出某一初步异常点的特征赋予分值,其中,为初步异常点在有效树i的路径长度;s63、对全部特征执行步骤s62,得到全部特征的总分值。
39.步骤s62中,所述总分值通过以下公式进行计算:;;其中,表示初步异常点p一个特征赋予的分值,n表示识别出初步异常点p的独立树的数量,表示初步异常点p相关特征的分值之和,表示总分值,n表示标记的正样本的数量;在某些实施例中,每棵独立树的最大路径不超过d,在路径长度不超过d-1时识别出初步异常点p的独立树确定为有效树,初步异常点p的有效树共有n棵。每个特征的初始分值为0,对于有效识别出初步异常点p的第i棵独立树,为用于检测该初步异常点的路径涉及到的特征被赋予分值,其中为点p在第i棵独立树的路径长度。
假设用于检测初步异常点p涉及到的特征为,,,则对于检测初步异常点p的第i棵独立树,这三个特征均可得到分值,由此,基于n棵有效树,特征通过初步异常点p能够被赋予的总分值为。对识别出所有正样本的特征按照上述方式赋予分值,最终得到特征的总分值为。需要说明的是,如果某个特征从未被用于任何初步异常点的检测,则该特征的分值始终为零值。
40.参考图2,步骤s7中,根据所述总分值计算特征选取概率并重构独立树和独立森林,包括:s71、对随机变量u进行采样,所述随机变量u服从0-1之间的均匀分布;s72、选取第i个特征作为根节点,所述特征满足:,其中,表示第m个特征选取概率;s73、选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;s74、将样本分为两组分别进入两个子节点中;s75、重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本:从每个子节点,随机选取一个特征向量的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;s76、不同特征作为根节点生成的独立树重新组成独立森林。
41.步骤s72中,特征选取概率通过以下公式进行计算:;;其中,表示第m个特征选取概率,表示总分值,表示第m个特征。
42.步骤s7中重构独立树的流程与步骤s2中初步构建独立树的流程大体相同,不同之处在于初步构建独立树时根节点的特征选取是随机等概率的,而重构独立树时的特征选取概率由特征总分值决定,总分值越高的特征被选作重构独立树根节点的概率越大。通过对随机变量u进行均匀分布采样,再进行根节点选取,能够保证每个特征被选中的概率为。特别的,从未被用于任何初步异常点检测的特征总分值为零值,则其特征选取概率为零。
43.步骤s8中,根据重构的独立树和独立森林进行异常检测,包括:根据重构的独立树和独立森林,计算每个样本的最终异常评分,将最终异常评分大于预设值的样本标记为异常点;所述最终异常评分通过以下公式计算:;其中,表示最终异常评分,表示样本p在一棵重组独立树所处叶子节点的路径长度,则表示样本p在重组的独立森林中每棵独立树的路径长度的平均值;;表示样本的数量。
44.作为一种较优的实施方式,将根据上述公式得出的最终异常评分大于0.9的样本标记为最终异常点。在根据特征选取概率重构得到的独立树及独立森林中,对初步异常点检测起到更多作用的特征在根节点中的占比提升,因此采用重构的独立树和独立森林进行异常检测的准确率更高。
45.参考图3,在一些实施例中,提供一种智能运维异常检测装置,包括:数据处理模块101,用于采集运维数据并进行降维处理,获得运维数据的样本;初步森林建立模块102,用于根据所述样本建立独立树并组成独立森林;初步判断模块103,用于根据所述独立树和独立森林,计算每个样本的初步异常评分,将初步异常评分大于预设值的样本标记为初步异常点;标记模块104,用于对部分正样本进行标记;识别模块105,用于根据标记的初步异常点识别有效树;总分计算模块106,用于对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出初步异常点的独立树的数量和标记的正样本的数量计算总分值;重构模块107,用于根据所述总分值计算特征选取概率并重构独立树和独立森林;异常检测模块108,用于根据重构的独立树和独立森林进行异常检测。
46.其中,所述数据处理模块101还用于:将各条运维数据按列组成矩阵;将所述矩阵的每一行进行零均值化;求解零均值化处理后矩阵的协方差矩阵;求解所述协方差矩阵的特征值以及对应的特征;将所述特征按照所述特征值大小按行排列成特征矩阵作为样本。
47.所述初步森林建立模块102还用于根据所述样本建立独立树并组成独立森林,包括:随机选取一个特征作为根节点;
选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;将样本分为两组分别进入两个子节点中;重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本,形成独立树:从每个子节点,选取一个特征的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;不同特征作为根节点生成的独立树组成独立森林。
48.所述初步判断模块103中,每个样本的初步异常评分通过以下公式计算:;其中,表示初步异常评分,l(p)表示样本p在一棵独立树所处叶子节点的路径长度,e(l(p))则表示样本p在独立森林中每棵独立树的路径长度的平均值;;表示样本的数量。
49.所述识别模块105还用于:将在路径不超过预设值时识别出初步异常点的独立树确定为有效树。
50.所述总分计算模块106中,总分值通过以下公式进行计算:;;其中,表示初步异常点p一个特征赋予的分值,n表示识别出初步异常点p的独立树的数量,表示异常点p相关特征的分值之和,表示总分值,n表示标记的正样本的数量。
51.所述重构模块107中,特征选取概率通过以下公式进行计算:;其中,表示第m个特征选取概率,表示总分值,表示第m个特征。
52.所述重构模块107还用于:对随机变量u进行采样,所述随机变量u服从0-1之间的均匀分布;选取第i个特征作为根节点,所述特征满足:,其中,表示第m个特征
选取概率;选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;将样本分为两组分别进入两个子节点中;重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本:从每个子节点,随机选取一个特征向量的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;不同特征作为根节点生成的独立树重新组成独立森林。
53.所述异常检测模块108还用于:根据重构的独立树和独立森林,计算每个样本的最终异常评分,将最终异常评分大于预设值的样本标记为异常点;所述最终异常评分通过以下公式计算:;其中,表示最终异常评分,表示样本p在一棵重组独立树所处叶子节点的路径长度,则表示样本p在重组的独立森林中每棵独立树的路径长度的平均值;;表示样本的数量。
54.参考图4,在一些实施例中,提供一种电子设备,包括处理器1和存储装置2,所述存储装置2存储有多条指令,所述处理器1用于读取所述多条指令并执行上述方法。
55.本实施例提供的智能运维异常检测方法及装置,在进行异常检测前对运维数据降维处理,简化了应用于异常检测的样本数据,节约了运算时间,提升了异常检测算法的工作效率;采用人工标注的方式将标记正样本,将有标注的监督学习的方式加入无监督的独立森林算法中,从而能够结合两种算法的优点,在提升算法精确度的同时保证算法的效率;通过多个正样本的多个有效树对样本中涉及到的全部特征进行赋分,并计算特征总分值以描述每个特征在异常检测过程中起到的作用大小,作为重构独立树时选取根节点的依据,提升了重构独立森林的识别精准度;通过对随机变量进行均匀分布采样来进行根节点选取,能够保证每个特征被选中的概率为特征选取概率,从而保证了重构独立森林的准确性。
56.尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1