一种基于无监督和层级聚类的异常检测方法及装置与流程

文档序号:36412763发布日期:2023-12-19 06:00阅读:36来源:国知局
一种基于无监督和层级聚类的异常检测方法及装置与流程

本发明涉及异常检测,特别是涉及一种基于无监督和层级聚类的异常检测方法及装置。


背景技术:

1、基于时序数据的异常点检测任务不管在学术还是工业界均有广阔的应用前景。在工业界中常会基于简单的统计、产品设计指标、专家经验等措施确定数据的波动范围,在确定固定阈值后对超出或低于阈值的时刻进行警报。在学术界中,得益于机器学习、深度学习等一系列数据分析方法的发展,在异常点或异常模式上的检测能力均有较大程度的提高,不仅可以灵活的波动阈值范围,而且可以通过学习的方式自动训练权重。在一系列数据分析方法中,大体上包括三类,一种是基于有标签的监督式学习,一种是基于自身数据的自监督式学习,最后一种是无标签的无监督式学习。其中在监督式学习中,需要通过专家对数据的异常进行位置标注以及异常类别的判断,以提供模型需要的输入和输出。自监督式学习不需要专家进行标注,而是通过特定的映射关系,在确定模型需要达到的目标前提下,进行数据内部的主动学习。无监督式学习则是既不需要专家进行标注,也没有需要完成的指定目标,而是通过构建特征或者设定模型结构,让数据内部自己进行特征、模式、状态的聚类,相似结构应具有类似的语义表达。

2、通过设定固定阈值的方式,虽然谨慎地避免了严重的灾害发生,但其严苛的固定性,也导致了在复杂环境中过于死板,无法应对多变的场景的情况。有监督式学习是一个较好代替固定阈值的方法,但其受限于需要大量标注的数据,而实际工业场景中故障的发生相对而言则是小概率事件,甚至于未知故障的发生无法提前进行人工标注,因此这对于需要标签的学习而言则会造成特征和类别之间的困扰和混淆。基于自身数据结构的自监督式学习,虽然自监督方式不需要进行人为的标注,但是基于预测误差来对异常进行判断,与有监督式学习方法类似,最终均需要进行误差分布、数值比较之间的判断,会产生较多的误报情况。目前的无监督式学习,则更倾向于挖掘数据之间关联关系同时也可以实现聚类的效果,因为是基于数据信息的完全自主学习,因此对于内部的结合机制、以及特征构造均是难以解释的。同时也因为搜索空间的增大,导致较优解的寻优也是比较困难的问题。


技术实现思路

1、本发明提供了一种基于无监督和层级聚类的异常检测方法及装置,可以避免冗余信息、提高语义编码的有效性、加强时序数据在高维空间中的语义表达,并提高识别和检测的准确性。

2、为了解决上述技术问题,本发明提供了一种基于无监督和层级聚类的异常检测方法,包括:

3、利用滑动窗口技术,在邻域内提取时序信息序列的一阶段特征;其中,所述一阶段特征包括若干个非线性数值特征;

4、计算所述一阶段特征的变化率,确定所述变化率为时序信息序列的二阶段特征;

5、利用非负矩阵分解,对所述二阶段特征进行若干次聚类分析,得到若干个无监督聚类结果;其中,每次聚类分析的聚类个数不相同;

6、在所述若干个无监督聚类结果中获取各类别的概率分布,并利用马尔科夫链信息转移模型依次计算相邻两次聚类的概率转移数值;

7、根据计算得出的所有概率转移数值,确定所述时序信息序列中各时序点的高维语义向量;

8、根据所述各时序点的高维语义向量,计算各时序点的风险指标值;

9、根据所述各时序点的风险指标值,判断所述时序信息序列是否异常。

10、进一步地,所述利用滑动窗口技术,在邻域内提取时序信息序列的一阶段特征,具体为:

11、在固定宽度的滑动窗口内依次提取时序信息序列的非线性数值特征;其中,所述非线性数值特征包括滑动窗口内的平均值、方差、最小值与最大值的比值以及滑动窗口内的相对倾斜程度;

12、将所述时序信息序列的非线性数值特征确定为时序信息序列的一阶段特征。

13、进一步地,所述利用非负矩阵分解,对所述二阶段特征进行若干次聚类分析,得到若干个无监督聚类结果,具体为:

14、在进行聚类分析前,确定每次聚类分析的聚类个数;其中,相邻两次聚类的聚类个数为相邻的数字;

15、根据各聚类分析的聚类个数,利用非负矩阵分解依次对所述二阶段特征进行聚类分析,在不同聚类个数下分别得到不同类别的概率分布,生成若干个无监督聚类结果。

16、进一步地,所述根据所述各时序点的高维语义向量,计算各时序点的风险指标值,具体为:

17、根据所述各时序点的高维语义向量,计算各时序点间的余弦相似度;

18、利用预设的风险指标计算公式,根据各时序点间的余弦相似度,计算各时序点的风险指标值。

19、进一步地,所述根据所述各时序点的高维语义向量,计算各时序点间的余弦相似度,具体为:

20、所述各时序点的高维语义向量的具体公式为:

21、ps=xn*d

22、其中,ps为高维语义向量的集合;x为高维语义向量;n为时序点数量;d为向量维度;

23、根据各时序点的高维语义向量,计算各时序点间的余弦相似度,具体公式为:

24、

25、其中,cosn*n为时序点间的余弦相似度;ps为高维语义向量的集合;n为时序点数量。

26、进一步地,所述利用预设的风险指标计算公式,根据各时序点间的余弦相似度,计算各时序点的风险指标值,具体为:

27、在获取时序信息序列上各时序点的余弦相似度后,计算余弦相似度均值,并依次计算各时序点的余弦相似度在所述时序信息序列的所占比例,具体公式为:

28、vi=cos(i,:)

29、其中,vi为第i行中的时序点与其他时序点的余弦相似度均值;

30、利用预设的风险指标计算公式,根据各时序点的余弦相似度以及余弦相似度所占比例,计算各时序点的风险指标值;

31、所述预设的风险指标计算公式具体为:

32、

33、其中,ri为时序点i的风险指标值;vi为第i行中的时序点与其他时序点的余弦相似度均值;为vi所占比例。

34、进一步地,所述根据所述各时序点的风险指标值,判断所述时序信息序列是否异常,具体为:

35、依次将所述各时序点的风险指标值与预设的风险阈值进行比较;

36、若风险指标值未超出所述风险阈值,则判断所述风险指标值对应的时序点无异常;

37、若风险指标值超出所述风险阈值,则判断所述风险指标值对应的时序点异常,在所述时序信息序列中标记异常时序点并发出报警。

38、本发明提供了一种基于无监督和层级聚类的异常检测方法,利用滑动窗口技术,提取时序信息序列的一阶段特征,并进行信息融合形成二阶段特征,完成了基于时序邻域信号的有效语义编码,避免了冗余信息;利用非负矩阵分解对二阶段特征进行若干次聚类分析,随着聚类个数增加,尽可能地将目标中重要信息进行拆分,获取各类别的概率分布;采用马尔科夫链信息转移模型计算概率转移数值,进一步加强了时序数据在高维空间中的语义表达;最后对各时序点进行余弦相似度测量,计算出基于全局特征分布的各时序点的风险指标值,从而判断时序信息序列是否异常。本发明避免了冗余信息、提高语义编码的有效性、加强时序数据在高维空间中的语义表达,并提高了识别和检测的准确性。

39、相应的,本发明提供了一种基于无监督和层级聚类的异常检测装置,包括:提取模块、确定模块、分析模块、概率计算模块、向量计算模块、风险计算模块和判断模块;

40、所述提取模块用于利用滑动窗口技术,在邻域内提取时序信息序列的一阶段特征;其中,所述一阶段特征包括若干个非线性数值特征;

41、所述确定模块用于计算所述一阶段特征的变化率,确定所述变化率为时序信息序列的二阶段特征;

42、所述分析模块用于利用非负矩阵分解,对所述二阶段特征进行若干次聚类分析,得到若干个无监督聚类结果;其中,每次聚类分析的聚类个数不相同;

43、所述概率计算模块用于在所述若干个无监督聚类结果中获取各类别的概率分布,并利用马尔科夫链信息转移模型依次计算相邻两次聚类的概率转移数值;

44、所述向量计算模块用于根据计算得出的所有概率转移数值,确定所述时序信息序列中各时序点的高维语义向量;

45、所述风险计算模块用于根据所述各时序点的高维语义向量,计算各时序点的风险指标值;

46、所述判断模块用于根据所述各时序点的风险指标值,判断所述时序信息序列是否异常。

47、进一步地,所述风险计算模块,包括:第一计算单元和第二计算单元;

48、所述第一计算单元用于根据所述各时序点的高维语义向量,计算各时序点间的余弦相似度;

49、所述第二计算单元用于利用预设的风险指标计算公式,根据各时序点间的余弦相似度,计算各时序点的风险指标值。

50、进一步地,所述判断模块,包括:比较单元、第一判断单元和第二判断单元;

51、所述比较单元用于依次将所述各时序点的风险指标值与预设的风险阈值进行比较;

52、所述第一判断单元用于若风险指标值未超出所述风险阈值,则判断所述风险指标值对应的时序点无异常;

53、所述第二判断单元用于若风险指标值超出所述风险阈值,则判断所述风险指标值对应的时序点异常,在所述时序信息序列中标记异常时序点并发出报警。

54、本发明提供了一种基于无监督和层级聚类的异常检测装置,以模块间的有机结合为基础,利用滑动窗口技术,提取时序信息序列的一阶段特征,并进行信息融合形成二阶段特征,完成了基于时序邻域信号的有效语义编码,避免了冗余信息;利用非负矩阵分解对二阶段特征进行若干次聚类分析,随着聚类个数增加,尽可能地将目标中重要信息进行拆分,获取各类别的概率分布;采用马尔科夫链信息转移模型计算概率转移数值,进一步加强了时序数据在高维空间中的语义表达;最后对各时序点进行余弦相似度测量,计算出基于全局特征分布的各时序点的风险指标值,从而判断时序信息序列是否异常。本发明避免了冗余信息、提高语义编码的有效性、加强时序数据在高维空间中的语义表达,并提高了识别和检测的准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1