一种基于双层集成策略的无监督异常检测方法与流程

文档序号:33725531发布日期:2023-04-06 00:22阅读:49来源:国知局
一种基于双层集成策略的无监督异常检测方法与流程

本发明涉及检测方法,具体为一种基于双层集成策略的无监督异常检测方法。


背景技术:

1、目前,制造行业缺少适用度高的精益管控平台。传统制造业具有生产数据量大、速度快、数据结构复杂等特点,数据的采集、存储都需要制造业企业配备相应的软硬件资源。但是在传统制造业行业整体解决方案上,还没有机构对制造业进行精益生产管控的解决方案的建设,各行业协会等部门也没有大规模开展进行此方面的工作。由于信息化的需求。部分生产企业只能选择erp等信息系统来帮助企业管理。

2、从整体来看,国内一些信息化企业已经有一些工作基础,但对系统设计、系统实现方面的研究不够深入,生产过程中关键设备的生产数据解决方案目前还没有完整功能,功能侧重资料收集,极少涉及大数据分析的研究,未实现共享与数据分析、处理,缺少引导和方法,企业的互联网应用现状差,生产过程管理缺少自动化,对生产过程及关键环节工艺参数缺乏认识,没有形成精益管控平台,缺乏对能源浪费现象、质量管控、车间优化调度、生产数据共享、过程优化等功能大数据分析平台。基于以上的原因,本发明提出一种基于双层集成策略的无监督异常检测方法来解决现有技术的不足。


技术实现思路

1、本发明解决的技术问题在于克服现有技术的缺陷,提供一种基于双层集成策略的无监督异常检测方法。

2、为实现上述目的,本发明提供如下技术方案:一种基于双层集成策略的无监督异常检测方法,包括以下步骤:

3、s1:子空间的生成;

4、s2:基本检测器的选择;

5、s3:两层的集成策略。

6、优选的,所述步骤1中的生成方法为:

7、s11:将原始特征空间划分为两个子空间,d11和d12;

8、s12:对两个子空间用于训练线性回归模型,相应得可以获得两个基本模型:f1和f2;

9、s13:结合两个基本模型的训练结果用于每一次的循环,由于异常样例的偏离,将伪标签与基本模型的预测值的差值作为临时的异常值;

10、s14:对异常值进行排名,并对异常值进行处理。

11、优选的,所述步骤2中算法为delr算法,且提出的delr算法在wbc、pageblocks、lymphography、heptitis、cardio、wdbc、satimage-2、spambase和musk数据库上进行测试,主要比较它与最新方法的异常检测的准确率及它的泛化能力。

12、优选的,所述步骤3中两层的集成策略包括内部整合和外部整合两部分组成。

13、优选的,所述步骤3中多个检测器的组合是异常集成算法的核心,使用最大值,最小值,平均值的策略是最常使用的组合策略,一般,这些策略可以通过结合多个基本检测器的结果来构建单级的策略,然而,多个检测器的组合会产生信息丢失的风险,因此,我们提出了一种两级的集成策略来提高算法的泛化能力,同时减少信息丢失的风险。

14、优选的,所述步骤s13在l次划分后能获得2*l个基本模型,提取的训练方法能有效的发现的基本模型的最佳参数。

15、优选的,所述步骤s14在每一次的循环中,将组合策略用于每一次的循环中来结合两个基本模型的训练结果,由于异常样例的偏离,将伪标签与基本模型的预测值的差值作为临时的异常值,很显然,差值越大,异常的可能性越大,按照临时的异常值,对样例进行排序。带有最大异常值的样例的排名指定为1,第二大的异常值的样例的排名指定为2,依此类推,用这种方式,我们获得两个rank列表r1和r2,基于离散值1和s2的相关性,利用两个基本模型的异常值,颠倒排序生成新的异常值s1和s2,将两个模型的结果合并成一个二维异常分数向量。

16、优选的,所述delr算法的auc与5个最新的异常集成方法用于计算差值的平均auc值相比较delr的平均auc差异是在所述异常合奏算法是最好的,很明显,平均auc差值超过所有数据集,这表明已delr表现出比所有比较的算法有更好的平均性能。delr算法主要对淋巴和wdbc数据集表现略差,然而,负平均auc差被维持在小于0.1的值,这表明delr的性能接近于当它执行越差比较算法。

17、与现有技术相比,本发明的有益效果是:

18、1、工业互联网中的设备运行检测数据冗余混杂、缺乏高质量标注,是基于数据的异常分析中的关键难点问题,本发明提出了一种不依赖于数据标签的双层集成异常检测方法,该双层的策略充分考虑到传统单层策略所忽视的模型训练过程产生的信息损失,通过两层训练提升复杂场景下性能,此外,结合多样性损失函数和有效的加权组合策略,进一步提高检测性能。

19、2、在六个nemenyi测试结果之中,delr评选为1.8,1.8,2.2,2.0,2.4和2.6的平均等级顶端算法,所有的测试有一个共同点:delr,care,sb,与knn排于前4和表现出比rb,cof,loc和odin更好的性能,这个结果与之前的评价是一致的,虽然care,sb,与knn已经在对一些数据集与delr比较出更好的性能,delr仍然在这些nemenyi测试中最好的,这一结果表明,delr算法的泛化能力得到显著提高,便于实现异常检测。



技术特征:

1.一种基于双层集成策略的无监督异常检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于双层集成策略的无监督异常检测方法,其特征在于:所述步骤1中的生成方法为:

3.根据权利要求1所述的一种基于双层集成策略的无监督异常检测方法,其特征在于:所述步骤2中算法为delr算法,且提出的delr算法在wbc、pageblocks、lymphography、heptitis、cardio、wdbc、satimage-2、spambase和musk数据库上进行测试,主要比较它与最新方法的异常检测的准确率及它的泛化能力。

4.根据权利要求1所述的一种基于双层集成策略的无监督异常检测方法,其特征在于:所述步骤3中两层的集成策略包括内部整合和外部整合两部分组成。

5.根据权利要求1所述的一种基于双层集成策略的无监督异常检测方法,其特征在于:所述步骤3中多个检测器的组合是异常集成算法的核心,使用最大值,最小值,平均值的策略是最常使用的组合策略,一般,这些策略可以通过结合多个基本检测器的结果来构建单级的策略,然而,多个检测器的组合会产生信息丢失的风险,因此,我们提出了一种两级的集成策略来提高算法的泛化能力,同时减少信息丢失的风险。

6.根据权利要求2所述的一种基于双层集成策略的无监督异常检测方法,其特征在于:所述步骤s13在l次划分后能获得2*l个基本模型,提取的训练方法能有效的发现的基本模型的最佳参数。

7.根据权利要求2所述的一种基于双层集成策略的无监督异常检测方法,其特征在于:所述步骤s14在每一次的循环中,将组合策略用于每一次的循环中来结合两个基本模型的训练结果,由于异常样例的偏离,将伪标签与基本模型的预测值的差值作为临时的异常值,很显然,差值越大,异常的可能性越大,按照临时的异常值,对样例进行排序。带有最大异常值的样例的排名指定为1,第二大的异常值的样例的排名指定为2,依此类推,用这种方式,我们获得两个rank列表r1和r2,基于离散值1和s2的相关性,利用两个基本模型的异常值,颠倒排序生成新的异常值s1和s2,将两个模型的结果合并成一个二维异常分数向量。

8.根据权利要求3所述的一种基于双层集成策略的无监督异常检测方法,其特征在于:所述delr算法的auc与5个最新的异常集成方法用于计算差值的平均auc值相比较delr的平均auc差异是在所述异常合奏算法是最好的,很明显,平均auc差值超过所有数据集,这表明已delr表现出比所有比较的算法有更好的平均性能,delr算法主要对淋巴和wdbc数据集表现略差,然而,负平均auc差被维持在小于0.1的值,这表明delr的性能接近于当它执行越差比较算法。


技术总结
本发明公开了一种基于双层集成策略的无监督异常检测方法,包括子空间的生成、基本检测器的选择和两层的集成策略。工业互联网中的设备运行检测数据冗余混杂、缺乏高质量标注,是基于数据的异常分析中的关键难点问题,本发明提出了一种不依赖于数据标签的双层集成异常检测方法,该双层的策略充分考虑到传统单层策略所忽视的模型训练过程产生的信息损失,通过两层训练提升复杂场景下性能,此外,结合多样性损失函数和有效的加权组合策略,进一步提高检测性能。

技术研发人员:单常清,赵艳,赵良,谭稳,李小纯
受保护的技术使用者:邵东智能制造技术研究院有限公司
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1