一种基于两步聚类算法的异常数据诊断方法及系统与流程

文档序号：24984889发布日期：2021-05-07 23:02阅读：来源：国知局

技术特征：

1.一种基于两步聚类算法的异常数据诊断方法，其特征在于，所述方法包括：

诊断类定义步骤、执行诊断操作前，对具备诊断需求的数据进行自定义类别划分，确定用于作为聚类辅助设置信息的诊断类；

数据聚类步骤、基于确定的诊断类按照设定策略应用两步聚类算法进行聚类处理；

异常诊断步骤、采用设定算法对聚类处理后的数据进行分析和计算，确定各数据对应的异常指数，并依据所述异常指数发现所有的目标异常数据。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

属性字段诊断步骤、发现所有目标异常数据后，计算剩余数据对应各特征属性的属性异常指数，选取属性异常指数满足设定条件的特征属性，将其对应的数据字段标记为异常数据字段。

3.根据权利要求1所述的方法，其特征在于，在定义诊断类的过程中，依据待诊断数据的来源分类特征、数据类型分类特征和/或数据描述对象分类特征中的一种或多种逐层确定待诊断数据对应的类别，直至满足设定条件或无可用的分类特征，将确定的类别作为诊断类，为聚类步骤提供辅助。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在定义诊断类之前，获取待诊断数据的来源信息、数据类型信息以及数据描述对象信息，并分析各自对应的可分类丰富度以及各分类对应的数据量，基于所述可分类丰富度和数据量的分析结果选取作为定义诊断类依据的有效信息，并生成该有效信息对应的分类特征，以辅助聚类步骤。

5.根据权利要求4所述的方法，其特征在于，选取有效信息的过程中，选取可分类丰富度以及各分类对应数据量均满足设定条件的信息作为有效信息；

进而分析识别有效信息对应的各分类数据量满足设定超量条件的分类，进一步划分子类别作为分类特征，以均衡各诊断类对应的数据量。

6.根据权利要求1所述的方法，其特征在于，在所述异常诊断步骤中，按照下式计算聚类后各数据的距离作为其对应的异常指数：

其中，k表示诊断类的个数，d(x,y)表示数据点x和数据点y之间的距离，xij表示第i类的第j个数据点，kij表示第i类的数据记录的个数，表示第i组数据的类中心。

7.根据权利要求1所述的方法，其特征在于，在发现所有目标异常数据的过程中，将各数据的异常指数与设定的诊断指标比较，选取满足所述诊断指标的数据作为目标异常数据输出；

其中，所述诊断指标为设定的异常指数阈值。

8.根据权利要求1所述的方法，其特征在于，在发现所有目标异常数据的过程中，获取各数据对应的异常指数后，将各数据的异常指数按照一定的次序排列，依据设定的诊断指标选取满足所述诊断指标的数据作为目标异常数据输出；

其中，所述诊断指标为设定的异常数据比例指标或异常数据数量指标。

9.一种存储介质，其特征在于，所述存储介质上存储有可实现如权利要求1～8中任一项所述方法的程序代码。

10.一种基于两步聚类算法的异常数据诊断系统，其特征在于，所述系统执行如权利要求1～8中任意一项所述的方法。

技术总结
本发明提供了一种基于两步聚类算法的异常数据诊断方法及系统，该方法包括：用于对具备诊断需求的数据进行自定义类别划分，确定诊断类的诊断类定义步骤，用于基于确定的诊断类按照设定策略应用两步聚类算法进行聚类处理的数据聚类步骤和用于对聚类处理后的数据进行分析和计算，确定各数据的异常指数并发现目标异常数据的异常诊断步骤。采用上述方案，以两步聚类算法为基础，基于聚类形成的分类和分类对应的数据距离进行异常数据的诊断，能够克服现有诊断技术存在的应用数据类型和数据场景局限，且能够适用于所有具备诊断需求的用户，实用性更佳，为各用户提供更稳定更精确的数据诊断结果，有利于为数据分析和处理工作提供可靠的资源基础。

技术研发人员：汪尚;闫秀媛
受保护的技术使用者：北京易莱信科技有限公司
技术研发日：2021.01.18
技术公布日：2021.05.07

完整全部详细技术资料下载

当前第2页1 2