一种异常数据自动识别方法、可读存储系统与流程

文档序号:24397335发布日期:2021-03-26 22:14阅读:65来源:国知局

1.本发明涉及计算机技术领域,尤其涉及一种异常数据自动识别方法、可读存储系统。


背景技术:

2.随着科技的日新月异,存储设备的普及和性能提升,加上互联网和物联网的快速发展,大量的数据被储存了起来,如工业设备数据、传感器数据、移动设备数据和金融数据等。从这些大量的数值型数据中找到异常点是获得数据价值的一种重要方法。
3.现有技术中的异常点识别方法需要通过人为的干涉,例如通过人工识别确定异常点的发生边界,或确定异常发生的区间。另外,对于不同的数据来源需要设定不同异常点的识别区间;由于异常区间是人为产生和设置的,而对于不同批次、不同来源的数据需要分别设置异常区间,使得寻找异常点的工作量是很大的,而这也导致了现有方式是低效的。


技术实现要素:

4.基于背景技术存在的技术问题,本发明提出了一种异常数据自动识别方法、可读存储系统。
5.本发明提出的一种异常数据自动识别方法,包括如下步骤:
6.s1获取检测设备在当前时刻所发出的数据量,建立当前时刻相关系数的数据矩阵;
7.s2获取当前时刻所在周期前一周期内检测设备在各时刻所发出的数据量,得到前一周期的相关系数的数据矩阵;
8.s3利用当前时刻相关系数的数据矩阵与前一周期的相关系数的数据矩阵进行筛选,筛选出相应的异常数据样本;
9.s4对多份异常样本数据进行降维处理,得到每个样本标识对应的异常特征坐标,同时,对待识别样本数据进行降维处理,得到每个样本标识对应的待识别特征坐标;
10.s5利用异常数据样本的异常特征坐标与其他待识别样本数据的待识别特征坐标进行对比,计算出异常数据样本的异常特征坐标与其他待识别样本数据的待识别特征坐标之间的数据差;
11.s6判断数据差是否小于阈值,数据差是小于阈值时,将相应样本标识对应的样本数据标记为异常数据。
12.优选的,所述方法还包括:若判断获知所述当前时刻相关系数的数据矩阵为多维数据,则将多维数据处理为一维数据。
13.优选的,所述降维处理为通过计算当前时刻所发出的数据量中每个维度的方差,进行维度过滤,根据方差对过滤后的维度进行分组,得到两个维度组合,对每个维度组合分别进行降维处理,将降维后的两个维度组合进行拼接,生成与样本标识对应的特征坐标。
14.一种计算机可读存储系统,其特征在于,包括其上存储有计算机程序,该程序被处
理器执行时实现如权利要求1至3任一所述方法的步骤。
15.本发明中,所述一种异常数据自动识别方法、可读存储系统,能够直接计算出异常区间,以及根据异常区间识别出异常数据点,可以高效的识别每个样本数值数据的异常。
具体实施方式
16.下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
17.一种异常数据自动识别方法,包括如下步骤:
18.s1获取检测设备在当前时刻所发出的数据量,建立当前时刻相关系数的数据矩阵;
19.s2获取当前时刻所在周期前一周期内检测设备在各时刻所发出的数据量,得到前一周期的相关系数的数据矩阵;
20.s3利用当前时刻相关系数的数据矩阵与前一周期的相关系数的数据矩阵进行筛选,筛选出相应的异常数据样本;
21.s4对多份异常样本数据进行降维处理,得到每个样本标识对应的异常特征坐标,同时,对待识别样本数据进行降维处理,得到每个样本标识对应的待识别特征坐标;
22.s5利用异常数据样本的异常特征坐标与其他待识别样本数据的待识别特征坐标进行对比,计算出异常数据样本的异常特征坐标与其他待识别样本数据的待识别特征坐标之间的数据差;
23.s6判断数据差是否小于阈值,数据差是小于阈值时,将相应样本标识对应的样本数据标记为异常数据。
24.本发明中,所述方法还包括:若判断获知所述当前时刻相关系数的数据矩阵为多维数据,则将多维数据处理为一维数据。
25.本发明中,所述降维处理为通过计算当前时刻所发出的数据量中每个维度的方差,进行维度过滤,根据方差对过滤后的维度进行分组,得到两个维度组合,对每个维度组合分别进行降维处理,将降维后的两个维度组合进行拼接,生成与样本标识对应的特征坐标。
26.一种计算机可读存储系统,包括其上存储有计算机程序,该程序被处理器执行时实现如权利要求1至3任一所述方法的步骤。
27.本发明:获取检测设备在当前时刻所发出的数据量,建立当前时刻相关系数的数据矩阵;获取当前时刻所在周期前一周期内检测设备在各时刻所发出的数据量,得到前一周期的相关系数的数据矩阵;利用当前时刻相关系数的数据矩阵与前一周期的相关系数的数据矩阵进行筛选,筛选出相应的异常数据样本;对多份异常样本数据进行降维处理,得到每个样本标识对应的异常特征坐标,同时,对待识别样本数据进行降维处理,得到每个样本标识对应的待识别特征坐标;利用异常数据样本的异常特征坐标与其他待识别样本数据的待识别特征坐标进行对比,计算出异常数据样本的异常特征坐标与其他待识别样本数据的待识别特征坐标之间的数据差;判断数据差是否小于阈值,数据差是小于阈值时,将相应样本标识对应的样本数据标记为异常数据。
28.以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,
任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1