一种数控系统指令域序列异常数据检测方法

文档序号:8943261
一种数控系统指令域序列异常数据检测方法
【技术领域】
[0001] 本发明属于数据挖掘领域,更具体的,涉及一种数控系统指令域序列异常数据检 测方法。
【背景技术】
[0002] 按照国家现行标准GB4883-2008中定义,异常值形成原因有2个:总体固有变 异性的极端表现引起,实验条件、试验方法、观测、记录或计算失误引起;标准还给出了 异常值检测方法,大多数研究也主要参照该标准提出的统计学方法进行研究,例如公开 号为CN104657503A的专利,利用统计判别法对电商销售额异常值进行预处理,公开号为 CN104703215A的专利,通过在预设时间内对异常值的频率统计得到出现异常值的概率确定 是否出现异常事件;针对异常值挖掘算法还有利用聚类、距离、密度、偏差等方法。
[0003] 上述方法主要针对无序数据集,在实际社会、经济、军事和生活等活动中产生的数 据大多是按照某种顺序排列的有序序列,例如时间序列、数控加工中基于指令序列的状态 数据序列等,有序序列中异常数据包含着潜在的信息,充分挖掘其信息才能够充分掌握实 际生产活动动态变化,实现社会、经济、军事和生活等活动的实时的智能检测和控制。有序 序列异常有3种类型:点异常、连续序列异常、模式异常。点异常与连续序列异常主要表现 为单个或少量连续点偏离整体模式,形成局部尖峰或较为尖锐的局部波动,其前后序列模 式一致,与无序数据集异常值形成原因一致;模式异常主要表现为大量"相对"连续点偏离 整体模式或者从某点开始走势偏离原模式,二者分别会形成阶梯或者跳变,具体见图1,"相 对"是指在模式异常序列内部可能存在点异常、连续序列异常,本质上模式异常并非真正异 常,只是由于数据内部结构特异性或实验条件、试验方法改变引起的数据行为的改变。
[0004] 有序序列异常数据挖掘方法主要有生物学方法、机器学习方法、基于特征空间的 方法等;生物学方法仿照免疫系统识别自我和异我的机制,将"异我"识别为异常并剔除; 机器学习方法包括神经网络回归模型、支持向量机回归模型、聚类,利用回归模型求取的值 或预测的值与实际值比较判别是否为异常值,聚类则主要对训练集分段后训练获得状态 机,数据流中出现与状态机不符的序列被判定为异常模式;基于特征的方法对数据流分段 求取特征,从而将时间序列异常检测转化无序数据集异常检测。
[0005] 对有序序列的分析分为动态和静态两种,静态分析主要针对数据库中已存储的数 据,数据不再更新,动态分析主要针对随某变量持续更新的有序序列,即数据流。针对动态 数据的挖掘不仅要考虑序列的前后相关性还要考虑数据的持续更新,不能像对待静态数据 将其全部存入数据库,因为随着变量推移,数据流中数据是海量的,常用简化存储的方法是 存入一个远小于数据量的概要数据结构或模型,针对数据流异常检测应是连续的,并且应 该高效快速以满足实时分析的需求。数据流异常数据挖掘是数据挖掘领域一个研究热点, 针对时间序列异常数据挖掘的专利有很多,例如公开号为CN104715150A的专利,提取图形 中时间序列构建被试的静息态脑功能复杂网络,对网络的拓扑结构性质进行双样本T检验 得到显著异常,公开号为CN104717106A的专利,利用ARMA模型预测值与真实值比对得到网 络流量属性数据信息的新息序列,通过多变量序贯概率比检验后做差得到似然比序列,对 其进行相关性分析判定网络异常是否发生,公开号为CN104636999A的专利,首先利用行业 标准寻找异常,然后利用偏差检测技术过滤异常,最后采用基于离散傅立叶变换的时间序 列相似性查找出异常,实现建筑用能数据中的异常数据精准定位,时间序列异常检测多为 静态分析;目前并无针对数据流异常数据挖掘的中国专利,相关文献有很多,例如哈尔滨工 业大学的庞景月基于滑动窗口的高斯过程回归模型,用于检测单数据流异常,复旦大学的 张晨构建了不确定数据流聚类算法、基于信息论的概率数据流聚类算法、多数据流情况下 的异常趋势检测方法,用于挖掘数据流异常,东北大学的田玥采用CLOSET算法挖掘网络数 据流频繁模式,利用加权欧几里得距离度量相似性,检测异常模式,设计了大规模网络数据 流异常检测系统模型和网络数据流频繁模式挖掘和检测算法;这些研究要么模型建立和计 算复杂,要么难以实现自动实时分析,需要进行人为干涉选择部分参数或判断中间结果后 选取流程走向等。

【发明内容】

[0006] 针对上述需求或改进需求,本发明方法提出了一种数控系统指令域序列异常数据 挖掘方法,其能够快速有效进行数据流异常数据的实时检测,所述方法包括:
[0007] (1)、利用简单移动平均法或多项式拟合法获取训练样本数据中心线,利用训练样 本、训练样本数据中心线,通过二分法或直接搜索法获取包络线比率r ;
[0008] 简单移动平均法如下:
[0009]
CD
[0010] 其中X1为序列号为i的样本点,y k为获取的第k个中心点,d为移动平均项数, [d/2]为向左取整,d计算方法如下:
[0011] d = k3l (2)
[0012] 其中匕为移动平均项数占样本量比例,一般取4% ;
[0013] 多项式拟合法确定多项式项数w后,数据中心线多项式为:yk= awxkw+aw Pk" k… +a。,利用最小二乘法求取多项式系数a。、S1、…、aw,
[0014] 根据数据中心线、r,上下包络线公式如下:
[0015] yk= X k±r · R ⑶
[0016] 其中r为包络线比率,R为样本值偏离中心线值的均方差,在式(3)外的样本点为 滑动窗口内判定的异常点;
[0017] 设训练集样本点数为I (1多10N),二分法搜索获取r的条件如下:
[0018] 条件1:包络线外样本点数小于kl · 1 ;
[0019] 条件2:包络线外样本点数大于k2 · 1 ;
[0020] 条件3:包络线外样本点总数小于k2 · 1,大于kl · I ;
[0021] 其中,所述kl是最小异常点数占样本总量的比率,k2是最大异常点数占样本总量 的比率;
[0022] 具体搜索流程如下:
[0023] (1-1)、给定最小和最大r分别为a()、a1&最大迭代次数k,令当前迭代次数i = 1 ;
[0024] (1-2)、根据公式(3)依次计算包络线比率分别为a。、%时是否满足条件3,满足输 出满足条件的值,迭代结束,否则转入(1-3);
[0025] (1-3)、令 i = i+Ι,左右节点 L、R 分别为 a。、a1;a ;= (L+R)/2 ;
[0026] (1-4)、若&1满足条件1,则需要减小r,使包络线外样本增加,故左节点不变,右节 点更新为a 1;若满足条件2,则需要增大r,使包络线外样本减少,故右节点不变,左节点更 新为ai;
[0027] (1-5)、重复步骤(1-3)、(1-4),直到满足条件3或达到最大迭代次数,输出最终 r ;
[0028] 本发明方法根据具体条件设计的二分法只需更新左右节点,利用左右节点中值即 可不断迅速缩小范围,搜索满足条件的值;此二分法同样适用满足相同条件的搜索;
[0029] 其中利用直接搜索法是指从最大值&1或最小值a。,按照指定步长s搜索减小或增 大r值,为达到精度q要求,s需满足:
[0030]
[0031] 正负代表搜索方向,为正则由a。开始搜索,反之从&1开始。
[0032] (2)、构造窗宽N、临界长度X、连续异常点长度和阶梯点长度分界线Y、数据流分析 长度Z的经验公式并根据经验公式设置相应参数;初始化单步处理样本点数u、滑动窗口异 常记录多维序列I ciuuict、过程记录序列1_、过程记录正常序列ln_al;
[0033] 其中,窗宽N根据采样周期T、单步处理样本点数u、单步检测与存储需要的时间c 确定,窗宽N需满足下式:
[0034] u · T 彡 c (5)
[0035] 若不满足,则适当减小窗宽N,若不满足需相应增大N。其中X、Y、Z、N-般应满足 下式:
[0036] Z 彡 100Ν
[0037] Y ^ 0. 4% N
[0038] X ^ 0. 5% N (6)
[0039] 初始化单步处理样本点数u、滑动窗口异常记录多维序列Iciuuict、过程记录序列 1_、过程记录正常序列I nmial,用U确定滑动窗口滑动一次处理的样本点数,用记录 滑动窗口内判定的异常点的序列号及其累计异常数,用1_记录通过滑动窗口且待处理的 样本点序列号及其初始判定类型,用I nmial记录通过滑动窗口且为初始判定正常点的序列 号及其初始判定类型;
[0040] (3)、利用N确定滑动窗口长度,利用滑动窗口分割数据流,利用简单移动平均法 或多项式拟合法获取滑动窗口数据中心线,利用滑动窗口数据中心线、r、公式(3)求取当 前滑动窗口上下包络线,包络线外样本为当前滑动窗口内判定的异常点,存入I ciuuict,当前 滑动窗口内异常点判定完毕后,利用过程记录序列1_、过程记录正常序列ln_al、X、Y确定 最终判定类型;
[0041] 其中利用滑动窗口分割数据流是指滑动窗口包含N个连续样本点,第i个滑动窗 口异常检测后,位于滑动窗口前部
再多了解一些
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1