一种数控系统指令域序列异常数据检测方法

文档序号：8943261阅读：563来源：国知局

一种数控系统指令域序列异常数据检测方法
【技术领域】
[0001] 本发明属于数据挖掘领域，更具体的，涉及一种数控系统指令域序列异常数据检测方法。
【背景技术】
[0002] 按照国家现行标准GB4883-2008中定义，异常值形成原因有2个：总体固有变异性的极端表现引起，实验条件、试验方法、观测、记录或计算失误引起；标准还给出了异常值检测方法，大多数研究也主要参照该标准提出的统计学方法进行研究，例如公开号为CN104657503A的专利，利用统计判别法对电商销售额异常值进行预处理，公开号为 CN104703215A的专利，通过在预设时间内对异常值的频率统计得到出现异常值的概率确定是否出现异常事件；针对异常值挖掘算法还有利用聚类、距离、密度、偏差等方法。
[0003] 上述方法主要针对无序数据集，在实际社会、经济、军事和生活等活动中产生的数据大多是按照某种顺序排列的有序序列，例如时间序列、数控加工中基于指令序列的状态数据序列等，有序序列中异常数据包含着潜在的信息，充分挖掘其信息才能够充分掌握实际生产活动动态变化，实现社会、经济、军事和生活等活动的实时的智能检测和控制。有序序列异常有3种类型：点异常、连续序列异常、模式异常。点异常与连续序列异常主要表现为单个或少量连续点偏离整体模式，形成局部尖峰或较为尖锐的局部波动，其前后序列模式一致，与无序数据集异常值形成原因一致；模式异常主要表现为大量"相对"连续点偏离整体模式或者从某点开始走势偏离原模式，二者分别会形成阶梯或者跳变，具体见图1，"相对"是指在模式异常序列内部可能存在点异常、连续序列异常，本质上模式异常并非真正异常，只是由于数据内部结构特异性或实验条件、试验方法改变引起的数据行为的改变。
[0004] 有序序列异常数据挖掘方法主要有生物学方法、机器学习方法、基于特征空间的方法等；生物学方法仿照免疫系统识别自我和异我的机制，将"异我"识别为异常并剔除；机器学习方法包括神经网络回归模型、支持向量机回归模型、聚类，利用回归模型求取的值或预测的值与实际值比较判别是否为异常值，聚类则主要对训练集分段后训练获得状态机，数据流中出现与状态机不符的序列被判定为异常模式；基于特征的方法对数据流分段求取特征，从而将时间序列异常检测转化无序数据集异常检测。
[0005] 对有序序列的分析分为动态和静态两种，静态分析主要针对数据库中已存储的数据，数据不再更新，动态分析主要针对随某变量持续更新的有序序列，即数据流。针对动态数据的挖掘不仅要考虑序列的前后相关性还要考虑数据的持续更新，不能像对待静态数据将其全部存入数据库，因为随着变量推移，数据流中数据是海量的，常用简化存储的方法是存入一个远小于数据量的概要数据结构或模型，针对数据流异常检测应是连续的，并且应该高效快速以满足实时分析的需求。数据流异常数据挖掘是数据挖掘领域一个研究热点，针对时间序列异常数据挖掘的专利有很多，例如公开号为CN104715150A的专利，提取图形中时间序列构建被试的静息态脑功能复杂网络，对网络的拓扑结构性质进行双样本T检验得到显著异常，公开号为CN104717106A的专利，利用ARMA模型预测值与真实值比对得到网络流量属性数据信息的新息序列，通过多变量序贯概率比检验后做差得到似然比序列，对其进行相关性分析判定网络异常是否发生，公开号为CN104636999A的专利，首先利用行业标准寻找异常，然后利用偏差检测技术过滤异常，最后采用基于离散傅立叶变换的时间序列相似性查找出异常，实现建筑用能数据中的异常数据精准定位，时间序列异常检测多为静态分析；目前并无针对数据流异常数据挖掘的中国专利，相关文献有很多，例如哈尔滨工业大学的庞景月基于滑动窗口的高斯过程回归模型，用于检测单数据流异常，复旦大学的张晨构建了不确定数据流聚类算法、基于信息论的概率数据流聚类算法、多数据流情况下的异常趋势检测方法，用于挖掘数据流异常，东北大学的田玥采用CLOSET算法挖掘网络数据流频繁模式，利用加权欧几里得距离度量相似性，检测异常模式，设计了大规模网络数据流异常检测系统模型和网络数据流频繁模式挖掘和检测算法；这些研究要么模型建立和计算复杂，要么难以实现自动实时分析，需要进行人为干涉选择部分参数或判断中间结果后选取流程走向等。

【发明内容】

[0006] 针对上述需求或改进需求，本发明方法提出了一种数控系统指令域序列异常数据挖掘方法，其能够快速有效进行数据流异常数据的实时检测，所述方法包括：
[0007] (1)、利用简单移动平均法或多项式拟合法获取训练样本数据中心线，利用训练样本、训练样本数据中心线，通过二分法或直接搜索法获取包络线比率r ;
[0008] 简单移动平均法如下：
[0009]
CD
[0010] 其中X1为序列号为i的样本点，y k为获取的第k个中心点，d为移动平均项数， [d/2]为向左取整，d计算方法如下：
[0011] d = k3l (2)
[0012] 其中匕为移动平均项数占样本量比例，一般取4% ;
[0013] 多项式拟合法确定多项式项数w后，数据中心线多项式为：yk= awxkw+aw Pk" k… +a。，利用最小二乘法求取多项式系数a。、S1、…、aw，
[0014] 根据数据中心线、r，上下包络线公式如下：
[0015] yk= X k±r · R ⑶
[0016] 其中r为包络线比率，R为样本值偏离中心线值的均方差，在式（3)外的样本点为滑动窗口内判定的异常点；
[0017] 设训练集样本点数为I (1多10N)，二分法搜索获取r的条件如下：
[0018] 条件1:包络线外样本点数小于kl · 1 ;
[0019] 条件2:包络线外样本点数大于k2 · 1 ;
[0020] 条件3:包络线外样本点总数小于k2 · 1，大于kl · I ;
[0021] 其中，所述kl是最小异常点数占样本总量的比率，k2是最大异常点数占样本总量的比率；
[0022] 具体搜索流程如下：
[0023] (1-1)、给定最小和最大r分别为a()、a1&最大迭代次数k，令当前迭代次数i = 1 ;
[0024] (1-2)、根据公式（3)依次计算包络线比率分别为a。、％时是否满足条件3,满足输出满足条件的值，迭代结束，否则转入（1-3);
[0025] (1-3)、令 i = i+Ι，左右节点 L、R 分别为 a。、a1;a ;= (L+R)/2 ;
[0026] (1-4)、若&1满足条件1，则需要减小r，使包络线外样本增加，故左节点不变，右节点更新为a 1;若满足条件2,则需要增大r，使包络线外样本减少，故右节点不变，左节点更新为ai;
[0027] (1-5)、重复步骤（1-3)、（1-4)，直到满足条件3或达到最大迭代次数，输出最终 r ；
[0028] 本发明方法根据具体条件设计的二分法只需更新左右节点，利用左右节点中值即可不断迅速缩小范围，搜索满足条件的值；此二分法同样适用满足相同条件的搜索；
[0029] 其中利用直接搜索法是指从最大值&1或最小值a。，按照指定步长s搜索减小或增大r值，为达到精度q要求，s需满足：
[0030]
[0031] 正负代表搜索方向，为正则由a。开始搜索，反之从&1开始。
[0032] (2)、构造窗宽N、临界长度X、连续异常点长度和阶梯点长度分界线Y、数据流分析长度Z的经验公式并根据经验公式设置相应参数；初始化单步处理样本点数u、滑动窗口异常记录多维序列I ciuuict、过程记录序列1_、过程记录正常序列ln_al;
[0033] 其中，窗宽N根据采样周期T、单步处理样本点数u、单步检测与存储需要的时间c 确定，窗宽N需满足下式：
[0034] u · T 彡 c (5)
[0035] 若不满足，则适当减小窗宽N，若不满足需相应增大N。其中X、Y、Z、N-般应满足下式：
[0036] Z 彡 100Ν
[0037] Y ^ 0. 4% N
[0038] X ^ 0. 5% N (6)
[0039] 初始化单步处理样本点数u、滑动窗口异常记录多维序列Iciuuict、过程记录序列 1_、过程记录正常序列I nmial，用U确定滑动窗口滑动一次处理的样本点数，用记录滑动窗口内判定的异常点的序列号及其累计异常数，用1_记录通过滑动窗口且待处理的样本点序列号及其初始判定类型，用I nmial记录通过滑动窗口且为初始判定正常点的序列号及其初始判定类型；
[0040] (3)、利用N确定滑动窗口长度，利用滑动窗口分割数据流，利用简单移动平均法或多项式拟合法获取滑动窗口数据中心线，利用滑动窗口数据中心线、r、公式（3)求取当前滑动窗口上下包络线，包络线外样本为当前滑动窗口内判定的异常点，存入I ciuuict，当前滑动窗口内异常点判定完毕后，利用过程记录序列1_、过程记录正常序列ln_al、X、Y确定最终判定类型；
[0041] 其中利用滑动窗口分割数据流是指滑动窗口包含N个连续样本点，第i个滑动窗口异常检测后，位于滑动窗口前部

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨建中;马驰飞;陈吉红;许光达;薛聪;
技术所有人：华中科技大学;武汉华中数控股份有限公司;
我是此专利的发明人

上一篇：基于虚拟病例的诊疗正确性自动评价系统的制作方法
上一篇：高速轨道车辆二系垂向悬置最优阻尼比的解析计算方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。