一种快速从大规模数据中筛选离群数据的方法

文档序号：6631866阅读：310来源：国知局

一种快速从大规模数据中筛选离群数据的方法
【专利摘要】本发明提供一种快速从大规模数据中筛选离群数据的方法，是充分考虑到大规模数据离群数据挖掘计算时间及空间复杂度的特点，采用随机采样来减小参与计算的样本数量，采用并行计算来加速运算速度，从而有效的解决了大规模数据离群数据筛选中对计算时间和内存空间的要求较高的问题，从而实现快速且有效的离群数据筛选。
【专利说明】一种快速从大规模数据中筛选离群数据的方法

【技术领域】
[0001]本发明涉及计算机模式识别及机器学习【技术领域】，具体地说是一种快速从大规模数据中筛选离群数据的方法。

【背景技术】
[0002]离群数据是指在大量数据存在的一些与数据的一般行为或模型不一致的数据。离群数据的产生一般认为有两种原因:
1)度量或执行错误所导致对这类型离群数据的筛选，可以从大量数据中筛选出杂质或存在问题的数据，进而提高数据的总体质量；
2)固有的数据变异性的结果这类型数据的客观存在决定了对该类型离群数据筛选的重要性。例如在科研数据发现客观存在的一些未知的离群数据，可以很好的提高相关理论的研究。
[0003]随着数据的不断积累及数据的规模不断的增大，传统离群数据挖掘算法利用现有计算条件在其中筛选离群数据越发地困难。针对此问题，本发明公开了一种从大规模数据中快速筛选离群数据的方法。该方法充分考虑到大规模数据离群数据挖掘计算时间及空间复杂度的特点，采用随机采样来减小参与计算的样本数量，采用并行计算来加速运算速度，从而有效的解决了大规模数据离群数据筛选中对计算时间和内存空间的要求较高的问题，从而实现快速且有效的离群数据筛选。

【发明内容】

[0004]本发明的目的是提供一种快速从大规模数据中筛选离群数据的方法。
[0005]本发明的目的是按以下方式实现的，采用随机采样来减小参与计算的样本数量，采用并行计算来加速运算速度，从而有效的解决了大规模数据离群数据筛选中对计算时间和内存空间的要求较高的问题，从而实现快速且有效的离群数据筛选，包括以下几个步骤:
1)数据预处理
对数据进行预处理，消除数据间的不一致性同时归一化各个数据，具体操作包括:数据清理，数据集成，数据变换，数据归约，得到的特征矩阵记为T，其大小为N*M，其中N为所有样本的数目，M为原始特征属性的个数；
2)特征选取与变换
特征选取是从所有属性筛选去掉对后续操作贡献较小甚至于没有贡献的属性，特征变换是利用当前属性通过变换得到新特征空间的属性，得到的特征矩阵记为Ts，其大小为N*m,其中N为所有样本的数目，m为筛选和变换之后属性的个数；
3)初始化变量
记两个长度为N的全零向量分别为Co、Cs，分别用于保存后续计算中离群因子的加和及样本筛选次数； 4)迭代
通过以下迭代更新向量Co及Cs，迭代到一定次数k即终止:
(O随机选择一个子样本集，大小固定为η ;
(2)向量Cs中对应元素数值加I;
(3)从矩阵Ts中筛选对应行，并计算该矩阵对应的局部孤立性因子；
(4)向量Co对应数值分别加上步得到的局部孤立性因子；
5)离群指数计算
通过向量Co及Cs计算得到向量COI为离群因子，计算公式为:C0I=Co/Cs ；
6)离群数据筛选
按照向量COI对应数值从大到小的顺序，筛选前I个样本作为离群数据。
[0006]通过随机米样来得到一个规模远远小于原始样本规模的小样本，米样时米取完全随机采样或采用加权采样。
[0007]通过多线程和多进程方式来加速非耦合迭代过程计算，不同线程或进程间需要共享访问两个数值变量。
[0008]通过迭代过程共享的两个数值变量来计算每个样本的离群指数，该指数表征了该样本离群的趋势，数值越大，样本是离群的可能性越大，数值越小，样本越不可能成为离群数据。
[0009]本发明的目的有益效果是:从大规模数据中快速筛选离群数据的方法，充分考虑到大规模数据离群数据挖掘计算时间及空间复杂度的特点，采用随机采样来减小参与计算的样本数量，采用并行计算来加速运算速度，从而有效的解决了大规模数据离群数据筛选中对计算时间和内存空间的要求较高的问题，从而实现快速且有效的离群数据筛选。采用随机采样来减小参与计算的样本数量，采用并行计算来加速运算速度，从而有效的解决了大规模数据离群数据筛选中对计算时间和内存空间的要求较高的问题，从而实现快速且有效的离群数据筛选。

【专利附图】

【附图说明】
[0010]图1是从大规模数据中筛选离群数据流程图；
图2是采样后的小样本局部孤立性因子计算流程图；
图3是迭代过程共享变量的更新流程图；
图4是离群指数的计算过程图；
图5是并行化筛选离群数据流程图。

【具体实施方式】
[0011]参照说明书附图对本发明的一种快速从大规模数据中筛选离群数据的方法作以下详细地说明。
[0012]一种快速从大规模数据中筛选离群数据的方法，设计思路如下:
I)主要分为数据预处理、特征选取与变换、初始化变量、迭代、离群指数计算、离群数据筛选六个阶段进行开发实施。为保证流程的一致性及中间结果的可复用性，建议采取采用统一的开发编程语言来完成； 2)本发明中使用的基本算法可以重新编写，也可以采用现有程序包；
3)本发明中多次使用距离度量。距离的定义是灵活的，可以采用欧氏距离、曼哈顿距离、余弦距离等。考虑到余弦距离计算时更简单且快速，建议使用余弦距离；
4 )采样时可以采取完全随机采样,也可以采用加权采样,采样率较低的样本权值高；
5)步骤4的迭代过程，由于不同迭代之间不存在耦合性，因此可以采用并行迭代计算结构(如附图5所示)；
6)通过多线程和多进程方式来加速非耦合迭代过程计算，不同线程或进程间需要共享访问两个数值变量；在改写数值时，需要对变量进行加/解锁操作；
7)离群指数结表征了该样本离群的趋势，数值越大，样本是离群的可能性越大，数值越小，样本越不可能成为离群数据。
[0013]本发明方法定义了一种离群指数的定义及计算方法，实际实施是，可以此为基础改进其定义方式及计算方法。
[0014]除说明书所述的技术特征外，均为本专业技术人员的已知技术。
【权利要求】
1.一种快速从大规模数据中筛选离群数据的方法，其特征在于采用随机采样来减小参与计算的样本数量，采用并行计算来加速运算速度，从而有效的解决了大规模数据离群数据筛选中对计算时间和内存空间的要求较高的问题，从而实现快速且有效的离群数据筛选，包括以下几个步骤: 1)数据预处理对数据进行预处理，消除数据间的不一致性同时归一化各个数据，具体操作包括:数据清理，数据集成，数据变换，数据归约，得到的特征矩阵记为T，其大小为N*M，其中N为所有样本的数目，M为原始特征属性的个数； 2)特征选取与变换特征选取是从所有属性筛选去掉对后续操作贡献较小甚至于没有贡献的属性，特征变换是利用当前属性通过变换得到新特征空间的属性，得到的特征矩阵记为Ts，其大小为N*m,其中N为所有样本的数目，m为筛选和变换之后属性的个数； 3)初始化变量记两个长度为N的全零向量分别为Co、Cs，分别用于保存后续计算中离群因子的加和及样本筛选次数； 4)迭代通过以下迭代更新向量Co及Cs，迭代到一定次数k即终止: (O随机选择一个子样本集，大小固定为η ； (2)向量Cs中对应元素数值加I; (3)从矩阵Ts中筛选对应行，并计算该矩阵对应的局部孤立性因子； (4)向量Co对应数值分别加上步得到的局部孤立性因子； 5)离群指数计算通过向量Co及Cs计算得到向量COI为离群因子，计算公式为:C0I=Co/Cs ； 6)离群数据筛选按照向量COI对应数值从大到小的顺序，筛选前I个样本作为离群数据。
2.根据权利要求1所述的方法，其特征在于通过随机采样来得到一个规模远远小于原始样本规模的小样本，采样时采取完全随机采样或采用加权采样。
3.根据权利要求1所述的方法，其特征在于，通过多线程和多进程方式来加速非耦合迭代过程计算，不同线程或进程间需要共享访问两个数值变量。
4.根据权利要求1所述的方法，其特征在于，通过迭代过程共享的两个数值变量来计算每个样本的离群指数，该指数表征了该样本离群的趋势，数值越大，样本是离群的可能性越大，数值越小，样本越不可能成为离群数据。
【文档编号】G06F17/30GK104346445SQ201410584552
【公开日】2015年2月11日申请日期:2014年10月28日优先权日:2014年10月28日
【发明者】王恩东, 张东, 吴楠, 韦鹏, 付兴旺申请人:浪潮电子信息产业股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王恩东;张东;吴楠;韦鹏;付兴旺
技术所有人：浪潮电子信息产业股份有限公司
我是此专利的发明人

上一篇：一种基于HBase的大表join方法
上一篇：一种带有电源管理的多接口移动安全设备及其工作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。