一种基于支持张量数据描述的离群数据检测方法

文档序号:6518617阅读:300来源:国知局
一种基于支持张量数据描述的离群数据检测方法
【专利摘要】一种基于支持张量数据描述的离群数据检测方法,包括以下步骤:1)获取由n个二阶张量数据对象Xi构成的数据集X={X1,X2,…,Xi,…,Xn};2)选取惩罚因子C,建立优化问题;3)利用拉格朗日乘子法将优化问题转化为其对偶问题,求解得到最优解所对应的一组拉格朗日乘子αi,然后分别计算超球体的中心A和半径R;4)根据每个数据对象所对应的拉格朗日乘子αi的取值判断各数据对象所处的位置,将位于超球体边界外的数据对象标记为离群点。本发明针对二阶张量数据的离群检测问题,提供了一种检测效率较高、可避免信息损失、通用性良好的基于支持张量数据描述的离群数据检测方法。
【专利说明】一种基于支持张量数据描述的离群数据检测方法
【技术领域】
[0001]本发明涉及数据挖掘领域,特别是一种基于支持张量数据描述的离群数据检测方法。
【背景技术】
[0002]当今信息社会,数据已成为一种宝贵的资源,在人们生产生活的各个领域无不存储着海量的数据。对海量、复杂、丰富的数据进行深入分析,挖掘其蕴含的重要知识和信息,已经成为商业、科学和工程领域共同的一种需求。因此,数据挖掘技术应运而生,并在许多领域得到了广泛的研究和关注。离群检测作为数据挖掘的一个重要分支,其目的是从大量数据中发现极少数与常规数据有着显著区别的数据,即离群点,也称作新奇点、异常点、偏离点等。这些离群数据可能蕴含着重要的信息,往往比正常数据更有价值。预测和发现此类离群数据,具有十分重要的意义。近年来,离群检测已成功地应用于气象预测、过程监控、金融欺诈检测以及网络入侵检测等诸多领域。
[0003]离群检测方法大体上可分为六类:基于统计、基于距离、基于深度、基于偏离、基于密度、基于聚类。基于统计的方法根据假定的数据分布去识别离群点。由于该方法要预先假定数据集满足某种分布,在许多实际情况中并不适用。基于距离的方法首先计算数据对象之间的距离,然后通过考察数据对象与其近邻之间的差异程度来标记离群点。基于深度的方法用凸壳层组织数据点,将具有较浅深度值的数据点识别为离群点,其缺点是在高维数据中应用较困难。基于偏离的方法通过将数据进行分组,将那些显著偏离组内数据点特征的数据对象看作是离群点。基于密度的方法用于检测数据的局部离群,根据数据点所在区域的局部密度判断数据是否离群。基于聚类的方法通过对数据集聚类发现常规模式(也就是类),将不属于任何一类或属于某个类程度很低的数据作为离群点。
[0004]虽然离群检测方法的种类很多,但基本上都是针对由零阶张量(标量)或一阶张量(向量)数据对象组成的数据集提出的。目前还很少有可以直接对由二阶张量(矩阵)数据对象构成的数据集进行离群检测的方法。传统的做法是先对二阶张量数据对象进行数据展开将其降至一阶,然后再利用一阶张量数据的离群检测方法进行分析。但数据展开往往会破坏原数据对象的空间结构,造成信息损失,直接影响离群检测的效果。此外,数据展开还容易引起维数灾难和小样本等问题,影响离群检测方法的有效实施。近年来,随着二阶张量数据在图像识别、计算机视觉、信号处理和间歇过程监控等领域的大量涌现,迫切需要有一种能够更加直接有效地对二阶张量数据进行离群检测的方法。

【发明内容】

[0005]为了克服现有的离群检测方法在对二阶张量数据进行离群检测时存在检测效率较低、易造成信息损失以及通用性较差的不足,本发明提供了一种检测效率较高、可避免信息损失并且通用性良好的基于支持张量数据描述的离群数据检测方法。该方法首先通过求解优化问题得到包含绝大多数数据对象在内的最优超球体边界,然后利用该边界进行离群检测,将位于边界内和边界上的数据对象视为常规数据,而将位于边界外的数据对象标记为离群点。
[0006]本发明所采用的技术方案为:
[0007]—种基于支持张量数据描述的离群数据检测方法,包括以下步骤:
[0008]I)获取由n个二阶张量数据对象Xi构成的数据集X= (X1, X2, - ,Xi,…,Xj ;
[0009]2)选取惩罚因子C,建立如下优化问题:
[0010]
【权利要求】
1.一种基于支持张量数据描述的离群数据检测方法,其特征在于:包括以下步骤: 1)获取由n个二阶张量数据对象Xi构成的数据集X=(X1, X2,…,Xi,…,XJ ; 2)选取惩罚因子C,建立如下优化问题:
2.如权利要求1所述的ー种基于支持张量数据描述的离群数据检测方法,其特征在于:所述步骤I)中,每个数据对象具有二阶张量的结构形式。
3.如权利要求1或2所述的ー种基于支持张量数据描述的离群数据检测方法,其特征在于:所述步骤2)中,惩罚因子C为正实数。
4.如权利要求1或2所述的ー种基于支持张量数据描述的离群数据检测方法,其特征在干:所述步骤4)中,根据格朗日乘子Cii确定离群点的具体方法为:将对应于Cii=O和0< a ,〈C的数据对象标记为常规数据,将对应于a fC的数据对象标记为离群点。
【文档编号】G06F17/30GK103577589SQ201310558174
【公开日】2014年2月12日 申请日期:2013年11月11日 优先权日:2013年11月11日
【发明者】罗利佳, 包士毅, 高增梁 申请人:浙江工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1