基于三支决策和距离的离群点检测方法

文档序号:6631801阅读:370来源:国知局
基于三支决策和距离的离群点检测方法
【专利摘要】本发明公开了基于三支决策和距离的离群点检测方法:S1接收输入的数据集为信息系统S,S中包含m个对象和若干个条件属性;S2获取数据集中每个对象的k近邻距离和;S3对所有对象的k近邻距离和进行归一化处理,并将经过归一化的结果作为三支决策的条件概率;S4建立两个最优化目标;S5通过解最优化问题1,得到所需参数k的值为k′;S6选择归一化结果作为三支决策的条件概率;S7解最优化问题2,得出阈值α,γ,β,进行三支决策划分得到正域和边界域;S8判断正域是否为空;S9正域为空,结束本流程;S10正域不为空,输出正域对象,将边界域中的对象作为新的数据集;S11归一化新数据集的k近邻距离和k=k′,作为新的三支决策条件概率,转到步骤S7。
【专利说明】基于三支决策和距离的离群点检测方法

【技术领域】
[0001] 本发明属于数据处理【技术领域】,具体涉及一种基于三支决策和距离的离群点检测 方法。

【背景技术】
[0002] 三支决策是决策粗糙集的核心思想之一,它将传统的正域(POS)、负域(NEG)二 支决策语义扩展为正域(POS)、边界域(BND)和负域(NEG)的三支决策语义,认为边界域 (BND)也是一类可行的决策,这与人类智能在处理决策问题时的方法是一致的。三支决策依 据阈值a,P对数据集进行三支划分,利用决策风险损失最优化作为优化目标,可以求得 阈值a,旦。
[0003] 离群点检测是数据挖掘技术的重要研究领域之一,用来发现数据集中明显偏离于 其他数据、不满足数据的一般行为或模式的数据。这些数据对象叫做离群点,也叫做孤立 点。离群点检测算法分为基于统计、深度、聚类、距离和密度的方法。其中,基于距离的方 法由于算法思想直观,易于实现而得到广泛的研究和应用。基于距离的离群点概念和挖 掘方法最早由 Knorr 和 Ng (E. Knorr and R. Ng, Algorithms for mining distance-based outliers in large datasets, Proceedings of the 24th VLDB Conference New York, USA,392-403,1998.)提出,如果数据集合S中至少有P部分对象与对象0的距离大于d, 则对象0是一个带参数P和d的基于距离的离群点,即DB(p,d)。后来,Ramaswamy等 (Sridhar Ramaswamy, Rajeev Rastogi, and Kyuseok Shim, Efficient algorithms for mining outliers from large data sets,ACM SIGMOD Record,2000,29(2) :427-438.)提 出了一个新的基于距离的离群点定义,即基于距离的第k最近邻(kth Nearest Neighbor) 离群点挖掘方法,Angiulli 和 Pizzuti (Fabrizio Angiulli and Clara Pizzuti, Outlier mining in large high-dimensional data sets, IEEE Transactions on Knowledge and Data Engineering, 2005,17 (2) :203-215.)提出了 HilOut 算法,用权重 wk (p)表示对象 p 与其k个最近邻居的距离之和。显然wk (p)比Dk (p)更精确地度量了 p的邻域的稀疏程度。 离群点检测算法可以描述为:计算数据集D中每个数据点的离群因子Wk(p),将其按从大到 小降序排列,离群因子最高的前n个点就是所求的离群点,即Top-n离群点。
[0004] 基于距离(Distance-Based)的离群点检测方法不需要事先了解数据的分布模 式,同时可以适用于任意维度的数据集,但是需要用户选取合理的参数以保证算法的效果。 例如Top-n离群点检测方法中存在参数n与k,参数n与k值的选择会明显影响算法产生的 实际性能和检测结果。即使是采用同一个算法,由于被处理的数据集特征不同,n与k值的 选择也没有可借鉴性,通常n与k值的选择都是依靠用户经验和大量实验来决定。本发明 主要针对Top-n离群点检测算法中需要人为确定的参数n和k,提出相应的改进方法,以避 免参数n和k的人为确定对检测效果的影响,回避Top-n离群点检测方法中参数n与k选 择困难的问题。


【发明内容】

[0005] 本发明要解决的技术问题是克服现有的基于距离的离群点检测方法的不足,具体 针对Top-n离群点检测方法提供一种基于三支决策和距离的离群点检测方法,使算法的效 果不依赖于用户给定的参数,而是通过用三支决策划分的方式循环提取离群点来代替对参 数n的使用,以决策风险损失最优为优化目标来寻找最优的k值。
[0006] 本发明提供一种基于三支决策和距离的离群点检测方法,包括如下步骤:
[0007] (1)输入数据集也即信息系统S,其包含m个对象和若干个条件属性,令k = 1,2, 3,...,ni;
[0008] (2)针对每一个k值,求解数据集中每个对象的k近邻距离和(kNNDS);
[0009] (3)针对每一个k值,对所有对象的k近邻距离和(kNNDS)进行归一化,并将其作 为二支决策的条件概率;
[0010] (4)根据决策风险损失最优化原则建立两个最优化目标;
[0011] (5)解最优化问题1,得出所需参数k的值为k';
[0012] (6)根据(5)得出的参数k的值k',选择所有对象的k近邻距离和(kNNDS) (k = k')的归一化结果作为三支决策的条件概率;
[0013] (7)解最优化问题2得出阈值a,Y,P,对所有对象进行三支决策划分得到正域 (POS)和边界域(BND);
[0014] (8)判断正域(POS)是否为空;
[0015] (9)如果正域(POS)为空,结束本流程;
[0016] (10)如果正域(POS)不为空,输出正域对象,将边界域(BND)中的对象作为新的数 据集;
[0017] (11)归一化新数据集的k近邻距离和(kNNDS) (k = k'),作为新的三支决策条件 概率,转到步骤(7)。
[0018] 在本发明所述的基于三支决策和距离的离群点检测方法中,给定数据集S = (U, C,V,f),其中U是对象的非空有限集合,C是条件属性集,V是全体属性的值域,f是UX A - V 的一个映射且为信息函数。

【权利要求】
1. 一种基于三支决策和距离的离群点检测方法,其特征在于,其包括如下步骤: 51、 接收输入的数据集,所述数据集为信息系统S,信息系统中包含m个对象和若干个 条件属性,令k=l,2,3, 52、 针对每一个k值,获取数据集中每个对象的k近邻距离和; 53、 针对每一个k值,对所有对象的k近邻距离和进行归一化处理,并将经过归一化的 结果作为三支决策的条件概率; 54、 根据决策风险损失最优化原则建立两个最优化目标; 55、 通过解最优化问题1,得到所需参数k的值为V; 56、 根据步骤S5得出的参数k的值k'选择所有对象的k近邻距离和k=k'的归一 化结果作为三支决策的条件概率; 57、 解最优化问题2,得出阈值α,γ,β,对所有对象进行三支决策划分得到正域和边 界域; 58、 判断正域是否为空; 59、 如果正域为空,结束本流程; 510、 如果正域不为空,输出正域对象,将边界域中的对象作为新的数据集; 511、 归一化新数据集的k近邻距离和k=k',作为新的三支决策条件概率,转到步骤 S7〇
2. 根据权利要求1所述的基于三支决策和距离的离群点检测方法,其特征在于,给定 数据集S= (U,C,V,f),其中U是对象的非空有限集合,C是条件属性集,V是全体属性的 值域,f是UXA-V的一个映射且为信息函数。
3. 根据权利要求1所述的基于三支决策和距离的离群点检测方法,其特征在于,k近邻 k 距离和为^= 七),其中,k= 1,2,3, = 1,2,3,…, m,kNN(k,i)表示i在数据集中的k个最近邻元素的集合。
4. 根据权利要求1所述的基于三支决策和距离的离群点检测方法,其特征在于,归一 JC一X 化的公式如下= ^ ^max^min 〇
5. 根据权利要求4所述的基于三支决策和距离的离群点检测方法,其特征在于,解最 优化问题1的公式如下:
s. t. β < Y < a ε ^l,l<k<m 其中,α,γ,β为阈值,p为概率。
6. 根据权利要求5所述的基于三支决策和距离的离群点检测方法,其特征在于,解最 优化问题2的公式如下:
s. t. β < Y < α ε ^l,k = k/ 其中α,γ,β为阈值,ρ为概率。
【文档编号】G06F17/30GK104317908SQ201410583274
【公开日】2015年1月28日 申请日期:2014年10月28日 优先权日:2014年10月28日
【发明者】徐久诚, 刘洋洋, 孙林, 徐瑾, 靳瑞霞, 徐天贺, 张倩倩, 李晓艳 申请人:河南师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1