一种自适应无参空间离群点检测算法

文档序号:10489225阅读:749来源:国知局
一种自适应无参空间离群点检测算法
【专利摘要】本发明属于离群点挖掘领域,尤其涉及一种自适应无参空间离群点检测算法。其特征在于,首先通过基于全局稳定的最近邻确定算法计算出最终最近邻居个数和对象o的空间邻居;计算数据集O中每个对象的空间离群度;对数据集O的非空间维度属性进行离群点检测;设置临界离群点;计算判定空间离群点的门限值;将SLOV大于门限的点作为潜在空间离群点;最后进行空间离群点判别。本发明算法提高了检测精度,并根据数据特性自适应确定离群点检测门限和对象的空间邻域,不需要用户给定空间离群点个数和空间邻域个数就能自主检测出空间离群点,克服了已有的算法对用户依赖大的特点,实现了无参的封闭运算,为无线传感器网络决策剔除了异常数据。
【专利说明】
一种自适应无参空间离群点检测算法
技术领域
[0001] 本发明属于离群点挖掘领域,尤其涉及一种农田无线传感器网络数据的自适应无 参空间离群点检测算法。
【背景技术】
[0002] 无线传感器网络采集到的环境数据因其自身硬件和软件的限制,以及环境因素的 影响,极易产生异常值。而依据环境监测数据做出相应决策是精细农业的基本操作。因此, 剔除网络异常数据对农业环境监测至关重要。
[0003]分布在监测区域内的传感器节点对环境参数进行周期性的采集,并发送到监测平 台上。决策者相隔一定的时间根据平台上的数据做出决策,为了避免离群点对决策带来的 影响,每次决策前都需要对数据进行离群点检测。
[0004] 现有的空间离群点检测算法对用户依赖性大,如SLOM算法与SLOF算法,需要人工 设定空间邻居的判定条件和离群点个数。但在无线传感器网络中,随着时间的推移,网络得 到的数据特性是动态变化的,因此很难人工设定适用于长期离群点检测的阈值;同时,无线 传感器网络的一些节点会出现故障,也会加入一些新的节点,因此整个网络的空间关系也 会改变,此外,在每次的离群点检测中,离群点个数不能提前获知。因此,已有的算法不适用 于无线传感器网络数据的离群点检测,另外已有算法的空间离群度量方式存在误检和漏检 率高的问题。

【发明内容】

[0005] 为了解决上述问题,本发明提出了一种自适应无参空间离群点检测算法,其特征 在于,所述算法的具体步骤为
[0006] 步骤1、通过基于全局稳定的最近邻确定算法计算出最终最近邻居个数fk,求出每 个对象空间上最近的f k个点作为空间邻域;得到f k后,距对象〇空间最近的f k个点即为〇的 空间邻居,〇的所有空间邻居组成它的空间邻域NH(o);
[0007] 步骤2、计算每个对象的空间离群度;
[0008] 步骤3、对该数据集的非空间维度属性进行离群点检测;
[0009] 步骤4、针对是否存在非空间维度属性局部离群点的两种情况,设置临界离群点;
[0010] 步骤5、计算判定空间离群点的门限值;
[0011 ]步骤6、将SLOV大于门限的点作为潜在空间离群点;
[0012]步骤7、进行空间离群点判别。
[0013 ]所述步骤1中基于全局稳定的最近邻确定算法的步骤为:
[0014]步骤101、设定最近邻居数k的初始值为1;
[0015]步骤102、计算每个对象的空间相邻对象个数nk;
[0016]步骤103、计算k最近邻居下没有空间相邻对象的点的个数nz;
[0017 ] 步骤104、当nz不为0时,令k = k+1,返回步骤102,否则转到步骤105;
[0018] 步骤105、当ηζ = 0时,此时的k即为最终最近邻居个数fk。
[0019] 所述步骤2中计算每个对象的空间离群度采用计算空间局部离群值SLOV的方法,
空间局部离群值SLOV (O)= ?、(〇、Λ b-: Nlh
[0020] 其中,对象〇的空间邻居 Pb表示对象〇 的任意邻域对象,对象〇的邻域距, %0,对于〇i e 0,〇卢0,对象〇1与〇」的非空间属把 3ik)表示对象
〇1第k维度标准化的非空间属性,f(〇jk)表尸化的非空间属性,d表示维 数,同理求得对象a与b的非空间属性的欧£ 对象&与〇的非空间属性的 欧氏距?
?表一个无穷小的数。
[0021] 所述步骤3中对该数据集的非空间维度属性进行离群点检测的方法为采用基于自 然最近邻居搜索算法的聚类算法,该聚类算法自动确定聚类近邻个数kl,通过确定自然最 近邻对数进行聚类,没有自然邻居的点被视为局部离群点。
[0022] 所述步骤4中所述找出临界离群点的具体过程为 [0023]情况一:存在局部离群点
[0024] (1)根据聚类算法得到最近邻个数kl,计算每个离群点的kl近邻离群度,找出kl近 邻离群度最小的离群点作为基准离群点;
[0025] (2)找到距离基准离群点最近的正常点作为基准正常点,基准正常点所在的类的 所有对象为基准族,基准族中的对象间除〇外的最小距尚为dl;
[0026] (3)计算基准离群点和基准正常点之间每个维度的中值,作为待测值;
[0027] (4)将待测值与基准簇进行近邻数为kl的聚类,若基准簇被聚成一类且待测值被 认定为离群值,则将基准离群点更新为待测值,否则将基准正常点更新为待测值;
[0028] (5)计算更新后的基准正常点与基准离群点之间的距离d2,若d2>dl,则返回步骤 (3),否则执行步骤(6);
[0029] (6)算法结束,将此时得到的基准离群点值作为临界离群点;
[0030]情况二:不存在局部离群点 [0031]人为设定临界离群点,具体步骤为
[0032] (1)找到非空间属性值在每一维度上是最大值或最小值的对象,看做是簇的边缘;
[0033] (2)得到聚类算法过程中的最近邻个数kl;
[0034] (3)计算这些对象的kl近邻离群度,将kl近邻离群度最小的对象作为基准对像,基 准对象所在的类的所有对象作为基准簇;新设置一个点q,该点的属性与基准对象的非空间 属性相同,将点q作为待测对象,将它的d维度属性表示为f(qd);
[0035] (4)计算基准簇的簇心,判断基准对象每一维非空间属性与簇心的位置关系;
[0036] (5)计算非空间属性每一维度上对象距离除0外的最小值,共d维;
[0037] (6)将待测对象非空间i维度属性值f(qi)更新为f (Cuhb1^1为第i维度上对象距 离除〇外的最小值,得到新的待测对象的第i维属性值为:fXqM-irbi);
[0038] 其中,当基准点的第i维属性值比簇心大,则指数m = 2;当基准点的第i维属性值比 簇心小,则指数m=l;保证了待测值与簇心的距离比基准点远,从而构造出离群点;
[0039] (7)用kl近邻聚类算法对基准簇和待测对象进行聚类,若基准簇被聚为一类且待 测对象被判定为离群点,执行步骤(8),否则返回执行步骤(6);
[0040] (8)算法结束,将此时得到的待测对象作为临界离群点。
[0041] 所述步骤5中所述计算判定空间离群点的门限值具体为计算临界离群点的kl近邻 离群度klnlof作为空间离群点判定的门限threshold。
[0042] 所述步骤7中所述空间离群点判别过程为:
[0043] (1)找到SLOV值最大的潜在离群点作为空间离群点,把它作为空间离群点,将它的 非空间属性值更新为邻域非空间属性的均值;
[0044] (2)找到邻域中包括空间里群点的对象,重新计算这些对象的空间离群度;
[0045] (3)将除了空间离群点的其它对象的空间离群度重新判别,找出新的潜在离群点;
[0046] (4)若新的潜在离群点个数不为0,则重复步骤(1)、(2)、(3),否则算法结束,输出 所有空间离群点。
[0047] 所述空间和对象的概念指的是无线传感器网络的节点。
[0048] 有益效果
[0049] 针对现有技术的不足,本发明的算法提出一种新的空间离群度量方法,提高了检 测精度,并根据数据特性自适应确定离群点检测门限和对象的空间邻域,不需要用户给定 空间离群点个数和空间邻域个数就能自主检测出空间离群点,克服了已有的算法对用户依 赖大的特点,实现了无参的封闭运算,为无线传感器网络决策剔除了异常数据。
【附图说明】
[0050] 图1为本发明的一种自适应无参空间离群点检测算法的流程图。
【具体实施方式】
[0051] 下面结合附图,对本发明作详细说明。图1为本发明的一种自适应无参空间离群点 检测算法的流程图。本发明算法的具体步骤为:
[0052] 步骤1、通过基于全局稳定的最近邻确定算法计算出最终最近邻居个数fk,求出每 个对象空间上最近的f k个点作为空间邻域;得到f k后,距对象〇空间最近的f k个点即为〇的 空间邻居,〇的所有空间邻居组成它的空间邻域NH(o);
[0053]步骤2、计算每个对象的空间离群度;
[0054] 步骤3、对该数据集的非空间维度属性进行离群点检测;
[0055] 步骤4、针对是否存在非空间维度属性局部离群点的两种情况,设置临界离群点;
[0056] 步骤5、计算判定空间离群点的门限值;
[0057]步骤6、将SLOV大于门限的点作为潜在空间离群点;
[0058]步骤7、进行空间离群点判别。
[0059] 所述步骤1中基于全局稳定的最近邻确定算法的步骤为:
[0060] 步骤101、设定最近邻居数k的初始值为1;
[0061 ]步骤102、计算每个对象的空间相邻对象个数nk;
[0062] 步骤103、计算k最近邻居下没有空间相邻对象的点的个数nz;
[0063] 步骤104、当nz不为0时,令k = k+1,返回步骤102,否则转到步骤105;
[0064] 步骤105、当ηζ = 0时,此时的k即为最终最近邻居个数fk。
[0065] 所述步骤Λ Μ""#卞间离群度采用计算空间局部离群值SLOV的方法, 空间局部离群值Si- J-;
[0066] 其中,对象〇的空间邻居平均间H
和b表示对象〇
象〇1第1^维度标准化的非空间属性,[0067] f (Ojk)表示对象〇j第k维度标准化的非空间属性,d表示维数,同理求得对象a与b的 的任意邻域对象,对象〇的邻域距淳 義为0,对于〇i 已0,〇卢0,对象〇1与〇」的非空间属七 f(〇ik)表示对 非空间属性的欧氏距
:卩对象&与〇的非空间属性的欧氏胜
代表一个无穷小的数。
[0068] 所述步骤3中对该数据集的非空间维度属性进行离群点检测的方法为采用基于自 然最近邻居搜索算法的聚类算法,该聚类算法自动确定聚类近邻个数kl,通过确定自然最 近邻对数进行聚类,没有自然邻居的点被视为局部离群点。
[0069] 所述步骤4中所述找出临界离群点的具体过程为
[0070] 情况一:存在局部离群点
[0071] (1)根据聚类算法得到最近邻个数kl,计算每个离群点的kl近邻离群度,找出kl近 邻离群度最小的离群点作为基准离群点;
[0072] (2)找到距离基准离群点最近的正常点作为基准正常点,基准正常点所在的类的 所有对象为基准族,基准族中的对象间除〇外的最小距尚为dl;
[0073] (3)计算基准离群点和基准正常点之间每个维度的中值,作为待测值;
[0074] (4)将待测值与基准簇进行近邻数为kl的聚类,若基准簇被聚成一类且待测值被 认定为离群值,则将基准离群点更新为待测值,否则将基准正常点更新为待测值;
[0075] (5)计算更新后的基准正常点与基准离群点之间的距离d2,若d2>dl,则返回步骤 (3),否则执行步骤(6);
[0076] (6)算法结束,将此时得到的基准离群点值作为临界离群点;
[0077]情况二:不存在局部离群点
[0078] 人为设定临界离群点,具体步骤为
[0079] (1)找到非空间属性值在每一维度上是最大值或最小值的对象,看做是簇的边缘;
[0080] (2)得到聚类算法过程中的最近邻个数kl;
[0081 ] (3)计算这些对象的kl近邻离群度,将kl近邻离群度最小的对象作为基准对像,基 准对象所在的类的所有对象作为基准簇;新设置一个点q,该点的属性与基准对象的非空间 属性相同,将点q作为待测对象,将它的d维度属性表示为f(qd);
[0082] (4)计算基准簇的簇心,判断基准对象每一维非空间属性与簇心的位置关系;
[0083] (5)计算非空间属性每一维度上对象距离除0外的最小值,共d维;
[0084] (6)将待测对象非空间i维度属性值f(qi)更新为f (Cuhb1^1为第i维度上对象距 离除〇外的最小值,得到新的待测对象的第i维属性值为:fXqM-irbi);
[0085] 其中,当基准点的第i维属性值比簇心大,则指数m = 2;当基准点的第i维属性值比 簇心小,则指数m=l;保证了待测值与簇心的距离比基准点远,从而构造出离群点;
[0086] (7)用kl近邻聚类算法对基准簇和待测对象进行聚类,若基准簇被聚为一类且待 测对象被判定为离群点,执行步骤(8),否则返回执行步骤(6);
[0087] (8)算法结束,将此时得到的待测对象作为临界离群点。
[0088] 所述步骤5中所述计算判定空间离群点的门限值具体为计算临界离群点的kl近邻 离群度klnlof作为空间离群点判定的门限threshold。
[0089] 所述步骤7中所述空间离群点判别过程为:
[0090] (1)找到SLOV值最大的潜在离群点作为空间离群点,把它作为空间离群点,将它的 非空间属性值更新为邻域非空间属性的均值;
[0091 ] (2)找到邻域中包括空间里群点的对象,重新计算这些对象的空间离群度;
[0092] (3)将除了空间离群点的其它对象的空间离群度重新判别,找出新的潜在离群点;
[0093] (4)若新的潜在离群点个数不为0,则重复步骤(1)、(2)、(3),否则算法结束,输出 所有空间离群点。
[0094] 对某月2日与28日9点的英特尔伯克利实验室的传感器网络数据进行空间离群点 检测,步骤如下:
[0095] 1、通过基于全局稳定的最近邻确定算法计算出的空间邻居数为4,求出每个对象 空间上最近的4个点作为空间邻域。
[0096] 2、计算每个对象的空间离群值SL0V。
[0097] 3、对该数据集的非空间维度属性进行离群点检测,得到一个离群点,该点即基准 呙群点。
[0098]找到非空间属性距该离群点最近的正常点,为基准正常点,该正常点所在的簇为 基准簇。
[0099] 4、由于得到了局部离群点,因此采用上文提到的不断采中值法找到临界离群点。
[0100] 5、计算临界离群点的kl近邻离群度作为门限。
[0101] 6、将SLOV大于门限的点作为潜在离群点。
[0102] 7、找到SLOV值最大的潜在离群点作为空间离群点,重新计算邻域中包含该点的对 象的SLOV值。重新寻找潜在离群点,直到找到所有空间里群点。
【主权项】
1. 一种自适应无参空间离群点检测算法,其特征在于,所述算法的具体步骤为 步骤1、通过基于全局稳定的最近邻确定算法计算出最终最近邻居个数fk,求出数据集 0中每个对象空间上最近的fk个点作为空间邻域;得到fk后,距对象0空间最近的fk个点即 为0的空间邻居,0的所有空间邻居组成它的空间邻域NH(o); 步骤2、计算每个对象的空间离群度; 步骤3、对该数据集的非空间维度属性进行离群点检测; 步骤4、针对是否存在非空间维度属性局部离群点的两种情况,设置临界离群点; 步骤5、计算判定空间离群点的口限值; 步骤6、将空间局部离群值化0V大于口限的点作为潜在空间离群点; 步骤7、进行空间离群点判别。2. 根据权利要求1所述的一种自适应无参空间离群点检测算法,其特征在于,所述步骤 1中基于全局稳定的最近邻确定算法的步骤为: 步骤101、设定最近邻居数k的初始值为1; 步骤102、计算每个对象的空间相邻对象个数nk; 步骤103、计算k最近邻居下没有空间相邻对象的点的个数nz; 步骤104、当nz不为加寸,令k = k+l,返回步骤102,否则转到步骤105; 步骤105、当nz = 0时,此时的k即为最终最近邻居个数fk。3. 根据权利要求1所述的一种自适应无参空间离群点检测算法,其特征在于,所述步骤 2中计算每个对象的空间离群度采用计算空间局部离群值化OV的方法,空间局部离群值其中,对象0的空间邻居平均间圓a和b表示对象0的任 意邻域对象,对象0的邻域距?对于oi e 0,oj e 0,对象oi与oj的非 空间属性的欧氏距离;f(〇ik)表示对象〇1第k维度标准化的非空 间属性,f(〇A)表示对象W第k维度标准化的非空间属性,d表示维数,同理求得对象a与b的 非空间属性的欧氏距离: 代表一个无穷小的数。4. 根据权利要求1所述的一种自适应无参空间离群点检测算法,其特征在于,所述步骤 3中对该数据集的非空间维度属性进行离群点检测的方法为采用基于自然最近邻居捜索算 法的聚类算法,该聚类算法自动确定聚类近邻个数kl,通过确定自然最近邻对数进行聚类, 没有自然邻居的点被视为局部离群点。5. 根据权利要求1所述的一种自适应无参空间离群点检测算法,其特征在于,所述步骤 4中所述找出临界离群点的具体过程为 情况一:存在局部离群点 (1) 根据聚类算法得到最近邻个数kl,计算每个离群点的kl近邻离群度,找出kl近邻离 群度最小的离群点作为基准离群点; (2) 找到距离基准离群点最近的正常点作为基准正常点,基准正常点所在的类的所有 对象为基准簇,基准簇中的对象间除0外的最小距罔为dl; (3) 计算基准离群点和基准正常点之间每个维度的中值,作为待测值; (4) 将待测值与基准簇进行近邻数为kl的聚类,若基准簇被聚成一类且待测值被认定 为离群值,则将基准离群点更新为待测值,否则将基准正常点更新为待测值; (5) 计算更新后的基准正常点与基准离群点之间的距离d2,若d2〉dl,则返回步骤(3), 否则执行步骤(6); (6) 算法结束,将此时得到的基准离群点值作为临界离群点; 情况二:不存在局部离群点 人为设定临界离群点,具体步骤为 (1) 找到非空间属性值在每一维度上是最大值或最小值的对象,看做是簇的边缘; (2) 得到聚类算法过程中的最近邻个数kl; (3) 计算运些对象的kl近邻离群度,将kl近邻离群度最小的对象作为基准对像,基准对 象所在的类的所有对象作为基准簇;新设置一个点q,该点的属性与基准对象的非空间属性 相同,将点q作为待测对象,将它的d维度属性表示为f(qd); (4) 计算基准簇的簇屯、,判断基准对象每一维非空间属性与簇屯、的位置关系; (5) 计算非空间属性每一维度上对象距离除0外的最小值,共d维; (6) 将待测对象非空间i维度属性值f(qi)更新为f(qi)+bi,b功第i维度上对象距离除0 夕F的最小值,得到新的待测对象的第i维属性值为:f(qi+(-irbi); 其中,当基准点的第i维属性值比簇屯、大,则指数m = 2;当基准点的第i维属性值比簇屯、 小,则指数m=l;保证了待测值与簇屯、的距离比基准点远,从而构造出离群点; (7) 用kl近邻聚类算法对基准簇和待测对象进行聚类,若基准簇被聚为一类且待测对 象被判定为离群点,执行步骤(8),否则返回执行步骤(6); (8) 算法结束,将此时得到的待测对象作为临界离群点。6. 根据权利要求1所述的一种自适应无参空间离群点检测算法,其特征在于,所述步骤 5中所述计算判定空间离群点的口限值具体为计算临界离群点的kl近邻离群度klnlof作为 空间离群点判定的口限thresho 1 d。7. 根据权利要求1所述的一种自适应无参空间离群点检测算法,其特征在于,所述步骤 7中所述空间离群点判别过程为: (1) 找到化0V值最大的潜在离群点作为空间离群点,把它作为空间离群点,将它的非空 间属性值更新为邻域非空间属性的均值; (2) 找到邻域中包括空间里群点的对象,重新计算运些对象的空间离群度; (3) 将除了空间离群点的其它对象的空间离群度重新判别,找出新的潜在离群点; (4) 若新的潜在离群点个数不为0,则重复步骤(1)、(2)、(3),否则算法结束,输出所有 空间离群点。8.根据权利要求1所述的一种自适应无参空间离群点检测算法,其特征在于,所述空间 和对象的概念指的是无线传感器网络的节点。
【文档编号】G06F19/00GK105844102SQ201610178994
【公开日】2016年8月10日
【申请日】2016年3月25日
【发明人】高红菊, 刘艳哲, 刘继文, 储汪兵
【申请人】中国农业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1