一种基于轨迹的无线传感器网络多维数据异常值检测方法

文档序号:9552030
一种基于轨迹的无线传感器网络多维数据异常值检测方法
【技术领域】
[0001] 本发明涉及无线传感器领域,特别是无线传感器网络中多维数据异常值检测,用 于解决无线传感器网络所收集的多维数据存在不可靠数据的问题。 技术背景
[0002] 无线传感器网络(WSNs)是由大量廉价微型节点组成,且节点之间通过无线电通 信方式交流。网络的目的是通过节点之间的相互协作来完成对部署区域的监测并将收集到 的数据传输给远程观测者。由于网络监测区域多为无人监督的恶劣环境,同时出于对部署 成本的考虑,网络通常选择低成本、低质量的节点,导致传感器所采集到的数据会存在许多 误差数据、错误数据、不一致数据甚至可能丢失数据。传感器节点所收集的数据存在如此多 的不可靠数据使得其不能被直接用于科学研究。为此,为了更好的使用WSNs数据,同时为 了实现其各种功能,对网络中的异常值进行检测变得日趋重要。
[0003] 目前,已经有多重异常值检测方法:基于邻近节点的方法,基于统计学的方法,基 于分簇的方法,基于聚类的方法以及基于频谱分析的方法。但是,传感器网络的一些自身特 点使得并不是所有的现有检测方法都能很好的直接用于其中。为此,为了更好的设计关于 WSNs的高效、可行的异常值检测方法,需要考虑以下特点:
[0004] (1)节点能力受限。传感器节点的廉价微型特性导致其携带电源的能量相当有限。 能量的多少在一定程度上影响了传感器节点的处理、储存和通信收发能力。因此,在实际应 用中,应该充分考虑传感器节点的各种能量和能力限制,然而多数传统检测方法很少考虑 算法在节点能力受限的情况下的性能。
[0005] (2)分布式自组织。在WSNs中,所有节点均处于相同地位,没有任何一个节点是严 格意义上的"统治者",这种网络节点之间的平等直接影响即是其通过分布式协作即可保证 网络的正常运行。同时,WSNs的节点具有很强的自组织能力,其可以在任何恶劣或者动态 环境下配置网络,并通过特定的途径将监测数据传送给远程观测者,实现网络的功能。考虑 网络的超强自组织能力能很好降低网络开销,从而设计更有效的异常值检测算法
[0006] (3)高能耗高负载。无线传感器网络节点的无线通信会消耗节点的大部分能量,其 是节点计算消耗的好多倍。然而,多数传统异常值检测方法采用集中处理所收集数据的方 法,大大增加了节点能耗和通信负载,降低网络寿命。因此,如何可以降低通信能耗以延长 WSNs寿命是设计WSNs异常值检测方法的一个重要考虑方面。
[0007] (4)实时性。综合分析WSNs的应用领域可以得出,对异常值的检测都需要在线且 实时。网络对事件的反应时间与系统的性能成正比。因此,设计实时的异常值检测方法是 及其有必要的。
[0008] 综上所述,实时的、分布式的同时可以保持较低通信能耗与通信负载,并可以实现 较高检测率与较低误报率的异常值检测方法才是适合无线传感器网络的异常值检测算法。
[0009] 在文献Statistics-basedoutlierdetectionforwirelesssensornetworks 中,作者给出几种基于统计学模型的WSNs异常数据检测方法。包括只考虑时间相关性的方 法、只考虑空间相关性的方法以及同事考虑时空相关性的方法。但是,就多维数据而言,文 章中依然采用时间序列模型及地理统计学,没有考虑对数据降维,大大增加了计算消耗。
[0010] 文南犬Trajectory-basedmulti-dimensionaloutlierdetectioninwireless sensornetworksusingHiddenMarkovModels中,作者利用傅里叶变换对传感器节点收 集到的多维数据降维。同时,在隐马尔科夫模型应用的过程中还利用了数据之间的时间相 关性。但是,文中没有考虑节点之间存在的空间相关性。
[0011] 文南犬Distributedonlineoutlierdetectioninwirelesssensornetworks usingellipsoidalsupportvectormachine中,作者利用超椭球支持向量机对数据分类 从而达到找出异常数据的目的。文中利用范数定义多维数据之间的距离。其在达到较高的 检出率的同时,还保证了有很低的误检测率。同时,该方法还是一种在线的,实时检方法。但 训练椭球支持向量机的过程需要事先明确数据的分布,需要较大能量消耗。
[0012] 文南犬AnEnergy-EfficientOutlierDetectionBasedonDataClusteringin WSNs中,通过对节点之间的空间相关性分析来对节点进行分簇,从而减少了通信交流进而 减少了能量消耗。但对于多维数据先分别对一维数据处理后再整合,增加了计算量。
[0013] 在无线传感器网络中,理论上相邻区域内的节点数据具有空间相关性,且同一节 点连续时间段内数据具有时间相关性。但目前已有文献只有少数异常检测方法同时考虑了 时间和空间相关性,这必然会使得检测准确度降低或者使检测成本增加。

【发明内容】

[0014] 本发明的目的在于针对目前已有WSNs异常值检测方法的不足,提出了一种同时 考虑时间和空间相关性的基于轨迹的多维数据WSNs异常值检测方法。在详细介绍本发明 前,首先给出三个定义。
[0015] 定义1(PermissionRange:许可半径)d维传感器数据集尺H =,其中 = .,/:!>/]卜这里#μ]表示第i个节点的第k维数据。其第k维许可半径定义为:
[0016]
[0017] 这里,如果有ΜΜ- <内| <Pi?/f,贝ij称数据y与.<在第k维是相邻的;如果r,与 rf在第k维相邻,则其在第k维同属一个簇。对节点i,j,只有当其d维数据<与rf在所有 的第k(l<k<d)维均同属一个簇时,才称节点i,j属于同一个簇。
[0018] 定义2(Clusterrange:簾K间)簾C;的簾区间记为CRZ,其中对1 <k<d有
[0019]
[0020] 其中,在第k维的簇区间。
[0021] 给定簇(^和C,,簇区间分别为和,对于第k维数据,如果有:
[0022]
[0023] 则称簇区间和在第k维重叠。
[0024] 当簇区间C<和CKf在第k维重叠时,称簇(;和簇Cj在第k维可合并,且新形 成的簇之簇半径为CR= [ΜΙΝ({η?η?,η?η」}),ΜΑΧ({η?ΒΧ?,η?Βχ」})]。当簇(^和C」在所有第 k(l<k<d)维均重叠时,簇(^和Cj可合并为新的簇。
[0025] 定义3(函数相似)定义在X上的函数g(x)和f(x)是相似的,如果当g(x)和f(x) 平移至相同起点后,有:对任意的XeX,都有|f(x)-g(x) | <c ;
[0026] 或者有:
[0027]
[0028] 上式中,c是一个大于0的参数,但不能过大,应该远远小于1。在实际应用中由实 际情况确定其值。
[0029] 本发明的基本技术思路:首先,根据某相同时刻传感器节点数据对传感器节点分 簇,对分簇后的每个簇分别训练超椭球并相应计算超椭球各个轴长,将轴长比例系数作为 系数对多维数据线性降维,降维后的数据拟合成数据曲线,作为测试曲线。对次日相同时间 段的数据作相同降维、曲线拟合处理,拟合后的曲线作为检测曲线。比较测试曲线与检测曲 线的趋势及曲线相似度,以此来检测节点收集的多维数据是否存在异常数据。
[0030] 其具体实现步骤如下:
[0031]S1:选取相同适当时间段传感器节点数据(2004-03-0100 :57--2004-03-0101: 03);
[0032]S2:依据数据对节点分簇;
[0033]S3:对相应的簇训练超椭球并相应计算超椭球各个轴长;
[0034]S4:据轴长将数据降维;
[0035]S5:将降维后的数据进行非线性曲线拟合;
[0036]S6:选取节点在2004-03-0200 :57--2004-03-0201 :03时间段内数据,并根据对 应分簇按S4、S5处理数据;
[0037]S7:比较两条曲线相似度,以确定是否存在异常数据;
[0038]S8:重复S4、S5、S6、S7,直至全部节点检测完毕。
[0039] 相对于目前已有技术,本发明优点如下:
[0040] (1)本发明分簇过程考虑了网络节点之间的空间相关性,这使得数据降维过程更 加准确且有针对性。
[0041] (2)本发明通过利用椭圆对数据进行线性降维,避免了直接使用多维数据造成的 计算量过大的缺点。
[0042] (3)本发明在进行异常值检测的过程利用了节点数据之间的时间相关性,通过比 较连续两天数据拟合曲线来实现检测过程。
[0043](4)本发明可以通过适当调节比值参数c的大小来实现在不同监测环境的检测要 求。
[0044] (5)本发明在整个检测过程中,没有额外通信消耗,故其同样适用于动态变化的无 线传感器网络。
[0045] 综上所述,本发明在检测过程中充分利用了网络相邻节点数据之间的空间相关性 及同一节点数据的时间相关性;通过分簇对数据降维,避免了直接处理多维数据计算复杂 度较高的缺点;异常值检测方法可以准确检测出网络节点处连续出现异常值的情况,且检 出率较高,误检率较低。
【附图说明】
[0046] 图1是本发明的总流程图;
[0047] 图2是传感器网络部署节点图;
[0048] 图3是节点分簇结果图;
[0049] 图4是超椭圆长短轴比例图;
[0050] 图5是节点13的数据拟合曲线;
[0051] 图6是节点30的数据拟合曲线;
[005
再多了解一些
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1