基于top-k(σ)算法的异常数据检测方法_2

文档序号:8925758阅读:来源:国知局
四列数据,第一列数据表示小数据单元格在数 据单元格中的位置,用Cw表示,第二列数据表示该小数据单元格Cw中数据点的个数,用 N似表示,第S列数据表示该小数据单元格Cw的D领域内的数据点的个数,用Nd似表 示,第四列数据表示分布数据集到中屯、数据集的距离,用RD表示;其中小数据单元格Cwj 的D领域是指^点0为中屯、,D为半径的领域,参照图2,图2中每个矩形方格表示一个小 数据单元格,W正中间的小数据单元格为例,正中间的小数据单元格的D领域就是W点0为 中屯、,D为半径的圆形领域,其中点0位于所述正中间的小数据单元格的正中屯、位置,半径D 为正数,W图4为例,小数据单元格C,xe的D领域内的数据点的个数为2个,小数据单元格 C7xe中数据点的个数为1个;
[0036] 当实际进行检测时,传感器节点采集的数据样本非常大,需要通过计算得到小数 据单元格Cwj.中数据点的个数和D领域内的数据点的个数;
[0037] 设小数据单元格Cw的中屯、点为〇1,则为中心r为半径的领域即为小数据单 元格Cw的r领域内数据点的个数,假定0i的r邻域集和0i的r邻域内数据点个数分别表 示成DN(〇i)和#DN(〇i)。设Ai和AJ分别表示两个独立的d维正态随机向量,均值分别为Ui =[U。,. . .,ujT和U产[U",. . .,Uw]T,协方差分别为 diag(0. ..,0"2)和Zj =diag( 0 "2,. . . ,0jd]),则Ai_Aj~N(U 2j),设Pr(0。Oj,r)表示OjGDN(0i)的 概率,则
[003引Pr(0。Oj,r) = /rN(Ui-Uj,ZZj)dA(1)
[0039] 其中,R是W相-Uj)为圆心r为半径的圆;
[0040]设〇郝0典别表示两个二维数据样本,其属性满足A i~N(u。Zi)和 Aj~N(u非Zj),而Ui= [u…ujT,Uj= [u ",Uj'2]t和Zi=diag( o "2, o。2),zj二 diag(0/,。巧2)。则
[0041] Pr(〇i,Oj,r)可表示为:
[0042]
[0043] 其中,ai=u。-11"和a2=un-Uj'2;
[0044] 假走oii=oji=o。=oj2=o,并使a2=ai2+a22,因此,公式似可间化为;
[0045]
(3)
[0046] 由公式(3)可知,Pr(〇i,o^)的大小不受〇i,o巧?差的影响,其大小仅仅取决于a2 的大小,因此,Pr(0。Oj,r)可用Pr(a,r)表示,a表示为(〇iGr}和{〇jGr}的欧拉距 离的均值,则对于每个二维数据CVPr(0。Oj.,r)的累积值就是〇i的r邻域内数据点个数, 良P#DN(〇i) + =Pr(0。Oj,r);
[0047] 接着计算分布数据集到中屯、数据集的距离RD,首先介绍几个概念;假设传感器节 点采集的所有数据点的集合为样本集r,则中屯、数据集是指所述样本集r中正常数据点 的集合,分布数据集是指所述样本集r中任一子集,设数据点〇1是所述中屯、数据集的中屯、 数据点,设数据点〇2是所述分布数据集的中屯、数据点,则所述数据点01和所述数据点0 2之 间的欧式距离就是所述分布数据集到所述中屯、数据集的距离RD,参照图3,设A为中屯、数据 集,B为分布数据集,则中屯、数据集A到分布数据集B的距离RD就是计算中屯、数据集A的 中屯、数据点〇1到分布数据集B的中屯、数据点02之间的欧式距离;
[0048] 接着将小数据单元格Cw中数据点的个数填入所述PC列表中与该小数据单元格 Cw对应的第二列数据N似中,将小数据单元格CW的D领域内的数据点的个数填入所述 PC列表中与该小数据单元格Cw对应的第;列数据Nd似中,将分布数据集到中屯、数据集 的距离填入所述PC列表中与该小数据单元格Cwj对应的第四列数据RD中,W图4为例,小 数据单元格C,xe的D领域内的数据点的个数Nd(C)为2,小数据单元格C,xe中数据点的个 数N(C)为1,分布数据集到中屯、数据集的距离RD为3. 04。
[0049] 将若干个小数据单元格Cw的数据特性;包括N(C)、Nd似和畑分别填入所述PC 列表中,接着将所述PC列表中的第S列数据Nd(C)按照数值大小进行升序排列,该样Nd(C) 数据较小的对应的小数据单元格就位于PC列表的上层,也就是PC列表的最前面几行,将排 在PC列表中最前面几行且Nd(C)值明显低于其他Nd(C)值的对应的第四列数据RD与阔值 曰进行比较,如果第四列数据RD远远大于阔值0,则与该第四列数据RD对应的小数据单 元格Cwj.内的所有数据点判定为异常数据点,否则判定为正常数据点。
[0化日]作为优选,所述阔值0的取值范围是2. 5~3。
[0化1] 实施例;首先根据样本数据点的分布规律构造数据单元格,参照图4,是一个简单 的数据样本分布示意图,该数据单元格是一个7行7列的数据单元格,该数据单元格中包 括多个小矩形网格,该小矩形网格就是小数据单元格,小数据单元格表示为Cwj,其中i= 1,…,7;j= 1,…,7,可W看出在该数据单元格中大多数数据点集中在第3行第6列即数 据单元格Csxe中,则该数据点集合作为中屯、数据点集合;然后构造PC列表,分别将各个小 数据单元格中数据点的个数填入PC列表第二列中,将小数据单元格的D领域内数据点的个 数填入PC列表第S列中,将分布数据集到中屯、数据集的距离填入PC列表第四列中,本发明 实施例选取了图4数据单元格中的14个小数据单元格,分别将14个小数据单元格的各个 特征值(包括N(C)、Nd(C)和畑)填入PC列表中,PC列表如表1所示;
[00巧表1
[0053]
[0054] 接着将PC列表中的第S列数据即Nd(C)列进行升序排列,经排列后发现,数据单 元格的D领域内数据点个数较少的就自然出现再PC列表的最前面几行,则将排在PC列表 中前面几行的数据单元格中所有数据点作为潜在异常数据点,表1中,可W将PC列表中前 面5行对应的数据单元格(即C7X日、(:7><7^3乂2、〔4乂2、〔7乂日)中的所有数据点作为潜在异常点; 接着将5个数据单元格(即C7xg、C7x7、C3X2、C4X2、C7><e)分别对应的畑值与阔值。进行比 较,数据单元格Cyxe对应的RD值为3. 04,而本发明所述阔值0的取值范围是2. 5~3,则 数据单元格C,xe对应的RD值大于阔值0,所W数据单元格中的所有数据点即为异常数 据点;同理,数据单元格C7X7的畑值为3. 63,则数据单元格C7X7对应的畑值大于阔值0, 所W数据单元格C7X7中的所有数据点即为异常数据点,数据单元格C3X2的RD值为3.37,贝。 数据单元格C3X2对应的RD值大于阔值0,所W数据单元格C3X2中的所有数据点即为异常 数据点,数据单元格C4X2的畑值为3. 35,则数据单元格C4X2对应的畑值大于阔值0,所 W数据单元格C4X2中的所有数据点即为异常数据点,数据单元格C7xe的RD值为3. 36,则数 据单元格C,xe对应的RD值大于阔值0,所W数据单元格C 中的所有数据点即为异常数 据点。
[00巧]实验验证:
[0化6] 本文利用MTLAB巧2010b)软件平台,对所提出的无线传感器网络异常数据检测 方法进行仿真分析。实验数据来源于无线传感器网络野外实验系统,该系统采样频率为每 隔10分钟采样一次。选择编号为1391的节点在2013年4月份测得的温度、湿度作为实 验数据。共进行了五组不同样本大小的仿真实验,仿真实验选取的样本数据大小分别为50 组、100组、400组、800组和1000组。
[0化7]为了评价和比较两种无线传感器网络异常数据检测方法的性能,本文使用检测 率、误报率作为主要性能评价指标。检测率是指算法检测到的异常数据样本数与实际的异 常数据样本总数之比;误报率是指被算法误判为异常的正
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1