不确定数据PT-TopK查询近似处理系统和方法

文档序号:6518713阅读:307来源:国知局
不确定数据PT-TopK查询近似处理系统和方法
【专利摘要】本发明公开一种面向水环境监测网络的不确定数据PT-TopK查询近似处理系统和方法,通过建立x-tuple规则元组的不确定元组模型,采用簇内和簇间两个阶段数据减枝与查询处理方法,在不影响最终查询结果的准确度情况下,减少数据通信开销,解决面向水环境监测网络系统的不确定数据查询处理问题;减少数据传输量与网络能耗,提高数据查询结果的可信度,降低水环境监测网络系统中数据管理的开发与部署成本。
【专利说明】不确定数据PT-TopK查询近似处理系统和方法
【技术领域】
[0001]本发明涉及一种面向水环境监测网络的不确定数据PT-TopK查询近似处理系统和方法,属于水环境监测网络技术应用领域,主要应用于水环境监测网络系统,通过建立x-tuple规则元组的不确定元组模型,采用簇内和簇间两个阶段数据减枝与查询处理方法,在不影响最终查询结果的准确度情况下,减少数据通信开销,解决面向水环境监测网络系统的不确定数据查询处理问题。
【背景技术】
[0002]水环境监测是对地表水、地下水、大气降水、水体沉降物、生物、水污染等进行测量和分析评估,主要分为水量和水质监测两大类,包括了水位、流量、水温、降水、冰情、蒸发、污染源和污染物等监测内容。当前,水环境监测已发展成为自然水灾害预测预报、污染控制和治理,以及水环境规划管理的重要技术支撑。近年来,我国已投入大量资金建立了各种监测点、监测站和监测网络等基础设施,形成了以测站一遥测通信网络一中心站为主体的水环境监测体系。但是,仍然存在较难获取自然条件恶劣和人员较难到达区域的水环境信息,以及无法对紧急或突发的水环境事件进行快速和动态监测的问题。目前,无线传感器网络技术已成为信息获取技术的重要发展方向,并正在引起各研究和应用领域的广泛关注,将无线传感器网络技术引入到水环境监测系统中,是解决前述问题的重要技术途径。
[0003]在面向水环境监测网络系统中,传感器节点感知的数据普遍存在不确定性,主要原因有:(I)传感器节点的监测精度不高,感知数据本身就不精确;(2)传感器节点的能量是由电池提供的,由于电池能量的消耗,传感器经常会失效或废弃,因此会产生数据的缺失或不正确的信息。(3)在面向水环境监测网络系统中,节点在感知数据时,受到风、雨、雷、雾等自然环境的影响,从而导致感知数据的不精确。(4)在网络传输过程中,受到外界信号干扰,也会导致数据不确定性。传感数据的不确定性给水环境监测应用带来巨大阻碍,使得信息不可信,用户不能直接从中获取有用信息。所以,在面向水环境监测网络系统中,对不确定性数据的查询处理也变得越来越重要。
[0004]目前,对不确定性数据的研究主要集中在两类不确定性数据上,即属性值不精确性和元组不存在性。属性值不精确性是指若干元组及其模型已经被确定,单个属性的不确定性是通过一个概率密度函数,或者其他统计参数来确定的。元组不存在性是指数据库中的一个元组存在的概率,通常采用可能世界语义处理,使用生成规则,各元组的任一合法组合均构成一个可能世界实例(Possible Instance)。每个可能世界实例出现的概率值可以通过各个相关元组的取值概率计算得到。可能世界实例的数量是不确定性数据表中元组数量的指数倍,这是不确定性数据管理所面临的最大难点。本发明解决在面向水环境监测网络系统中,元组不存在性数据一类的不确定性数据处理。
[0005]在面向水环境监测网络应用中,不确定数据Top-k查询即是查询监测范围内的传感器节点采集到的数据中k个最大值或最小值。在确定性应用中,Top-k排序是根据一些排序函数确定的。然而,在不确定应用中,不确定数据表中元组存在概率的因素使得Top-k查询的估计变得非常复杂。不确定数据Top-k查询的结果集,不仅仅依赖于其属性值的大小,更对数据元组的存在性有着一定的要求。需要考虑两个排序指标:一个是元组属性值的排序;另一个是元组存在概率。因此,对不确定数据Top-k查询处理需要充分考虑元组属性值的排序和元组存在概率对Top-k查询结果的影响。
[0006]目前,不确定数据Top-k查询分为U-Topk、U-kRanks、PT-Topk和Pk-Topk查询四类。U-Topk查询和U-kRanks查询对查询结果的排列顺序有着严格要求,Pk-Topk查询对元组的Top-k概率顺序也有着一定的要求。而PT-Topk查询对结果顺序没有特定要求,但是对结果的可信度有一定的质量要求,对用户而言,只有PT-Topk查询才满足对不确定数据Top-k查询结果数据质量的要求。PT-Topk查询要求其查询元组在所有可能世界中成为Top-k的总概率大于p,排序在前k位的数据。因此,本发明解决在面向水环境监测网络系统中,不确定数据PT-Topk查询处理问题。
[0007]处理不确定数据PT-Topk查询最直接的方法,即Nake算法,对所有可能世界,按照排序和概率关系求出查询结果。然而,由于可能世界数量级非常大,因此Nawe算法是一个低效率算法。Soliman等人提出基于Poisson分布的PT-Topk查询近似算法,此算法避免对所有可能世界数据进行查询,可以高效获得不确定元组Top-k概率,但是,此种算法只适合于集中式数据库。在水环境监测传感网络中,由于网络能量有限,将数据全部收集集中式处理方法必将消耗大量的网络能量,缩短网络生命周期。因此,基于Poisson分布的PT-Topk查询近似算法不能直接应用到水环境监测传感网络的分布式数据库中。

【发明内容】

[0008]发明目的:关于现有技术中存在的问题,本发明针对层次型水环境监测传感网络,提供一种面向水环境监测网络的不确定数据PT-TopK查询近似处理系统和方法,用于解决当前水环境监测网络应用中,传感 数据的不确定造成数据查询结果不可用、传输数据量大、网络能耗高的问题。将构建层次式的水环境监测网络,采用簇内和簇间两个阶段数据查询处理的分布式不确定数据PT-Topk查询处理算法,实现高效的不确定数据PT-Topk查询处理。
[0009]定义I不确定元组数据表T中有η条数据元组,元组\ (I < i < η)的值域为o=\M\m? [μ]是一个正实数域,取值概率为Pi,0表示为空,即不存在,不存在概率为
1-Pi0则称此类数据元组为不确定元组。
[0010]定义2x-tuple规则元组不确定数据表T中有η个不确定元组,W表示T中所有不确定元组可构成的可能世界集合,w是一个可能世界实例,对于Vwer,V0 er,(I < i, j < η),如果存在h e w,而G ,则称元组h和tj具有相同x-tuple关系,此类元组称之为x-tuple规则元组,并使用τ表示。τ的存在概率为户匕= 巧,不存在
的概率为作=0)=1-1,,^.。
[0011]本发明所定义的x-tuple规则元组皆来自相同数据源节点。传感器节点每次感知数据时,可确定若干数据项,每个数据项都带有确定概率,且所有数据项概率和小于等于I。每个数据项及其概率对应一个元组。相同节点同时产生的多个元组即为x-tuple规则元组。
[0012]定义3等级顺序设不确定数据表T有由若干元组组成,即T = {t1; t2,. . .,tn}。若 T中所有元组的其在等级排序函数f上满足fh)≥f(t2)≥…≥f(ti)≥≥f(t n),则称不确定数据表T是等级有序的,记为< ft2. . . < ftj < ftj. . . < ftn。
[0013]本发明方法采用降序顺序排序,若存在f (tj = f (tp,则元组概率大者排名顺序 更前。
[0014]定义4支配集给定元组t G T,T是不确定数据表,t’ G w,w是T上的一个可能世 界,t’能否成为可能世界w上的Top-k,取决于w中排序在t’之前的元组数量是否小于k。 因此,元组t的支配集可以表示为:
[0015]DSt = {t|t G T 八 t < ft' }(1)
[0016]定义5修剪上界存在一个有序不确定数据表T,T中有n个元组,hGT (l^i^n), ^为\支配集的概率和,给定数据查询参数k和概率阈值p,当满足Up k 和P满足公式(2)时,\为不确定数据集T上的修剪上界(Pruning Upper Bound, PUB)。
[0017]
【权利要求】
1.一种不确定数据PT-TopK查询近似处理系统,其特征在于,包括监测节点端部分和用户终端部分;用户终端部分包括用户交互接口、网络初始化模块、查询任务启动模块和查询结果返回接口 ;监测节点端部分包括簇内查询处理模块、簇间查询处理模块和基站节点查询处理模块; (1)监测节点端部分簇内查询处理模块:簇内成员节点接收从查询启动模块传输的查询任务,根据查询参数概率阈值P和排序数k,在其不确定数据表上执行PT-Topk查询;采用与其簇头节点两次数据交换策略,簇成员节点将本地不确定数据表上可能成为最终查询结果的数据传输给簇头节点,实现簇内数据修剪;簇间查询处理模块:由于不确定元组的存在概率大于等于不确定元组Top-k概率,对于排序比较低的不确定元组,即使其存在概率很大,最后得出的Top-k概率也可能会非常低,甚至不满足概率阈值P的要求;因此,簇头节点接收到所有簇内成员节点传输的数据,根据查询参数概率阈值P和排序数k,簇头节点与Sink基站节点通过行两次数据交换,确定其可能成为最终查询结果的数据传输给Sink基站节点,实现簇间减枝;基站节点查询处理|旲块:基站节点对数据表Tsink中的所有兀组按等级顺序定义的降序顺序排序,根据查询任务的概率阈值P和排序数k,在不确定数据表Tsink上执行PT-Topk查询,并将查询结果数据进行封装,返回给查询结果返回接口。(2)用户终端部分用户交互接口:以图形化界面的方式,接收用户的查询任务和查询参数,并向查询任务和参数转发至查询任务启动模块;网络初始化模块:利用TEEN网络分簇算法构建层次式聚簇网络拓扑结构,将整个网络分成若干个簇,每个簇只有一个簇头节点,并负责与基站节点进行通信,簇头节点保存本簇内所有节点的信息;簇内节点之间可以相互通信,收集感知器感知的数据,保存在本地存储器中;查询任务启动模块:根据水环境监测任务需求,用户发起查询请求,解析查询任务参数,确定查询任务的发布方式,并对查询数据进行封装;查询结果返回接口:接收查询结果数据包,并根据封装格式,进行解包,得到查询结果以图形化的方式展示给用户。
2.一种不确定数据PT-TopK查询近似处理方法,其特征在于,包括以下步骤:1)建立水环境监测网络的拓扑结构:水环境监测网络采用层次式聚簇网络拓扑结构,利用TEEN网络分簇算法,将整个网络分成若干个簇,每个簇只有一个簇头节点,并负责与基站节点进行通信,簇头节点保存本簇内所有节点的信息;簇内节点之间可以相互通信,收集感知器感知的数据,保存在本地存储器中;2)每个簇内节点建立x-tuple规则元组的不确定元组模型:X-tUple规则元组由若干不确定元组构成,每个元组中都存在一个数据项,数据项是节点感知数据,并且每个数据项都有一个存在概率;x-tuple规则元组中所有数据项存在概率之和小于等于I ;3)簇内节点查询处理:簇内节点接收到查询请求,根据概率阈值P和排序数k在其不确定数据表上执行PT-Topk查询,当满足查询算法终止执行条件时,将最后查询到的不确定元组传输给簇首节点;簇首节点将收集到的所有不确定元组排序,找出排序最高的不确定元组作为硬阈值,并传输给簇内节点;簇内节点收到硬阈值,并将本地不确定数据表上大于此硬阈值的所有不确定元组传输给簇首节点;4)簇间节点查询处理:簇首节点将收集到的所有不确定元组按降序排序,执行PT-Topk查询处理算法,计算出查询结果;将查询结果分为两类:受到影响查询结果和不受影响查询结果;查询结果排序最低元组的感知数据项作为查询结果下界,相应的可将查询结果下界分为受到影响查询结果下界和不受影响查询结果下界;在基站,分别计算所有受到影响查询结果下界的最小值和不受影响查询结果下界的最大值;然后比较此最小值和最大值,并将其中较大者记为全局下界,并广播全局下界给簇首节点,簇首节点将全局下界作为硬阈值,将感知数据项大于此硬阈值的不确定元组传输基站;5)基站节点查询处理:基站将收集的不确定元组按降序排序,并执行PT-Topk查询近似算法,得到最终查询结果。采用数据包对查询结果数据进行封装,通过基站节点返回到用户终端。
3.根据权利要求2所述的不确定数据PT-TopK查询近似处理方法,其特征在于,所述步骤2)建立x-tuple规则元组 的不确定元组模型可定义为:x-tuple规则元组不确定数据表T中有η个不确定元组,W表示T中所有不确定元组可构成的可能世界集合,w是一个可能世界实例,对于VwgF,Vti eT,^tj ,(I≤i, j≤η),如果存在h e w,而G ,则称元组h和tj具有相同x-tuple关系,此类元组称之为x-tuple规则元组,并使用τ表示;τ的存在概率为尸O"式0) = Σρ巧,不存在的概率为Ρ0- 二=;x-tuple规则元组皆来自相同数据源节点;传感器节点每次感知数据时,可确定若干数据项,每个数据项都带有确定概率,且所有数据项概率和小于等于I ;每个数据项及其概率对应一个元组;相同节点同时产生的多个元组即为x-tuple规则元组。
4.根据权利要求2所述的不确定数据PT-TopK查询近似处理方法,其特征在于,所述步骤3)进一步包含以下步骤:3.1)根据查询任务的查询结果可信度阈值P和排序数k,簇内成员节点对本地存储的不确定数据表Tntxte的元组按等级顺序定义,按降序顺序排序;3.2)根据修剪上界定义,簇内节点计算本节点存储的不确定数据表Tmde的局部修剪上界Lpub,并将结果Lpub传送给其旗头节点;3.3)簇头节点接收到所有其簇内成员的不确定数据表Tntxie的局部修剪上界Lpub,选取排序第一的Lpiffi作为簇内全局修剪上界Gpiffi,即Gpub = MAX(Lpiffi);3.4)簇头节点将全局修剪上界Gpub发送给其簇内成员节点;3.5)簇内节点接收到修剪上界Gpub后,将其不确定数据表Τη(Λ中排序在Gpub之前的元组发送给其簇头节点;3.6)簇头节点接收到其簇内成员节点传送的数据后,存储在自身簇头节点的不确定数据表Tduster中。
5.根据权利要求4所述的不确定数据PT-TopK查询近似处理方法,其特征在于,所述步骤3.1)进一步包含等级顺序定义:等级顺序设不确定数据表T有由若干元组组成,即T = It1, t2,..., tn};若T中所有元组的其在等级排序函数f上满足f (ti)≥f (t2)≥... f (ti)≥f (tj)...^f (tn),则称不确定数据表T是等级有序的,记为h < ft2...< ftj < ftj...< ftn ;采用降序顺序排序,若存在f(ti) = f(t J,则元组概率大者排名顺序更前。
6.根据权利要求4所述的不确定数据PT-TopK查询近似处理方法,其特征在于,所述步骤3.2)进一步包含支配集和修剪上界定义:支配集给定元组t e T,T是不确定数据表,t’ e w,w是T上的一个可能世界,t’能否成为可能世界W上的Top-k,取决于W中排序在t’之前的元组数量是否小于k ;因此,元组t的支配集可以表示为:DSt = {t|teTAt<ft/ };修剪上界存在一个有序不确定数据表T,T中有η个元组,^ e T (I ^ i ^ η),μ i为ti支配集的概率和,给定数据查询参数k和概率阈值P,当满足μ 1、k和P满足
7.根据权利要求6所述的不确定数据PT-TopK查询近似处理方法,其特征在于,所述步骤4)进一步包含以下步骤:4.1)根据充足集下界和必须集下界定义,簇头节点在其不确定数据集Telustw上,计算Tcluster的必须集下界NLB和充足集下界SLB,并将计算结果发送给基站节点;4.2)基站节点接收到所有簇头节点发送的必须集下界NLB和充足集下界SLB,确定最小的必须集下界Min(NLB)和最大的充足集下界Max(SLB),并且基站节点将选择两者之间的较大者,即Max {Min (NLB),Max (SLB)}作为全局下界GB ;4.3)基站节点将全局下界GB发送给所有簇头节点;4.4)簇头节点接收到GB值后,将其不确定数据集Tduste上排序高于GB的不确定数据元组传送给基站节点;4.5)基站节点接收到所有簇头节点发送的数据元组后,保存在基站的不确定数据表Tsink 中。
8.根据权利要求7所述的不确定数据PT-TopK查询近似处理方法,其特征在于,所述步骤4.1)进一步包含充足集下界和必须集下界定义:充足集下界给定不确定数据表T,A是T上完全集CS(T),A中有η个元组,\ e A,Vi, eA , Ii, jη,且tj关\ ;如果Ptqp1^A) > k-ρ成立,且存在t」< A,则称元组为不确定数据表T上的充足集下界(Sufficient Set Lower Bound,简称SLB),可以表示为:ss(t) = {tit = ftslb u t < ftslb};必须集下界给定不确定数据表T,A是T上完全集CS (T),A中有η个元组,\ e A,Vr;.e yi, I ^ I1 jη,且tj Φ ti;如果Pt^A) > k-p不成立,且存在t」< Ji,则称元组为不确定数据表T上的必须集下界,可以表示为:NS ⑴={t 11 = ftnlb U t < ftnlb}。
9.根据权利要求8所述的不确定数据PT-TopK查询近似处理方法,其特征在于,所述步骤5)进一步包含以下步骤:.5. 1)基站节点对数据表Tsink中的所有元组按降序顺序排序;.5. 2)基站节点根据查询任务的概率阈值p和排序数k,在不确定数据表Tsink上执行 PT-Topk查询,并将查询结果返回给用户终端;.5. 3)采用数据包对查询结果数据进行封装,通过基站节点返回到用户终端。
【文档编号】G06F17/30GK103593435SQ201310561183
【公开日】2014年2月19日 申请日期:2013年11月12日 优先权日:2013年11月12日
【发明者】毛莺池, 王康, 王久龙, 朱沥沥, 接青 申请人:河海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1