传感器数据流复杂查询结果的数据起源跟踪方法

文档序号:6586630阅读:206来源:国知局
专利名称:传感器数据流复杂查询结果的数据起源跟踪方法
技术领域
本发明属于传感器数据仓库中冰山查询结果的逆向跟踪技术,特别是传感器数据 流复杂查询结果的数据起源跟踪方法。
背景技术
新一代传感器和传感器(无线射频识别)技术为人们提供了强大的感知、理解并 管理世界的能力,许多基于传感器的新应用迫切需要一种现有数据管理系统不具备的能 力——追溯事件和查询结果的起源,即支持高层应用到低层数据反向查询的数据起源追踪 能力。冰山查询在大量输入的数据元组上返回极少的查询结果,是传感器数据仓库上典型 的、频繁应用的一类查询。由于冰山查询涉及到一个属性或属性集上的聚集函数,同时传感 器数据具有不确定性、冗余性、蕴含时空性、需要在线响应等特点,数据来源可能不可访问 或访问的代价高昂,因此追踪传感器冰山查询结果的数据起源信息非常困难,为数据库、传 感器网络、复杂事件处理等研究领域提出了许多新的挑战。数据的起源记载了对数据处理的整个历史,包括数据的起源和处理这些数据的 所有后继过程,数据起源追踪(Data Lineage Tracing),也可称为“数据起源追踪(Data Provenance Tracing) ”,主要关注怎样从用户感兴趣的高层视图回溯到导出此视图的原始 资源数据的问题。冰山查询的数据起源追踪是基于传感器技术的定位、追踪应用必需支持 的功能,数据分析、数据质量检查等阶段会频繁地对冰山查询的结果进行回溯,其执行效率 极大地影响传感器数据管理系统响应查询的能力,而这种功能在传统数据仓库中的地位是 可有可无的。数据起源的相关研究近几年吸引了数据集成、Web搜索、语义标注等领域学者的广 泛关注。国外在数据仓库、E-science、质量追踪、保证数据可信性和再现性方面已经有一些 数据起源的研究成果,而国内在数据起源方面的研究才刚刚开始。目前数据起源追踪主要 有3种途径查询求逆、标注和工作流日志。(1)查询求逆是在起源追踪时通过对查询或者视图定义进行分析,求逆(执行逆 查询)的结果就是数据的起源(Y. W. Cui,J. ffidom, J. L. Wiener. Tracing theLineage of View Data in a Warehousing Environment. ACM Transactions onDatabase Systems, 2000,25(2) :179-227)。由于它是在需要用到数据起源时才进行计算分析,因而又称为 “lazy”方式。这种方式主要是在早期把数据起源用于视图维护和更新问题时提出来的。查 询求逆计算方法的缺点在于,它不完全适用于复杂查询。因为现有的查询求逆研究中都是 假设复杂查询满足一定的条件并且可以被规范化或者改写,但实际上并不是所有的查询都 是如此,即使满足一定的条件,求出的数据起源有时也并不精确。(2)将标注用于数据起源就是在标注中记录一些关于数据出处或者产生过程历史 的信息(P Buneman, S Khanna, W C Tan. On Propagation of Deletions andAnnotations Through Views. In =Proc of the Int IConf on Management of Data(ACMSIGM0D/P0DS), 2002. 150-158)。由于这种方式是在一开始就让数据通过标注携带一些数据起源信息,因而又称为“eager”方式。关于标注的组织、管理等有一系列问题有待解决。Bhagwat 等(D Bhagwat, L Chiticariu, W C Tan,G Vijayvargiya. An Annotation Management System for Relaional Databases. In :Proc of the Int' IConf on Very Large Data Base(VLDB),2004. 900-911)设计了一种基于关系的管理标注的数据模型,其中每个数据项 (属性)都带有标注,当数据在转移的时候标注能够随着数据一起转移。这种存储模式的 问题是冗余比较大,而且事实上要求修改关系模式,这在很多情况下是不可能的,并且只支 持属性粒度上的标注。Buneman 等(Peter Buneman,Adriane P. Chapman,James Cheney. ProvenanceManagement in Curated Databases SIGMOD 2006,June 27-29,2006,Chicago, Illinois,USA.)研究了可在数据库之间复制记录的通用数据起源技术,提出一种追踪用户 行为的方法,浏览源数据库并将数据复制到curated数据库,用可查询的便利形式记录用 户的行为。另外 W7 标注模式(Sudha Ram, Jun Hu, Regi ThomasGeorge. PROMS :A System for Harvesting and Managing Data Provenanc.)是目前具有一定的语义信息的先进标注 模式,其结构比逆查询语句具有更大的灵活性。由于大多数现有的数据管理系统是没有存 储标注的,因此首要问题就是如何创建或者获取标注。在有些系统中提供了相应的工具集 帮助用户创建标注,但是从数据起源的角度来说,传感器数据流本身就蕴含了适于自动获 取的时空信息,到目前为止,还没有人做过有关传感器数据起源自动标注和手动标注方面 的研究。(3)工作流日志是基于消息层次的对数据加工的记录。已有的研究认为工作流日 志没有足够的语义信息,即使将它收集到,对于重塑工作流得到原始数据也很难,在实际的 操作过程中工作流日志往往起到辅助作用,作为其他两种方式的补充。然而,正是这种辅助 作用对传感器数据流连续处理的性质具有重要意义,工作流日志有助于采用有向图搜索、 状态迁移等方法对数据起源实现有效地追溯,这也是现有研究成果中未曾考虑到的。在国内,刘喜平等首次介绍了数据起源的概念、意义和发展(刘喜平,万常选.数 据起源研究综述.科技广场.2005,1 :47-5 ;李亚子比较了几种常用的数据起源描述模 型,提出由XML Schema描述逐渐发展到构建领域本体进而实现推理机制,是数据来源追 踪的发展方向之一(李亚子.数据起源标注模式与描述模型.现代图书情报技术.2007, 153(7) :10-13) 0近几年国内仅在语义标注领域有一些研究成果,然而这些研究并不是 为了解决起源追踪问题。与常规静态数据库上的起源追踪相比,传感器数据面临的起源 追踪问题更为复杂、起源追踪查询代价更为高昂。传感器的大量部署,会导致如洪水般 的标签信息涌入系统,必须解决传感器数据的喷涌问题。目前公认的方法是在传感器数 据管理系统中设置数据连接器,包括传感器中间件、事件处理与内存数据cache。原始 数据经过复杂中间处理过程,增加了追踪的难度。在考虑推导规则不确定性的前提下, 使用起源跟踪发现适合物化的推导规则集,是传感器数据处理领域中一个令人感兴趣的 未角军难题(R. Derakhshan, Μ. E. Orlowska, Li Xue. RFID Data Management Challenges andOpportunities. in Proceeding of IEEE International Conference on RFID 2007, 26-28March 2007Page (s) :175-182)。现有的起源追踪技术在应用到传感器数据流中存在以下四个问题(1)已有的数 据起源研究大多只是针对科学数据库,未考虑以数据流处理为特征的传感器数据起源追踪 快速响应的需要,这使得现有的起源追踪方法很难直接应用到传感器数据管理,需要从创建新起源追踪模型的高度来解决传感器数据起源的追踪问题;( 现有针对数据起源的研 究都停留在变化相对缓慢的静态数据集定性分析与描述上,无法适应变化的传感器数据 流;(3)逆反性并不是数据处理查询或函数的通常属性,如果不能精准确定数据项,即使找 到了弱逆函数对应用的意义也不大。(4)为设计反函数或逆查询,需要预先理解数据处理的 复杂过程,这就使得方案只能针对特定的应用,很难自动化。同时为逆查询或逆函数编码必 须花费极大的努力,阻碍了这种技术的应用。

发明内容
本发明所解决的技术问题在于提供一种快速精确的传感器数据流复杂查询结果 的数据起源跟踪方法。实现本发明目的的技术解决方案为一种传感器数据流复杂查询结果的数据起源 跟踪方法,包括以下步骤步骤1、确定起源追踪查询滑动窗口大小;步骤2、对起源查询进行规范化描述;步骤3、对起源追踪查询的类别进行判断并设计相应算法;步骤4、设计起源追踪的框架;步骤5、对整个起源追踪算法进行实施,从而实现对传感器数据流复杂查询结果的 数据起源的跟踪。本发明与现有技术相比,其显著优点(1)突破现有传感器数据管理中无法支持 复杂查询回溯的技术局限,将数据起源追踪概念首次引入传感器数据流上的冰山查询领 域,为新型在线追踪应用提供可行的解决方案。(2)以数据流在线处理的方式建立适应传感 器数据不确定性、不完整性等特征的数据起源追踪模型;C3)根据不等概采样原理动态确 定起源追踪查询窗口的大小,适应数据流变化;(4)基于流式处理的传感器数据起源追踪 运算理论与起源追踪查询算法(涉及区域位置、距离、时间的逆选择、投影、并、交、聚集及 连接运算)。本发明建立的计算模型针对快速变换的数据流,提出适用于包括已知处理逻 辑和未知处理逻辑等不同情况的传感器数据流逆查询算法,可在线得出数据起源信息。(5) 代价小,数据起源追踪结果集精确,伸缩性能好。下面结合附图对本发明作进一步详细描述。


图1为本发明的传感器数据流复杂查询结果的数据起源跟踪方法流程图。图2为传感器数据流起源追踪含义示意图。图3为流式传感器数据起源追踪系统框架图。图4为传感器数据复杂查询导出数据流示例图。图5为借助中间传感器导出数据流迭代计算起源图。图6为不同起源追踪方法和起源追踪时间的关系图。图7为三种起源追踪方法对传感器数据的起源追踪精度的对比图。
具体实施例方式结合图1,本发明的一种传感器数据流复杂查询结果的数据起源跟踪方法,包括以 下步骤步骤1、确定起源追踪查询滑动窗口大小;具体包括以下步骤步骤11、对起源追踪查询滑动窗口进行定义,起源追踪查询窗口大小为Wi个间隙, Wi = (t_Wi,t),其中t表示当前时刻,设标签i出现在阅读器的有效范围,在窗口评1期间阅 读器在每个间隙以相同的概率Pi读取标签i ;步骤12、对起源追踪查询滑动窗口间隙进行读取概率为Pi的相互独立的 Bernoulli试验;假设在Wi的所有间隙,标签i只出现在Wi的子集Si,令Piavg表示在这些观
测间隙上的平均经验读取率
权利要求
1.一种传感器数据流复杂查询结果的数据起源跟踪方法,其特征在于,包括以下步骤步骤1、确定起源追踪查询滑动窗口大小; 步骤2、对起源查询进行规范化描述; 步骤3、对起源追踪查询的类别进行判断并设计相应算法; 步骤4、设计起源追踪的框架;步骤5、对整个起源追踪算法进行实施,从而实现对传感器数据流复杂查询结果的数据 起源的跟踪。
2.根据权利要求1所述的传感器数据流复杂查询结果的数据起源跟踪方法,其特征在 于,步骤1确定起源追踪查询滑动窗口大小具体包括以下步骤步骤11、对起源追踪查询滑动窗口进行定义,起源追踪查询窗口大小为Wi个间隙,Wi = (t-wi; t),设标签i出现在阅读器的有效范围,在窗口 Wi期间阅读器在每个间隙以相同的概 率取标签i ;步骤12、对起源追踪查询滑动窗口间隙进行读取概率为Pi的相互独立的Bernoulli试 验;假设在Wi的所有间隙,标签i只出现在Wi的子集Si,令Piavg表示在这些观测间隙上的平均经验读取率,
3.根据权利要求1所述的传感器数据流复杂查询结果的数据起源跟踪方法,其特征在 于,步骤2对起源查询进行规范化描述是在关系数据模型基础上,引入概率化元组,提供不 确定性起源信息追踪的标准过程,并为用户提供声明性的连续查询语言接口。
4.根据权利要求1所述的传感器数据流复杂查询结果的数据起源跟踪方法,其特征在 于,步骤3对起源追踪查询的类别进行判断并设计相应算法具体包括以下步骤步骤31、根据是否已知起源查询对应的正向查询模式,和起源是否为标准关系模式,将 起源追踪类型划分为四种类型,若已知正向查询为标准关系SPJ(选择、投影、连接)视图模 式,则执行步骤32 ;若已知正向查询为标准关系ASPJ(聚集、选择、投影、连接)视图模式, 则执行步骤33 ;若已知正向查询为非标准关系ASPJ视图模式,则执行步骤34 ;若未知正向 查询模式且操作为非标准关系ASPJ视图模式,则执行步骤35 ;步骤32、已知正向查询为标准关系SPJ视图模式起源追踪查询,将所有SPJ视图都转换 成SPJ典型形式,使用基于典型形式的追踪查询计算指定元组的起源;步骤33、已知正向查询为标准关系ASPJ视图模式起源追踪,以中间结果作为聚集元组 与基本流之间的纽带,在需要的时候从基本流计算得出中间结果的相关部分,在数据仓库 中将整个中间结果存储为物化辅助视图;步骤34、已知正向查询为非标准关系ASPJ视图模式起源追踪查询,将作用在传感器数 据流的操作分为分散与合并两类,若每个输入数据项产生0个或多个相互独立的数据项,则视为分解操作,采用枚举输入数据项的方法确定输出项的起源;否则采用合并操作,即将 合并操作细分为上下文无关合并和保留键值合并,以渐增的方式验证输入项的子集;步骤35、未知正向查询模式且操作为非标准关系ASPJ视图模式起源追踪查询,采用动 态切片技术计算指定元组起源,设计未知操作定义的黑盒起源追踪方法。
5.根据权利要求1所述的传感器数据流复杂查询结果的数据起源跟踪方法,其特征在 于,步骤4设计起源追踪的框架包括以下步骤步骤41、对起源查询信息模型基本实体进行分类,将其分为数据流和查询,数据流由 基本流与导出流两种类型组成基本流来自系统之外的某一设备、传感器网络、或者一个服 务;导出流来自于基本流或其它的导出流;步骤42、设计分布式事件处理系统,该系统以中央服务方式接受查询请求,在多个分布 式查询执行引擎上部署查询,并且在各自生命周期时间内执行查询;系统监控各个查询引 擎上的负载,根据重用规则、查询和网络代价估计对查询进行优化,将收到的查询分布到有 效的查询执行引擎;步骤43、在步骤42的基础上,构建基于数据流模式的传感器数据起源查询框架,该框 架包括起源的组织、存储策略、起源与数据的结合方式,以及起源的传播方式。
全文摘要
本发明公开了一种传感器数据流复杂查询结果的数据起源跟踪方法,包括以下步骤步骤1、确定起源追踪查询滑动窗口大小;步骤2、对起源查询进行规范化描述;步骤3、对起源追踪查询的类别进行判断并设计相应算法;步骤4、设计起源追踪的框架;步骤5、对整个起源追踪算法进行实施,从而实现对传感器数据流复杂查询结果的数据起源的跟踪。突破现有传感器数据管理系统中无法支持复杂查询回溯的技术局限,将数据起源追踪概念首次引入传感器数据流上的复杂查询领域,为新型在线追踪应用提供可行的解决方案。
文档编号G06F17/30GK102117302SQ20091026415
公开日2011年7月6日 申请日期2009年12月31日 优先权日2009年12月31日
发明者彭甫镕, 徐佳, 时真旺, 王永利 申请人:南京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1