一种用于物联网数据更新的结构设计方法

文档序号:6485962阅读:175来源:国知局
一种用于物联网数据更新的结构设计方法
【专利摘要】一种用于物联网数据更新的结构设计方法,其主要是基于R树索引的更新机制主要采取的是自顶向下模式。可能通过位置预测、容忍更新、R树的批量插入策略、GBI(GeneralizedBulkInsertion)技术利用聚类算法等综合一起完成多系统的更新。
【专利说明】一种用于物联网数据更新的结构设计方法
【技术领域】
[0001]一种用于物联网数据更新的结构设计方法,此方法是涉及计算机领域中的几种算法,运行其算法的特点进行多系统的结构设计。
【背景技术】
[0002][0002]在计算机高速发展的今天,由于存储系统都是采用层次化的目录结构来组织文件的,层次化结构使得文件的访问效率不高。
[0003][0003]访问某个文件必须通过层次型的目录树结构到达文件的保存位置,如果不知道文件保存位置,就必须遍历整个目录或使用操作系统的搜索功能,而操作系统仅能依靠文件名来检索和查找数据。
[0004][0004]在最近的十几年里,新数据类型(多媒体、电子邮件)不断涌现,这些数据中包含了大量的元数据信息。
[0005][0005]认识到现有文件系统的不足,学术界和工业界都做了大量的工作来研究如何利用丰富的元数据信息来提高文件的管理和搜索效率在大规模存储系统中查找和管理文件显得更加困难,元数据查询可以很好的解决点查询、范围查询、top-k查询以及聚集查询,便于进行一些复杂、特殊的查询。
[0006][0006]能够快速地实现上述查询能极大地提高用户或管理者对大规模存储系统
的管理。
[0007][0007]在大规模存储系统提供高效的元数据查询是一个很大的挑战,而现在有一些商业元数据查询系统主要致力于小型的存储系统(最多几千万个文件)并且常常很慢,耗费的资源多。
[0008][0008]在大规模存储系统中想要实现高效的元数据查询,需满足以下几点:
最小的资源需求,元数据查询不应该需要额外的硬件,它应该集成到存储系统中而不
降低系统的性能。
[0009][0009]现在大多数的元数据查询系统都需要专门的CPU、内存以及磁盘,使得它们非常昂贵而且很难部署,这就限制它们的扩展性。
[0010][0010]快速的元数据收集必须从几十亿、几百亿个文件中周期性的收集发生改变的元数据,而不会给整个存储系统带来额外负载,使得系统变慢。
[0011][0011]现在的爬行算法(crawling method)非常慢而且消耗系统资源。
[0012][0012]基于R树的索引在商业上得到广泛应用和发展,但是它在频繁更新操作时性能低下。
[0013][0013] R树及其变体在空间索引结构中占据主导地位,传统的空间索引的研究主要考虑静态数据,只关注高效的查询处理,R树的更新性能很差,不能直接用于频繁更新的应用环境。
[0014][0014]存储系统下元数据的更新是很频繁的,直接对索引的修改会产生大量的磁盘操作并可能引起索引结构的不平衡。[0015][0015]已经存在的各种基于R树索引的更新机制主要采取的是自顶向下模式。
【发明内容】

[0016][0016]基于上述的问题,发明一种物联网数据更新的结构设计方法,其实际是在更新时减少更新的次数。
[0017][0017]位置预测一种减少对象更新操作次数的策略是采用线性函数来表示移动对象的位置,保存对象的运动特性,包括当前位置和速度参数等,通过这些数据可以预测将来一段时间后的位置。
[0018][0018]容忍更新减少更新次数的另一种策略是容忍更新。并不是每次更新都需要一个至上而下的删除操作和插入操作。
[0019][0019]当一个对象的新位置没有移出原来的MBR,换句话说就是该对象还在同一个叶子节点内时,只要修改对应叶子节点的数据信息即可,不需要删除后插入,也不可能引起分裂和合并操作。
[0020][0020]更新操作包括删除和插入两个步骤,延迟更新也包括延迟删除和延迟插入两个方面。
[0021][0021]延迟删除的策略是将更新信息立即插入,而旧的对象信息不会立即删除,而是使用某种策略将未删除的索引信息缓存起来以便区分新旧数据,直到缓冲区满或者其它情况下才进行删除操作。
[0022][0022] R树的批量插入策略;其中STLT (Small-Tree-Large-Tree)技术,首先利用输入数据集建立一棵小R (Small tree)树,然后将小R树插入到原有的大R树(Largetree)中。
[0023][0023] GBI (Generalized Bulk Insertion)技术利用聚类算法将输入数据集分割为多个空间上接近的数据组,为每个数据组建立R树结构,最后将这些R树结构批量插入到目标R树中。
[0024][0024]多版本文件更新;Versioning文件系统保存被修改的文件之前的版本,来实现用户误操作以及系统错误后的数据恢复。
[0025][0025] Versioning文件系统存在的主要问题是不能有效地保存大量的version,version数据消耗大量的存储空间,对version的删除的策略,恢复系统时version的选择问题等。
[0026][0026] Cedar采用简单的version策略来帮助客户在误操作后恢复数据。
[0027][0027]最近的Elephant文件系统提供了一系列的version选项,用来保存对用户最为重要的文件的version。
[0028][0028] CVFS提出两种有效节省空间的version元数据结构,对于inodes和indirect blocks采用Journal-based元数据,而对于目录采用Multiversion B树,有效地节省了 version占用的空间。
[0029][0029] Causality-based versioning 结合 causal relationship 和 versioning技术,通过causal connection使得version更具意义,提出新的在何时创建version的算法;
通过causal relationship定位version,能够更有效的在错误后恢复到正确的version。
【权利要求】
1.ー种用于物联网数据更新的结构设计方法,其特征在于运用在更新时尽量減少其中更新次数、延迟更新、批量操作更新及多版本文件更新几种更的特点进行物联网数据的更新。
2.根据权利要求1其減少更新操作是容忍更新是减少更新次数,并不是毎次更新都需要ー个至上而下的删除操作和插入操作。
3.当一个对象的新位置没有移出原来的MBR,换句话说就是该对象还在同一个叶子节点内时,只要修改对应叶子节点的数据信息即可,不需要删除后插入,也不可能引起分裂和合并操作。
4.根据权利要求1其延迟更新既更新操作包括删除和插入两个步骤,迟更新也包括延迟删除和延迟插入两个方面;延迟删除的策略是将更新信息立即插入,而旧的对象信息不会立即删除,而是使用某种策略将未删除的索引信息缓存起来以便区新旧数据,直到缓冲区满或者其它情况下才进行删除操作。
5.根据权利要求1其批量操作是利用R树的特点,其中STLT(Small-Tree-Large-Tree)技术,首先利用输入数据集建立一棵小R (Small tree)树,然后将小R树插入到原有的大R树(Large tree)中GBI (Generalized Bulk Insertion)技术利用聚类算法将输入数据集分割为多个空间上接近的数据组,为每个数据组建立R树结构,最后将这些R树结构批量插入到目标R树中。
6.根据权利要求1其多版本文件更新是根据Versioning文件系统保存被修改的文件之前的版本,来实现用户误操作以及系统错误后的数据恢复。
7.CVFS提出两种有效节省空间的version元数据结构,对于inodes和indirectblocks采用Journal-based元数据,而对于目录采用Multiversion B树,有效地节省了version占用的空间。
【文档编号】G06F17/30GK103488645SQ201210194230
【公开日】2014年1月1日 申请日期:2012年6月13日 优先权日:2012年6月13日
【发明者】伍东周 申请人:镇江华扬信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1