一种大数据量设备实时监测数据的存储及检索方法

文档序号:6378592阅读:1288来源:国知局
专利名称:一种大数据量设备实时监测数据的存储及检索方法
一种大数据量设备实时监测数据的存储及检索方法
技术领域
本发明涉及一种大数据量设备实时监测数据的存储及检索方法,特别涉及一种基于特定协议的实时监测数据的文件存储及高效数据检索方法。
背景技术
文件数据库又叫嵌入式数据库,将整个数据库的内容保存在单个索引文件中,以便于数据库的发布。而传统数据库(如DB2, Oracle, SQL server等)数据保存的方式各异。传统的数据库需要通过一些数据库引擎来访问,由于文件型数据库保存在单一文件中,数据库的部署和发布都比较简单,适用于内嵌在应用程序中。数据量不是太大时,速度比传统数据库要快。文本类型数据文件安全性差,数据检索效率低等特点。特别是海量监测数据的 存储,一般情况下都是存传统数据库或者文本文件,传统数据库需要额外安装庞大的数据库软件,而且还有很多限制,如SQL Server2000中的VarChar类型最大只能存8000字符,Access文件单个最大只能支持4GB文件。而对于数据检索来说,最重要的就是检索的精度与速度。检索的精度基本取决于编程人员的水平,而检索的速度则受到多种因素的影响。其中,索引技术是数据库管理系统中最常用的提高检索速度的手段。文本数据文件则缺乏较高的数据检索效率,一般监测数据的文本存储方式①每一行表示一条记录每条记录由一个时间字段以及一个或多个数据内容字段构成。如表I所示表I
时间数据内容
时间I设备Λ 值Al 设备B 值BI … … 设备X 值Xl
时间2_设备A 值Α2 设备B 值Β2 .......设备X 值Χ2
· · · · · · · · · · · · · · · · * · · · · · ·
时间η设备A 值An 设备B 值 η **· * 设备X 值Xn当一次查询某一时间段(时间i到时间j)设备A的所有数据做数据报表时,需要加载整个文件,逐条判断时间i到时间j所在的区间位置,当数据文件较大时,检索效率很低。有鉴于此,本发明人针对现有技术的缺陷深入研究,并有本案产生。

发明内容本发明要解决的技术问题,在于提供一种大数据量设备实时监测数据的存储及检索方法。本发明是这样实现的一种大数据量设备实时监测数据的存储及检索方法,包括如下步骤将数据文件按年、月存放在二级目录中;索引文件与数据文件均为二进制文件,具有不同的扩展名,且都遵循相同的命名规则,即文件名中包含年月日时间标识,年月日时间标识用于索引文件和数据文件的初级检索;在监测信息实时记录的过程中每天生成一个索引文件和数据文件;索引文件分成两个部分,第一部分为索引目录,第二部分为周期数据索引;索引目录记录每一分钟起始周期数据索引的地址位置信息,若每日单个数据文件 小于4GB,那么地址位置信息用4个字节表示,若每日单个数据文件大于4GB小于1TB,那么地址位置信息用5个字节表示;索引目录总计占用字节数=每分钟单位地址字节数*60分钟*24小时,按照每分钟单位地址占用4字节计算,索引目录总计占用5760字节;周期数据索引记录每个采集周期各个类型信息在数据文件具体位置地址以及数据长度,字节大小根据实际情况增加或减少字节数以达到最佳使用效果;当用户输入查询条件,选择需要查询的设备类型、数据类型以及起始时间tl、结束时间t2 ;遍历所有索引文件和数据文件,根据起始时间日期匹配对应的索引文件和数据文件;索引文件和数据文件存放于../年/月的二级文件夹中,根据起始时间年份找到年文件夹,根据起始时间月份找到年文件夹下的月文件夹,根据起始时间日期,转换成带后缀的索引文件名和数据文件名,匹配月文件夹下的文件名称,找到索引文件和数据文件;打开并加载索引文件;根据起始时间的时/分在索引文件的索引目录中找到对应时/分标志指向的索引文件周期数据索引地址;根据设备序号匹配当期周期数据索引中的设备序号,找到当前时间、当期设备序号所在数据文件中的偏移地址;根据数据类型编号,取出当前设备序号下数据类型编号存储的数据值;获取当前查询信息下一个周期数据;快速计算出下一个周期设备索引地址,并快速定位数据文件中设备信息偏移地址,匹配数据类型编号,从而取出查询条件第二周期数据值;以此类推,通过简单匹配和计算依次取出当前数据文件中符合查询条件的所有信息值。本发明的优点在于用户在存储数据的时候,可以根据年、月、日存储二进制文件,每天两个二进制文件,数据文件和索引文件,文件依据日期命名。用户无需安装较为庞大第三方的数据库系统软件,如=Oracl e、MS SQL等。按照存储一个月的数据来计算的话,每月生成的文件数量也就是30*2=60个。通过将存储信息分成索引文件和数据文件两个文件,索引文件中用于记录各类型数据的时间以及指向数据文件中各类型数据值,数据文件用于记录采集到的各类数据信息值。本发明依据构建的特殊索引文件(索引目录和周期数据索引),通过快速计算方式定位数据所在偏移地址,从而取出符合查询条件的信息数据。有效的解决了海量数据的检索速度慢的问题。在进行数据导出的时候,也只需要根据需要导出数据的时间范围,拷贝文件目录下对应时间数据文件和索引文件即可,有效解决第三方数据库软件在导出大数据量信息时,导出时间慢的问题。

下面参照附图结合实施例对本发明作进一步的描述。图I是本发明中的数据检索的流程图。图2是本发明中的数据检索系统结构图。
具体实施方式一种大数据量设备实时监测数据的存储与检索方法,包括如下步骤
将数据文件按年、月存放在二级目录中;索引文件与数据文件均为二进制文件,具有不同的扩展名,且都遵循相同的命名规则,即文件名中包含年月日时间标识,年月日时间标识用于索引文件和数据文件的初级检索;在监测信息实时记录的过程中每天生成一个索引文件和数据文件;索引文件分成两个部分,第一部分为索引目录,第二部分为周期数据索引;索引目录记录每一分钟起始周期数据索引的地址位置信息,如表2所示,若每日单个数据文件小于4GB,那么地址位置信息用4个字节表示,若每日单个数据文件大于4GB小于1TB,那么地址位置信息用5个字节表示;索引目录总计占用字节数=每分钟单位地址字节数*60分钟*24小时,按照每分钟单位地址占用4字节计算,索引目录总计占用5760字节;表 权利要求
1.一种大数据量设备实时监测数据的存储及检索方法,其特征在于包括如下步骤将数据文件按年、月存放在二级目录中;索引文件与数据文件均为二进制文件,具有不同的扩展名,且都遵循相同的命名规则,即文件名中包含年月日时间标识,年月日时间标识用于索引文件和数据文件的初级检索; 在监测信息实时记录的过程中每天生成一个索引文件和数据文件; 索引文件分成两个部分,第一部分为索引目录,第二部分为周期数据索引; 索引目录记录每一分钟起始周期数据索引的地址位置信息,若每日单个数据文件小于4GB,那么地址位置信息用4个字节表示,若每日单个数据文件大于4GB小于1TB,那么地址位置信息用5个字节表示;索引目录总计占用字节数=每分钟单位地址字节数*60分钟*24小时,按照每分钟单位地址占用4字节计算,索引目录总计占用5760字节; 周期数据索引记录每个采集周期各个类型信息在数据文件具体位置地址以及数据长度,字节大小根据实际情况增加或减少字节数以达到最佳使用效果; 当用户输入查询条件,选择需要查询的设备类型、数据类型以及起始时间tl、结束时间t2 ; 遍历所有索引文件和数据文件,根据起始时间日期匹配对应的索引文件和数据文件;索引文件和数据文件存放于../年/月的二级文件夹中,根据起始时间年份找到年文件夹,根据起始时间月份找到年文件夹下的月文件夹,根据起始时间日期,转换成带后缀的索引文件名和数据文件名,匹配月文件夹下的文件名称,找到索引文件和数据文件; 打开并加载索引文件; 根据起始时间的时/分在索引文件的索引目录中找到对应时/分标志指向的索引文件周期数据索引地址; 根据设备序号匹配当期周期数据索引中的设备序号,找到当前时间、当期设备序号所在数据文件中的偏移地址; 根据数据类型编号,取出当前设备序号下数据类型编号存储的数据值; 获取当前查询信息下一个周期数据; 快速计算出下一个周期设备索引地址,并快速定位数据文件中设备信息偏移地址,匹配数据类型编号,从而取出查询条件第二周期数据值; 以此类推,通过简单匹配和计算依次取出当前数据文件中符合查询条件的所有信息值。
全文摘要
一种大数据量设备实时监测数据的存储及检索方法,包括将数据文件按年、月存放在二级目录中;在监测信息实时记录的过程中每天生成一个索引文件和数据文件;索引文件分成两个部分,第一部分为索引目录,第二部分为周期数据索引;周期数据索引记录每个采集周期各个类型信息在数据文件具体位置地址以及数据长度,字节大小根据实际情况增加或减少字节数以达到最佳使用效果;当用户输入查询条件,选择需要查询的设备类型、数据类型以及起始时间t1、结束时间t2;通过简单匹配和计算依次取出当前数据文件中符合查询条件的所有信息值。本发明提供了一种大数据量设备实时监测数据的存储及检索方法。
文档编号G06F17/30GK102902797SQ20121038259
公开日2013年1月30日 申请日期2012年10月11日 优先权日2012年10月11日
发明者蒋书贵, 陈章恒, 叶守强, 林健金, 池垂淡, 范元飞, 李小进, 周锦惠, 林学通, 席春明 申请人:福建亿同世纪软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1