一种非结构化事件日志数据的划分和存储的方法与装置的制造方法

文档序号:10687194阅读:367来源:国知局
一种非结构化事件日志数据的划分和存储的方法与装置的制造方法
【专利摘要】本发明提供了一种非结构化事件日志数据的划分和存储的方法与装置,此存储装置包括:数据采集模块、数据传递模块、数据分类模块、数据存储模块,此方法包括:数据采集传递,将不同地点和不同传感器采集的信息数据进行收集;数据划分,将采集的信息数据基于时间和空间的方式进行划分,划分好的数据进入到存储模块进行存储;数据存储,数据采用分片方式进行数据存储。本发明将不同地点、不同传感器描述的不同事件信息分类保存,加快了后续数据提取、统计和分析。
【专利说明】
一种非结构化事件日志数据的划分和存储的方法与装置
技术领域
[0001 ]本发明涉及一种数据存储技术,尤其涉及一种非结构化事件日志数据的划分和存储的方法与装置。
【背景技术】
[0002]随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的数量日趋增大。这时,主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。因而,数据库技术相应地进入了“后关系数据库时代”,发展进入基于网络应用的非结构化数据库时代。非结构化数据的迅猛发展,对存储的容量空间是一大考验,非结构化数据的多存储系统不仅在存储能力上具有强容错、高可用和可扩展等特征,并且其可以利用不同类型的存储组件展示一个数据集的多种服务视图来提供更丰富的数据服务。
[0003]在非结构化数据多存储系统内,主数据库与其它数据存储组件分布在不同的网络节点中,并以网络链路相连。需要同步的数据以字节流的形式在数据链路中传输。由于非结构化数据海量异构的自然属性,它们之间的数据同步过程必须符合如下几个条件:高效性,数据同步组件以较高的吞吐量完成数据的传输;时效性,数据必须以一个较小的延时在存储组件之间同步;可扩展性,数据同步组件必须在系统数据量增大时提供有效的水平扩展手段。非结构数据的划分存储一直是一个难题,不仅影响了存储的信息量,以及存储成本,而且对后续的检索效率和全面性都有很大影响。

【发明内容】

[0004]针对上述问题,本发明提出了一种非结构化事件日志数据的划分和存储的方法与装置,实现非结构数据存储的时序性,加快后续数据处理分析。
[0005]本发明提出了一种非结构化事件日志数据的划分和存储的方法,包括:
a.数据采集传递:将不同地点和不同传感器采集的信息数据进行收集;
b.数据划分:将采集的信息数据基于时间和空间的方式进行划分,划分好的数据进入到存储模块进行存储;
c.数据存储:数据采用分片方式进行数据存储。
[0006]进一步,所述数据划分中基于空间的划分方式采用网格的形式进行地理空间的划分,所述网格为对应于地理空间的一个正方形区域,每个网格的地理空间的事件再按照时间先后顺序进行存储,当数据存储量达到储存数据块的储存容量时,数据将自动存入分布式文件系统。
[0007]进一步,所述数据存储的分片方式为将每个Shard分成一系列的Segment,每个Segment包含一系列的Event,再对Event抽取特定的域Field,以及对整个Event信息进行分词,最后创建全文索引。
[0008]进一步,所述数据存储利用元信息记录网格和时间段储存到文件的映射信息系中。
[0009]进一步,所述数据的全文索引实现了数据过滤、数据转换、数据分组和数据聚集的处理方法。
[0010]本发明还提供一种非结构化事件日志数据的划分和存储的装置,包括数据采集模块、数据传递模块、数据分类模块、数据存储模块,所述数据采集模块将收集的数据通过数据传递模块输送到数据分类模块,所述数据分类模块根据时间和空间来划分数据信息,并通过分片方式将数据信息存储到所述数据存储模块中。
[0011]进一步,所述数据分类模块采用网格的形式进行地理空间的划分,网格为对应于地理空间的一个正方形区域,每个网格的地理空间的事件再按照时间先后顺序进行存储。
[0012]进一步,所述数据存储模块的分片存储方式为将每个Shard分成一系列的Segment,每个Segment包含一系列的Event,再对Event抽取特定的域Field,以及对整个Event信息进行分词,最后创建全文索引。
[0013]进一步,所述数据存储模块中采用8MB-16MB的数据块。
[0014]本发明的有益效果为:一种非结构化事件日志数据的划分和存储的方法与装置,可根据不同地点、不同传感器的不同信息数据,根据空间和时序性进行数据划分存储,便于数据的过滤、转换、分组和聚集处理,加快了后续数据的提取、统计和分析效率。
【附图说明】
[0015]
图1为本发明一种非结构化事件日志数据的划分和存储的方法流程图;
图2为本发明一种非结构化事件日志数据的划分和存储的装置示意图。
【具体实施方式】
[0016]结合图1所示,一种非结构化事件日志数据的划分和存储的方法,包括以下步骤:
a.数据采集传递:将不同地点和不同传感器采集的信息数据进行收集;b.数据划分:将采集的信息数据基于时间和空间的方式进行划分,划分好的数据进入到存储模块进行存储;c.数据存储:数据采用分片方式进行数据存储。
[0017]所述数据划分中基于空间的划分方式采用网格的形式进行地理空间的划分,所述网格为对应于地理空间的一个正方形区域,每个网格的地理空间的事件再按照时间先后顺序进行存储,当数据存储量达到储存数据块的储存容量时,数据将自动存入分布式文件系统。其中,所述数据存储的分片方式为将每个Shard分成一系列的Segment,每个Segment包含一系列的Event,再对Event抽取特定的域Field,以及对整个Event信息进行分词,最后创建全文索引。存储中利用元信息记录网格和时间段储存到文件的映射信息系中。此种存储方法存储的数据全文索引实现了数据过滤、数据转换、数据分组和数据聚集的处理。
[0018]结合图2所述的一种非结构化事件日志数据的划分和存储的装置,包括数据采集模块、数据传递模块、数据分类模块、数据存储模块,所述数据采集模块将收集的数据通过数据传递模块输送到数据分类模块,所述数据分类模块根据时间和空间来划分数据信息,所述数据存储模块为8MB的数据块,采用分片方式进行数据存储。所述数据分类模块采用网格的形式进行地理空间的划分,网格为对应于地理空间的一个正方形区域,每个网格的地理空间的事件再按照时间先后顺序进行存储。所述数据存储模块的分片存储方式为将每个Shard分成一系列的Segment,每个Segment包含一系列的Event,再对Event抽取特定的域Field,以及对整个Event信息进行分词,最后创建全文索引。
[0019]实施例一:
首先通过数据采集模块将不同地点和传感器的数据信息进行收集,然后通过数据传递模块传递给数据分类模块,根据事件数据的时间和坐标信息,首先采用网格的形式进行空间划分,每个网格为对应地理空间的一个正方形区域,再按照时间的先后排列,最后将划分好的数据存储到数据存储模块,该数据存储模块选用8MB的数据块采用分片存储方式,将每个Shard分成一系列的Segment,每个Segment包含一系列的Event,再对Event抽取特定的域Field,以及对整个Event信息进行分词,最后创建全文索引,实现数据过滤、数据转换、数据分组和数据聚集的处理,便于后续数据检索。
[0020]实施例二:
首先通过数据采集模块将不同地点和传感器的数据信息进行收集,然后通过数据传递模块传递给数据分类模块,根据事件数据的时间和坐标信息,首先采用网格的形式进行空间划分,每个网格为对应地理空间的一个正方形区域,再按照时间的先后排列,最后将划分好的数据存储到数据存储模块,该数据存储模块选用16MB的数据块采用分片存储方式,将每个Shard分成一系列的Segment,每个Segment包含一系列的Event,再对Event抽取特定的域Field,以及对整个Event信息进行分词,最后创建全文索引,实现数据过滤、数据转换、数据分组和数据聚集的处理,便于后续数据检索。
[0021]以上显示和描述了本发明的基本原理和主要特征以及本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
【主权项】
1.一种非结构化事件日志数据的划分和存储的方法,包括: a.数据采集传递:将不同地点和不同传感器采集的信息数据进行收集; b.数据划分:将采集的信息数据基于时间和空间的方式进行划分,划分好的数据进入到存储模块进行存储; c.数据存储:数据采用分片方式进行数据存储。2.根据权利要求1所述的一种非结构化事件日志数据的划分和存储的方法,其特征在于,所述数据划分中基于空间的划分方式采用网格的形式进行地理空间的划分,所述网格为对应于地理空间的一个正方形区域,每个网格的地理空间的事件再按照时间先后顺序进行存储,当数据存储量达到储存数据块的储存容量时,数据将自动存入分布式文件系统。3.根据权利要求1所述的一种非结构化事件日志数据的划分和存储的方法,其特征在于,所述数据存储的分片方式为将每个Shard分成一系列的Segment,每个Segment包含一系列的Event,再对Event抽取特定的域Field,以及对整个Event信息进行分词,最后创建全文索弓I。4.根据权利要求3所述的一种非结构化事件日志数据的划分和存储的方法,其特征在于,所述数据存储利用元信息记录网格和时间段储存到文件的映射信息系中。5.根据权利要求3所述的一种非结构化事件日志数据的划分和存储的方法,其特征在于,数据的全文索引实现了数据过滤、数据转换、数据分组和数据聚集的处理方法。6.—种非结构化事件日志数据的划分和存储的装置,其特征在于,包括数据采集模块、数据传递模块、数据分类模块、数据存储模块,所述数据采集模块将收集的数据通过数据传递模块输送到数据分类模块,所述数据分类模块根据时间和空间来划分数据信息,并通过分片方式将数据信息存储到所述数据存储模块中。7.根据权利要求6所述的一种非结构化事件日志数据的划分和存储的装置,其特征在于,所述数据分类模块采用网格的形式进行地理空间的划分,网格为对应于地理空间的一个正方形区域,每个网格的地理空间的事件再按照时间先后顺序进行存储。8.根据权利要求7所述的一种非结构化事件日志数据的划分和存储的装置,其特征在于,所述数据存储模块的分片存储方式为将每个Shard分成一系列的Segment,每个Segment包含一系列的Event,再对Event抽取特定的域Field,以及对整个Event信息进行分词,最后创建全文索引。9.根据权利要求8所述的一种非结构化事件日志数据的划分和存储的装置,其特征在于,所述数据存储模块中采用8MB-16MB的数据块。
【文档编号】G06F17/30GK106055697SQ201610416197
【公开日】2016年10月26日
【申请日】2016年6月15日
【发明人】陈凌岳
【申请人】安徽天枢信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1