一种海量数据存储访问方法及系统的制作方法

文档序号:8258734阅读:257来源:国知局
一种海量数据存储访问方法及系统的制作方法
【技术领域】
[0001]本发明涉及数据存储访问技术领域,具体涉及一种海量数据存储访问方法及系统。
【背景技术】
[0002]现有的大型应用软件系统对其应用的管理对象采集的数据进行存储和查询分析,通常,存储和查询的数据量都非常巨大以致查询的效率下降。目前,对于这个问题,只能缩短、简化SQL查询语句,从而提高数据的业务逻辑处理复杂度。利用这种方法,在处理海量数据时,处理时间过长、处理效率较低、处理速度较慢的问题。

【发明内容】

[0003]本发明所要解决的技术问题是提供一种海量数据存储访问方法及系统,能够提高海量数据存储访问的效率。
[0004]本发明解决上述技术问题的技术方案如下:
[0005]依据本发明的一个方面,提供了一种海量数据存储访问方法,包括:
[0006]获取来自数据源文件的源数据;
[0007]将获取的源数据划分为若干个独立的数据块;
[0008]将划分的若干个独立的数据块存储于云平台的分布式文件系统中;
[0009]针对不同的数据访问请求,并行访问分布式文件系统中的数据块。
[0010]依据本发明的另一个方面,提供了一种海量数据存储访问系统,包括:
[0011]源数据获取模块,用于获取来自数据源文件的源数据;
[0012]第一划分模块,用于将获取的源数据划分为若干个独立的数据块;
[0013]数据存储模块,用于将划分的若干个独立的数据块存储于云平台的分布式文件系统中;
[0014]数据访问模块,用于针对不同的数据访问请求,并行访问分布式文件系统中的数据块。
[0015]本发明提供的一种海量数据存储访问方法及系统,将源数据划分为若干个独立的数据库,并将独立的数据块分散存储于云平台的分布式文件系统中,当需要数据访问时,可以并行访问分布式文件系统中的数据块,提高了海量数据存储访问的效率,也避免了因数据量多大对存储设备的性能造成影响。
【附图说明】
[0016]图1为本发明实施例一的一种海量数据存储访问方法流程图;
[0017]图2为本发明实施例二的一种海量数据存储访问系统示意图。
【具体实施方式】
[0018]以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
[0019]实施例一、一种海量数据存储访问方法。下面结合图1对半实施例提供的方法进行详细说明。
[0020]图1中,S101、获取来自数据源文件的源数据。
[0021]具体的,在业务流程中,通常会产生大量的业务数据(以数据源文件的形式产生),甚至可以说是海量的业务数据,若是将这些海量的业务数据存储于某一个存储设备中,势必对该存储设备的存储空间要很高的要求,同时对该存储设备的性能要求也很高。因此本实施例提供一种分布式存储海量数据的方法,在存储之前,首先需要获取业务数据,即获取数据源文件中的源数据。由于数据源文件中的数据数据量很大,故可以采用并行获取数据的方法,采用多条采集链路对数据源文件中的数据进行采集,提高了数据获取的效率。
[0022]S102、将获取的源数据划分为若干个独立的数据块。
[0023]具体的,步骤SlOl采用并行获取数据的方式获取到数据源文件中的数据,该步骤对获取的数据进行划分,将数据划分为若干个独立的数据块。其中,从数据源文件中获取的数据可能为多个业务流程产生的数据,因此可以将获取的整个数据按照业务主题进行划分,一个数据块对应一个业务主题,即数据块与业务主题存在一一对应的关系,比如,将电信计费业务对应的数据块划分为一个独立的数据块。这些独立的数据块在逻辑上是相连的,在物理上均是独立的。
[0024]S103、将划分的若干个独立的数据块存储于云平台的分布式文件系统中。
[0025]具体的,将获取的源数据根据不同的业务主题划分为多个独立的数据块之后,将这些划分的独立的数据块分散存储于云平台的分布式文件系统中。其中,分布式文件系统中存在若干个数据节点,将划分的独立的数据块存储于分布式文件系统的这些数据节点上,一个数据块存储于一个数据节点上,即数据块与数据节点一一对应,由于数据块与业务主题存在对应关系,因此数据节点与数据块及业务主题之间均存在对应关系。
[0026]另外,将划分的独立的数据块存储于云平台的分布式文件系统的数据节点后,将存储于数据节点的数据块按照数据块中的数据产生的时间(该时间可以在从数据源文件中获取源数据时得到)进行再次划分,将数据块划分为更为细小的子数据块。具体实施时,可以先将数据块按年进行划分,然后再将按年划分的子数据块按月进行划分,划分为更为细致的子数据块。如果按月划分的子数据块的数据量还很大,则可以将按月划分的子数据块再次按天进行划分,形成具有层级的子数据块,即树形结构的子数据块。
[0027]将数据块划分为树形结构的子数据块后,将树形的子数据块分别存储在相应的数据节点中的数据表中,其中,与树形结构的子数据块对应,数据表的结构也为树形结构。
[0028]S104、针对不同的数据访问请求,并行访问分布式文件系统中的数据块。
[0029]具体的,当客户端需要访问数据时,向云平台发送数据访问请求,数据访问请求中携带所需要访问数据的业务主题以及所需要访问数据的产生时间。
[0030]当云平台接收到客户端发送的数据访问请求时,首先根据数据访问请求中携带的所需要访问数据的业务主题,在云平台的分布式文件系统中查找与该业务主题对应的数据节点(在数据存储时,数据节点与业务主题一一对应)。
[0031]当查找到与数据访问请求匹配的数据节点后,再按照数据访问请求中所需访问数据的产生时间在数据节点中查找相应的数据表,查找到数据表之后,在具体的数据表中查找与数据访问请求匹配的数据。由于数据表的结构呈树形结构,具有层级关系,因此在查找的过程中,可以按照时间一级一级的查找,直到查找与数据访问请求匹配的数据。这样按照层级关系一级一级的查找,相比从海量的数据中查找具体的数据,更有规律可循,更具目的性,提高了数据查找的效率。
[0032]实施例二、一种海量数据存储访问系统。下面结合图2对本实施例提供的系统进行详细描述。
[0033]图2中,本实施例提供的系统包括源数据获取模块201、第一划分模块202、数据存储模块203和数据访问模块204。其中,数据存储模块203包括第二划分模块2031。
[0034]源数据获取模块201主要用于获取来自数据源文件的源数据。
[0035]具体的,由于数据源文件中的数据数据量很大,故源数据获取模块201可以采用并行获取数据的方法,采用多条采集链路对数据源文件中的数据进行采集,提高了数据获取的效率。
[0036]第一划分模块202主要用于将获取的源数据划分为若干个独立的数据块。
[0037]具体的,源数据获取模块201采用并行获取数据的方式获取到数据源文件中的数据,第一划分模块202对获取的数据进行划分,将数据划分为若干个独立的数据块。其中,从数据源文件中获取的数据可能为多个业务流程产生的数据,因此第一划分模块202可以将获取的整个数据按照业务主题进行划分,一个数据块对应一个业务主题,即数据块与业务主题存在一一对应的关系,比如,将电信计费业务对应的数据块划分为一个独立的数据块。这些独立的数据块在逻辑上是相连的,在物理上均是独立的。
[0038]数据存储模块203主要用于将划分的若干个独立的数据块存储于云平台的分布式文件系统中。
[0039]具体的,第一划分模块202将获取的源数据根据不同的业务主题划分为多个独立的数据块之后,数据存储模块203将这些划分的独立的数据块
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1