一种分布式数据存储处理方法及存储处理系统的制作方法

文档序号:10687188阅读:810来源:国知局
一种分布式数据存储处理方法及存储处理系统的制作方法
【专利摘要】本发明提供了一种分布式数据存储处理方法及存储处理系统。对大批量来源数据,按照等比大小进行切分为M个数据块,对每个切分的数据块里的每条数据建立索引并进行存储;将所述M个数据块一一对应分别发送给N个不同的服务器,进行存储。能够满足现有大数据量情况下,数据处理速度更快、耗时更短,时效性更强,支持数据的修改与删除操作,并能够提供实时查询功能。
【专利说明】
一种分布式数据存储处理方法及存储处理系统
技术领域
[0001]本发明涉及一种分布式数据存储处理方法及存储处理系统,特别是涉及一种适用于对大数据来源进行分析存储的分布式数据存储处理方法及存储处理系统。
【背景技术】
[0002]目前,数据处理成为数据挖掘、数据分析的主要方式。例如,网站日志就是一个大数据量的数据。再例如,工作生活中无处不在的网络流量。这样的数据具有以下特点:(1)数据量大;(2)具有时间属性,即时序性。
[0003]数据分析通常分为离线处理与交互式查询,针对不同的数据形式,采用不同形式数据处理方法。离线处理的特点:(1)数据量庞大;(2)时效性差。如何快速的分析数据,尤其是在数据量很大的情况下,满足各种要求一直都是技术上的难点。而且现在的分布式数据处理系统中存在如下缺陷。
[0004](I)对数据进行处理时,当数据量非常大的时候,数据处理和数据分析变量十分耗时,而且不支持数据的修改与删除操作。现有的分布式数据处理系统一般采用重新进行数据分析来完成修改与删除,这个过程是非常耗时。
[0005](2)对于大数据量的处理,分布并行计算已成为趋势。而现在的并行计算系统,基本离线处理与交互式查询二者不能兼得,对在大量的数据处理与分析后的结果,无法立即提供查询的功能,需要将结果导入到其它系统才能进行查询操作。
[0006]综上所述,现有技术中对大批量数据进行分布式数据处理时,耗时时间长,不支持数据的修改与删除操作,并且离线处理与交互式查询二者能不能兼得。

【发明内容】

[0007]本发明要解决的技术问题是提供一种分布式数据存储处理方法及系统,能够满足现有大数据量情况下,数据处理速度更快、耗时更短,时效性更强,支持数据的修改与删除操作,并能够提供实时查询功能。
[0008]本发明采用的技术方案如下:
一种分布式数据存储处理方法,其特征在于:对大批量来源数据,按照等比大小进行切分为M个数据块,对每个切分的数据块里的每条数据建立索引并进行存储;将所述M个数据块一一对应分别发送给N个不同的服务器,进行存储,所述M和N为大于等于2的自然数。
[0009]数据切分后进行分别存储,并建立索引,使数据处理速度更快,耗时更短,同时能够支持数据的修改与删除操作,并能够进行实时查询。
[0010]所述的等比大小切分的方法为,指定切分的块的基本大小,对来源数据按照基本大小进行切分,对于不满足基本大小的部分,单独作为一个数据块。
[0011 ]例如,对于一个大数据来源,其指定切分的块的基本大小为64MB每块,则按照64MB每块的大小进行切分,对于不满足64MB大小的部分,单独作为一个数据块。
[0012]如果只是需要展示查看所要查找到的数据内容,则进行数据查找的具体方法步骤为:
一、分布式计算,根据要查找的数据内容先找到该数据内容相应的索引;
二、通过索引找到相关数据内容存放的具体位置;
三、把找到的数据内容进行汇总存储到指定位置。
[0013]由于所要找的数据内容可能分布在不同的存储位置,因此,要将找到的数据内容进行汇总后再进行存储展示。
[0014]如果需要进一步对查找到的内容进行提取汇总计算,则进行数据查找的具体方法步骤为:
一、分布式计算,根据要查找的数据内容先找到该数据内容相应的索引;
二、通过索引找到相关数据内容存放的具体位置;
三、把找到的数据内容交给本地服务器进行计算,从而得出所需求的具体数据内容;
四、将步骤三中得出的数据内容进行结果汇总计算,存储到指定位置。
[0015]例如,要找到某一个手机号码A下与另外一个手机号码B的通讯记录,则可以先找到有关手机号码A的数据内容存放的具体位置,然后将找到的内容交给本地服务器进行计算,找出其与手机号码B的通讯记录的数据内容,各个服务器将计算结果进行交互汇总后,存储到指定位置。
[0016]所述步骤四中,将数据内容进行结果汇总时,将数据进行分批单节点计算汇总,再对分批单节点汇总的结果进行总结果汇总。
[0017]在需要结果汇总的数据量非常大或者分类较多的情况下,能够进行分批量进行单节点汇总,对几个单节点汇总计算的结果再进行汇总,得出最终结果。
[0018]一种分布式数据存储处理系统,其特征在于:包括,
数据切分模块,将接收的大批量来源数据进行切分为M个数据块;
索引建立模块,对每个切分的数据块里的每条数据建立索引;
索引存储模块,存储建立的索引;
数据块分发模块,将所述M个数据块进行分发存储;
服务器模块,包括N个,存储数据分发模块所分发的M个数据块;
所述M和N为大于等于2的自然数。
[0019]与现有技术相比,本发明的有益效果是:能够满足现有大数据量情况下,数据处理速度更快、耗时更短,时效性更强,支持数据的修改与删除操作,并能够提供实时查询功能。
【附图说明】
[0020]图1为本发明其中一实施例的大数据量来源分布式数据存储系统的原理示意图。
[0021]图2为图1所示实施例中的大数据量分布式数据处理系统的原理示意图。
【具体实施方式】
[0022]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0023]本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
[0024]如图1所示的分布式数据存储处理方法,对大批量来源数据,按照等比大小进行切分为M个数据块,对每个切分的数据块里的每条数据建立索引并进行存储;将所述M个数据块一一对应分别发送给N个不同的服务器,进行存储,所述M和N为大于等于2的自然数。在本具体实施例中,M=N=3。对数据A进行切分为数据块B、C和D,分别将数据块对应存储与服务器B,服务器C和服务器D下的磁盘组空间中。
[0025]数据切分后进行分别存储,并建立索引,使数据处理速度更快,耗时更短,同时能够支持数据的修改与删除操作,并能够进行实时查询。
[0026]进一步地,所述的等比大小切分的方法为,指定切分的块的基本大小,对来源数据按照基本大小进行切分,对于不满足基本大小的部分,单独作为一个数据块。
[0027]如果只是需要展示查看所要查找到的数据内容,则进行数据查找的具体方法步骤为:
一、分布式计算,根据要查找的数据内容先找到该数据内容相应的索引;
二、通过索引找到相关数据内容存放的具体位置;
三、把找到的数据内容进行汇总存储到指定位置。
[0028]如图2所示,如果需要进一步对查找到的内容进行提取汇总计算,则进行数据查找的具体方法步骤为:
一、分布式计算,根据要查找的数据内容先找到该数据内容相应的索引;
二、通过索引找到相关数据内容存放的具体位置;
三、把找到的数据内容交给本地服务器进行计算,从而得出所需求的具体数据内容;
四、将步骤三中得出的数据内容进行结果汇总计算,存储到指定位置。
[0029]所述步骤四中,将数据内容进行结果汇总时,将数据进行分批单节点计算汇总,再对分批单节点汇总的结果进行总结果汇总。
[0030]基于上述数据存储处理方法的分布式数据存储处理系统,包括,
数据切分模块,将接收的大批量来源数据进行切分为M个数据块;
索引建立模块,对每个切分的数据块里的每条数据建立索引;
索引存储模块,存储建立的索引;
数据块分发模块,将所述M个数据块进行分发存储;
服务器模块,包括N个,存储数据分发模块所分发的M个数据块;
所述M和N为大于等于2的自然数。
[0031 ] 在本具体实施例中,M=N=3。
【主权项】
1.一种分布式数据存储处理方法,其特征在于:对大批量来源数据,按照等比大小进行切分为M个数据块,对每个切分的数据块里的每条数据建立索引并进行存储;将所述M个数据块一一对应分别发送给N个不同的服务器,进行存储,所述M和N为大于等于2的自然数。2.根据权利要求1所述的分布式数据存储处理方法,其特征在于:所述的等比大小切分的方法为,指定切分的块的基本大小,对来源数据按照基本大小进行切分,对于不满足基本大小的部分,单独作为一个数据块。3.根据权利要求1或2所述的分布式数据存储处理方法,其特征在于:进行数据查找的具体方法步骤为: 一、分布式计算,根据要查找的数据内容先找到该数据内容相应的索引; 二、通过索弓I找到相关数据内容存放的具体位置; 三、把找到的数据内容进行汇总存储到指定位置。4.根据权利要求1或2所述的分布式数据存储处理方法,其特征在于:进行数据查找的具体方法步骤为: 一、分布式计算,根据要查找的数据内容先找到该数据内容相应的索引; 二、通过索弓I找到相关数据内容存放的具体位置; 三、把找到的数据内容交给本地服务器进行计算,从而得出所需求的具体数据内容; 四、将步骤三中得出的数据内容进行结果汇总计算,存储到指定位置。5.根据权利要求4所述的分布式数据存储处理方法,其特征在于:所述步骤四中,将数据内容进行结果汇总时,将数据进行分批单节点计算汇总,再对分批单节点汇总的结果进行总结果汇总。6.一种分布式数据存储处理系统,其特征在于:包括, 数据切分模块,将接收的大批量来源数据进行切分为M个数据块; 索引建立模块,对每个切分的数据块里的每条数据建立索引; 索引存储模块,存储建立的索引; 数据块分发模块,将所述M个数据块进行分发存储; 服务器模块,包括N个,存储数据分发模块所分发的M个数据块; 所述M和N为大于等于2的自然数。
【文档编号】G06F17/30GK106055691SQ201610406253
【公开日】2016年10月26日
【申请日】2016年6月12日
【发明人】李轶夫, 罗鹰, 林康, 钟峰, 鲁骁, 姚珊, 姜栋, 张建松, 司成祥
【申请人】成都科来软件有限公司, 国家计算机网络与信息安全管理中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1