一种大数据的放置方法

文档序号:10580184阅读:374来源:国知局
一种大数据的放置方法
【专利摘要】本发明公开了一种大数据的放置方法,主要流程为:步骤11:形成数据集关系网,具体为:根据数据集的历史处理记录或者根据预先定义得到的数据关系网;步骤12:形成数据集修正关系网,具体为:设定相应的修正因子(该修正因子可以由云数据中心管理人员自行编程设定),然后对数据集有关联计算子网进行相应的修正得到一个数据集修正关系网;步骤13:实施数据集放置,具体为:根据步骤11和12所得到的数据集结构,实施具体的数据集放置。本发明提出了一种充分考虑了能耗、异构节点的服务能力及具有关联计算的数据集的大数据防治方法,实现大数据的有效放置管理,使大数据能够实现实时处理和分析,同时减少了能源浪费,降低了运行成本。
【专利说明】
一种大数据的放置方法
技术领域
[0001 ]本发明涉及数据管理领域,具体是指一种大数据的放置方法。【背景技术】
[0002]在随着云计算技术的发展,各种数据密集型应用应运而生,数据中心的数据管理变得越来越重要。如何让数据中心既能够充分考虑能耗,同时又能够考虑到异构节点的服务能力及其处理复杂Join连接查询的实时性问题是一个非常紧迫的问题。现有数据中心的数据放置策略仍然处在十分粗放的阶段,从而造成了大量的投资浪费和能源浪费,主要体现在:1)盲目采购大量的机器搭建数据中心,而实际上只存储了极少的数据和进行极少量的数据计算,导致了大量的投资浪费,同时将大量的机器投入到无价值的运转中,造成了极大的能源浪费。2)盲目地将所有利旧的机器全部放入到数据中心的集群中,而实际上只存储了极少的数据和进行极少量的数据计算,导致了大量能源浪费(陈旧的机器能耗更大)。 3)由于数据放置方法的盲目性,使得大部分的机器进行了极少的计算,但是不得不时刻处在尚耗能状态而不是休眠运彳丁状态等节能运彳丁状态。
【发明内容】

[0003]本发明的目的在于提供一种充分考虑能耗、异构节点的服务能力及具有关联计算的数据集的大数据放置方法,解决上述问题。
[0004]本发明通过下述技术方案实现:包括以下步骤:步骤11:形成数据集关系网,具体为:根据数据集的历史处理记录或者根据预先定义得到的数据关系网。
[0005]步骤12:形成数据集修正关系网,具体为:设定相应的修正因子(该修正因子可以由云数据中心管理人员自行编程设定),然后对数据集有关联计算子网进行相应的修正得到一个数据集修正关系网。
[0006]步骤13:实施数据集放置,具体为:根据步骤11和12所得到的数据集结构,实施具体的数据集放置。
[0007]进一步地,所述步骤11中形成数据集关系网的步骤进一步包括:步骤111:根据每两个数据集之间的计算关联度得出数据集之间的关系。
[0008]步骤112:根据计算关联度和历史计算关系或预先定义,得到相应的含数值的数据集历史计算关系,形成相应的数据集关系网。
[0009]进一步地,所述步骤111中根据每两个数据集之间的计算关联度得出数据集之间的关系的具体判断原则为:若两个数据集为同一个数据集,且这两个数据集之间的计算关联度为零,则判断为针对该数据集自身没有任何计算操作;若两个数据集为同一个数据集,且这两个数据集之间的计算关联度大于零,则判断为针对该数据集自身有计算操作;若两个数据集为不同数据集,且这两个数据集之间的计算关联度为零,则判断为这两个不同的数据集之间没有任何计算操作;若两个数据集为不同数据集,且这两个数据集之间的计算关联度大于零,则判断这两个不同的数据集之间有计算操作。
[0010]进一步地,所述步骤112中形成数据集关系网的具体判断标准如下:若两个或者两个以上的数据集之间没有计算关系,且这些数据集本身也没有计算关系,则分类至数据集无计算关系子网;若某个数据集与其他数据集没有计算关系,但自身有计算关系,则分类至数据集孤立计算子网;若某个数据集与其他数据集有计算关系,则分类至数据集有关联计算子网。
[0011]进一步地,所述步骤12中形成数据集修正关系网的步骤进一步包括:步骤121:获取来自步骤112中的数据集有关联计算子网;步骤122:设定优化修正因子,舍去计算关系小于或等于修正因子的计算因子,仅保留计算关系大于修正因子的计算因子,得到数据集修正关系网;所述数据集修正关系网包含数据集无计算关系子网(修正后)、数据集孤立计算子网(修正后)、数据集有关联计算子网 (修正后);进一步地,所述步骤13中实施数据集放置的的具体原则如下:使用异构数据节点分配算法将所有异构数据节点按逻辑划分为4个数据放置集群划分如下所述的四个数据放置集群::数据放置集群1:用于存储无计算关系数据集中的死数据集;数据放置集群2:用于存储无计算关系数据集中的活数据集和无计算关系数据集(修正后);数据放置集群3:用于存储孤立计算数据集、孤立计算数据集(修正后)和有关联计算数据集(修正后);数据放置集群4:备用异构数据节点所组成的一个数据放置逻辑集群;对于步骤121中得到的无计算关系数据集的数据,按如下判断进行放置:若无计算关系数据集属于数据不会再改变的死数据集,则按照放置策略1对这部分数据进行放置,进入到数据放置集群1中;若无计算关系数据集属于数据会不断增加的活数据集,则按照放置策略2对这部分数据进行放置,进入到数据放置集群2中;对于步骤121中得到的孤立计算数据集的数据,按照放置策略3进行放置,进入到数据放置集群3中;对于步骤122得到的无计算关系数据集(修正后)的数据,按照放置策略2进行放置,进入到数据放置集群2中;对于步骤122得到的孤立计算数据集(修正后)的数据,按照放置策略3进行放置,进入到数据放置集群3中;对于步骤122得到的有关联计算数据集(修正后)的数据,按照放置策略4进行放置,进入到数据放置集群3中。
[0012]进一步地,所述放置策略1、放置策略2、放置策略3与放置策略4具体如下:放置策略1:使用Hadoop默认的数据放置方案(副本数为2),一旦数据分配完成,立即关机;放置策略2:使用Hadoop默认的数据放置方案(副本数为3),让系统处于节能运行状态; 放置策略3:使用Hadoop默认的数据放置方案(副本数为3);放置策略4:基于Hadoop作改进放置,具体实现步骤如下:步骤341:将所有有数据关联的数据集形成一个数据关联子集;步骤342:对该数据关联子集进行数据划分,将每个数据集按照Hadoop的划分方式划分成每块64M的数据块;步骤343:将具有关联计算关系的所有数据块打上不同的语义标记号;步骤344:将没有关联计算关系的所有数据块打上同一的语义标记号;步骤345:将除去步骤344中的语义标记号外的具有相同语义标记号的所有数据块按照数据放置策略4的机制放到数据放置集群3中的同一个数据节点,具体如下:(a)将除去步骤344中的语义标记号外的具有相同语义标记号的数据块形成一个语义表;(b)从语义表中找出数据块数量最大的语义标记号;(c)从数据放置集群3中找出服务能力最好的数据节点;(d)将(b)步骤找到的语义标记号所对应的全部数据块放到(c)步骤所找到的服务能力最好的数据节点中。
[0013](e)将(b)步骤找到的语义标记号在语义表中对应的行删除,得到新的语义表。
[0014](f)重复(b)到步骤(e),直到所有的语义标记号所对应的数据块全部分配到数据放置集群3中。
[0015]步骤346:将标有步骤344中的语义标记号的数据块按照数据放置策略3的机制放置到数据放置集群3中。
[0016]综上所述,由于采用了上述技术方案,本发明的有益效果是:本发明提出了一种充分考虑了能耗、异构节点的服务能力及具有关联计算的数据集的大数据防治方法,实现大数据的有效放置管理,使大数据能够实现实时处理和分析,同时减少了能源浪费,降低了运行成本。【附图说明】
[0017]图1为大数据放置模型的体系架构。
[0018]图2为一个含数值的数据集关系图。[〇〇19]图3为数据集有关联计算子网。[〇〇2〇]图4为数据集修正关系子网。【具体实施方式】
[0021]本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。[〇〇22]本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
[0023] 实施例:本实施例按大数据放置模型的体系架构进行,如图1所示,在大数据中,根据每两个数据集之间的计算关联度得出数据集之间的关系;根据计算关联度和历史计算关系或预先定义,得到相应的含数值的数据集历史计算关系,形成相应的数据集关系网,本实施例中所使用的含数值的数据集关系图,如图2所示。[〇〇24]根据含数值的数据集关系图获取数据集有关联计算子网,如图3所示。[〇〇25]然后设定相应的修正因子,假设修正因子为5,则计算关系小于或者等于5的计算因子全部去掉,而只保留计算关系大于5的计算因子,得到数据集修正关系子网,如图4所示;最后按照以下的放置策略进行放置:对于无计算关系数据集的数据,按如下判断进行放置:若无计算关系数据集属于数据不会再改变的死数据集,则按照放置策略1对这部分数据进行放置,进入到数据放置集群1中;若无计算关系数据集属于数据会不断增加的活数据集,则按照放置策略2对这部分数据进行放置,进入到数据放置集群2中;对于孤立计算数据集的数据,按照放置策略3进行放置,进入到数据放置集群3中;对于无计算关系数据集(修正后)的数据,按照放置策略2进行放置,进入到数据放置集群2中;对于孤立计算数据集(修正后)的数据,按照放置策略3进行放置,进入到数据放置集群3中;对于有关联计算数据集(修正后)的数据,按照放置策略4进行放置,进入到数据放置集群3中。[〇〇26]放置策略1:使用Hadoop默认的数据放置方案(副本数为2),一旦数据分配完成,立即关机;放置策略2:使用Hadoop默认的数据放置方案(副本数为3),让系统处于节能运行状态; 放置策略3:使用Hadoop默认的数据放置方案(副本数为3);放置策略4:基于Hadoop作改进放置,具体实现步骤如下:步骤341:将所有有数据关联的数据集形成一个数据关联子集;步骤342:对该数据关联子集进行数据划分,将每个数据集按照Hadoop的划分方式划分成每块64M的数据块;步骤343:将具有关联计算关系的所有数据块打上不同语义标记号,如SemanDFlag[ 1 ]、 SemanDFlag[2].SemanDFlag[m];步骤344:将没有关联计算关系的所有数据块打上同一语义标记号SemanDFlagO;步骤345:将除去语义标记号为SemanDFlagO外的所有数据块按照数据放置策略4的机制放到数据放置集群3中的同一个数据节点,具体如下:(a)将除去语义标记号为SemanDFlagO外的数据块形成一个语义表;(b)从语义表中找出数据块数量最大的语义标记号;(c)从数据放置集群3中找出服务能力最好的数据节点;(d)将(b)步骤找到的语义标记号所对应的全部数据块放到(C)步骤所找到的服务能力最好的数据节点中。
[0027](e)将(b)步骤找到的语义标记号在语义表中对应的行删除,得到新的语义表。
[0028](f)重复(b)到步骤(e),直到所有的语义标记号所对应的数据块全部分配到数据放置集群3中。
[0029]步骤346:将标有步骤344中的语义标记号的数据块按照数据放置策略3的机制放置到数据放置集群3中。
[0030]通过上述步骤,任意数据集均能对应到所属的数据放置集群中,从而完成数据的放置;对于放置策略1,由于放置无计算关系数据集中的死数据集,因而分配完成即可立即关机,达到节省能源的目标,同时采用2个副本,可以确保数据安全。对于放置策略2,针对计算关系较少的数据集,使其处于节能运行环境,一段存储完成立即使存储节点休眠,仅在需要进行计算的时候才激活,也达到了节省能源的作用。
[0031]本发明并不局限于前述的【具体实施方式】。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。
【主权项】
1.一种大数据的放置方法,其特征在于,包括以下步骤:步骤11:形成数据集关系网,具体为:根据数据集的历史处理记录或者根据预先定义得 到的数据关系网;步骤12:形成数据集修正关系网,具体为:设定相应的修正因子(该修正因子可以由云 数据中心管理人员自行编程设定),然后对数据集有关联计算子网进行相应的修正得到一 个数据集修正关系网;步骤13:实施数据集放置,具体为:根据步骤11和12所得到的数据集结构,实施具体的 数据集放置。2.根据权利要求1所述一种大数据的放置方法,其特征在于,所述步骤11中形成数据集 关系网的步骤进一步包括:步骤111:根据每两个数据集之间的计算关联度得出数据集之间的关系;步骤112:根据计算关联度和历史计算关系或预先定义,得到相应的含数值的数据集历 史计算关系,形成相应的数据集关系网。3.根据权利要求2所述的一种大数据的放置方法,其特征在于,所述步骤111中根据每 两个数据集之间的计算关联度得出数据集之间的关系的具体判断原则为:若两个数据集为同一个数据集,且这两个数据集之间的计算关联度为零,则判断为针 对该数据集自身没有任何计算操作;若两个数据集为同一个数据集,且这两个数据集之间的计算关联度大于零,则判断为 针对该数据集自身有计算操作;若两个数据集为不同数据集,且这两个数据集之间的计算关联度为零,则判断为这两 个不同的数据集之间没有任何计算操作;若两个数据集为不同数据集,且这两个数据集之间的计算关联度大于零,则判断这两 个不同的数据集之间有计算操作。4.根据权利要求2和3所述一种大数据的放置方法,其特征在于,所述步骤112中形成数 据集关系网的具体判断标准如下:若两个或者两个以上的数据集之间没有计算关系,且这些数据集本身也没有计算关 系,则分类至数据集无计算关系子网;若某个数据集与其他数据集没有计算关系,但自身有计算关系,则分类至数据集孤立 计算子网;若某个数据集与其他数据集有计算关系,则分类至数据集有关联计算子网。5.根据权利要求4所述的一种大数据的放置方法,其特征在于,所述步骤12中形成数据 集修正关系网的步骤进一步包括:步骤121:获取来自步骤112中的数据集有关联计算子网;步骤122:设定优化修正因子,舍去计算关系小于或等于修正因子的计算因子,仅保留 计算关系大于修正因子的计算因子,得到数据集修正关系网;所述数据集修正关系网包含 数据集无计算关系子网(修正后)、数据集孤立计算子网(修正后)、数据集有关联计算子网 (修正后)。6.根据权利要求5所述的一种大数据的放置方法,其特征在于,所述步骤13中实施数据 集放置的的具体原则如下:使用异构数据节点分配算法将所有异构数据节点按逻辑划分为4个数据放置集群划分 如下所述的四个数据放置集群::数据放置集群1:用于存储无计算关系数据集中的死数据集;数据放置集群2:用于存储无计算关系数据集中的活数据集和无计算关系数据集(修正 后);数据放置集群3:用于存储孤立计算数据集、孤立计算数据集(修正后)和有关联计算数 据集(修正后);数据放置集群4:备用异构数据节点所组成的一个数据放置逻辑集群;对于步骤121中得到的无计算关系数据集的数据,按如下判断进行放置:若无计算关系数据集属于数据不会再改变的死数据集,则按照放置策略1对这部分数 据进行放置,进入到数据放置集群1中;若无计算关系数据集属于数据会不断增加的活数据集,则按照放置策略2对这部分数 据进行放置,进入到数据放置集群2中;对于步骤121中得到的孤立计算数据集的数据,按照放置策略3进行放置,进入到数据 放置集群3中;对于步骤122得到的无计算关系数据集(修正后)的数据,按照放置策略2进行放置,进 入到数据放置集群2中;对于步骤122得到的孤立计算数据集(修正后)的数据,按照放置策略3进行放置,进入 到数据放置集群3中;对于步骤122得到的有关联计算数据集(修正后)的数据,按照放置策略4进行放置,进 入到数据放置集群3中。7.根据权利要求6所述的一种大数据的放置方法,其特征在于,所述放置策略1、放置策 略2、放置策略3与放置策略4具体如下:放置策略1:使用Hadoop默认的数据放置方案(副本数为2),一旦数据分配完成,立即关 机;放置策略2:使用Hadoop默认的数据放置方案(副本数为3),让系统处于节能运行状态; 放置策略3:使用Hadoop默认的数据放置方案(副本数为3);放置策略4:基于Hadoop作改进放置,具体实现步骤如下:步骤341:将所有有数据关联的数据集形成一个数据关联子集;步骤342:对该数据关联子集进行数据划分,将每个数据集按照Hadoop的划分方式划分 成每块64M的数据块;步骤343:将具有关联计算关系的所有数据块打上不同的语义标记号;步骤344:将没有关联计算关系的所有数据块打上同一的语义标记号;步骤345:将除去步骤344中的语义标记号外的具有相同语义标记号的所有数据块按照 数据放置策略4的机制放到数据放置集群3中的同一个数据节点,具体如下:(a)将除去步骤344中的语义标记号外的具有相同语义标记号的数据块形成一个语义 表;(b)从语义表中找出数据块数量最大的语义标记号;(c)从数据放置集群3中找出服务能力最好的数据节点;(d)将(b)步骤找到的语义标记号所对应的全部数据块放到(C)步骤所找到的服务能力 最好的数据节点中;(e)将(b)步骤找到的语义标记号在语义表中对应的行删除,得到新的语义表;(f)重复(b)到步骤(e),直到所有的语义标记号所对应的数据块全部分配到数据放置 集群3中;步骤346:将标有步骤344中的语义标记号的数据块按照数据放置策略3的机制放置到 数据放置集群3中。
【文档编号】G06F17/30GK105956134SQ201610310133
【公开日】2016年9月21日
【申请日】2016年5月12日
【发明人】周洁
【申请人】成都易创思生物科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1