大数据向云端迁移时的数据中心的选择方法与流程

文档序号:13676670阅读:532来源:国知局
技术领域本发明涉及云计算技术领域,尤其涉及一种大数据向云端迁移时的数据中心的选择方法。

背景技术:
云计算已经成为了大数据(BD)分析的优选平台。特别的当数据时从多个跨地域分布的地点产生,而且本地用户需要经常用到本地数据,并且有时数据又需要进一步整合以进行进一步分析时,尤其如此。例如,对于一个具有很多遍布全球的子公司的跨国销售公司来说,每个国家的子公司为了商业目的需要及时对本土用户产生的数据进行分析。所有的数据又要被汇总分析以报给总部,或者支持跨国交易。一般来说,一个大型的云以分布式进行组网并具有多个跨地域分布的数据中心(DC,比如Amazon至少有遍布4个大洲的11个DC,Google至少有遍布4个洲的13个DC)。每个DC都已按需付费的方式配置有计算以及存储资源。这种基础设施能够提供就近服务,特别适合于跨地域分布。为了在云中处理BD,前提条件是将BD迁移并存储到合适的DC上。直接移动硬件是移动大规模数据的一种可选方式。比如,AmazonImport/Export服务推荐用可移动存储设备来运送数据。有时,甚至有可能移动整个机器。但这只适合于间歇性的,或者一次性的大批量数据移动。这种方式有很大的延迟,不能满足不断增长的数据实时分析需求。而且它也和自动管理理念相矛盾,并且需要更多的变得越来越贵的劳动力参与。在Inter网上传数据非常昂贵,而且因为太大的延迟而不实用。据Amazon数据,通过10MBInter网传输1TB的数据大致需要13天时间。实时数据通常被建议用高速专用连接传送(如AWSdirectconnect)。这种方式能够加快传输速度。但即便依赖于高速专用连接,跨大洲进行数据传输仍然十分困难。例如,AWSdirectconnect不提供跨大洲的服务。而国际专线却太贵。这就限制了将通常遍布全球的大规模数据移动到一个DC上。而且,用一个DC来存储数据会导致更经常的本地数据分析延迟更大。特别在一些区域,数据安全法律要求一些数据必须存储在本地(如欧盟的一些国家)。总而言之,用户有必要遵循一些规则来为他们的数据选择合适的存储地点。就像Amazon建议的那样:离用户更近以减少数据使用延迟,满足特定的法律规要求,或者减少成本等。当前,一些基于MapReduce的框架,比如G-Hadoop和G-MR,已能够实现跨集群和DC的数据分析。和只用一个DC的机制相比,使用多个DC的机制不仅能满足综合分析的需求,而且能保证更快的数据使用和具有更低的成本。将BD移动到云端时多个DC的选择问题和设施选择问题(facilitylocationproblem,FLP)以及k-中间点问题相关。FLP旨在基于不同准则选择设施来服务客户。DC可以被看做是设施,而本地数据用户即是客户。k-中间点问题试图找到不多于k个点,其余没有被选择的点将被指配到一个被选择的点,使得这些点对之间的边长和最小。FLP问题的变种中,k-供应商问题需要从给定集合中选择至多k个供应商(对应DC)使得每个客户和离他最近的供应商之间的最大距离最小。一般的,供应商和客户网络被建模成一个完全图对于一个广义的k-供应商问题变种,每一个供应商被赋予一个权值,要求所有被选择的供应商权值不大于k。但是,受限于法规,一些DC可能不能用来服务某些数据,所以图不总是完全图。而且,数据是和用户相关的,而不是和DC(供应商)相关。无容量限制的设施选择问题(Uncapacitatedfacilitylocation,UFL)是FLP的另一个变种,其中设施没有容量限制,而且每一个设施有一个固定的开设成本权重。问题目标是极小化总的固定成本和总的服务成本。目前所得到的算法都有一个常数的违约因子。即这意味着算法需要的设施个数不少于k的某个倍数。而k-中间点问题不考虑设施的权重,但是数据的移动是与数据的大小相关的。

技术实现要素:
为了解决现有技术中的问题,本发明提出了一种大数据向云端迁移时的数据中心的选择方法,实现分布式云计算中BD向云端移动时的低成本、高速率的数据存取目标。本发明通过以下技术方案实现:一种大数据向云端迁移时的数据中心的选择方法,所述方法包括:构建底层非完全图,采用激活级别的方式来描述用户的数据产生量,定义公平数据放置FDP、优选数据放置PDP、传输成本最小化数据放置TCMDP和成本最小化数据放置CMDP等四种准则,以及基于上述准则之一进行DC的选择;其中,所述非完全图G=(U,V,E),U代表用户,V代表DC,边长eij∈E(i∈U,j∈V)满足三角不等式,正整数k(k≤|U|,k≤|V|),对于任意i∈U以及j∈V,如果用户i的数据能够被移动到DCj,则它们之间存在一条边;所述方法旨在从可用的DC集合V中找到一个DC子集D(|D|≤k)来按照不同准则存储U中所有用户的数据;所述FDP准则为:最大的用户和被指配到的DC之间的距离极小化,使得每个本地用户可以以最小的时延接入数据:所述PDP准则为:最大的用户和被指配到的DC之间的加权距离极小化,使得具有更多数据的本地用户可以以最小的时延接入数据:所述TCMDP准则为:所有用户和其被指配到的DC之间的加权距离的和极小化:所述CMDP)准则为:所有用户的成本之和极小化:本发明的有益效果是:本发明提出的方法针对BD向云端移动时的需求,从用户角度研究了移动机制,可以缩短数据接入时延,降低数据成本。本发明研究了四种准则:公平数据放置FDP,优选数据放置PDP,传输成本最小化数据放置TCMDP和成本最小化数据放置CMDP,本发明的方法可以反映DC的可用性以及用户的偏好,对于前两种准则,算法能够保证找到的解至少不差于3倍的最优解。本发明的方法可以利用网络自动进行低成本,低延迟的数据迁移,避免采用硬件方式,有利于自动化管理的实施。附图说明图1是本发明的分布式用户数据和数据中心的非完全二分图;图2是门限图的示意图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。本发明考虑将跨地域分布的大数据移动到云端的可行性,研究了多个目标DC选择问题,用非完全二分图来表示底层设施,从而克服了已有问题都是完全二分图的局限。更加符合实际情况中由于用户偏好,或者是法律限制而导致的并不是每个DC都可用的情况。附图1模拟了一个分布式用户数据和分布式云计算中的DC构成的非完全二分图,其中用户有所偏好或者受安全法律限制,并不是每个DC都能被每一个用户选择。有边连接表示本DC可用或者用户不排斥。本发明是目的是寻求更快的数据接入和更低的成本。这个问题推广了传统的k-供应商问题、UFL和k-中间点问题。考虑底层非完全图G=(U,V,E),其中U代表用户,V代表DC,边长eij∈E(i∈U,j∈V)满足三角不等式,正整数k(k≤|U|,k≤|V|),本发明旨在从可用的DC集合V中找到一个DC子集D(|D|≤k)来按照不同准则存储U中所有用户的数据。对于任意i∈U以及j∈V,如果用户i的数据能够被移动到DCj(至少不被法规限制或者不被用户排除),则它们之间存在一条边。假定所有的i都临近至少一个j,否则问题无解。假定|E|=m,其中m≤|U|*|V|。用户权重定义:每个用户都被赋予一个权重wi,表示当前或者可见的未来的数据产生的激活级别,或者本地用户的重要程度。wi随着数据量或者重要程度的增加而增加。用激活级别而不是数据量可以容忍数据的动态变化同时提供对数据量的适度近似。激活级别可以根据每天上载数据量而定。例如对于一个典型的每天上载200GB的公司而言,10GB可以被用来作为激活级别的判断门限。如果一个子公司每天产生的数据小于10GB,可以赋予权值1。对于在20-30GB之间的子公司,则赋予权值3,以此类推。对于用户具有激活级别wi的用户i,移动数据到DCj将需要支付费用wieij。DC权重定义:每一个DC都具有不同的计算和存储资源价格。为了更经济的存储和处理数据,当然优选更低的价格。给定DCj,假定一个VM实例每小时处理数据的价格是aj。平均来说,这种实例每小时能够分析bjGB数据。则处理10GB数据的价格是p'j=10/bj*aj。如果10GB数据的存储费用是p”j,那么,对于具有激活级别1的用户在DC侧的总费用是pj=p'j+p”j。对于具有激活级别wi的用户i,如果它想在DCj存储和处理数据,它需要支付wipj。具有激活级别wi的用户的总费用是wi(pj+eij。考虑到实际环境中eij(如几千公里)和pj(Amazon的每小时几美金)的数量级别上的差异,我们采用标准化后的形式:cij=wi(pj'+eij'),其中pj'=pj/maxh∈V(ph),eij'=eij/maxl∈U,h∈V(elh)。注意标准化后的边长eij'仍然满足三角不等式。则目标具体可以表述为:a)公平数据放置(FDP)。最大的用户和被指配到的DC之间的距离极小化,使得每个本地用户可以以最小的时延接入数据:b)优选数据放置(PDP)。最大的用户和被指配到的DC之间的加权距离极小化,使得具有更多数据的本地用户可以以最小的时延接入数据:如果需要,我们也用w(i,j)=wieij来表示加权距离。c)传输成本最小化数据放置(TCMDP)。传输成本,被定义为所有用户和其被指配到的DC之间的加权距离的和极小化:d)成本极小化(CMDP)。总成本,被定义为所有用户的成本之和极小化:因为a)和c)分别是b)和d)的特殊形式,所以后续只给出b)和d)的算法。优选数据放置(PDP)的算法基本思想首先介绍几个概念,用于描述算法。1)瓶颈图:注意到PDP问题的最优解一定在某一个用户加权边达到,所以我们应该从小到大逐一检查加权边,直至所有的约束都满足。瓶颈图的构建正是基于这以思想。m条用户加权边被按照非递减顺序排序,并记做w(1,j)≤w(2,g)≤…≤w(m,h),其中j,g,h∈V且可能相同。瓶颈图G1,G2,…,Gm是G的边子图,且Gr=(U,V,Er)(r=1,2,…,m),其中Er={eij|wieij≤w(r,g)
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1