一种实现大规模数据传输的多任务调度方法

文档序号:7867897阅读:162来源:国知局
专利名称:一种实现大规模数据传输的多任务调度方法
技术领域
本发明属于计算机网络中的网络数据流量优化领域,具体涉及一种实现大规模数据传输的多任务调度方法,用于解决数据中心网间大规模数据传输造成的网间带宽资源开销过大的问题。
背景技术
伴随着云计算服务的兴起,现有数据中心中存储的业务数据规模也与日剧增。据最新统计显示,美国国家海洋和大气管理局(NOAA)存储着超过20PB的全球海洋信息数据(请参考 National Oceanic and AtmosphericAdministration, http://www.noaa.gov/);Facebook每天在30万台服务器上整理25TB的日志数据(请参考Facebook Statistics,http://www.facebook.com/press/info.php statistics) ;YouTube 全球用户每天上传168TB 的视频数据(请参考 Youtube Statistics, http://www. youtube, com/)。海量数据·不仅可以用于气象预测和科学计算,同时也蕴含了巨大的商业价值。因此,为保证数据中心数据的高可靠性和高可用性,海量数据及其副本信息会被周期性地分散存储到分布在全球各地的数据中心内。但由于海量数据规模巨大(TB-PB级),对应的数据备份或迁移操作往往会对现有的稀缺数据中心骨干网带宽资源造成严重负担(请参考 A. Mahimkar, A. Chiu, R. Doverspike, M. Feuer, P. Magill, E. Mavrogiorgis,J. Pastor, S. Woodward, J. Yates, Bandwidth on Demand for Inter-Data CenterCommunication, in Proceedingof ACM HotNets,2011 和 Y. CHen, S. Jain, V. K. Adhikari,Z. -L. Zhang, and K. Xu,A First Look at Inter-Data Center Traffic CharacteristicsviaYahoo ! Datasets, in Proceeding of IEEE INFOCOM 2011),进而影响到其他数据中心其他业务数据的传输,并且增加了数据中心之间的带宽开销成本(请参考A. Greenberg,J. Hamiltion,D. A. Maltz,and P. Patel. The Cost of aCloud Research Problems in DataCenter Networks, in ACM SIGCOMM computercommunication review,39(I),2009)。与此同时,数据中心骨干网带宽资源往往按照其峰值开销进行配置,导致其消耗呈现强烈的“潮汐效应”,即伴随用户访问量的周期性波动,白天数据中心带宽资源紧缺,夜间由于用户访问规模下降,带宽资源反而又比较富裕,从而导致了数据中心骨干网带宽资源平均利用率较低(请参考 N. Laoutaris, M. Sirivianos, X. Yang, and P. Rodriguez,Inter-Datacenter Bulk Transferswith NetStitcher, in Proceeding of ACM SIGCOMM,2011)。骨干网带宽资源的平均利用率低的现状不能满足大规模数据传输对带宽资源的强烈需求。

发明内容
本发明的目的在于解决上述现有技术中存在的难题,提供一种实现大规模数据传输的多任务调度方法,利用动态的空闲网间带宽资源完成大规模数据传输,其目的是提高数据中心骨干网带宽资源的平均利用率、减少大规模数据传输对日常业务数据传输所造成的负面影响以及降低数据中心运营商数据备份、迁移等操作的传输开销。本发明是通过以下技术方案实现的一种实现大规模数据传输的多任务调度方法,所述方法包括以下步骤输入数据中心网络拓扑信息和数据中心网间带宽资源开销(即链路带宽资源开销)的预测信息;步骤1,基于对数据中心网间带宽资源开销的预测信息,利用时间延展网络转换方法将具有动态空闲带宽资源的网络转换为静态流网络;步骤2,基于所述静态流网络,对多个大规模数据传输请求建立最大化最小公平多商品流线性规划模型;
步骤3,迭代地求解所述最大化最小公平多商品流线性规划模型,得出各大规模数据传输请求的最大传输流量以及对应的数据传输路径。所述步骤I中所述时间延展网络转换方法是这样实现的将网络资源从时间维度进行延展,使具有动态空闲带宽资源的网络的动态带宽资源和节点的存储资源能力统一转化到一张静态流网络上。所述步骤2是这样实现的将多个大规模数据传输请求建模为下面的最大化最小公平多商品流线性规划模型
maximize λ[_ si. XX/;<C, VeGEjGPi (I)Σ fp " ^demI,yri G Runsat ⑵
PePiΣ fp ^ K- 'demi,外 € Rsat ⑶
p^P;>0,A>0,Vp G Pi=L_K(4)其中,是一个大规模数据传输请求,R是所有大规模数据传输请求的集合,Pi为每个^可用的数据传输路径集合,/纟表示在路径P上分配给1^的带宽值,(;代表链路e的带宽资源,E = Ie1, e2,. . .,em},是网络中所有链路e的集合,λ为饱和的带宽分配比例值(又称为流量值),Clemi是&传输的数据量,Rmsat为非饱和请求集合,为已经求得最大
传输流量的那些请求所对应的λ值,Rsat为饱和请求集合;(I)、⑵、(3)和(4)这四个式子为约束条件。所述步骤3包括以下步骤SI :设定饱和请求集合Rsat为空、非饱和请求集合Runsat包含所有大规模数据传输请求ri;根据输入的数据中心网络拓扑信息求解出每个的全部传输路径;S2 :对最大化最小公平多商品流线性规划模型进行求解,即在同时满足(I)、(2)、(3)和(4)这四个式子的前提下,求出最大的λ值;S3 :筛选出没有多余连接能力的请求集合Rtmp 根据传输请求现有的传输路径带宽资源的利用情况,若某传输请求的带宽资源已被全部占满,则将其选入请求集合Rtmp ;S4 :针对Rtmp中的每个请求&,将Rmsat设定为只包含一个请求Rsat则设定为包
含请求集合R中除去请求^以外的剩余的全部请求,其中原有的已饱和请求的饱和值
维持不变,未饱和请求的饱和值则设定为λ,利用这些值更新(2)式和(3)式后得到更新后的最大化最小公平多商品流线性规划模型; S5:求解所述更新后的最大化最小公平多商品流线性规划模型,得到新的带宽分配比例值λ tmp ;若λ tmp与λ相等,则请求A被判定为真正饱和,将Iri加入到Rsat,并记录对应的λ,若λ _与λ不相等,则转入步骤S4 ;S6 :多次重复步骤S2到步骤S5,直至Runsat为空,得到最优的λ ;S7:输出最大传输流量以及对应的数据传输路径,所述最大传输流量是指所述最
优的λ和链路带宽的乘积;所述数据传输路径包含在与最优的λ对应的/纟中。与现有技术相比,本发明的有益效果是本发明方法大大提高了数据中心网间带宽资源的平均利用率,并且缩短了多个数据传输任务的平均传输时间。


图1-1是时间延展网络方法实例图中的一个一个拥有3个节点和2条链路的物理网络 G(V,E)。图1-2是图1-1所示物理网络对应的5倍时间延展网络G5(V5,E5)。图2-1是Softlayer数据中心网络拓扑。图2-2是对应图2-1中的各地数据中心可用带宽资源。图3是单天最大传输数据量比较结果。图4是平均传输完成时间比较结果。图5-1是本发明实施例中的各链路的带宽资源情况图。图5-2是本发明实施例中的节点带宽资源可用情况图。图5-3是本发明实施例中的传输的时序图。图6是本发明实现大规模数据传输的多任务调度方法的步骤框图。
具体实施例方式下面结合附图对本发明作进一步详细描述如图6所示,本发明方法包括以下步骤步骤1,基于对数据中心网间带宽资源开销的预测情况,利用时间延展网络方法将动态空闲带宽资源的网络转换为静态流网络;步骤2,基于静态流网络,对多个大规模数据传输请求建立最大化最小公平多商品流(Max-Min Fair Multi-Commodity Flow, MMF-MCF)线性规划模型(请参考 M. Allaloufand Y. Shavitt. Centralized and distributed algorithmsfor routing and weightedmax-min fair bandwidth allocation,in IEEE/ACMTransaction on Networking,vol. 16,no. 5, pp. 1015-1024,2008);步骤3,设计最优的大规模数据传输多任务求解算法,对该模型进行求解得出各请求的最大传输流量及对应的数据传输路径。下面具体对每个步骤进行解释。步骤1,基于对数据中心网间带宽资源开销的预测情况,利用时间延展网络方法将动态空闲带宽资源的网络转换为静态流网络。基于时间延展网络方法的动态静态网络转换方法如下虽然数据中心网间空闲带宽资源具有一定的周期性,但仍旧是动态的,这种动态性一方面造成数据的发送和接收方可用带宽资源在时间上的异步性,另一方面也为后续数据传输调度算法的设计提出了很大挑战。因此首先引入节点的存储能力用于实现数据 的存储-转发;同时利用时间延展网络转换方法(请参考L. Fleischer and M. Skutella,Quickest Flows Over Time, SIAM J. Computing, vol. 36, no. 6, pp. 1600-1630, 2007),将网络资源从时间维度进行延展,使存储能力和动态带宽资源统一转化到一张静态网络上,以方便后续调度算法的决策。时间延展网络转换方法的具体步骤如下给定网络G(V,E),其中V = (VijV2,...,VnI代表网络中所有节点V集合,E= Ie1, e2,. . .,em}代表网络中所有链路e的集合,Ce代表链路e的带宽资源,S(V)代表节点V的存储资源。当生成T倍时间延展网络Gt(VT,Et)时,首先对原始网络的节点在时间维度上复制T倍;若原始网络上的链路(Vi,Vj)资源在t=1,2,...T时刻仍然可以使用,则在Gt (VT,Et)上对应时刻的节点拷贝上,对该边同样进行复制,并赋予其t时刻的可用带宽资源值;最后,对任意的(7,vt+1)两点添加T-I条链路,链路上赋予其在t时刻的可用存储资源值。这样便完成了从原始物理网络向时间延展网络的转换,通过这步转换,动态的带宽资源以及节点的存储资源能力都被统一的表示在一张静态流网络拓扑上,从而便于后续请求调度算法的设计。图1-1和图1-2给出一个时间延展网络方法实例。图1-1表示一个拥有3个节点和2条链路的物理网络G (V,E),节点Vl,V2和V3的存储资源分别为无穷,200和无穷,链路θι和e2的带宽资源分别为10和5,上述资源在从I至5的任意时刻均可用。图1-2表示对应的5倍时间延展网络G5 (V5,E5)。步骤2,基于静态流网络,对多个大规模数据传输请求建立最大化最小公平多商品流(Max-Min Fair Multi-Commodity Flow,简称为 MMF-MCF)线性规划模型。建立多个大规模数据传输任务线性规划模型(就是指上面的“最大化最小公平多商品流线性规划模型”)如下转换完成时间延展网络后,利用Max-Min Fair思想(请参考D. BertsekasandR. Gallager, Data Networks, 2nd ed.,Englewood Cliffs, NJ :Prentice_Hall, 1992),将多个数据传输请求建模为Max-Min FairMulti-Commodity Flow模型,在使各个请求尽可能多的获取网络带宽资源的同时,又保证了请求之间资源获取的公平性。在给定的时间延展网络Gt (就是指Gt (Vt, Et)),假定有K个数据传输请求,每个请求r = (src, dest, dem)是一个三元组的表达形式,其中src表示数据发送源点,dest表示数据接受目的点,dem表示请求传输的数据量。每个请求可用的数据传输路径集合为Pi (每个请求可能有多条不同的传输路径,这些路径组成的集合就是该请求的候选路径集合),/纟表示在路径P上分配给请求η的带宽值,对应的MMF-MCF模型如下
权利要求
1.一种实现大规模数据传输的多任务调度方法,其特征在于所述方法包括以下步骤 输入数据中心网络拓扑信息和数据中心网间带宽资源开销的预测信息; 步骤1,基于对数据中心网间带宽资源开销的预测信息,利用时间延展网络转换方法将具有动态空闲带宽资源的网络转换为静态流网络; 步骤2,基于所述静态流网络,对多个大规模数据传输请求建立最大化最小公平多商品流线性规划模型; 步骤3,迭代地求解所述最大化最小公平多商品流线性规划模型,得出各大规模数据传输请求的最大传输流量以及对应的数据传输路径。
2.根据权利要求I所述的实现大规模数据传输的多任务调度方法,其特征在于所述步骤I中所述时间延展网络转换方法是这样实现的将网络资源从时间维度进行延展,使具有动态空闲带宽资源的网络的动态带宽资源和节点的存储资源能力统一转化到一张静态流网络上。
3.根据权利要求2所述的实现大规模数据传输的多任务调度方法,其特征在于所述步骤2是这样实现的 将多个大规模数据传输请求建模为下面的最大化最小公平多商品流线性规划模型
4.根据权利要求3所述的实现大规模数据传输的多任务调度方法,其特征在于所述步骤3包括以下步骤 SI :设定饱和请求集合Rsat为空、非饱和请求集合Runsat包含所有大规模数据传输请求ri;根据输入的数据中心网络拓扑信息求解出每个^的全部传输路径; S2:对最大化最小公平多商品流线性规划模型进行求解,即在同时满足(I)、(2)、(3)和(4)这四个式子的前提下,求出最大的λ值;S3:筛选出没有多余连接能力的请求集合Rtmp :根据传输请求现有的传输路径带宽资源的利用情况,若某传输请求的带宽资源已被全部占满,则将其被选入请求集合Rtmp; S4:针对Rtmp中的每个请求&,将Rmsat设定为只包含一个请求Rsat则设定为包含请求集合R中除去请求A以外的剩余的全部请求,其中原有的已饱和请求的if值维持不变, 未饱和请求的饱和值则设定为λ,利用这些值更新(2)式和(3)式后得到更新后的最大化最小公平多商品流线性规划模型; S5:求解所述更新后的最大化最小公平多商品流线性规划模型,得到新的入_;若Atmp与λ相等,则请求A被判定为真正饱和,将!Ti加入到Rsat,并记录对应的λ,若Xtmp与λ不相等,则转入步骤S4; S6:多次重复步骤S2到步骤S5,直至Rmsat为空,得到最优的λ ; S7 :输出最大传输流量以及对应的数据传输路径,所述最大传输流量是指所述最优的λ和链路带宽的乘积;所述数据传输路径包含在与最优的λ对应的/纟中。
全文摘要
本发明提供了一种实现大规模数据传输的多任务调度方法,属于计算机网络中的网络数据流量优化领域。所述方法包括输入数据中心网络拓扑信息和数据中心网间带宽资源开销的预测信息;步骤1,基于对数据中心网间带宽资源开销的预测信息,利用时间延展网络转换方法将具有动态空闲带宽资源的网络转换为静态流网络;步骤2,基于所述静态流网络,对多个大规模数据传输请求建立最大化最小公平多商品流线性规划模型;步骤3,迭代地求解所述最大化最小公平多商品流线性规划模型,得出各大规模数据传输请求的最大传输流量以及对应的数据传输路径。本发明方法大大提高了数据中心网间带宽资源的平均利用率,并缩短了多个数据传输任务的平均传输时间。
文档编号H04L29/08GK102946443SQ20121052158
公开日2013年2月27日 申请日期2012年12月6日 优先权日2012年12月6日
发明者苏森, 双锴, 王艺文, 徐鹏, 王玉龙 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1