集中式数据中心数据冗余消除方法

文档序号:7841107阅读:325来源:国知局
专利名称:集中式数据中心数据冗余消除方法
技术领域
本发明属于网络体系结构技术领域,特别涉及一种集中式数据中心数据冗余消除方法。
背景技术
近年来,作为企业的业务系统与数据资源进行集中、集成、共享、分析的场地、工具、流程等的有机组合的数据中心,随着云存储、云计算以及搜索引擎等新技术的兴起而迅速发展。由于数据中心强大的计算能力和可靠性等特征,越来越多的企业将自己的网络服务转移到数据中心。同时,随着个人应用需求的增加,数据中心也为个人提供各种计算和存储等网络服务。一方面为了满足日益增长的服务需求,数据中心的规模变得越来越大;另一方面,随着数据中心服务器间传输的数据量的迅速增加,数据中心中的带宽变得越来越稀缺。传统的数据中心体系结构存在不足之处。其中一个问题就是传统的数据中心不能有效利用数据中心网络带宽。其中某些链路的拥塞造成整个网络带宽不能充分被利用,传统的数据中心网络体系结构没有从传输数据的相关性出发,在传输数据时对数据不加区分的进行发送,其中传输的很多数据都是冗余的。数据中心网络传输的数据的冗余性主要是由于数据中心网络提供的网络应用的数据中,一些数据比另外一些数据更受欢迎,这种差别使得很多数据中心传输的数据是重复出现的,这些重复传输的数据造成了很大的数据冗余;数据中心使用的软件架构自身带来很多冗余,目前比较流行的MapReduce软件架构在数据中心网络中广泛使用,MapReduce软件架构为了提高并行性计算功能,网络数据以广播的方式给多个节点传输,这就造成在数据中心网络中相同的数据的多次发送,从而带来了数据中心网络传输数据的冗余性;数据中心网络中传输的数据的协议带来数据冗余,数据中心中传输的数据使用的协议与其他网络中传输的数据的协议是一致的,而这些协议传输的数据已经被证明具有很大的冗余性。综上所述,在数据中心传输的数据具有很大的冗余, 在数据中心进行冗余消除具有很强的现实意义。目前,针对网络中冗余数据的消除机制研究已经广泛开展,在较早的研究中,消除网络冗余数据通过网络缓存、代理服务器的方式,将在网络中已经传输的数据(这个文件) 在离目的节点较近的设备上缓存下来,在相同的数据请求达到的时候,代理服务器将缓存的数据发送到请求服务器,从而达到降低网络流量的目的;Spring等人在2000年提出了协议无关冗余消除机制(protocol-ind印endent RE),通过这种方法,在网络中传输的数据间的冗余在更小的粒度(数据包层面或者数据块层面)被发现和消除,从而达到更好的冗余消除的效果;此后,更多的冗余消除机制被提出来,A. Muthitacharoen和S. Annapureddy 等人研究了给予内容的命名机制;Anand等人提出了将冗余消除作为IP层的一种服务的冗余消除机制和协调缓存的冗余消除机制SmartRE ;B. Aggarwall等人提出了端系统 (End-system)冗余消除机制。但是在数据中心进行数据冗余消除研究还处于初步阶段,结合数据中心的特点进行冗余消除的机制研究还有待深入。
在实现本发明过程中,发明人发现现有的冗余消除机制应用到数据中心网络中至少存在以下不足1)现有的冗余消除技术没有考虑不同节点发送的数据之间的冗余性。在数据中心网络中,由于很多服务器提供的服务是相似的,因此不同的节点发送的数据之间存在大量的冗余。现有的冗余消除机制只考虑相同的服务器发送的数据之间的冗余性,不同的服务器发送的数据间的冗余不能被发现和消除。2)现有的冗余消除机制没有充分考虑不同中间节点(路由器或交换机)缓存不同数据的效用的差别。不同的中间节点缓存不同的数据的效用是不同的,换句话说就是每个数据都有缓存它的最佳中间节点。现有的冗余消除机制要么没有考虑中间节点的缓存能力,从而每个节点都可以无限地缓存所有经过它的数据,要么采用简单的随机缓存和先进先出的缓存替换策略,这些方法都不能有效利用中间节点的缓存。

发明内容
为了克服上述现有技术的不足,本发明的目的在于提供一种集中式数据中心数据冗余消除方法,通过在传统的数据中心网络的中间节点(路由器或交换机)中增加缓存和在数据中心实现集中管理机制来实现,充分利用数据中心网络特点,有效降低链路负载。为了实现上述目的,本发明采用的技术方案是集中式数据中心数据冗余消除方法,源服务器将数据通过中间节点发送至目标服务器,在所述中间节点增加缓存,传输数据时中间节点缓存已经传输的数据,从而在相同数据再次发送的时候可以先进行压缩编码,然后发送,在中间节点进行解码转发,完成数据传输,在源服务器、中间节点以及目标服务器组成的数据中心网络中,布置一个集中调度模块,利用该模块获取服务器之间传输的数据以及中间节点中缓存的数据,对于数据di, 缓存到不同的中间节点带来的缓存效用不同,选用缓存效用最大的中间节点作为其待缓存节占.
I— /、、、 其中,缓存效用
权利要求
1.集中式数据中心数据冗余消除方法,源服务器将数据通过中间节点发送至目标服务器,在所述中间节点增加缓存,传输数据时中间节点缓存已经传输的数据,从而在相同数据再次发送的时候可以先进行压缩编码,然后发送,在中间节点进行解码转发,完成数据传输,其特征在于,在源服务器、中间节点以及目标服务器组成的数据中心网络中,布置一个集中调度模块,利用该模块获取服务器之间传输的数据以及中间节点中缓存的数据,对于数据Cli,缓存到不同的中间节点带来的缓存效用不同,选用缓存效用最大的中间节点作为其待缓存节占.^ \\\ 其中,缓存效用^^,^二!^;^/仏久众),…,·^)为冗余消除的效用,其计算方法如下在数据中心网络中,需要发送的数据的集合为W1, d2,......,dM),中间节点的集合为R= Ir1, r2,......,r|K|),路径集合为{Pl,p2,......,p|P|),、为数据(Ii在路径Pj的传输次数的期望,如果在中间节点中缓存了数据Cli,并且中间节点对数据Cli的压缩编码d' i进行解码,则冗余消除的效用"(U,々)= * (I…-1 d' I) * hP] k,其中是路径P」的源节点到中间节点!"k的跳数;当前中间节点!"k每缓存一个数据di,其剩余缓存容量减1,如果其剩余缓存容量为0, 则计算尚未被缓存数据的缓存效用时,跳过当前中间节点rk ;直至所有的数据被缓存完毕,或者所有的中间节点的剩余缓存容量都为0,调度结束。
2.根据权利要求1所述集中式数据中心数据冗余消除方法,其特征在于,所述中间节点为路由器和/或交换机。
3.根据权利要求1所述集中式数据中心数据冗余消除方法,其特征在于,当数据Cli已经缓存至缓存效用最大的中间节点时如果在路径Pj中传输的数据Cli经过中间节点iv则数据Cli在源服务器端压缩编码,然后发送,在中间节点!"k进行解码转发;如果路径Pj中传输的数据Cli不经过中间节点IV则数据Cli在源服务器端直接发送。
全文摘要
一种集中式数据中心数据冗余消除方法,在现有的数据中心网络体系结构的中间节点中增加缓存;中间节点缓存数据中心服务器间发送的数据;数据中心集中模块通过对数据中心传输数据进行统计,估计在不同的时间发送的数据的期望;数据中心集中模块对数据缓存进行调度,使得不同的数据缓存到不同的中间节点,从而最大化缓存的效用;数据中心服务器发送数据时,根据中间节点中的缓存情况对数据进行压缩编码;中间节点对压缩编码进行解码,本发明不仅能够消除相同服务器发送的数据的冗余,同时不同服务器发送的数据之间的冗余也能得到消除,同时始终选择缓存效用最大的中间节点作为缓存数据中间节点,从而达到更高的冗余消除效果。
文档编号H04L29/08GK102546817SQ20121002324
公开日2012年7月4日 申请日期2012年2月2日 优先权日2012年2月2日
发明者崔勇, 廖春鹏, 王弘毅 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1