面向不稳定网络的基于品质感知的分布式文件存储方法

文档序号:6650665阅读:391来源:国知局

专利名称::面向不稳定网络的基于品质感知的分布式文件存储方法
技术领域
:本发明涉及分布式文件存储问题,尤其涉及一种面向不稳定网络的基于品质感知的分布式文件存储方法。
背景技术
:Hadoop[1]是Apache基金会推出的一个分布式计算开源软件,主要子项目包括MapReduce[2-3]——一个大型的分布式数据处理软件框架集的计算集群;HDFS——一个分布式的文件系统[4]。Hadoop主要由Yahoo公司支持开发,并经过Yahoo约200个稳定结点运行试验证实了其在稳定网络环境下的可靠运行[5]。国际上的许多知名公司,如Facebook.Amazon和Last,fm公司,都在利用Hadoop进行存储、计算以及数据挖掘等活动。Hadoop已成为企业构建数据中心的首选支撑软件之一W-7]。Hadoop在其发展初期被设计成适合运行在通用硬件(commodityhardware)之上,其分布式文件系统HDFS可以部署在廉价的机器上。然而,由于Hadoop设计之初是部署在相对稳定的集群系统各结点中,因此,如果直接将Hadoop部署在高度不稳定且结点数量庞大的广域hternet网络中,则存在存储空间利用率低下、网络动态适应性差等缺点,导致无法向用户提供可靠及高质量的网络化存储服务。Internet网络的特征相较于传统分布式网络的区别在于(1)结点数量庞大,相比于传统分布式网络的数十至数千个结点的规模,hternet网络可以轻易地达到数万个结点的规模;(2)结点高度自主而不可控,结点可以轻易地进入或退出网络;(3)结点甚至可能由于某些原因对网络进行欺诈、伪造信息。参考文献http://hadoop.apache.org/,2010.J.DeanandS.Ghemawat.Mapreduceaexibledataprocessingtool.Commun.ACM,53(1):72-77,2010.J.DeanandS.Ghemawat.Mapreduce:simpIieddataprocessingonlargeclusters.InSDI'04:Proceedingsofthe6thSymposiumonOperatingSystemsDesign&Implementation,pageslO-10,2004.GarhanAttebury,AndrewBaranovski,KenBloom,etal.HadoopDistributedFileSystemfortheGrid//Proc.of2009IEEENuclearScienceSymposiumConferenceRecord,NSS/MIC2009.Orlando,FL,Unitedstates,October25-312009:1056-1061.0.0'MalleyandA.C.Murthy.Winninga60seconddashwithayellowelephant.Technicalreport,Yahoo!,2009.LanaAbadie,PaoloBadino,Jean-PhilippeBaud,etal.StorageResourceManagers:Recentinternationalexperienceonrequirementsandmultipleco-operatingimplementations//Proc.of24thIEEEConferenceonMassStorageSystemsandTechnologies,MSST2007,SanDiego,CornelliF,DamianiE,CapitaniSD.ChoosingReputableServentsinaP2PNetwork//Proc.ofthe1IthInternationalWorldWideWebConfererce.Honolulu,Hawaii,USA,2002:376-386。
发明内容本发明的目的是提供一种面向不稳定网络的基于品质感知的分布式文件存储方法。面向不稳定网络的基于品质感知的分布式文件存储方法的步骤如下1)分布式系统内的任意客户结点加入到分布式系统中,并向名称结点公告客户结点磁盘剩余容量、可用网络带宽以及处理器性能指标,名称结点向客户结点定时传输性能测试包确定网络内活跃客户结点的传输延时与传输速度;2)名称结点周期性依据后述结点贡献权值计算公式计算各活跃客户结点贡献权值,名称结点检测所有活跃客户结点的公告信息以及传输历史记录,识别作弊及恶意行为;3)分布式系统内任意客户结点请求上传待存储文件,名称结点采用后述恢复卷生成方法分割待存储文件,待存储文件块结合活跃客户结点贡献权值及后述结点选择策略,确定承载各卷的客户结点及冗余数,名称结点向确定的承载客户结点传输相应的文件卷;4)分布式系统内任意客户结点请求下载的已存储文件,名称结点找到活跃客户结点所存储请求下载的已存储文件的关联卷,请求下载的已存储文件的关联卷的活跃客户结点向名称结点传输关联卷,名称结点收集足够的关联卷后,采用后述恢复卷方法合成原文件,成功合成文件后,名称结点向客户结点传输所请求下载的已存储文件。所述的步骤2)中的结点贡献权值计算公式为其中:Wn——结点经/7次数据传输任务后的贡献权值;a——常量;RBi——该结点第i次任务中实际成功传输的文件块数;TBi——该结点第i次任务中计划存储的文件块数;h——第i次任务结束后统计得出的该结点传输一个模型数据块所需要的时间,单位s/64M;C~常量;sp——当前该结点剩余空间;SP3——当前系统中各个结点最大的剩余空间;SPmin—初始化时系统中各个结点最小的剩余空间;SPmax—初始化时系统中各个结点最大的剩余空间。所述的步骤3)中的恢复卷生成算法为恢复卷的生成其中权利要求1.一种面向不稳定网络的基于品质感知的分布式文件存储方法,其特征在于它的步骤如下1)分布式系统内的任意客户结点加入到分布式系统中,并向名称结点公告客户结点磁盘剩余容量、可用网络带宽以及处理器性能指标,名称结点向客户结点定时传输性能测试包确定网络内活跃客户结点的传输延时与传输速度;2)名称结点周期性依据后述结点贡献权值计算公式计算各活跃客户结点贡献权值,名称结点检测所有活跃客户结点的公告信息以及传输历史记录,识别作弊及恶意行为;3)分布式系统内任意客户结点请求上传待存储文件,名称结点采用后述恢复卷生成方法分割待存储文件,待存储文件块结合活跃客户结点贡献权值及后述结点选择策略,确定承载各卷的客户结点及冗余数,名称结点向确定的承载客户结点传输相应的文件卷;4)分布式系统内任意客户结点请求下载的已存储文件,名称结点找到活跃客户结点所存储请求下载的已存储文件的关联卷,请求下载的已存储文件的关联卷的活跃客户结点向名称结点传输关联卷,名称结点收集足够的关联卷后,采用后述恢复卷方法合成原文件,成功合成文件后,名称结点向客户结点传输所请求下载的已存储文件。2.根据权利要求1所述的一种面向不稳定网络的基于品质感知的分布式文件存储方法,其特征在于所述的步骤2)中的结点贡献权值计算公式为3.根据权利要求1所述的一种面向不稳定网络的基于品质感知的分布式文件存储方法,其特征在于所述的步骤3)中的恢复卷生成算法为恢复卷的生成4.根据权利要求1所述的一种面向不稳定网络的基于品质感知的分布式文件存储方法,其特征在于所述的步骤4)中的恢复卷合成算法为假设有原始卷式B,C,D,仏和恢复卷XZ,原始卷B,C,々丢失,则利用剩余的卷恢复出丢失的文件的公式如下其中矩阵々——现存卷组成的矩阵,即式Ε,X,Y,Ζ;矩阵#一恢复函数矩阵,每一列代表一个原始卷,在现存的原始卷代表的那一列的相应行放置一个1,行的具体位置应当与原始卷在矩阵C中的位置相一致;在每个代表恢复卷的那一行中放置i6'_"。全文摘要本发明公开了基于品质感知的分布式文件存储方法。本发明通过引入结点贡献权值计算公式与基于恢复卷生成与合成的结点冗余备份策略,将面向稳定集群式存储模式的分布式文件系统Hadoop改进以适用于大规模不稳定网络。该方法具有的优点如下改进了传统分布式存储模式镜像化的冗余备份策略,提高了传统分布式文件存储系统的存储效率;引入校验与恢复计算,该新型文件存储服务系统对等地处理各冗余块,因此提高了并行传输率,从而极大地提升了文件宏观输速率;扩大了网络稳定容忍度,充分地利用了互联网上分散的闲置存储与网络带宽资源。文档编号G06F17/30GK102082830SQ20111002059公开日2011年6月1日申请日期2011年1月18日优先权日2011年1月18日发明者宋广华,杨波威,潘海斌,郑耀申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1