一种基于文件热度分析和K-means的副本放置方法

文档序号:9810680阅读:983来源:国知局
一种基于文件热度分析和K-means的副本放置方法
【技术领域】
[0001] 本发明属于云计算领域,具体涉及的是一种利用热度统计分析与K-means算法对 云环境下高热度文件副本动态调整放置的方法。
【背景技术】
[0002] 随着社会的发展以及计算机存储和数据处理能力的提高,数据爆炸式增长已经成 为当今时代的一个重要特征。根据国际数据公司(111丨61'1^1:;[0仙103丨3(]〇印〇1'1:;[011,100) 对数据增长的估计,到2020年将产生40ZB(1ZB= 1.1805916207174113 X1021B)的数据,相当 于地球上人均5247GB(http: //datacenter .watchstor. com/infra-143421 .htm)。面对规模 不断增长的海量数据,随之而来的海量数据的存储和管理也得到了越来越多的关注。
[0003] 为了提高系统的可靠性和访问效率,常用副本技术将数据项复制多份,并分别存 放在分布式文件系统的多个节点上。针对各个历史阶段对数据提出的不同访问要求,人们 提出了多种副本管理策略,主要包括主从式、层次式、对等计算(Peer to Peer,P2P)式和基 于图的等几种。
[0004] 副本管理策略通常要进行副本个数和存放位置两方面的决策,按照做决策的时机 可分为静态和动态两类。Ian Forster和KavithaRanganathan于2001年提出了在层次网络 拓扑结构中的六种副本创建策略:无副本策略、最佳客户策略、瀑布式策略、普通缓存策略、 缓存瀑布式策略、快速扩展策略(数据网格环境下基于经济模型的副本优化策略的研究与 实现李琳.)。这些策略在大部分情况下都能够减少访问延迟,但瀑布式策略、缓存瀑布式策 略和快速扩展策略只适用于数据存储于顶层节点的数据网格,最佳客户策略、普通缓存策 略没有考虑到拓扑结构、数据分布、网络带宽、节点存储能力等特点(基于存储联盟的双层 动态副本创建策略-SADDERS孙海燕,王晓东,周斌等.),没有考虑到文件大小和网络带宽对 访问延迟的影响。
[0005] 本发明通过分析文件在预设时间周期内的访问频率,根据热度计算公式,推算文 件的访问热度。利用文件的访问热度,结合K-means算法,预测下一周期内可能的高访问热 度文件(基于热度分析的动态副本创建算法饶磊,杨凡德,李新明,刘东.),同时综合考虑统 计周期、文件大小、工作环境等多种因素,动态地调整文件副本的数量及放置位置。

【发明内容】

[0006] 本发明的所要解决的技术问题是分布式系统或云计算平台中的副本放置问题,提 出一种基于文件热度分析和K-means的副本放置方法,根据任务的执行时间选取最大值作 为时间周期,计算时间周期内文件的访问热度。利用文件的访问热度,结合K-means算法,预 测下一周期内可能的高访问热度文件,综合考虑统计周期、文件大小、工作环境等多种因 素,按需动态地调整文件副本的数量及放置位置。本发明能够有效地减少文件访问的平均 响应时间,提高数据服务性能。
[0007] 技术方案:
[0008] -种基于文件热度分析和K-means的副本放置方法,包括以下步骤:
[0009] 步骤1),根据任务的执行时间,选择最小值作为热度分析的时间周期,在该时间周 期内分析文件的访问频率;
[0010] 步骤2 ),根据步骤1)得到的文件访问频率,计算文件的访问热度值;
[0011] 步骤3),根据步骤2)得到的文件访问热度值,获取高热度值的文件的信息,通过κ-means算法,计算并预测下一运行周期的高热度文件;
[0012] 步骤4),根据步骤3)得到的高热度文件信息,综合考虑文件大小、文件数量、文件 位置、工作环境等众多因素动态地调整文件副本的数量以及放置位置;
[0013] 进一步的,本发明的一种基于文件热度分析和K-means的副本放置方法,步骤1)根 据任务的执行时间,选择最大值作为热度分析的时间周期,在该时间周期内分析文件的访 问频率。本发明使用了文件访问次数计数器和统计周期计时器。初始化时,默认文件访问次 数为1,每个统计周期内,文件每次被访问计数器加1,未被访问则计数器减1。若访问次数已 经为1,则计数器不再执行减1操作。若文件访问超时未完成,访问计数器加1。某文件在第k 个统计周期内的访问频率fk = n/t,其中η为该文件在统计周期内被访问的次数,t为统计周 期内访问的持续时间之和;
[0014] 进一步的,本发明的一种基于文件热度分析和K-means的副本放置方法,步骤2)根 据步骤1)得到的文件访问频率,利用公式叫=a ?RASi+l),计算文件i在j时刻的访问热 度值。公式中,α为常量,用于对数据进行归一化处理;F」表示频率对文件访问热度的影响,Si 表示文件大小对文件访问热度的影响。其中,
[0016] 进一步的,本发明的一种基于文件热度分析和K-means的副本放置方法,步骤3)根 据步骤2)得到的文件访问热度值,获取高热度值的文件的信息,选取k个文件作为初始化中 心,计算每个文件到中心文件的距离,将每个文件分配至最近的簇。根据现有的簇关系重复 计算前述过程,直至满足终止条件。终止条件包括:
[0017] (1)没有(或最小数目)文件被重新分配给不同的聚类;
[0018] (2)没有(或最小数目)聚类中心发生变化;
[0019] (3)误差平方和(SSE)局部最小,
其中X表示文件,1?表示 聚类Q的聚类中心,distU,!^)表示文件X与聚类中心叫之间的距离;
[0020] 进一步的,本发明的一种基于文件热度分析和K-means的副本放置方法,步骤4)根 据步骤3)得到的聚类信息,根据各个聚类中心的访问热度,综合考虑文件大小、文件数量、 文件位置、工作环境等众多因素动态地调整文件副本的数量以及放置位置,高热度的簇适 当增加副本数量,低热度的簇课适当减少副本数量。
[0021 ]有益效果
[0022]本发明针对分布式系统或云计算平台中副本放置,结合文件访问热度与K-means 算法来综合分析,有助于高访问量的系统中实现副本的合理放
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1