一种云数据中心大规模异构集群节点快速定量分级方法与流程

文档序号:12162184阅读:564来源:国知局

本发明涉及云计算平台及数据中心管理领域,特别涉及集群管理技术,具体涉及一种云数据中心大规模异构集群节点快速定量分级方法。



背景技术:

随着云计算技术的发展,为保证云服务在全球范围具有良好的可用性、可靠性和可扩展性,现有云服务提供商往往在全球各地建立多个大型数据中心,并通过配置专用网络或从网络服务提供商租用高带宽容量链路的方式,将全球各地数据中心互联成为统一的云平台。云平台能够提供丰富的计算和存储能力,使得企业和科研机构更加方便、有效地进行大数据处理和分析,主要得益于云计算“移动数据不如移动计算”的先进理念以及虚拟化等相关支撑技术在云数据中心中的广泛使用。目前部署在云平台上主流的大数据处理系统,例如Hadoop等,均将大数据进行分块存储并按照一定的数据布局策略放置到各个集群节点,来提升云数据中心的处理效率,从而达到整个云平台的高可用性和高可靠性等目标。在此过程中,数据布局策略起到了至关重要的作用。

然而,在多数据中心模式下,为了节省云服务提供商的总体拥有成本(Total Cost of Ownership,TCO),现有云数据中心集群一般采用Scale-Out架构,通过部署大量廉价商用机器来提供大数据处理服务,节点失效和硬件故障被认为是一种常态,因此设备的迭代更新颇为频繁;与此同时,大数据产生的速率以及容量的持续增长意味着云数据中心的扩容是一种刚性需求,必须不断地添置新设备,而在目前硬件发展水平日新月异的情况下,新置设备在计算和存储方面的性能都会比老设备更加优异;另外,随着虚拟化技术被广泛应用到云数据中心,大规模性能各异的虚拟机被配置运用到大数据的处理和分析中。这就导致集群节点存在显著的异构性,即节点与节点之间在计算和I/O的性能上会有较大差异。而云计算的“移动数据不如移动计算”理念使得计算任务与数据依赖紧密,这可能导致一些高优先级应用任务被指派到低性能节点上进行处理(因为该任务所需数据被随机放置到了该节点),从而降低了系统的整体性能。因此,如何结合集群节点呈现出的显著异构性,对其进行定量刻画,是一个关键的挑战性问题。



技术实现要素:

发明目的:为了克服现有技术中存在的不足,本发明提供一种云数据中心大规模异构集群节点快速定量分级方法,着重解决云数据中心多次扩容或更新之后异构集群节点之间性能差异化度量的问题。通过对集群节点异构性进行定量处理,以便为云数据中心内的大数据布局优化提供参考依据,从而可以充分利用高性能的集群节点,提升云服务任务的执行性能。

技术方案:为实现上述目的,本发明采用的技术方案为:

一种云数据中心大规模异构集群节点快速定量分级方法,包括以下步骤:

步骤1.采集每个待分级的集群节点的性能参数,计算所有集群节点的每一个性能参数平均值和标准差,并对原始数据进行标准化,之后利用极值标准化方法将标准化数据压缩到一个统一的区间,最终完成云数据中心所有集群节点各个性能参数的预处理。

步骤2.基于步骤1得到的集群节点性能参数标准化的量化值对其进行综合标定,并引入相似系数法建立云数据中心中所有集群节点的性能参数模糊相似矩阵。

步骤3.利用传递闭包法结合乘幂关系对步骤2得到的模糊相似矩阵加以改造,通过多次迭代调用获得对应的模糊等价矩阵,然后在适当的截距水平上对其进行截取,最终得到大规模集群节点性能参数聚类图。

所述步骤1中,每个待分级的集群节点的性能参数包括CPU主频、核数、Cache容量、内存大小、挂载磁盘或固态硬盘对应的IOPS及其存储容量大小。

所述步骤2中建立云数据中心中所有集群节点的性能参数模糊相似矩阵的方法,包括以下步骤:

步骤201.针对步骤1计算得到的集群节点性能参数标准化的量化值,综合利用夹角余弦法、指数相似系数法、数量积法、算术平均最小法和几何平均最小法对每个集群节点进行标定。

步骤202.根据步骤201的标定结果,求每个集群节点标定后的平均值,获得相似度变量的综合平均值。

步骤203.结合步骤202得到的综合平均值,基于相似系数法构造云数据中心中所有集群节点的性能参数模糊相似矩阵。

所述步骤3中利用传递闭包法结合乘幂关系对步骤2得到的模糊相似矩阵加以改造,通过多次迭代调用获得对应的模糊等价矩阵的方法:

步骤301.检查步骤207获得的性能参数模糊相似矩阵的自反性。通过自反性检查,进入步骤302。不通过自反性检查,进入步骤201重新进行标定。

步骤302.检查步骤207获得的性能参数模糊相似矩阵的对称性。通过对称性检查,进入步骤303,不通过对称性检查,进入步骤7,重新进行标定。

步骤303.检查步骤207获得的性能参数模糊相似矩阵的传递性。通过传递性检查,进入步骤304。不通过传递性检查,利用传递闭包法结合乘幂关系对步骤207得到的模糊相似矩阵加以改造,改造后的性能参数模糊相似矩阵在进行传递性检查,通过传递性检查,进入步骤304。不通过传递性检查,利用传递闭包法结合乘幂关系对改造后的模糊相似矩阵加以改造。

步骤304.通过传递闭包法结合乘幂关系多次迭代调用获得步骤303得到的模糊相似矩阵对应的模糊等价矩阵。

步骤305.通过截距水平λ对步骤304获得的模糊等价矩阵进行截取,得到一个新的模糊等价矩阵。

步骤306.对截取得到的模糊等价矩阵进行归类,最终得到大规模集群节点性能参数聚类图。根据聚类图,对每个集群节点进行定量分级。

所述步骤304中通过传递闭包法结合乘幂关系多次迭代调用获得模糊相似矩阵对应的模糊等价矩阵的方法:

利用函数公式f(R)=R2进行多次迭代调用,形式如下:经过有限次的运算以后,必定有Rk=(Rk)2成立,从而求出R的传递闭包t(R)=Rk,而Rk就是有限论域A上的一个模糊等价矩阵,R为通过传递性检查的模糊相似矩阵,A为待传递性检查的通过模糊相似矩阵,A为有限论域。

本发明相比现有技术,具有以下有益效果:

(1)算法简单有效,正确率较高,复杂度较低,可以适用于大规模的云数据中心环境。

(2)云计算中MapReduce编程模型的核心理念就是“移动数据不如移动计算”,现有的数据布局算法会导致高优先级的云任务被指派到低性能的节点上进行计算(因为云计算底层分布式文件系统,例如HDFS,会将数据随机分派到各个节点)。本发明提供的集群节点分级方法,可以甄别出节点的性能差异,能够为云计算底层分布式文件系统数据分发存储时提供性能参照,能将热点数据放置到高性能的集群节点上,从而可以提高整个云平台的任务执行性能。

(3)目前建设绿色数据中心是业界的一大趋势,本发明提供的集群节点分级方法,能够为节能管理过程中,启动相应的活跃节点和关闭或休眠非活跃节点提供分级后的性能参照依据。

附图说明

图1为本发明实现的大规模集群节点快速定量分级方法流程图。

具体实施方式

下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种云数据中心大规模异构集群节点快速定量分级方法,如图1所示,包括以下步骤:

步骤1.采集每个待分级的集群节点的性能参数,计算所有集群节点的每一个性能参数平均值和标准差,并对原始数据进行标准化,之后利用极值标准化方法将标准化数据压缩到一个统一的区间,最终完成云数据中心所有集群节点各个性能参数的预处理。其中,每个待分级的集群节点的性能参数主要考虑与云数据中心环境下运行在集群节点上的云计算任务执行效率相关的指标,具体包括CPU主频(以GHz为单位)、核数(以个为单位)、Cache容量(以MB为单位)、内存大小(以GB为单位)、挂载磁盘或固态硬盘对应的IOPS及其存储容量大小(以GB为单位)。以上所述的集群节点性能参数值均为系统可采集到的定量数据,但量纲均非完全一致。从数学的角度,一个确切的分类,是在同一个量纲下由一个普通等价关系确定的;而在不同量纲下的模糊分类则由模糊等价关系来确定。为了对上述不同构集群节点进行分级分类,要先构造模糊关系矩阵,且必须对集群节点参数的量化值进行预处理。该步骤主要基于每种参数的平均值和标准差利用极值标准化方法对这些不同量纲的参数进行归一处理,最终压缩到统一的[0,1]区间内。具体包括以下步骤:

步骤101.确定并选择对集群节点存储和计算能力起关键作用的性能参数。

步骤102.采集并记录数据中心中所有集群节点的性能参数值,这些性能参数的种类由步骤101所决定。

步骤103.针对每一个性能参数,计算所有集群节点的参数平均值。

步骤104.针对每一个性能参数,计算所有集群节点的参数标准差。

步骤105.根据步骤103和104的结果,对每一个集群节点的每一个性能参数进行标准化。

步骤106.利用极值标准化方法将步骤105的性能参数值压缩到一个统一的区间,本发明设定其为[0,1]区间。

步骤2.基于步骤1得到的集群节点性能参数标准化的量化值对其进行综合标定,并引入相似系数法建立云数据中心中所有集群节点的性能参数模糊相似矩阵。

主要包括以下步骤:

步骤201.针对步骤1计算得到的集群节点性能参数标准化的量化值,综合利用夹角余弦法、指数相似系数法、数量积法、算术平均最小法和几何平均最小法对每个集群节点进行标定。

步骤2011.利用夹角余弦法对每个集群节点进行标定。

步骤2012.利用指数相似系数法对每个集群节点进行标定。

步骤2013.利用数量积法对每个集群节点进行标定。

步骤2014.利用算术平均最小法对每个集群节点进行标定。

步骤2015.利用几何平均最小法对每个集群节点进行标定。

步骤202.根据步骤201的标定结果,求每个集群节点标定后的平均值,获得相似度变量的综合平均值。

步骤203.结合步骤202得到的综合平均值,基于相似系数法构造云数据中心中所有集群节点的性能参数模糊相似矩阵。

步骤3.利用传递闭包法结合乘幂关系对步骤2得到的模糊相似矩阵加以改造,通过多次迭代调用获得对应的模糊等价矩阵,然后在适当的截距水平上对其进行截取,最终得到大规模集群节点性能参数聚类图。

通过上述步骤2标定所得到的模糊关系一般不是模糊等价关系,只具有自反性和对称性而不满足传递性。当其论域为有限时,一般而言是模糊相似矩阵。但此时可以证明在有限论域,该模糊相似矩阵必定存在对应的模糊等价矩阵。为此,利用传递闭包法结合乘幂关系对步骤2中所得到的模糊相似矩阵加以改造,通过多次迭代调用获得对应的模糊等价矩阵,然后在适当的截距水平上对其进行截取,最终得到大规模集群节点性能参数聚类图。主要包括以下步骤:

步骤301.检查步骤207获得的性能参数模糊相似矩阵的自反性。通过自反性检查,进入步骤302。不通过自反性检查,进入步骤201重新进行标定。

步骤302.检查步骤207获得的性能参数模糊相似矩阵的对称性。通过对称性检查,进入步骤303,不通过对称性检查,进入步骤7,重新进行标定。

步骤303.检查步骤207获得的性能参数模糊相似矩阵的传递性。通过传递性检查,进入步骤304。不通过传递性检查,利用传递闭包法结合乘幂关系对步骤207得到的模糊相似矩阵加以改造,改造后的性能参数模糊相似矩阵在进行传递性检查,通过传递性检查,进入步骤304。不通过传递性检查,利用传递闭包法结合乘幂关系对改造后的模糊相似矩阵加以改造。

步骤304.通过传递闭包法结合乘幂关系多次迭代调用获得步骤303得到的模糊相似矩阵对应的模糊等价矩阵。其利用函数公式f(R)=R2进行多次迭代调用,形式如下:经过有限次的运算以后,必定有Rk=(Rk)2成立,从而求出R的传递闭包t(R)=Rk,而Rk就是有限论域A上的一个模糊等价矩阵,R为通过传递性检查的模糊相似矩阵,A为待传递性检查的通过模糊相似矩阵,A为有限论域。

步骤305.通过截距水平λ对步骤304获得的模糊等价矩阵进行截取,得到一个新的模糊等价矩阵。

步骤306.对截取得到的模糊等价矩阵进行归类,最终得到大规模集群节点性能参数聚类图。根据聚类图,对每个集群节点进行定量分级。

本发明着重解决云数据中心多次扩容或更新之后异构集群节点之间性能差异化度量的问题。逻辑上主要包括三个部分,分别是集群节点性能参数预处理、集群节点性能参数矩阵标定和集群节点性能参数软聚类。首先针对云数据中心集群节点中各种不同量纲级的性能参数进行采集量化并做标准化处理,使得不同量纲级的性能参数值归一到同一数值区间;然后利用夹角余弦法对标准化后的集群节点性能参数值进行标定,基于标定值引入相似系数法建立云数据中心中所有集群节点的性能参数模糊相似矩阵;最后基于传递闭包法对得到的模糊相似矩阵进行改造,使其变成模糊等价矩阵,并在适当的截距水平上对其进行截取,最终得到大规模集群节点性能参数聚类图。

如图1所示,具体实施过程如下:

1、构造节点性能参数矩阵:不失一般性,假设云数据中心集群系统全部节点的样本集合为N={n1,n2,…,nn},每个节点样本ni具有m个性能指标(包括CPU处理能力、内存大小以及挂载磁盘对应的IOPS等),记为集合P={p1,p2,…,pm},其中pj表示节点样本的第j个特征。这样,第i个集群节点ni的第j个指标pj就可以用进行量化,从而可以获得关于n个节点性能参数的关系矩阵

2、标准化节点性能参数:从数学角度来看,一个确切的分类,是由一个普通等价关系确定的,而一个模糊分类则是由一个模糊等价关系来确定。要构造模糊关系矩阵,必须对集群节点指标的量化值进行预处理,把数据压缩到[0,1]区间内。为此,我们首先利用公式(1)和(2)分别求出n个节点的第j个指标的平均值以及标准差。

然后,根据公式(3)对原始数据进行标准化:

之后,运用极值标准化公式(4),将标准化数据压缩到[0,1]内:

其中,分别表示中的最小值和最大值。显然,当时,则xij=0;当时,则xij=1。

3、建立模糊相似矩阵:为了建立模糊相似矩阵R,引入λ-相似系数rij,应用夹角余弦法进行标定,得

其中,这里rij表示两个节点样本dni与dnj之间相似程度的变量,当rij接近于1时,表明这两个节点性能类型越接近。

4、改造模糊相似矩阵:通过上述步骤3标定所得到的模糊关系一般不是模糊等价关系,只具有自反性和对称性而不满足传递性。当其论域为有限时,一般而言,R是模糊相似矩阵。此时,可以证明,当A是有限论域时,如果R是A上的模糊相似矩阵,则必定存在k≤n,使R的传递闭包t(R)=Rk是模糊等价矩阵。因此,可以利用传递闭包法结合乘幂关系对R加以改造,即利用函数公式f(R)=R2进行多次迭代调用,形式如下:经过有限次的运算以后,必定有Rk=(Rk)2成立,从而求出R的传递闭包t(R)=Rk,而Rk就是有限论域A上的一个模糊等价矩阵。

5、聚类分析:根据步骤4所得的模糊等价矩阵Rk,即可以在适当的截距水平(对λ取不同的值)上对其进行截取,元素大于或等于λ取1,否取0,得到一个新矩阵最后,将中相同的行进行归类,最终得到节点性能聚类图,即可以把矩阵中所有行元素相同的节点视为同一类型节点。

通过以上步骤,就可以获得大规模集群节点的聚类图。至此,就完成了对大规模集群节点的异构性感知操作,为云数据中心后续的数据布局、能耗优化等管理提供节点性能参照依据。

以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1