数据中心的服务器性能评估及服务器更新方法与流程

文档序号：17196465发布日期：2019-03-27 09:32阅读：222来源：国知局

本发明涉及大规模数据处理技术领域，具体地说，本发明涉及一种数据中心的服务器性能评估及服务器更新方法。

背景技术：

大规模数据中心的IT基础设施建设与扩容对于保障企业的信息化服务质量至关重要。服务器作为基础设施的主体决定着数据中心整体的性能、能耗、成本等关键评价指标。不同的服务器在品牌、处理器型号、内存容量、I/O性能等方面迥然不同，因此其性能、能耗和成本也截然不同。例如，基于ARM V8架构的Viridis系列服务器具有低功耗、高能效、低成本的特点，适合企业资源计划软件(ERP)、数据库事务处理等轻量级应用；而基于IBM Power8架构的Power System服务器具有高性能、高成本的特点，适合大数据分析、搜索引擎等计算密集型应用。因此，数据中心根据自身业务的程序特征及发展趋势而有针对性地选购服务器对于提高服务质量和降低运营成本具有巨大意义。

当今常见的数据中心更新策略包括：高并发见长的横向扩展(scale-out)和高性能见长的垂直扩展(scale-up)等启发式策略。然而，上述数据中心更新策略并未量化地对不同的业务特征和管理者需求进行优化，所以基于上述策略的服务器更新方案的成本效益往往不是最优的。而面对不同的业务特征或管理者需求，人们总是期望为数据中心定制一个能够带来最优成本效益的服务器更新策略。其中，数据中心的成本效益是所有服务器成本效益的一种高度概括。而数据中心的服务器更新策略本质上就是一个推荐问题，即准确评估不同类型的样本服务器对于当前数据中心的成本效益高低，随后给出所推荐的服务器种类和数量(一种投资组合)，其目标是通过采购所推荐的服务器组合为数据中心的建设和采购带来最优的成本效益。如前文所述，目前常见的数据中心更新策略是高并发见长的横向扩展(scale-out)和高性能见长的垂直扩展(scale-up)等启发式策略，这些策略并未准确评估不同的业务特征和管理者需求，因此其成本效益还有待提升。

因此，当前迫切需要一种以成本效益为导向的数据中心服务器更新解决方案。

技术实现要素：

本发明的任务是提供一种以成本效益为导向的数据中心服务器更新解决方案。

根据本发明的一个方面，提供了一种数据中心的服务器性能评估方法，包括下列步骤：

1)对于任意服务器类型i，获取各个应用u运行在该服务器类型i上所体现的性能；

2)基于数据中心的历史数据，计算各个应用u在服务器类型i上体现的权重，所述权重反映应用u未来运行于服务器类型i的概率；

3)基于步骤2)所得的权重，计算各个应用u运行在该服务器类型i上所体现的性能的加权和，从而得到服务器类型i对于数据中心的性能期望。

其中，所述步骤1)中，所述性能用各个应用u在服务器类型i的服务器上的从开始到完成的平均运行时间来表征，或者用单时钟周期指令集数来表征。

其中，所述步骤1)包括下列子步骤：

11)在数据中心的历史运行记录中采集一部分应用与服务器的实测性能数据，所述性能数据是所采集的应用u运行于服务器类型i时体现的性能

12)通过服务器性能评估模型预测得到各个应用在未运行过的服务器上的推测性能数据，所述推测性能数据(也可称为性能评估数据)是未直接采集的每个应用u运行于每个服务器类型i上时体现的性能所述服务器类型i用服务器类型特征向量Qi表征，所述服务器类型特征向量Qi的特征包括：服务器CPU数量、CPU频率、缓存大小、内存大小和硬盘大小；所述应用u用应用特征向量Pu表征，所述应用特征向量Pu的特征包括：应用u对CPU、内存和硬盘空间资源的占用量；所述服务器性能评估模型是基于FMF模型建立的函数该函数的参数根据所采集的一部分应用的实测性能数据训练得到。

其中，所述步骤11)中，所述部分应用的性能数据通过定制化的数据清洗、处理流程对性能相关的日志进行处理得到。

其中，所述步骤2)中，应用u在服务器类型i上体现的权重

其中，nu，i是在一个固定时间窗口内，应用u运行于服务器类型i的累计次数，tu，i，j是第j次运行距当前的时间距离，λ是预先设定的时间衰减率，如果应用u从未运行于服务器类型i，则时间距离tu，i，j被视为固定时间窗口的时间长度，nu，i设为1。

其中，所述步骤12)中，所述服务器性能评估模型创建方法包括下列步骤：

121)将用隐语义向量αu、βi，以及应用种类偏置bu、服务器种类偏置bi表达：

其中，αu和βi是分别将应用特征向量Pu和服务器类型特征向量Qi变换到维度相同的隐语义空间所得到的K维的隐语义向量，αu＝VuPu,βi＝ZiQi，其中，和是变换矩阵；

122)基于在数据中心的历史运行记录中采集的一部分应用的实测性能数据以及对应的应用特征向量Pu和服务器类型特征向量Qi，通过最小二乘法学习，得到应用种类偏置bu、服务器种类偏置bi、变换矩阵Vu和Zi。

其中，所述步骤122)中，所述最小二乘法包括最小化代价函数L：

集合δ代表已知的的(u，i)对，V^*、Z^*分别代表Vu、Zi的集合，b^*代表bu和bi的集合，λ0，λ1和λ2是预先设定的正则化参数；在代价函数L最小化的过程中，得到所述应用种类偏置bu、服务器种类偏置bi、变换矩阵Vu和Zi的收敛的最优值。

其中，所述步骤122)还包括：在最小化代价函数时，使用随机梯度下降法来迭代学习，得到所述应用种类偏置bu、服务器种类偏置bi、变换矩阵Vu和Zi的收敛的最优值。

根据本发明的另一方面，还提供了一种数据中心的服务器更新方法，包括下列步骤：

a)根据前文所述的服务器性能评估方法，计算出各个服务器类型i对于数据中心的性能期望Pi；

b)计算各个不同的服务器类型i的成本期望Ci；

c)计算各个服务器类型i的成本效益并据此得出优选的服务器更新方案。

其中，所述步骤b)中，所述成本期望Ci的计算方法如下：

Ci＝Cserver，i+Cinfrastructure，i+Cnetwork，i+Cpower，i+Cmaintenance，i

其中，Cinfrastructure，i是服务器类型i对应的基础设施成本，Cnetwork，i是服务器类型i所对应的网络设施成本，Cmaintenance，i是服务器类型i后期产生的人工维修维护成本；

其中，服务器月均购买成本Cserver，i表达式为：

Dsrv是折旧年限，Csrvtype，i是服务器类型i的购买成本，a％是月利率；

其中，月均能耗成本Cpower，i表达式为：

PUEi是电源利用率，CelecperKWh是每千瓦时电量的价格，Psrv，i是服务器类型i的功耗，Pnetwork是网络设备的功耗。

与现有技术相比，本发明具有下列技术效果：

1、本发明能够快速给出基于成本效益最优化的数据中心的服务器更新方法。

2、本发明的服务器性能评估模型能够对应用的性能期望进行准确的预测，且数据采集与决策时间开销小。

3、本发明的服务器性能评估模型创建方法和数据中心的服务器更新方法能够节约成本，且便于实施。

附图说明

以下，结合附图来详细说明本发明的实施例，其中：

图1示出了本发明一个实施例的数据中心的服务器更新方法的流程图；

图2示出了本发明一个实施例中随机选择17％、33％和50％的数据作为训练集合所得服务器性能评估模型的平均错误率；

图3示出了本发明一个实施例中将17％、33％和50％的数据训练得到的三个服务器性能评估模型分别应用于四种基准测试集时的累计分布函数曲线。

具体实施方式

为了实现以成本效益为导向的数据中心服务器更新，需要准确评估服务器的成本效益。要准确评估服务器的成本效益，首先应当进行数据采样(profiling)。采样数据包括与程序特征和服务器的硬件特征相关的信息，和与性能、能耗成本和硬件成本相关的信息。其次，不同数据中心的主营业务、虚拟化技术、云平台、调度方式不尽相同，那么应用的分布(种类、数量、和变化趋势等)就不同，这将导致同一服务器在不同数据中心所表现出的成本效益有差异。显而易见，如果没有准确的量化模型描述上述因素来预测成本效益并指导投资组合，则很难相信服务器的更新过程是以一种成本效益导向的、经济的方式进行的。与此同时，在数据中心中全面地获取上述信息来建模是不实际的，因为这会耗费大量的时间和资源，所以对模型的表达能力有很高的要求。

基于上述分析，根据本发明的一个实施例，提供了一种基于高精度服务器性能评估模型的以成本效益为导向的数据中心的服务器更新方法。其中，将成本效益定义为服务器性能期望与成本期望之比，表达式如下：

其中，Si表达了服务器类型i的成本效益；Pi代表服务器类型i的性能期望；Ci代表服务器类型i的成本期望。其中，衡量服务器性能的指标可以是基准测试程序在服务器类型为i的服务器上从开始到完成的平均运行时间，这个时间的值越小代表服务器的性能越高，这种指标主要用于多线程应用、并行程序等。衡量服务器性能的指标也可以是IPC，即单时钟周期指令集数，IPC值越大代表性能越高，这种评价指标多用于单线程应用。本实施例中，为了综合考虑不同的应用，将所有类型的应用的性能在自己单位类型的应用集合内进行归一化(对于某个单位类型的某个应用，用该应用对应的性能值除以该单位类型的应用集合中的最大性能值，即可得到该应用的归一化性能值)，这样，所有类型的应用性能都消除了量纲，即所有类型的应用性能都归一化到0到1范围内。当然，本领域普通技术人员容易理解，在其它实施例中，也可以单独使用时间或者IPC作为服务器性能的评价指标(例如在数据中心的绝大多数应用都是多线程应用或者绝大多数应用都是单线程应用的场合)。

通常来说，服务器类型i的性能期望Pi和成本期望Ci都需要通过预测得到。其中，成本期望Ci只与服务器i相关，而性能期望不仅与服务器i相关，还和数据中心所有出现的应用相关。

基于上述分析，本实施例提供了一种数据中心的服务器更新方法，图1示出了该数据中心的服务器更新方法的流程图，参考图1，该流程包括下列步骤：

步骤1：计算各个不同的服务器类型i对于数据中心的性能期望。

本实施例中，服务器类型i对于数据中心的性能期望定义为：

Pi＝∑u∈Mωu，i×γu，i (2)

其中，γu，i是应用u运行于服务器类型i时所体现的性能，它的量纲与前文所述的服务器性能的量纲一致，这里不再赘述。ωu，i是应用u在服务器类型i上体现的权重。M代表在数据中心出现过的所有应用u的集合。

性能γu，i主要与服务器i的类型和应用u的特征相关。具体地说，γu，i它分为两类，一类是基于数据中心的历史运行记录所采集到的性能数据，即历史运行记录中采集到的应用u运行于服务器i时体现的性能，本文中记为这一类数据可以通过处理性能相关的日志获取，例如通过定制化的数据清洗、处理流程获取；另一类是通过服务器性能评估模型预测得到的数据，本文中记为由于对数据中心的采样量往往十分有限，因此这一类数据通常占大多数。这就需要服务器性能评估模型具有根据历史性能信息，应用u的特征和服务器类型i的特征，推测出该应用运行于服务器类型i时所体现的性能的能力。

本实施例中，采用一种机器学习推荐系统领域的协同过滤模型，即Feature-based Matrix Factorization(下文中简称为FMF)模型作为服务器性能评估模型。其中，每个服务器类型由一个显式地描述服务器体系结构特征的Y维的特征向量Qi描述，本实施例中，组成特征向量Qi的特征包括：服务器CPU数量、CPU频率、缓存大小、内存大小、硬盘大小等等。构成服务器特征向量Qi的特征信息可以通过SHELL命令行方式查询或者从公开资料中查询获得。容易理解，在其它实施例中，维度Y的大小和特征向量Qi所包含的特征可以根据需要定义。例如构成特征向量Qi的服务器特征还可以包括：CPU品牌和型号、内存类型等。容易理解，通常维度Y越大，则相应的服务器类型的描述越详细；维度Y越小，则相应的服务器类型的描述越粗略。

本实施例中，每个应用u由一个X维的特征向量Pu描述，该特征向量的X个元素蕴含着X个应用特征，包括对CPU、内存、硬盘空间资源占用需求的多少(即对CPU、内存、硬盘空间资源的占用量)。类似地，容易理解，在其它实施例中，维度X的大小可以根据需要调整，通常X越大说明对应用的描述越详细，输入信息越多；X越小说明描述的越粗略，输入信息越少。

本实施例中，可从虚拟机运行平台或者线下的测试数据集中抽取出一部分应用u在数据中心的运行数据，获取一组由实测服务器性能和相应的应用特征向量Pu和服务器类型特征向量Qi组成的数据作为训练集。这个训练集将被用于训练服务器性能评估模型。该服务器性能评估模型的主要功能实际上就是基于应用u和服务器类型i来预测性能训练服务器性能评估模型的过程，就是建立函数并学习得到该函数参数的过程。下面将介绍本实施例中的创建及训练服务器性能评估模型的方法。

首先，将两个维度不同的特征向量Pu和Qi分别经过变换分别从原X维、Y维特征空间，变换到维度相同的隐语义空间，变换后得到新的隐语义向量和变换的表达式分别如下：

αu＝VuPu，βi＝ZiQi

其中，和是变换矩阵，这两个矩阵将特征向量Pu和Qi变换至K维空间。

在上述变换中，特征向量Pu和Qi是显性的数值型或实例型数据，变换矩阵Vu和Zi是未知参数，即这两个变换矩阵的所有元素均为未知量。

进一步地，将用隐语义向量αu、βi，以及应用种类偏置bu、服务器种类偏置bi表达，即：

其中偏置bu和偏置bi是未知参数，本实施例中，它们以及前文中的未知的变换矩阵Vu和Zi均通过最小二乘法学习得到。

最小二乘法(LSM)是种常用的参数估计方法。通过最小化代价函数的过程收敛出最优参数。此问题中的最小二乘法表达为最小化代价函数L：

其中，集合δ代表已知的的(u，i)对，即所有只要应用u在服务器i运行过，就会记录的(u,i)对，V^*、Z^*分别代表Vu、Zi的集合，b^*代表bu和bi的集合。λ0，λ1和λ2是用来防止过拟合的正则化参数，这些参数在初始化时预先设定。

建立最小二乘法中的最小化代价函数L的具体细节可以参考文献：Yehuda Koren,Robert Bell,Chris Volinsky,“Matrix Factorization Techniques for Recommender Systems,”COMPUTER,pp.30–37,2009.此处不再赘述。

在基于最小化代价函数进行拟合时，使用随机梯度下降法(SGD)来迭代学习，得到以上所有的最优参数。随机梯度下降法的具体内容可参考文献：Yong Zhuang,Weisheng Chin,Yuchin Juan,Chihjen Lin,“A Fast Parallel SGD for Matrix Factorization in Shared Memory Systems,”Recommender Systems,2013.

其中，在基于随机梯度下降法进行每次迭代时，参数更新方法如下：

其中L为代价函数。θ1和θ2用来控制学习速率。n为迭代编号。

基于上述方法进行训练，即可得到函数的各项位置参数，即变换矩阵Vu和Zi以及偏置bu和bi，从而获得训练后的服务器性能评估模型。

在获得训练后的服务器性能评估模型，只要将特征向量Pu和Qi输入该模型中，即可得到应用u运行在服务器类型i上所体现的性能。也就是说，在训练完成后，服务器性能评估模型就具备了根据部分应用在部分服务器上运行所体现的实测性能数据，推测出全部应用在全部服务器上运行所体现的性能的能力。

为测试上述服务器性能评估模型的准确度，发明人在线下让所有应用在所有类型服务器上运行，获得所有性能真实值(即测量值)。随后随机选择17％、33％和50％的数据作为训练集合，基于上述实施例中的方案得到创建和训练相应的服务器性能评估模型。然后，用剩下的83％、67％和50％的数据作为测试集合，对相应的服务器性能评估模型进行测试，测试结果如图2所示。图2中，avg err代表average error，即平均错误率。可以看出三种测试的服务器性能评估模型均保持了较低的错误率。

进一步地，图3示出了将17％、33％和50％的数据训练得到的三个服务器性能评估模型分别应用于四种基准测试集时的累计分布函数曲线(CDF，全称为cumulative distribution function)。可以看出，对于四种基准测试集，均获得了较高的准确率。尤其是对于PARSEC，SPLASH2和SPEC2006基准测试集来说，有近90％的情况错误率在10％以内。

另一方面，如前文所述，计算服务器类型i的性能期望Pi时，还需要先计算权重ωu，i。ωu，i是应用u在服务器类型i上体现的权重，它反映了应用u未来运行于服务器类型i的概率，这个概率可以由时间衰减函数表达，即：

nu，i是在一个固定时间窗口内，应用u运行于服务器类型i的累计次数，tu，i，j是第j次运行距当前的时间距离，两个参数均可在数据中心在线运行时以软件方式记录。λ是时间衰减率，在初始化时预先设定。如果应用u从未运行于服务器类型i，则时间距离tu，i，j被视为固定时间窗口的时间长度，nu，i设为1。

综上所述，在获得服务器性能评估模型和应用u在服务器类型i上体现的权重ωu，i后，即可根据服务器类型i和应用u各自的特征向量，基于公式(2)计算出服务器类型i对于数据中心的性能期望Pi。

步骤2：计算各个不同的服务器类型i的成本期望Ci。

成本期望Ci反映了服务器类型i在未来产生的月平均成本。它包括服务器月均购买成本，服务器相关的数据中心月均基础设施成本，服务器相关的网络月均基础设施成本，月均能耗成本和月均维护成本,表达式式如下所示：

Ci＝Cserver，i+Cinfrastructure，i+Cnetwork，i+Cpower，i+Cmaintenance，i

其中，服务器月均购买成本Cserver，i表达式为：

Dsrv是折旧年限，Csrvtype，i是服务器类型i的购买成本，a％是月利率。

其中，月均能耗成本Cpower，i表达式为：

PUEi是电源利用率，CelecperKWh是每千瓦时电量的价格，Psrv，i是服务器类型i的功耗，Pnetwork是网络设备的功耗。

Cinfrastructure，i是服务器类型i对应的基础设施成本，Cnetwork，i是服务器类型i所对应的网络设施成本，Cmaintenance，i是服务器类型i后期产生的人工维修维护成本。

步骤3：计算各个服务器类型i的成本效益Si，并据此得出优选的服务器更新方案。

在一个实施例中，可建立服务器投资组合模型：

Bi为服务器类型i的资金投入，BTotal是资金预算，Si是服务器类型i的成本效益，N为服务类型的个数。基于上述投资组合模型，即可得出在一定的资金预算下不同类型服务器对应的资金投入，这个资金投入组合就可以作为一个优选的数据中心服务器更新方案。

与现有技术相比，本发明的上述实施例具有下列技术效果：

1.能够为数据中心运营者提供成本效益最优的服务器更新解决方案。

2.能够对应用的性能期望进行准确的预测，且数据采集与决策时间开销小。

3.本发明的数据采集(所采集的数据包括不同应用和服务器类型的各项特征的采集，以及单个应用运行于单个服务器类型时所体现的性能)与现有的数据中心常用的profiling或logging技术兼容，只需要在profiling或logging技术的基础上稍加修改即可得到相应数据，因此能够节约成本，且便于实施。

最后应说明的是，以上实施例仅用以描述本发明的技术方案而不是对本技术方法进行限制，本发明在应用上可以延伸为其它的修改、变化、应用和实施例，并且因此认为所有这样的修改、变化、应用、实施例都在本发明的精神和教导范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马君;鄢贵海;韩银和;李晓维;
技术所有人：中国科学院计算技术研究所;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。