服务器智能管理中二维数据与管理策略迁移方法

文档序号:6349486阅读:177来源:国知局
专利名称:服务器智能管理中二维数据与管理策略迁移方法
技术领域
本发明涉及服务器智能管理及机器学习领域,实现了在服务器管理中训练数据和知识的迁移学习策略,具体地说是一种服务器智能管理中二维数据与管理策略迁移方法。
背景技术
对服务器运行日志采用机器学习的方法建立一个服务器运行规律模型,可得到服务器的智能管理知识及规则。但是为了应对越来越多的网络服务请求,服务器系统规模越来越大,如服务器集群技术和刀片服务器的出现,使得需要被监管的服务器数量越来越多, 要对这些服务器的健康信息进行数据分析,训练数据的采集成了一大难题(1)利用有限的监控设备难以对所有服务器的健康信息进行采集。
(2)服务器的运行日志是一个海量数据库,并且随着时间的推移不断增大,使得机器学习的任务加大。
(3)虽然已经采集了大量的服务器健康信息,但是假若需要某台服务器某一时间的健康信息作为训练数据,那么数据明显偏少,会造成训练数据的不平衡或过度拟合问题。
(3)有些机器学习任务需要人工标注数据。如果训练数据过大,会占用大量的人力及时间资源。
如通过机器学习技术获取所有服务器的管理策略或某一服务器在某一时间的管理策略,可用的数据非常少,无法为机器学习提供合格的训练数据。但是可以通过迁移学习将已有的源服务器数据转为目标服务器的训练数据从而获取所要的知识。使用迁移学习最关键的是要解决这两个数据集差别较大的问题。它们往往具有不同的分布特征。如果不做处理直接将源服务器中的数据集放入目标服务器数据集中,会影响目标服务器中已标记的数据,从而影响所获取知识的可信性。
综上所述,需要解决数据迁移时目标服务器数据的构成问题。 发明内容
本发明的目的是提供一种服务器智能管理中二维数据与管理策略迁移方法。
本发明的目的是按以下方式实现的,包括如下内容 1)迁移学习方案先做如下定义在一个学习目标服务器规律的任务中,有一个源服务器的训练数据集i^ife^li=^--,^!^表示第》个样例,Λ表示它的类标签,稞是训练数据的个数,Bt中的样例服从一个固定的但未知的分布1%,还有少量的目标服务器的训练数据集服从另一个固定的但未知的分布Α,并用铽={(^_^)丨“1>-··.^}表示,示第i个样例,J^表示它的类标签,Ds和JJi中的每一个样例使用的类标签来自同一个类标签集合y,包括具有I个成员的有限集合,数据迁移的任务就是从^^中提取出有用的信息用在目标服务器知识学习的任务上,并且找到一个对目标服务器数据预测分类精度较高的映射函数 f.x^y ■2)把Uf分成不同的子集,每个子集里面的数据都是同一类,这些数据表示为J^…1 ,对于U,中的一个特定的子集Af, i是1 中的类标签,随机选取; 个样例,计算这些被选样例的平均值,这个平均值是一个合成数据,并作为用类标号《行记的样本,对于Ai的样例个数A用同样的方法生成A个合成样本,当所有的辑的子集都处理完,这样就生成了I个合成数据集,每一个瓦有凡个平均值作为它的成员,f作为每一个成员的类标签,当《趋于无穷大时,这些合成数据服从不同的多元正态分布,并且如果它们之间相互独立,同一类别的数据服从同一个多元正态分布,例如&的合成数据服从多元正态分布,平均值通=算得出协方差^^eiT1",式中的H是样例个数的维度,是一个非对角线协方差矩阵,通过2^=1^^1( -" -/^计算,得出^非对角线上的数据表示特征间的相关性,假设特征间是相互独立的,那么非对角线上的项都为0,忽略掉非对角线上的数据,只考虑对角线上的数据,对于从Uif和马中抽取的每一个子集的成员生成各自相应的合成数据,每个合成数据有两个值每一类数据中的均值和协方差矩阵,把以上生成合成数据的方法称为随机平均数法,对于所有的合成数据集,用表示平均值,IIJZ, · L· -5L.--SLr表示协方差;3)对数据集^做一些处理,使它具有与;^.相同的分布,对于一个有完整协方差矩阵的多元正态分布,概率密度函数如下所
权利要求
1.服务器智能管理中二维数据与管理策略迁移方法,其特征在于包括如下内容1)迁移学习方案,先做如下定义在一个学习目标服务器规律的任务中,有一个源服务器的训练数据集 ^ =4表示第i个样例,Λ表示它的类标签,砜是训练数据的个数,B,中的样例服从一个固定的但未知的分布1 ,还有少量的目标服务器的训练数据集服从另一个固定的但未知的分布A,并用i%=《fe_fe)|i=:i-JVJ表示知表示第i个样例,J^表示它的类标签,代和钱中的每一个样例使用的类标签来自同一个类标签集合y,包括具有I个成员的有限集合,数据迁移的任务就是从力,中提取出有用的信息用在目标服务器知识学习的任务上,并且找到一个对目标服务器数据预测分类精度较高的映射函数 f ny ;2)把辑分成不同的子集,每个子集里面的数据都是同一类,这些数据表示为1 .…1 ,对于Uf中的一个特定的子集Ue-, _·是1 中的类标签,随机选取》 个样例,计算这些被选样例的平均值,这个平均值是一个合成数据,并作为用类标号 标记的样本,对于疼的样例个数凡用同样的方法生成凡个合成样本,当所有的1 的子集都处理完,这样就生成了I个合成数据集互,一再,每一个瓦有Jtfi个平均值作为它的成员,f作为每一个成员的类标签,当《趋于无穷大时,这些合成数据服从不同的多元正态分布,并且如果它们之间相互独立,同一类别的数据服从同一个多元正态分布,例如^的合成数据服从多元正态分布,平均值通=计算得出协方差y eiT1·,式中的是样例个数的维度,是一个非对角线协方差矩阵,通过计算,得出^非对角线上的数据表示特征间的相关性,假设特征间是相互独立的,那么非对角线上的项都为0,忽略掉非对角线上的数据,只考虑对角线上的数据,对于从钱和钱中抽取的每一个子集的成员生成各自相应的合成数据,每个合成数据有两个值每一类数据中的均值和协方差矩阵,把以上生成合成数据的方法称为随机平均数法,对于所有的合成数据集,用Mn"',Ma^i-Msi表示平均值,IIJZ, .-Σ. - Σ-表示协方差3)对数据集!^做一些处理,使它具有与: .相同的分布,对于一个有完整协方差矩阵的多元正态分布,概率密度函数如下所示=-^~T72Γ* (ζ-ΑΟ) 其中I是一个η维的随机变量,如果特征相互独立,协方差矩阵会简化为一个对角矩阵,
2.根据权利要求1所述的方法,其特征在于为解决迁移学习中源服务器数据集与目标服务器数据集服从不同分布特征的问题,通过KNN均值法得到源服务器数据的均值 Γ和目标服务器数据的均值 Γ,通过公式
3.根据权利要求1所述的方法,其特征在于,将迁移方法用于数据迁移,实现同一时间段内多台服务器健康信息的数据横向迁移和同一服务器不同时间段内健康信息的数据纵向迁移。
4.根据权利要求1所述的方法,其特征在于通过模糊置信评价,将迁移方法用于知识迁移,实现服务器管理策略的迁移。
全文摘要
本发明提供一种服务器智能管理中二维数据与管理策略迁移方法,由于受时间、设备等因素影响,无法采集到服务器所有的健康信息,从而无法使用机器学习技术获取每台服务器的管理策略,为了解决上述问题,采用KNN(K最近邻)均值法分别计算源服务器健康信息和目标服务器健康信息对应项目的平均值,再对源服务器的数据进行处理,使它具有与目标服务器数据相同的分布特征,实现服务器健康信息的数据迁移,提高依据数据学习到知识的可靠性,同时可实现从源服务器到目标服务器管理知识的迁移。
文档编号G06F15/18GK102521204SQ201110372510
公开日2012年6月27日 申请日期2011年11月22日 优先权日2011年11月22日
发明者于治楼, 张云涛, 张化祥 申请人:浪潮电子信息产业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1