一种混合分布式工作负载在时空干扰下的性能预测方法与流程

文档序号:37595171发布日期:2024-04-18 12:31阅读:5来源:国知局
一种混合分布式工作负载在时空干扰下的性能预测方法与流程

本发明属于大数据和云计算,具体的说是一种混合分布式工作负载在时空干扰下的性能预测方法。


背景技术:

1、现代云计算平台通常由数千台服务器和数百万个复杂的工作负载组成,在云环境中每天都运行着具有不同特征的服务和应用程序,而这些应用程序每天都处理着海量的数据并服务于数十亿的用户请求,因此,为了支撑如此大规模的用户需求,云服务提供商通常采用扩大服务器规模的方式,以提供充足的资源来保障云应用的服务质量。在大规模数据中心的建设下,服务器的实际使用效率其实并不高,研究表明,大多数数据中心的服务器利用率相对较低,目前平均利用率在10%到50%之间。然而,经过商业验证表明,将工作负载混合部署运行是提高资源利用率的有效方式,这在一定程度上可以增加云数据中心服务器的实际使用效率。

2、在现有的云环境中,通常将混合运行的云工作负载分为两类:延迟关键型(latency critical type,lc)的在线服务和尽力而为(best effort,be)的离线任务。前一种类型的工作负载往往需要在运行时保持一定的资源,甚至预留该资源以响应请求峰值,并且它们需要满足规定服务质量的约束;而后一种类型的工作负载则是需要相对确定的任务完成时间,并尽可能地达到更高的吞吐量,以充分利用系统资源。但是,由于混合工作负载资源竞争的影响,lc和be类型的工作负载的资源分配对于混合场景来说是一项巨大的挑战。因此,如何部署云数据中心的混合工作负载成为了云计算领域的一项重要挑战。

3、如申请公开号为cn114286984a的中国专利公开了工作负载性能预测,其特征是,针对多个工作负载中的每一个,在第一硬件平台上执行工作负载期间收集的执行性能信息内的时间间隔与在第二硬件平台上执行工作负载期间收集的执行性能信息内的对应时间间隔相关;针对工作负载,第二硬件平台上的执行性能信息内的时间间隔与在其期间执行工作负载的相同部分的第一硬件平台上的执行性能信息内的时间间隔相关;训练机器学习模型,所述机器学习模型输出相对于在第一硬件平台上的已知性能的在第二硬件平台上的预测性能;根据硬件平台上的每个工作负载的执行性能信息内的相关时间间隔来训练模型。

4、如授权公告号为cn105512264b的中国专利公开了分布式数据库中并发工作负载的性能预测方法,本发明包括:查询延时l的度量值选择;查询组合并发情况下的相互作用建立线性回归模型;实验论证线性回归模型的正确性和有效性。通过反复实验证明查询延时,网络延时和i/o块读次数总的平均相对误差分别为14%,30%和37%,从实验结果可以看出提出的线性回归模型可以很好的对分布式数据库进行并发工作负责的性能预测,从而便于数据库后续的任务分配,可以缩短查询的平均等待时间。

5、以上现有技术均存在以下问题:1)只适用于重复性的工作负载,要为云环境中新到来的工作负载重新配置;2)仅限于单节点的场景。


技术实现思路

1、针对现有技术的不足,本发明提出了一种混合分布式工作负载在时空干扰下的性能预测方法,其特征在于,通过考虑混合分布式工作负载的资源特征、位置感知干扰和运行阶段感知干扰,建立一个准确的、低开销的在线性能预测模型,进一步提高混合分布式工作负载运行时性能的确定性。

2、为实现上述目的,本发明提供如下技术方案:

3、一种混合分布式工作负载在时空干扰下的性能预测方法,包括:

4、步骤s1:采集工作负载单独运行时的性能特征指标,进行性能特征分析;

5、步骤s2:根据性能特征指标计算容器指标向量和应用指标向量;

6、步骤s3:对容器指标向量和应用指标向量进行增量分析,并根据增量后的指标向量构建性能预测模型;

7、步骤s4:使用随机森林回归算法训练性能预测模型,选择在线性能预测器对随机森林回归预测模型进行预测,计算平均性能预测误差,并输出负载性能下降结果。

8、具体的,所述步骤s1中性能特征指标包括:lc服务的ipc值和be任务的作业完成时间。

9、具体的,所述步骤s1的具体步骤包括:

10、步骤s101:选取应用层、系统层和微架构层的指标信息;

11、步骤s102:采用皮尔森相关系数和斯皮尔曼相关系数,评估工作负载的目标性能与其它性能指标之间的相关性,筛选与目标性能相关度高的指标;

12、步骤s103:筛选出与目标性能相关度高的指标信息;

13、步骤s104:聚合相关度高的指标信息细粒度的测量值。

14、具体的,所述步骤s2中容器指标向量和应用指标向量的具体公式为:

15、

16、

17、其中,aij和bik分别表示第i台服务器上的工作负载a的第j个容器和b的第k个容器,和分别表示第i台服务器上工作负载a的第j个容器指标向量和工作负载b的第k个容器指标向量,和分别表示工作负载a和b在第i台服务器上的应用指标向量。

18、具体的,所述步骤s3的具体步骤包括:

19、步骤s301:定义一个与容器指标向量具有相同的维度的零指标向量;

20、步骤s302:计算增量后的容器指标向量和应用指标向量,具体公式为:

21、

22、

23、其中,和分别表示工作负载a和b分别增加(s-j)和(s-k)个零指标向量后的应用指标向量;

24、步骤s303:细化增量后的容器指标向量;

25、步骤s304:根据增量的应用指标向量和细化增量的容器指标向量构建性能预测模型。

26、具体的,所述步骤s303的具体步骤包括:

27、步骤s3031:工作负载a和b进行混部运行时,判断工作负载a在第i台服务器上的第β个容器与同一台服务器上的工作负载b的第δ个容器是否产生干扰;

28、步骤s3032:若产生干扰,将工作负载a和b的容器指标向量组成一对,构成一个新的指标向量1≤β≤j,1≤δ≤k;

29、步骤s3033:将其它未受干扰的容器的非零指标向量与零指标向量匹配,构成新的指标向量1≤θ≤j,θ≠β;

30、步骤s3034:将工作负载a剩余的(s-j)个零指标向量分别与工作负载b的剩余指标向量进行配对。

31、具体的,所述步骤s304中性能预测模型的具体公式为:

32、

33、其中,pavsb表示在权利要求6所述环境下工作负载a和b在混合运行时相比各自单独运行时的下降所构成的性能下降对,qpsa和qpsb分别表示工作负载a和b的请求输入负载,tinter表示工作负载a和b之间的启动时间间隔,ta和tb分别表示工作负载a和b在无干扰的情况下单独运行所需的完成时间,表示工作负载b在第i台服务器上的容器之一,表示工作负载b在第i台服务器上的其中一个容器指标向量。

34、具体的,所述步骤s4中随机森林回归算法的具体步骤包括:

35、步骤s401:导入所需的库和指标向量数据集;

36、步骤s402:初始化随机森林回归器对象,并将数据集分为训练集和测试集;

37、步骤s403:使用训练集训练随机森林回归器,使用测试集评估随机森林回归器的性能;

38、步骤s404:使用随机森林回归器进行预测。

39、具体的,所述步骤s4中平均性能预测误差的公式为:

40、

41、

42、其中,mse表示误差,msei表示第i个样本的mse值,mseavg表示平均误差,n是样本数量。

43、具体的,一种混合分布式工作负载在时空干扰下的性能预测方法,包括:数据收集模块、特征分析模块、增量分析模块、模型训练模块、性能预测模块,

44、所述数据收集模块,用于收集负载单独运行时的统计指标,包括cpu核心、内存、网络带宽、磁盘读写、末级缓存未命中率,以及与分支相关的事件;

45、所述特征分析模块,用于根据工作负载的特征,对工作负载进行分类和标识,从性能数据中提取与工作负载性能密切相关的关键特征;

46、所述增量分析模块,用于对数据进行逐点或逐段分析,以获得对混合分布式工作负载在时空干扰下的性能变化趋势和规律;

47、所述模型训练模块,采用机器学习算法,根据历史性能数据训练性能预测模型;

48、所述性能预测模块,利用已经训练好的模型,根据输入的特征数据,预测工作负载性能。

49、与现有技术相比,本发明的有益效果是:

50、1.本发明提出一种混合分布式工作负载在时空干扰下的性能预测方法,并进行了架构、运行步骤和流程上的优化改进,系统具备流程简单,投资运行费用低廉,生产工作成本低的优点,进一步提高混合分布式工作负载运行时性能的确定性。

51、2.本发明提出一种混合分布式工作负载在时空干扰下的性能预测方法,从应用领域、资源密集型和响应时间这三个方面选择了典型的云工作负载进行分析,描述了现有云环境场景下工作负载的资源特征,通过提出位置感知干扰和运行阶段感知干扰的概念,考虑分布式工作负载混合运行时所产生的时空干扰特性,充分地捕获混合工作负载干扰的本质,准确地预测跨多个服务器的分布式工作负载由于共享资源竞争而导致的性能下降。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1