一种分布式系统网络资源运维管理可靠性提升方法与流程

文档序号:12600412阅读:317来源:国知局
一种分布式系统网络资源运维管理可靠性提升方法与流程

本发明涉及网络管理技术,特别地,涉及一种分布式系统网络资源的运维管理可靠性提升方法。



背景技术:

传统的分布式系统网络资源运维监控管理侧重于对网络性能与网络故障两方面进行管理。网络性能方面的管理主要针对于历史数据的分析,而网络故障方面的管理主要针对于网络元素的实时监控。网管系统可实现对网络元素和网络连接情况的监视,对各项性能数据的采集,对故障发出预警,生成供管理者参考的数据报表。但网络只是应用的基础,单纯地将网络为监控对象并不能提供太多有意的直观的数据。OSI(开放系统互联,Open System Interconnection)定义了网络管理五大功能:安全管理、性能管理、计费管理、配置管理和故障管理,目前网络运维监控系统的发展趋势是网络和系统的统一管理,把系统当作整体管理,网管的智能化,同时可开发面向业务应用的管理。

常见的分布式系统资源管理方案如图1所示,包括一些通过资源管理器与内部通信网络相连接的资源站点及一系列的计算节点。在内部通信方面被假定为与一些延误发生争议的跨站点通信。还假定一个消息可以从一个站点发送到另一个站点,在这个意义上,它们之间有一个通信路径,每个资源管理器在每个站点有权保持其资源的细节;在不同处理并行任务调度。调度程序可以互相沟通,分享和交换资源信息。每一个资源管理器都包括调度策略和经验,在同一地点的节点通过一个高带宽的网络全连接。其中的n个计算节点均包括多个共享缓存的核处理器,其分别完成任务的执行时间表征了其不同的计算处理能力。本地和全局的系统用户都被资源管理器产生并向其提交任务调度,所有的任务都首先经过资源管理器,每一个任务都是一个独立的单元,并假设任务可配置,即可以由用户提供使用任务分析模型或历史信息。

传统的分布式运维监控系统主要的不足之处包括:监控对象的管理结构单一,没有多级目录的划分,各监控和业务监按是相互独立的,没有关联关系。单一的列表结构,会加大管理员对监控对象的管理难度,一旦监测对象的数量达到一定程度,列表的展现方式看起来会很混乱,不易管理。相对独立的监控方式会加大排查问题的难度,如果没有关联关系,只能顺着产生异常的监测对象逐个排查故障,不能简单直观的对故障做出判定,从而导致定位问题和解决故障的时间会很长。此外还存在告警管理功能不够完善,不能实现对服务的远程诊断和管理等问题。针对现有技术中的上述问题,目前尚缺乏有效的解决方案。



技术实现要素:

有鉴于此,本发明提出一种分布式系统网络资源的运维管理可靠性提升方法,能够在面对难以预测的复杂场景下,能够既不提高计算复杂度,又能够自适应的在问题空间中找到最优解决方案。

基于上述目的,本发明提供的技术方案如下:

根据本发明的一个方面,提供了一种分布式网络系统资源的运维管理可靠性提升方法,包括:

根据资源的使用情况与深度神经网络的学习经验对接收到的任务进行映射;

根据所述深度神经网络的计算代价调整所述映射中任务权重的个数;

对所有任务均执行上述操作并更新所述深度神经网络的输出权重。

其中,根据资源的使用情况与深度神经网络的学习经验对接收到的任务进行映射包括:

对接收到的任务进行初步评估,获得调度策略与任务权重;

存储所述初步评估结果,并将所述初步评估结果输入深度神经网络进行实时反馈与学习强化。

并且,根据所述深度神经网络的计算代价调整所述映射中任务权重的个数包括:

确定所述初步评估结果输入深度神经网络进行实时反馈与学习强化的计算代价;

根据所述计算代价与实际可接受的学习时间调整所述映射中任务权重的个数。

其中,根据所述深度神经网络的计算代价调整所述映射中任务权重的个数之后,还执行如下步骤:

根据调整后的任务权重重新确定所述资源的使用情况;

对处理后的任务进行监控与统计。

并且,所述对处理后的任务进行监控与统计的内容包括输入分析、迭代更新与存储反馈。

其中,对所有任务均执行上述操作并更新所述深度神经网络的输出权重之后,还执行如下步骤:

根据更新后的输出权重优化调度策略;

根据所述调度策略运维管理分布式系统。

其中,当分布式网络系统加入扩展的异构设备时,还加入与所述扩展的异构设备相匹配的自适应配置。

上述深度神经网络具有至少三个不同层次的深度,且所述深度神经网络在每个层次上都是全映射网络。

上述分布式网络系统的所有节点之间采用统一的协议进行通信。

从上面所述可以看出,本发明提供的技术方案通过根据资源的使用情况与深度神经网络的学习经验对接收到的任务进行映射、根据所述深度神经网络的计算代价调整所述映射中任务权重的个数、对所有任务均执行上述操作并更新所述深度神经网络的输出权重的技术手段,能够在面对难以预测的复杂场景下,能够既不提高计算复杂度,又能够自适应的在问题空间中找到最优解决方案。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为根据本发明实施例的一种分布式系统网络资源的运维管理可靠性提升方法的流程图;

图2为使用根据本发明实施例的一种分布式系统网络资源的运维管理可靠性提升方法的系统的结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进一步进行清楚、完整、详细地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。

根据本发明的实施例,提供了一种分布式系统网络资源的运维管理可靠性提升方法。

如图1所示,根据本发明的实施例的提供了一种分布式网络系统资源的运维管理可靠性提升方法包括:

步骤S101,根据资源的使用情况与深度神经网络的学习经验对接收到的任务进行映射;

步骤S103,根据所述深度神经网络的计算代价调整所述映射中任务权重的个数;

步骤S105,对所有任务均执行上述操作并更新所述深度神经网络的输出权重。

其中,根据资源的使用情况与深度神经网络的学习经验对接收到的任务进行映射包括:

对接收到的任务进行初步评估,获得调度策略与任务权重;

存储所述初步评估结果,并将所述初步评估结果输入深度神经网络进行实时反馈与学习强化。

并且,根据所述深度神经网络的计算代价调整所述映射中任务权重的个数包括:

确定所述初步评估结果输入深度神经网络进行实时反馈与学习强化的计算代价;

根据所述计算代价与实际可接受的学习时间调整所述映射中任务权重的个数。

其中,根据所述深度神经网络的计算代价调整所述映射中任务权重的个数之后,还执行如下步骤:

根据调整后的任务权重重新确定所述资源的使用情况;

对处理后的任务进行监控与统计。

并且,所述对处理后的任务进行监控与统计的内容包括输入分析、迭代更新与存储反馈。

其中,对所有任务均执行上述操作并更新所述深度神经网络的输出权重之后,还执行如下步骤:

根据更新后的输出权重优化调度策略;

根据所述调度策略运维管理分布式系统。

其中,当分布式网络系统加入扩展的异构设备时,还加入与所述扩展的异构设备相匹配的自适应配置。

上述深度神经网络具有至少三个不同层次的深度,且所述深度神经网络在每个层次上都是全映射网络。

上述分布式网络系统的所有节点之间采用统一的协议进行通信。

下面根据具体实施例进一步阐述本发明的技术方案。

分布式运维监控系统中,本地和全局的系统用户都被资源管理器产生并向其提交任务调度,所有的任务都通过资源管理器进行调度程序。由于分布式系统的异构性和动态特性,资源管理器发出的调度决策的有效性很难判定。

本发明实施例提出一种通过深度神经网络进行迭代判断调度决策的有效性估计方法,对全局的资源运维管理起到优化效果。其主要方法为,将深度神经网络作为与资源管理器的管理接口,资源任务之间的每一个连接都有一个权重参数,用于最决策将哪个任务映射到哪个资源,其权重值是根据资源可用性来执行计算任务的实时需求得到的。在学习过程中,资源的权重值是定期更新和传播的。具体而言,资源中的任务状态作为输入层被输入,权重值经过隐含层不断更新和学习,最终输出层确定最合适的资源权重,输出调度决策。

如图2所示,这种架构通过一个训练迭代更新的深度神经网络参数与分布式系统的通信,来控制所有资源管理器的任务管理及内部通信过程;每一个任务的权重对应深度神经网络中的一个权重,并对相应的任务进行监控和统计;且所有节点之间采用统一的协议进行通信。这种方法可以部分克服原有管理系统架构的非异构和非动态问题,且具有精度高和可延展性,提高了资源管理效能。

首先,根据资源状态的可用性和学习经验进行资源任务的映射,将评估的初步结果作为深度神经网络的输入层,并在系统中以表的形式存储这些变化的权重参数,并存储所有的调度策略,为了确定决策分配并提供更好的性能,需要进行实时反馈与学习强化,其所有输入输出数据也同时被保存。

由于深度神经网络最少需要三层,且网络内部为全映射,因此其中的参数规模相比于传统方法以指数级增长,需要很多的计算代价进行处理和存储。本文将权重个数控制在一定范围内,这样既可以增加权重对资源任务的影响和调度,同时也可以加快学习过程。此外还需要对所有处理后的任务进行监控统计,便于在故障时进行回溯分析。

最后,当资源管理器接收到其他任务时,都执行相同的操作,包括输入分析、迭代更新、存储反馈等,这样的方式可以对资源管理器的调度决策不断进行优化,并存储深度神经网络在学习过程中产生的经验(以多个权重为参数)。

如果网络中经常需要加入异构设备,常用方法是改变整个分布式网络系统的层次设计。一般采用在网络系统设计初期通过加入自适应配置功能来实现可扩展。

综上所述,借助于本发明的上述技术方案,通过根据资源的使用情况与深度神经网络的学习经验对接收到的任务进行映射、根据所述深度神经网络的计算代价调整所述映射中任务权重的个数、对所有任务均执行上述操作并更新所述深度神经网络的输出权重的技术手段,能够在面对难以预测的复杂场景下,能够既不提高计算复杂度,又能够自适应的在问题空间中找到最优解决方案,同时在此过程中,对性能和相应速度等指标的波动具有快速处理能力。与现有分布式运维监控系统相比,本发明提出通过深度神经网络进行迭代判断调度决策,使得资源管理器发出的调度决策的有效性可以被估计;同时,本专利提出将深度神经网络作为与资源管理器的管理接口,对全局的资源运维管理起到更好的优化效果。

所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1