一种企业信息化系统自愈调度方法与流程

文档序号:11774270阅读:552来源:国知局

本发明涉及软件系统出现任务冲突、错误时,软件自身进行自愈修复处理的方法领域,尤其涉及企业信息化系统的自愈修复处理方法领域,具体的说,是一种企业信息化系统自愈调度方法。



背景技术:

概念:自愈调度是通过软件系统自身的内置模块,在系统部分功能失效、出错、卡滞、崩溃的情况下,通过内置的自愈调度合理的分配资源,以实现在避免或者减少认为干预的情况下进行自主的改变运行方式,达到不影响系统任务正常工作的目的;是一种具有自保护、自修复、自配置、自优化能力的计算机系统调度分配方法。

企业信息化系统,一般来说传统意义上的企业信息化系统应该包括两部分,一部分是oa,办公类的。另一部分为业务系统包括erp,hr,crm等等。伴随企业信息化建设进程的逐渐深入,业务数据的逐渐积累,另一类企业信息系统--辅助决策系统的需求也随之而来。

随着软件系统的规模扩大和复杂性提高,计算机系统的错误所引起的重大损失已经越来越常见,使得对软件可靠性和可用性提出了更高的要求对系统的宕机时间和软件无错误运行都有严格的要求标准。然而,这些要求难以通过设计来得到保证,在高复杂性的系统里更是如此。理想的计算机系统是人们完全可依赖的、而且从来没有错误,但是在现实中这是不可能的。因此,对可容错的计算机系统的研究越来越受到青睐。

软件可靠性是软件系统可靠性的重要组成部分。由于企业信息化系统基本上都是软件系统。因此,对软件可靠性和可用性的要求越来越高,对系统的宕机时间和软件无错误运行都有严格的标准。在很多情况下,软件的错误会造成巨大的经济损失,甚至会威胁到人的生命。尽管现在已经使用了现有的最好的软件发展技术,由软件故障所导致的系统错误的例子依然大量出现。因此,研究企业信息化系统软件的自愈技术,显得尤为迫切。

企业信息化系统的异构性、复杂性和使用环境的不断恶化不可避免地导致了系统失效、使命偏离甚至中断运行、崩溃死机等现象发生,从而造成重大的经济损失甚至是人员伤亡等严重后果。这使得人工完成其管理和维护、不间断地保持其正常运转变得越来越困难,即使号称可用性达到的计算机系统,其年平均停机时间也将达到8至80个小时,这对于追求使命连续性的企业信息化系统来说是不能容忍的。传统的可靠性理论和容错计算技术面对这种随时可能出现的随机事件显得恢复手段过于笨拙,难以满足实际应用的需要,因此需一种自动而灵活、细粒度的恢复方法来解决上述这些问题。自律计算的提出使传统恢复技术的研究在概念和设计理念上发生质的变化。自律计算的目的在于通过系统的自主管理,在减少人为干预的条件下实现系统的自修复、自配置、自保护和自优化,而自愈调控技术的研究目的就是将自律计算模式与细粒度恢复技术相结合,通过合理的设计使系统具有在规定的条件下和规定的时间内合理调控现有恢复手段,完成自我保持和恢复其规定状态的能力。

企业信息化系统规模与复杂性的增长导致系统功能与结构极为复杂,即便是有经验的系统管理员都很难完全掌握系统内部运行状态,这就要求系统能够检测并分析当前运行状态,通过合理的机制进行决策,最终调度各种恢复手段自行恢复。秉承自律计算的设计理念,同时借鉴生物系统自愈机制,提出企业信息化系统自愈调控技术,通过在系统自愈技术设计与实现中添加必要的调控手段,最终实现自愈过程的可控可靠性,由简单的“一触即发”自愈模式转变为具有完整反馈流程的高效、可靠的自愈模式。

中国发明专利申请,申请号201510926572.7,申请公布号cn105550056a公开了一种基于系统重构的故障自愈方法,所应用的计算机系统在硬件上由多个功能模块和备份模块组成,在软件上包括故障管理、配置管理、系统蓝图等模块组成,其步骤依次为系统启动、配置加载、故障检测、故障记录、故障滤波、策略选择、配置更新、系统关闭。系统蓝图系统故障自愈的关键设计。它包括多个系统运行的配置项,每个配置项都描述了计算机系统的软件、硬件、网络等各种配置,计算机系统能够按照配置项的描述运行;这些配置项还包括对所有故障处理策略的描述。备份模块是系统自愈的必要条件,它能够在系统中某个模块发生不可恢复故障时,代替该模块的工作。具有自愈策略简单、自愈过程可控、自愈结果确定的优点。



技术实现要素:

本发明的目的在于提供一种企业信息化系统自愈调度方法,用于解决现有的企业信息化系统在出现任务失效,出现卡滞,崩溃时,引起的系统部分或者整体瘫痪无法正常工作使用的问题。

本发明能够在人工不进行干预和操作的情况下,利用系统本身的自愈调控总体架构及不同层次的模块设计,通过对失效的故障任务进行及时、合理的调度,利用避开故障局部区域,调度正常工作区域进行处理失效故障任务的方法实现系统在出现部分或者区域性、模块化失效时依然能够正常的使用,避免了因系统瘫痪带来的不便和损失。本发明与现有的自愈性调控类方法相比,具有更强的数据处理能力、更快的响应能力和任务执行能力。根据本发明所述总的发明构思,不但能够解决现有的企业信息化系统自愈调控,同时,更重要的是还能够通过调控数据反应系统设计框架中的壁垒和薄弱环节,为系统适应不同任务和多种处理方式,甚至不同系统之间的操作协同和数据共享提供科学的设计依据,无论是对于已知成型的系统,还是对于一个测试阶段的新系统,都具有增强系统的自我感知、对环境的自适应和分析、决策和执行所需的基本智能调控作用。

本发明通过下述技术方案实现:

一种企业信息化系统自愈调度方法,用于解决现有企业信息化系统在不进行人工干预的前提下实现系统的自修复、自配置、自保护和自优化,维持系统的正常运行,包括具有与目标系统集群匹配的监控模块和调度模块,以及用于隔离故障任务的多个可恢复子集群的调度系统;

所述监控模块实时监测并记录目标系统任何一个或者多个子集群中正在进行的任务状态并将监测数据进行实时记录,当监测到任务未正常运行时,监控模块将故障任务数据发送至调度模块,触发调度模块将故障任务调度分配至其他未执行任务的子集群中进行处理;

当所述故障任务数量大于可调配的空闲可用子集群数量时,调度模块根据所述监控模块记录的故障任务时间进行先后排序,并将未能分配的故障任务存放至可恢复子集群中。

优选地,所述监控模块检测数据包括任务在正常运行阶段、失效形成阶段和失效截止阶段过程中任务的解析过程实时数据。

优选地,所述监控模块对每一个被监测的任务分配一个独有的用于区分任务类别的标签,所述标签包括被监测任务按照时间顺序分别所处的子集群,被调度的次数,任务运行时间以及在可恢复子集群中排队的时间。

优选地,所述监控模块记录的故障任务时间进行先后排序,所述排序遵循两个优先原则进行:

第一优先原则是优先列队原则,将所有故障任务按照监控模块监测任务状态标记为故障的时刻作为排序的第一排序依据;

第二优先原则是优先调度原则,所述监控模块将所有对应期间内处于空闲状态的子集群按照所述标签类别进行依次排序,当故障任务处于排队调度时,优先调度至与故障任务所处的上一个子集群类别相同的子集群中。

优选地,所述监控模块包括标签信息统计单元,所述标签信息统计单元根据所有故障任务对应标签内容统计生成故障任务调度数据包,并依据数据包拟合出正常、拥堵、卡滞三条调度通道并将所述调度通道信息发送至调度模块,获得最佳自愈调度方案。

优选地,所述的自愈调度方案的获取步骤具体包括:

s100通过所述调度数据包分别获得所述正常、拥堵、卡滞三条调度通道中被调度故障任务的标签类型和对应处理故障任务的子集群类型;

s200获得任务类型与子集群类型的最佳匹配组合方式;

s300所述调度模块对被调度故障任务类型进行识别,并按照所述第二优先原则的排序顺序进行搜寻当期处于空闲状态步骤s200中所述的最佳匹配组合子集群,当获得匹配空闲子集群信息后完成调度;当未搜寻到匹配空闲子集群信息则将作轮空处理,并将该故障任务调度至所述可恢复子集群中等待,直到匹配类型子集群出现至少一个空闲,则完成调度;所述故障任务在可恢复子集群中等待列队的同时,调度模块按照步骤s100-s200的方式调度下一故障任务。

优选地,所述步骤s300中调度故障任务顺序按照“正常调度通道→拥堵调度通道→卡滞调度通道”的先后顺序进行依次调度。

优选地,还包括对故障任务发生概率的预测步骤,具体包括:

y100所述标签信息统计单元模拟预设不同任务类型与子集群组合的处理速率值,并按照速率值由大到小划分为三挡,分别为正常、拥堵和卡滞;

y200所述监控模块检测的任意一个任务在对应子集群中处理速率逼近所处速率挡边缘时,触发调度模块在整个企业信息化系统中搜寻比任务当期所处挡更高一级挡级中的子集群匹配类型并确定当期空闲子集群。

本发明与现有技术相比,具有以下优点及有益效果:

(1)本发明能够在人工不进行干预和操作的情况下,利用系统本身的自愈调控总体架构及不同层次的模块设计,通过对失效的故障任务进行及时、合理的调度,利用避开故障局部区域,调度正常工作区域进行处理失效故障任务的方法实现系统在出现部分或者区域性、模块化失效时依然能够正常的使用,避免了因系统瘫痪带来的不便和损失。

(2)本发明与现有的自愈性调控类方法相比,具有更强的数据处理能力、更快的响应能力和任务执行能力。

(3)本发明能够解决现有的企业信息化系统自愈调控,同时,更重要的是还能够通过调控数据反应系统设计框架中的壁垒和薄弱环节,为系统适应不同任务和多种处理方式,甚至不同系统之间的操作协同和数据共享提供科学的设计依据,无论是对于已知成型的系统,还是对于一个测试阶段的新系统,都具有增强系统的自我感知、对环境的自适应和分析、决策和执行所需的基本智能调控作用。

具体实施方式

下面结合本发明的优选实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。

实施例1:

本实施例就结合现在最为普遍,企业应用最为广泛,功能最为全面的系统之一的oa系统进行详细说明。

oa系统,即办公自动化系统(officeautomationsystem)是面向组织的日常运作和管理,员工及管理者使用频率最高的应用系统,自1985年国内召开第一次办公自动化规划会议以来,oa在应用内容的深度与广度、it技术运用等方面都有了新的变化和发展,并成为组织不可缺的核心应用系统。主要推行一种无纸化办公模式。

现有的oa系统均包含但不限于公文管理、办公管理、行政管理、信息管理、文档管理和协同工作管理,每个管理模块之间存在多种协同性逻辑关系,不同管理之间存在多种任务处理和调配,例如:公文管理模块中最简单的发文流程就会经过至少提交→审核→会签→审批结束。在所述的“审核→会签→审批”流程均会涉及到退回、同意、修改的可能性,则整个流程的进行具备逻辑关系,流程运转过程中的任意一步出现的卡滞或者失效的状态,则整个任务流程就无法继续进行。值得强调的是:此处所述的卡滞或者失效是由于oa系统本身出现故障或者冲突导致的,并非指对应流程的操作人员未及时进行处理导致的流程暂停。

本实施例中,在具备公文管理模块的oa办公系统中,其中一个具体的发文流程具体分为四步:

第一步为流程提交者草拟文档并提交审批;

第二步为审批人审阅并批注审批意见;所述审批人的权限包括四种选择:否决、退文、通过和传阅;

第三步为审批人通过审阅后进入会签流程;由会签参与者相互审阅并会签,会签结论有四种情况:否决、退文、通过、传阅;

第四步为审批结束,当会签参与者结论为通过时,则完成整个发文流程。本实施例中,当流程提交者进行了第一步,并成功将流程提交到审批人的审批流程;此时,由于该发文流程在第二步审批人审阅过程中出现卡滞现象,导致发文流程在审批人环节无法进行否决、退文、通过、传阅等操作,甚至无法查看相关的审批截面,该发文审批流程则出现失效,oa系统在不进行人工干预的前提下通过本发明实现系统的自修复、自配置、自保护和自优化,维持系统的正常运行,具体地包括具有与所述oa系统集群匹配的监控模块和调度模块,以及用于隔离故障任务的多个可恢复子集群的调度系统;

所述监控模块实时监测并记录oa系统任何一个或者多个子集群中正在进行的任务状态并将监测数据进行实时记录,当监测到所述发文流程任务未正常运行时,监控模块将故障发文流程任务数据发送至调度模块,触发调度模块将故发文流程障任务调度分配至其他未执行任务的子集群中进行处理;实现所述发文流程的正常运行,不会影响到审批人对该发文流程的审批工作造成任何的影响和不便。实现了oa系统的自愈调度和调控,避免了因oa系统自身的故障造成的流程流转无法正常运行的问题。

实施例2:

在实施例1的基础上当所述故障任务数量大于可调配的空闲可用子集群数量时,调度模块根据所述监控模块记录的故障任务时间进行先后排序,并将未能分配的故障任务存放至可恢复子集群中。例如,同时有两个或者两个以上的人提交了发文流程,且均出现了卡滞,但是当期能够用于调度的空闲可用子集群数量只有一个的情况,即无法将故障或者失效的发文流程均调到到其他可用的空闲子集群中进行处理。将无法进行及时分配的任务放至可恢复子集群中进行暂存,以等待可执行处于等待状态的故障发文流程任务的子集群将上一个任务处理完毕,进行依次处理。这样设置的好处在于,无论子集群的数量与当期需要处理的故障任务是否匹配,都能将故障任务通过调度的方式进行处理,始终保证oa系统正常运行,无需人工加以干预就能够自动化正常运行,只是当可用子集群的数量明显小于故障任务数量时,正常处理故障任务的时间周期会明显延长;但不影响故障的正常处理,避免了现有系统出现卡滞后,故障任务无法进行调度调配,导致oa系统的部分功能丧失或者瘫痪。

本实施例中,所述监控模块检测数据包括发文流程任务在正常运行阶段、失效形成阶段和失效截止阶段过程中任务的解析过程实时数据。

本实施例中,所述监控模块对每一个被监测的任务分配一个独有的用于区分任务类别的标签,所述标签包括被监测任务按照时间顺序分别所处的子集群,被调度的次数,任务运行时间以及在可恢复子集群中排队的时间。

实施例3:

在实施例2的基础上,本实施例中,所述监控模块记录的故障任务时间进行先后排序,所述排序遵循两个优先原则进行:

第一优先原则是优先列队原则,将所有故障任务按照监控模块监测任务状态标记为故障的时刻作为排序的第一排序依据;

第二优先原则是优先调度原则,所述监控模块将所有对应期间内处于空闲状态的子集群按照所述标签类别进行依次排序,当故障任务处于排队调度时,优先调度至与故障任务所处的上一个子集群类别相同的子集群中。

本实施例中,所述oa系统存在类型标记为00的a任务、类型标记为11的b任务、类型标记为22的c任务;按照第一优先原则的排序分别为时间先后,即a→b→c当期处于空闲的子集群有四个,且分别对应子集群的类型为00的一个zz,类型为11的两个nn,类型为22的一个kk,由于按照第一优先排序原则故障任务a为第一个调度的故障任务,且与故障任务a类型一致的只有一个子集群zz,则按照第二优先原则,调度模块则将类型为00的故障任务a调度至类型为00的子集群zz中;故障任务b可选调用的子集群还具有三个可以调度,即子集群nn两个和kk一个,由于子集群kk的类型为22,与故障任务b不匹配,因此,按照第二优先原则,则将故障任务b调度至任意一个与故障任务b类型一致的11类型的子集群nn中。

本实施例中,所述监控模块包括标签信息统计单元,所述标签信息统计单元根据所有故障任务对应标签内容统计生成故障任务调度数据包,并依据数据包拟合出正常、拥堵、卡滞三条调度通道并将所述调度通道信息发送至调度模块,获得最佳自愈调度方案。

本实施例中,所述的自愈调度方案的获取步骤具体包括:

s100通过所述调度数据包分别获得所述正常、拥堵、卡滞三条调度通道中被调度故障任务的标签类型和对应处理故障任务的子集群类型;

s200获得任务类型与子集群类型的最佳匹配组合方式;

s300所述调度模块对被调度故障任务类型进行识别,并按照所述第二优先原则的排序顺序进行搜寻当期处于空闲状态步骤s200中所述的最佳匹配组合子集群,当获得匹配空闲子集群信息后完成调度;当未搜寻到匹配空闲子集群信息则将作轮空处理,并将该故障任务调度至所述可恢复子集群中等待,直到匹配类型子集群出现至少一个空闲,则完成调度;所述故障任务在可恢复子集群中等待列队的同时,调度模块按照步骤s100-s200的方式调度下一故障任务。

本实施例中,所述所述步骤s300中调度故障任务顺序按照“正常调度通道→拥堵调度通道→卡滞调度通道”的先后顺序进行依次调度。

本实施例中,还包括对故障任务发生概率的预测步骤,具体包括:

y100所述标签信息统计单元模拟预设不同任务类型与子集群组合的处理速率值,并按照速率值由大到小划分为三挡,分别为正常、拥堵和卡滞;

y200所述监控模块检测的任意一个任务在对应子集群中处理速率逼近所处速率挡边缘时,触发调度模块在整个企业信息化系统中搜寻比任务当期所处挡更高一级挡级中的子集群匹配类型并确定当期空闲子集群。

以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1