一种资源服务优化配置容错管理实现系统的制作方法

文档序号:7860185阅读:205来源:国知局
专利名称:一种资源服务优化配置容错管理实现系统的制作方法
技术领域
本发明属于分布式制造信息集成系统容错管理技术领域。具体涉及一种资源服务优化配置容错管理实现系统,其为一种面向服务制造系统的资源服务优化配置容错管理实现框架,以及相应的故障检测和基于ECA的消解机制与方法。该发明能有效检测到服务制造系统资源服务优化配置过程中的常见故障,并对其提供相应的良好的消解策略,有效提高服务制造系统资源服务优化配置的可靠性和服务质量。
背景技术
服务制造系统(如云制造(CMfg)系统、制造服务系统、制造网格系统等)制造资源服务优化配置实现过程中涉及到的操作,包括资源服务搜索与匹配、QoS评估、QoS提取、资源服务优选、资源服务组合等,可能因为某些原因而失败,从而导致整个优化配置失败或失效。其可能原因主要有①服务制造系统中两个节点间的虚拟连接断开或带宽能力突然下降,无法满足要求;②被调用的资源服务在执行过程中出现故障或发生状态改变,如突然被关闭或退出、资源服务组合失效、资源服务能力突然下降、过载等;③已提交的或正运行的任务发生状态改变,如被管理员或用户强行退出、需求提高、被挂起、无效的资源服务分配等;④在应用过程中出现问题,如交易双方信任不足、错误的访问权限、不合理或不正确的代码设计等。以上现象在本发明中统称为故障。一旦出现以上情况,资源服务优化配置(RSOA)将会被暂停或失效。因此,为了提高RSOA的可靠性和服务质量,必须解决以下几个问题①RSOA过程中可能出现哪些故障?②如何检测出现的故障?③如何分析检测到的故障并 进行恢复处理?针对以上问题,在CMfg等服务制造领域内目前还没有相关研究。为解决以上问题,实现RSOA过程中的容错管理,提高RSOA的可靠性和服务质量,本发明首先分析RSOA过程中可能出现的故障并进行分类,在此基础上研究RSOA容错管理实现机制,并研究相应的故障检测方法与消解策略。

发明内容
本发明的目的为本发明涉及的资源服务优化配置容错管理实现机制,能够有效检测到服务制造系统RSOA过程中产生的常见故障,并针对各种故障提供相应的良好的消解策略及方法。有效提高服务制造系统资源服务优化配置的可靠性和服务质量。本发明采用的技术方案为一种资源服务优化配置(RSOA)容错管理实现系统,该系统包括信息服务模块、资源服务优化配置模块、故障检测模块和故障恢复模块;所述的信息服务模块主要为故障检测、故障恢复、资源服务优化配置提供信息和数据支持;所述的资源服务优化配置模块主要实现资源服务搜索、服务质量(QoS)评估、资源服务优选、资源服务组合等功能操作;所述的故障检测模块负责监控服务制造系统中各节点及其所运行的任务和资源的状态,随时监控并进行状态分析;对正常或异常退出的实例的历史数据进行分析和统计,做出决策并通知故障恢复模块对所检测到的故障进行处理;所述的故障恢复模块,即综合多种容错机制的基于ECA(Event-Condition-Action)的资源服务优化配置故障消解模块,主要包括事件检测器(Event Detector)、条件评估器(Condition Detector)、动作执行器(Action Executor)、规则推理引擎(Rule Engine)、ECA规则库(ECA Rules)、ECA规则管理器(ECA Rulemanager)部分。
其中,所述的故障检测模块中故障检测包括虚拟连接(VL)相关的故障检测、资源服务(RS)相关的故障检测、任务(Task)相关的故障检测、应用相关的故障检测;虚拟连接相关的故障检测,主要包括虚拟连接故障(VL_Disconnect_Failure)检测和带宽不足故障(Bandwidth_Failure)检测;虚拟连接故障(VL_Disconnect_Failure)通常可以通过系统安全策略或嵌入在服务制造系统中的中间件检测到;两个实体间是否因带宽而产生故障采用通信时间和成功通信率或可靠性两个指标来判断;资源服务相关的故障检测,主要是资源服务退出故障(RS_Quit_Failure)检测、资源服务过载故障(RS_0verload_Failure)检测、资源服务组合故障(RS_Composition_Failure)检测;资源服务退出故障(RS_Quit_Failure)通过资源服务检测器定期不间断检查每个资源服务的状态来判定;资源服务过载故障(RS_0verload_Failure)通过评估RSi的数据处理能力、通信时间、执行时间来判定RSi是否过载;资源服务过载故障(RS_0verload_Failure)通过检测是否满足概念间的误匹配检测规则、数据间误匹配检测规则、属性误匹配检测规则、QoS非一致性检测规则来判定;任务相关的故障检测,主要包括任务取消故障(Task_Cancel_Failure)和任务被悬置或挂起故障(Task_Suspension_Failure)检测、资源与任务匹配失败(Task_Resource_Mismatch_Failure)检测;任务被悬置或挂起故障(Task_Suspension_Failure)通过任务检测器定期不间断检查每个任务的当前状态,任务是否处于任务挂起(Task_Suspended)队列和任务终止(Task_Terminated)来判定;资源与任务匹配失败(Task_Resource_MismatCh_Failure)采用资源服务匹配算法,判定是否发生了基本匹配故障、I/O匹配故障、QoS匹配故障、综合匹配故障;任务被悬置或挂起故障(Task_Suspension_Failure)检测方法与资源与任务匹配失败(Task_Resource_Mismatch_Failure)相同;应用相关的故障检测,主要包括信任故障(Trust_Failure)检测、应用设计或者编码故障(App_DesignCode_Failure)和访问权限故障(App_AccessRight_Failure)检测;信任故障(Trust_Failure)通过用资源服务Trust-QoS评估模型评估的X与y之间的信任值Tx —y和实体x对y的最低信任度要求Tx —y°的大小比较来判定;应用设计或者编码故障(App_DesignCode_Failure)和访问权限故障(App_AccessRight_Failure)主要是通过系统安全策略或嵌入在服务制造系统中的系统中间件来检测。其中,所述的ECA(Event-Condition_Action,事件-条件-动作)规则中事件定义为触发一个规则(Rule)所对应的事件,条件(Condition)定义为激活该规则(Rule)所必须满足的条件,动作为当一个ECA规则被触发后所要执行的动作指令;将RSOA过程中发生的故障定义为ECA规则的事件(Event);将故障检测条件定义为ECA规则的条件(Condition);对故障做出的处理定义为ECA规则的动作(Action)。 其中,所述的对故障做出的处理具体为再调度或再匹配。其中,所述的事件检测器(Event Detector)主要接收故障检测模块发送过来的故障消息,分析检测故障的事件(Event);条件评估器(Condition Evaluator)主要负责对检测到的事件(Event)相关的条件(Condition)进行评估,看其是否满足相应的ECA规则的条件;规则推理引擎(Rule Engine)主要负责对检测到的事件(Event)与ECA规则库中的相应规则进行推理匹配,找到合适的规则来处理检测到的故障;动作执行器(Action Executor)主要是根据Rule Engine推理的结果,来执行所选定的ECA规则动作来对故障进行处理;ECA规则管理器(ECA Rule Manager)负责管理ECA规则,包括规则的修改、添加及删除;ECA规则库(ECARules)主要存储故障消解过程中所需的各种规则。本发明与现有技术相比的优点在于(I)、具体的说该方法是根据资源服务优化配置(RSOA)过程中故障产生的原因及分类,设计相应的容错管理实现机制,实现相应的故障检测和消解。该发明能有效检测到服务制造系统资源服务优化配置过程中由虚拟连接、资源、任务、应用等引起的常见故障,并对其提供相应的良好的消解策略,能有效提高服务制造系统资源服务优化配置的可靠性和服务质量。(2)、本发明包括一种资源服务优化配置容错管理实现框架,以及相应的故障检测和基于ECA(事件-条件-动作)的消解机制与方法,可应用于分布式网络化服务制造系统,具有良好的动态性、模块性、可维护性、扩展性,能有效检测和消解资源服务优化配置过程中的各种故障,提高整个服务制造系统的稳定性和资源服务优化配置的可靠性。


图I是资源服务优化配置容错管理体系结构;图2是基于ECA的故障恢复;图3 是 Task_Resource_MisMatch_Failure 检测流程图;图4是Trust_Failure检测流程图;表I是资源服务优化配置容错管理的部分ECA规则。
具体实施例方式下面结合附图对本发明作进一步详细的描述。本发明涉及的一种资源服务优化配置容错管理实现机制及方法,即通过分析RSOA过程中可能出现的故障及分类,从而研究RSOA容错管理体系结构,并研究相应具体的故障检测方法与消解策略。当且仅当发生以下两种情况或者其中之一时,称资源服务优化配置出现故障①由于资源崩溃导致其停止服务;②资源的可用性达不到任务的最低QoS标准。在实际应用中,云制造等服务制造系统资源服务优化配置故障类型多种多样,常见故障的产生主要和虚拟连接、资源、任务、应用四个因素相关。
( I)虚拟连接相关的故障虚拟连接(VL)是指服务制造系统中两个实体间的广义连接。因VL产生的故障主要有虚拟连接故障和带宽不足故障。(2)资源服务相关的故障资源服务是执行任务的载体,因此,资源服务的退出、过载、QoS或能力的改变、资源服务间的组合等都可能引发RSOA故障。因资源服务引起的故障主要有资源服务退出故障、资源服务过载(或饱和)故障、资源服务组合故障、资源服务能力改变而引起的故障。其中资源服务组合故障主要有资源服务概念间的误匹配、数据之间的误匹配、属性匹配失误、QoS非一致性。(3)任务相关的故障
在RSOA过程中,因种种原因,可能造成任务的取消、挂起等,从而导致优化配置的失败。因任务引起的RSOA故障主要有任务取消故障、任务被悬置或挂起故障、资源与任务匹配失败、任务需求改变引起的故障。(4)应用相关的故障在应用过程中,可能因信任、访问权限、编码等原因导致RSOA失效,如信任故障、应用设计或者编码故障、访问权限故障。RSOA过程中,以上四类可能产生的故障会导致整个RSOAS的效率和服务质量下降。为支持RSOA过程中能提供容错功能,结合RSOAS架构,本发明提出了如图I所示的RSOA
容错管理体系结构。RSOAS容错体系结构由信息服务模块、资源服务优化配置模块、故障检测模块、故障恢复模块四部分组成。实现RSOAS容错功能,重点要解决故障的检测与消解。本发明涉及一种资源服务优化配置容错管理实现机制与方法,包括一种资源服务优化配置容错管理实现框架,以及相应的故障检测和基于ECA的消解机制与方法。RSOAS容错体系结构如图1,由信息服务模块、资源服务优化配置模块、故障检测模块、故障恢复模块四部分组成,其中故障检测模块和故障恢复模块是本发明的重点内容。(I)信息服务模块信息服务模块主要为故障检测、故障恢复、资源服务优化配置提供目录信息服务(HS)、资源信息服务(RIS)、资源服务封装、QoS数据库等信息和数据支持。其中,目录信息服务(IIS)组织信息可提供信息集合查询,并支持对多个RIS的有效查询,同时能提供整个面向服务制造系统的信息索引和搜索功能。IIS由三部分组成通用注册处理、可插入的目录结构和搜索处理。资源信息服务(RIS)运行于资源端,提供一个统一的手段来查询系统平台中资源的配置、能力和状态,且可配置成自身为聚集目录服务。RIS对输入的需求和任务进行安全鉴别和解析后,根据请求信息的类型把查询请求分发到一个或多个信息提供者。然后RIS把资源的反馈信息传给用户。资源服务封装模板的作用是实现平台对参与协同制造的节点信息的有效管理。根据资源之间的属性(如物理特征、地理位置、动力学特征、灵敏度、功能等)、客户需求(如时间、质量、价格、服务等)、被使用方式(如发现、代理、监测、诊断等),将资源分类进行封装。资源提供者在平台进行资源注册后,将被封装成资源服务类模板;客户在请求资源服务时,从系统平台下载相应的资源封装模板,并完成具体任务的实例化。QoS数据库中提取相应资源服务的QoS信息。对相应的QoS指标参数进行评估测量,并进行QoS比较,从而为后续的资源服务优选和组合提供信息和数据支持。( 2 )资源服务优化配置模块资源服务优化配置模块主要提供资源服务搜索、QoS评估、资源服务优选、资源服务组合等功能操作。资源服务搜索提供各类资源服务信息匹配算法服务,根据任务分解的子任务对资源服务的需求,负责从资源服务库中搜索到符合要求的相应资源服务,并生成待选资源服务集(RSS)。QoS评估是针对搜索到的符合用户需求的海量待选资源服务集,目的是为用户和 系统选择最佳资源服务,进行资源服务优化配置提供量化的参考依据,是资源优化服务配置的重要环节。从注册到服务器库的资源服务信息OWL — S / WSDL或QoS数据库中提取RSS中相应资源服务的QoS信息。对相应的QoS指标参数进行评估测量,并进行QoS比较,从而为后续的资源服务优选和组合提供信息和数据支持。资源服务优选如果用户提交的任务是单一资源服务需求,则根据QoS参数信息需求对RSS的待选资源服务进行综合评估排序,选择最佳的资源服务执行任务。资源服务组合及优选如果用户提交的是多资源服务需求,则从各RSS中选择一个资源服务按照一定的顺序组成组合资源服务,并从所有可能的组合中选择最优组合来执行任务。(3)故障检测模块负责监控服务制造系统中各节点及其所运行的任务和资源的状态,随时监控并进行状态分析。通过本地检测器对优化配置流程及涉及到的资源与任务性能和运行情况进行监控,并提供一系列的管理服务,如任务状态管理、资源服务状态管理。对正常或异常退出的实例的历史数据进行分析和统计,做出决策并通知故障恢复模块对所检测到的故障进行处理。以下分别对虚拟连接相关、资源服务相关、任务相关以及应用相关的四类多种故障的具体消解方法进行详细阐述。(一)虚拟连接故障检测I) VL_Disconnect_Failure 检测通常可以通过系统安全策略或嵌入在服务制造系统中的中间件检测到,可采用Golbus 提供的 GRAM 服务来检测 VL_Disconnect_Failure。2) Bandwidth_Fai lure 检测系统中两个实体(用A、B表示)间是否因带宽原因产生了故障采用通信时间(CT)和成功通信率(PSC)或可靠性两个指标来判断。A)采用通信时间判断令A、B间的虚拟连接表示为VL (A, B),VL (A, B)的总信息交换量为SumInfor (A, B),传输速度(带宽)为V(A,B),等待时间为Waite (A, B)。则相应的总通信时间,记为Tc (A, B),为传输时间和等待时间之和。
B)成功通信率(PSC)或可靠性判断设虚拟连接VL (A, B)、节点A和B的故障率分别为α (A, B)、α㈧、α (B),则由可靠性的定义可求VL(Α,B)间的可靠性SC(A,B)。设用户请求的最低CT和PSC要求分别为K或#)和& (或#),则当虚拟连接VL(A, B)满足Tl·(式5)>6( 為I )或λνΡ, ΚΧΗ為ii)时,则系统判定发生了 Bandwidth—Failure。(二)资源服务相关的故障检测I) RS_Quit_Failure 检测为检测在资源服务优化配置过程中是否产生了 RS_Quit_Failure,资源服务检测器定期不间断检查每个资源服务的状态。如果该资源服务没有反应,则系统判定发生了 RS_Quit_Failure。2) RS_Overload_Failure 检测通过评估RSi的数据处理能力(DC)、通信时间(CO、执行时间(ET)来判定RSi是否过载,即系统是否产生了 RS_Overload_Failure。设一定时间段内分配给RSi的任务集为Γ j = (Task1, Task2,…,Taskj,…,TaskJ。其中Taskj需要RSi的数量为,Clij j为任务Taskj调用RSi所需的数据访问量,V(i, j)为Taskj与RSi之间的虚拟连接带宽;e\_为每个RSi执行Tasl^所需的执行时间。则运行过程中RSi所对应的ET, DC, CT分别计算得到 以’m ’ Cfxsi。设RSi的ET, DC, CT上限分别为/加g ,LinQf, Lim^i,当系统检测到 RSi 满足K,>Limt^i ,DCm >Lim^其中之一者,则系统判定发生了 RS_Overload_Failure。3) RS_Compos i t ion_Fai Iure 检测RS_Comp o s i t i on_F a i I ur e主要包括概念间误匹配、数据间误匹配、属性误匹配和QoS非一致性四种情况。A)概念间的误匹配检测规则(I)如果RSi是RSk的子类并且RSk不包含于RSj,则RSi与RSj之间存在间隙(gap)。此为资源服务概念间的误匹配(概念间存在间隙)检测规则;(2)如果RSi是RSk的子类并且RSk是RSj的子类,则RSi是RSj的子类。此为资源服务概念间的误匹配(RSi是RSj的子类)检测规则。B)数据间误匹配检测规则(I)如果DUnitTranste(RSi)等于RS」,那么RSi和RSj的同一参数具有相同的数据类型,但不同量纲。其中DUnitT-O是数据量纲转化函数。(2)如果DUgjRSi)等于RSj,那么RSi和RS^具有相同的参数概念,但不同数据类型。其中DTypJranste O是数据类型转化函数。C)属性误匹配检测规则如果RSj所需的属性参数比RSi所能提供的多并且RSi与?(/ ,)的交集不为空,则RSi的属性不能满足RSj的要求,其中禮为split函数。以上有关资源服务组合检测规则只是部分,在实际应用中,可以根据需要设计添加新规则。D) QoS非一致性检测规则
设/Ww(CTift)和/)/W(Cf_)分别为RSi和RSj的参数个数,通过分析如果组合服务中两个相邻的资源服务RSi和RSj的QoS是一致的,该组合服务是有效的,否则系统判定发生了 RS_Composition_Failure.(三)任务相关的故障检测I) Task_Cancel_Failure 和 Task_Suspension_Failure 检测为了检测在资源服务优化配置过程中是否产成了 RS_Quit_Failure,任务检测器定期不间断检查每个任务的当前状态。当任务处于Task_Suspended队列时,则系统判定产生了 Task_Suspension_Failure。如果处于 Task_Terminated,则系统判断定产生了 Task_Cancel_Failure。2) Task_Resource_Mismatch_Failure 检测
设分配资源服务RSi执行任务Taskj,根据资源服务匹配算法,设ζ bas、ζ i/o, ζ QoS,ζ分别为系统或用户设定的基本匹配阀值、I/O匹配阀值、QoS匹配阀值、综合匹配阀值。则(I)若资源服务RSi与任务Taskj的基本匹配值小于基本匹配阀值ζ bas,则系统判定产生了基本匹配故障;(2)若资源服务RSi与任务Taskj^ I/O匹配值小于I/O匹配阀值ζ ^。,则系统判定产生了 I/O匹配故障;(3)若资源服务RSi与任务Taskj的QoS匹配值小于QoS匹配阀值ζ QoS,则系统判定产生了 QoS匹配故;(4)若资源服务RSi与任务Taskj的最后匹配值小于综合匹配阀值ζ,则系统判定产生了综合匹配故障。Task_Resource_Mismatch_Failure 的检测过程如图 3 所不。Task_RequireChange_Failure 检测方法与 Task_Resource_Mismatch_Failure 相同。(四)应用相关的故障检测I) Trust_Failure 检测设RSOA中参与交易的两个实体分别为X和y,则在优化配置过程中,可根据资源服务Trust-QoS评估模型来评估X与y之间的信任值Tx —y。设实体x对y的最低信任度要求为!; —y°,则当Tx —y〈Tx —y°时,则系统判断定产生了 Trust_Failure,如图4。2) App_DesignCode_Failure 和 App_AccessRight_Failure 检测同 VL_Disconnected_Failure 检测方法一样,App_DesignCode_Failure 和 App_AccessRight_Failure主要是通过系统安全策略或嵌入在服务制造系统中的系统中间件来检测,主要采用Globus提供的相关服务或中间件来检测。(4)故障恢复模块当发生并检测到故障时,必须对其进行修复。当前的故障容错机制主要有以下几种I)基于检查点策略的任务容错系统通过周期性地设置检查点,把程序运行时的正确状态保存到可靠存储设备中,当发生故障时,恢复到最近状态并恢复运行,从而最大程度减少因故障带来的损失。2)基于重试的任务容错策略在资源服务优化配置运行过程中,如果发生故障的操作已经执行或没有执行的操作不能忽略,则系统可尝试在不改变执行路径的情况下重新执行该操作,重试到最大重复次数的约束,如果反复执行异常活动直到最大次数仍然没有得到解决则停止重复操作。3)基于备份的任务容错策略其思想是将一个任务在不同的资源上进行复制备份,只要不是所有的备份都出错,任务最终就能够成功运行。4)基于替代的容错策略当任务发生故障时,通过运行另外一个具有相同功能的任务来替代。5)基于冗余的任务容错其思想是选择多个可以实现任务的不同执行活动或路径,虽然有不同的执行特征,但是这些活动或执行路径的功能相同。6)基于自定义异常容错策略用户自定义的异常允许用户针对特殊任务定义各种异常处理方法。当运行过程中如果发生故障,则激活定义在该任务上的异常处理方法。本发明除了综合采用以上容错机制外,还采用事件-条件-动作(ECA)规则来支持RSOA容错管理。通过将RSOA过程中发生的故障定义为ECA规则的Event ;将故障检测条件定义为ECA规则的Condition ;对故障做出的处理(如再调度、再匹配等)定义为ECA规则的 Action。参照典型的ECA规则,本发明设计了如图2所示的基于ECA的资源服务优化配置故障消解模块。主要包括事件检测器、条件评估器、动作执行器、Rule Engine、ECA规则库、ECA规则管理器几个部分。I) Event Detector :主要接收故障检测模块发送过来的故障消息,分析检测故障的 Event。2) Condition Evaluator :主要负责对检测到的Event相关的Condition进行评估,看其是否满足相应的ECA规则的条件。3) Rule Engine :主要负责对检测到的Event与ECA规则库中的相应规则进行推理匹配,找到合适的规则来处理检测到的故障。4) Action Executor :主要是根据Rule Engine推理的结果,来执行所选定的ECA规则动作来对故障进行处理。 5) ECARules :为 ECA 规则库。6) ECARule Manager :负责管理ECA规则,包括规则的修改、添加、删除等。在所提出的服务制造系统资源服务优化配置容错机制中,ECA规则直接用来支持故障恢复。针对以上的故障及给出的检测方法,本发明设计了如表I所示的ECA规则来支持CMfg等服务制造系统资源服务优化配置故障恢复。表I中所列的有关服务制造系统资源服务优化配置故障消解规则只是ECA规则库中的一部分。在实际应用中,根据需要设计新的规则,通过ECARule Managemr添加到ECA规则库中。表I
权利要求
1.一种资源服务优化配置容错管理实现系统,其特征在于该系统包括信息服务模块、资源服务优化配置模块、故障检测模块和故障恢复模块; 所述的信息服务模块主要为故障检测、故障恢复、资源服务优化配置提供信息和数据支持; 所述的资源服务优化配置模块主要实现资源服务搜索、服务质量(QoS)评估、资源服务优选、资源服务组合等功能操作; 所述的故障检测模块负责监控服务制造系统中各节点及其所运行的任务和资源的状态,随时监控并进行状态分析;对正常或异常退出的实例的历史数据进行分析和统计,做出决策并通知故障恢复模块对所检测到的故障进行处理; 所述的故障恢复模块,即综合多种容错机制的基于ECA (Event-Condition-Action)的资源服务优化配置故障消解模块,主要包括事件检测器(Event Detector)、条件评估器(Condition Detector)、动作执行器(Action Executor)、规则推理引擎(Rule Engine)、ECA 规则库(ECA Rules)、ECA 规则管理器(ECA Rule manager)部分。
2.根据权利要求I所述的一种资源服务优化配置容错管理实现系统,其特征在于所述的故障检测模块中故障检测包括虚拟连接(VL)相关的故障检测、资源服务(RS)相关的故障检测、任务(Task)相关的故障检测、应用相关的故障检测;虚拟连接相关的故障检测,主要包括虚拟连接故障(VL_Disconnect_Failure)检测和带宽不足故障(Bandwidth_Failure)检测;虚拟连接故障(VL_Disconnect_Failure)通常可以通过系统安全策略或嵌入在服务制造系统中的中间件检测到;两个实体间是否因带宽而产生故障采用通信时间和成功通信率或可靠性两个指标来判断;资源服务相关的故障检测,主要是资源服务退出故障(RS_Quit_Failure)检测、资源服务过载故障(RS_Overload_Failure)检测、资源服务组合故障(RS_Composition_Failure)检测;资源服务退出故障(RS_Quit_Failure)通过资源服务检测器定期不间断检查每个资源服务的状态来判定;资源服务过载故障(RS_Overload_Failure)通过评估RSi的数据处理能力、通信时间、执行时间来判定RSi是否过载;资源服务过载故障(RS_Overload_Failure)通过检测是否满足概念间的误匹配检测规则、数据间误匹配检测规则、属性误匹配检测规则、QoS非一致性检测规则来判定;任务相关的故障检测,主要包括任务取消故障(Task_Cancel_Failure)和任务被悬置或挂起故障(Task_Suspension_Failure)检测、资源与任务匹配失败(Task_Resource_Mismatch_Failure)检测;任务被悬置或挂起故障(Task_Suspension_Failure)通过任务检测器定期不间断检查每个任务的当前状态,任务是否处于任务挂起(Task_Suspended)队列和任务终止(Task_Terminated)来判定;资源与任务匹配失败(Task_Resource_Mismatch_Failure)采用资源服务匹配算法,判定是否发生了基本匹配故障、I/O匹配故障、QoS匹配故障、综合匹配故障;任务被悬置或挂起故障(Task_Suspension_Failure)检测方法与资源与任务匹配失败(Task_Resource_Mismatch_Failure)相同;应用相关的故障检测,主要包括信任故障(Trust_Failure)检测、应用设计或者编码故障(App_DesignCode_Failure)和访问权限故障(App_AccessRight_Failure)检测;信任故障(Trust_Failure)通过用资源服务Trust-QoS评估模型评估的X与y之间的信任值Tx —y和实体x对y的最低信任度要求Tx^/的大小比较来判定;应用设计或者编码故障(App_DesignCode_Failure)和访问权限故障(App_AccessRight_Fai lure)主要是通过系统安全策略或嵌入在服务制造系统中的系统中间件来检测。
3.根据权利要求I所述的一种资源服务优化配置容错管理实现系统,其特征在于ECA(Event-Condition-Action,事件-条件-动作)规则中的事件(Event)定义为触发一个规则(Rule)所对应的事件,条件(Condition)定义为激活该规则(Rule)所必须满足的条件,动作(Action)为当一个ECA规则被触发后所要执行的动作指令;将RSOA过程中发生的故障定义为ECA规则的事件(Event);将故障检测条件定义为ECA规则的条件(Condition);对故障做出的处理定义为ECA规则的动作(Action)。
4.根据权利要求3所述的一种资源服务优化配置容错管理实现系统,其特征在于所述的对故障做出的处理具体为再调度或再匹配。
5.根据权利要求I所述的一种资源服务优化配置容错管理实现系统,其特征在于事件检测器(Event Detector)主要接收故障检测模块发送过来的故障消息,分析检测故障的事件(Event);条件评估器(Condition Evaluator)主要负责对检测到的事件(Event)相关的条件(Condition)进行评估,看其是否满足相应的ECA规则的条件;规则推理引擎(RuleEngine)主要负责对检测到的事件(Event)与ECA规则库中的相应规则进行推理匹配,找到合适的规则来处理检测到的故障;动作执行器(Action Executor)主要是根据Rule Engine推理的结果,来执行所选定的ECA规则动作来对故障进行处理;ECA规则管理器(ECA RuleManager)负责管理ECA规则,包括规则的修改、添加及删除;ECA规则库(ECA Rules)主要存储故障消解过程中所需的各种规则。
全文摘要
本发明涉及一种资源服务优化配置容错管理实现系统,其根据资源服务优化配置过程中故障产生的原因及分类,设计相应的容错管理实现机制,实现相应的故障检测和消解。具体包括信息服务模块、资源服务优化配置模块、故障检测模块和故障恢复模块,具有良好的模块性、可维护性、扩展性,能有效检测和消解资源服务优化配置过程中的各种故障,提高整个服务制造系统的稳定性和资源服务优化配置的可靠性。本发明能有效检测到服务制造系统资源服务优化配置过程中由虚拟连接、资源、任务、应用等引起的常见故障,并对其提供相应的良好的消解策略,有效提高服务制造系统资源服务优化配置的可靠性和服务质量。
文档编号H04L12/26GK102916830SQ201210335609
公开日2013年2月6日 申请日期2012年9月11日 优先权日2012年9月11日
发明者陶飞, 程颖, 张霖 申请人:北京航空航天大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1