一种业务平台资源调度处理方法及装置与流程

文档序号:14847633发布日期:2018-06-30 16:55阅读:212来源:国知局
一种业务平台资源调度处理方法及装置与流程

本发明涉及互联网技术领域,具体涉及一种业务平台资源调度处理方法及装置。



背景技术:

互联网+时代,无线通信服务功能继续不断增强和完善,行业短信业务蓬勃发展,例如:基于行业网关为银行、证券、电商等大客户提供的行业短信业务主要有验证码短信、会员通知短信、会员营销短信等。随着行业短信业务规模和重要性的日益增加,客户对行业短信的到达速度、到达率,通道的稳定性、安全性也提出了更高要求。

目前,各大网络运营商都在探求各种方法,或是减少故障发生概率,或是最有效地应对突发故障,以期最大限度地降低业务影响范围和程度。现有的资源调度方法主要关注的是资源本身情况,如资源CPU、内存、网络带宽、利用率等等,以这些指标达到一定阈值为关键依据,并按照预定策略进行资源调度,来达到缓解资源使用压力的目的。而实际影响业务稳定和正常运行的故障原因很多,除了资源本身情况,还涉及到应用软件运行情况、链路状态、业务指标等。此外,如果在用资源异常、资源节点出现故障或者出现突发故障也会对资源的调度带来影响。还有如果出现资源过度调度、频繁调度的情况,可能导致在用资源过少无法承载当前业务引发新的故障,或者资源频繁调度导致系统稳定性差。

因此,如何提出一种方法,能够在资源调度的过程中提高资源调度的效率成为业界亟待解决的重要课题。



技术实现要素:

针对现有技术中的缺陷,本发明提供一种业务平台资源调度处理方法及装置。

一方面,本发明提出一种业务平台资源调度处理方法,包括:

控制器获取业务平台中各资源的工作指标信息,根据所述工作指标信息和预设的用于表征资源是否发生故障的健康度指标信息,获得资源故障集;其中,所述资源故障集中包括当前周期内发生故障的资源;

所述控制器获取数据流表,所述数据流表中包括上一周期内处于正常工作状态的资源;

所述控制器根据所述资源故障集、所述数据流表,以及预设的调度规则,确定所述当前周期需要隔离和/或恢复的资源。

另一方面,本发明提供一种业务平台资源调度处理装置,包括:

处理单元,用于获取业务平台中各资源的工作指标信息,根据所述工作指标信息和预设的用于表征资源是否发生故障的健康度指标信息,获得资源故障集;其中,所述资源故障集中包括当前周期内发生故障的资源;

获取单元,用于获取数据流表,所述数据流表中包括上一周期内处于正常工作状态的资源;

处理单元,用于根据所述资源故障集、所述数据流表,以及预设的调度规则,确定所述当前周期需要隔离和/或恢复的资源。

本发明提供的业务平台资源调度处理方法及装置,由于能够通过对工作指标信息和健康度指标信息的比较获得资源故障集,并通过控制器获取数据流表,并根据资源故障集、数据流表和预设的调度规则,确定需要隔离和/或恢复的资源,避免了在资源调度过程中使用故障资源,从而提高了资源调度的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例基于SDN技术的资源调度系统架构示意图;

图2为本发明一实施例业务平台资源调度处理方法的流程示意图;

图3为本发明另一实施例业务平台资源调度处理方法的流程示意图;

图4为本发明又一实施例业务平台资源调度处理方法的流程示意图;

图5为本发明一实施例业务平台资源调度处理装置的结构示意图;

图6为本发明另一实施例业务平台资源调度处理装置的结构示意图;

图7为本发明又一实施例业务平台资源调度处理装置的结构示意图;

图8为本发明实施例电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明实施例基于SDN技术的资源调度系统架构示意图,为本发明实施例的一种应用环境。其中,软件定义网络(Software Defined Network,以下简称SDN),是一种新型网络创新架构,是网络虚拟化的一种实现方式,其核心技术OpenFlow通过将网络设备控制面与数据面分离开来,从而实现了网络流量的灵活控制,使网络作为管道变得更加智能。

如图1所示,业务平台105由多台应用服务器组成,提供处理业务所需要的资源。故障采集接口104的作用是获取业务平台105的信息,将获取的信息上传给控制器102。数据交换机103采用SDN技术的OpenFlow协议接口,可以将数据流表上传给控制器102,并根据控制器102下发的指令进行数据包的转发。控制器102可以接收故障采集接口104上传的信息,还可以发送控制指令至数据交换机103更新数据交换机103的流表信息。SDN Manager101是人工控制台,为SDN控制器102提供管理的人机界面,通过控制台102管理控制器102各项参数、OpenFlow协议参数、故障采集接口104的参数等。

图2为本发明一实施例业务平台资源调度处理方法的流程示意图,如图2所示,本发明提供的业务平台资源调度处理方法,包括:

S201、控制器获取业务平台中各资源的工作指标信息,根据所述工作指标信息和预设的用于表征资源是否发生故障的健康度指标信息,获得资源故障集;其中,所述资源故障集中包括当前周期内发生故障的资源;

具体地,故障采集接口可以获取业务平台中各个资源的工作指标信息,并将获取的所述工作指标信息上传至控制器,所述故障采集接口对所述工作指标信息的获取可以是周期性的,即每隔预定时间,例如30s获取一次,所述预定时间可以根据实际情况进行设置,本发明实施例不做限定。所述工作指标信息是从业务处理的角度出发预设的,包括但不限于:处理机进程或线程运行情况、处理机与数据库连通性、处理机消息处理成功率、处理机消息队列积压情况、处理机异常错误码占比。所述控制器接收所述工作信息指标,并将每个资源的所述工作指标信息与预设的健康度指标信息进行比较,如果所述工作指标信息不满足所述预设的健康度指标信息的条件,那么所述控制器将所述工作指标信息对应的资源判定为故障资源。当前周期内所有判定的故障资源构成故障资源集。所述预设的健康度指标信息与工作信息指标相对应,设置了满足所述资源的条件,所述资源必须满足所有所述条件,才被所述控制器判定为处于正常工作状态的资源,即正常资源。例如处理机进程或线程运行情况正常,处理机与数据库连通性正常,处理机消息处理成功率不低于60%等。所述工作指标信息和所述预设的健康度指标信息根据实际工作的业务平台进行对应设置,本发明实施例不做限定。

S202、所述控制器获取数据流表,所述数据流表中包括上一周期内处于正常工作状态的资源;

具体地,数据交换机将储存的数据流表上传至所述控制器,所述数据流表中包括上一周期内处于正常工作状态的资源,以下简称为正常资源,所述控制器接收所述数据交换机上传的所述数据流表。

S203、所述控制器根据所述资源故障集、所述数据流表,以及预设的调度规则,确定所述当前周期需要隔离和/或恢复的资源。

具体地,所述控制器获取到所述资源故障集和所述数据流表后,根据所述资源故障集、所述数据流表和预设的调度规则,获得当前周期需要隔离和/或恢复的资源。例如,所述控制器可以将既属于所述资源故障集、又在所述数据流表中出现的正常资源,判定为需要隔离的资源;将不属于所述资源故障集,而没有出现在所述数据流表中的正常资源,判定为需要恢复的资源。对于当前周期内的所述需要隔离和/或恢复的资源,会在后续的处理中,对需要隔离的资源进行隔离操作,即将所述数据流表中存在的、所述需要隔离的资源进行删除,对需要恢复的资源进行恢复操作,即将所述数据流表中不存在的、所述需要恢复的资源进行添加。

本发明提供的业务平台资源调度处理方法,由于能够通过对工作指标信息和健康度指标信息的比较获得资源故障集,并通过控制器获取数据流表,并根据资源故障集、数据流表和预设的调度规则,确定需要隔离和/或恢复的资源,避免了在资源调度过程中使用故障资源,从而提高了资源调度的效率。

图3为本发明另一实施例业务平台资源调度处理方法的流程示意图,如图3所示,在上述实施例的基础上,进一步地,本发明实施例提供的业务平台资源调度处理方法还包括:

S204、所述控制器根据所述需要隔离和/或恢复的资源,向所述数据交换机下发控制指令,以使得所述数据交换机更新所述数据流表,并根据更新后的数据流表向所述业务平台中各资源转发数据。

具体地,在获得所述需要隔离和/或恢复的资源后,所述控制器向所述数据交换机下发控制指令,将所述数据交换机的所述数据流表进行更新,将需要隔离的资源从所述数据流表中删除,将需要恢复的资源添加到所述数据流表中,所述数据交换机根据更新后的数据流表向所述业务平台中的各资源转发数据。

本发明提供的业务平台资源调度处理方法,由于能够通过对工作指标信息和健康度指标信息的比较获得资源故障集,并通过控制器获取数据流表,并根据资源故障集、数据流表和预设的调度规则,确定需要隔离和/或恢复的资源,避免了在资源调度过程中使用故障资源,从而提高了资源调度的效率。而通过对数据交换机中数据流表的更新,保证了数据流表中使用的资源都是正常资源。

在上述各实施例的基础上,进一步地,所述调度规则包括:

若判断获知当前时刻已隔离资源的数量达到调度临界值,则将恢复的已隔离资源进行恢复;

若判断获知所述当前时刻已隔离资源的数量未达到所述调度临界值,且所述恢复的已隔离资源不属于频繁调度的资源,则将所述恢复的已隔离资源进行恢复;

若判断获知所述当前时刻已隔离资源的数量未达到所述调度临界值,且所述恢复的已隔离资源属于频繁调度的资源,则不对所述恢复的已隔离资源进行恢复;

其中,根据所述资源故障集和所述数据流表,确定所述当前周期内出现的恢复的已隔离资源,所述恢复的已隔离资源是指在上一周期内故障、但在所述当前周期内处于正常工作状态的资源;所述调度临界值是指确保当前业务量正常处理的情况下,所述业务平台中最大可隔离资源数。

具体地,所述控制器将当前时刻已隔离资源的数量与所述调度临界值进行比较,如果所述当前时刻已隔离资源的数量大于等于所述调度临界值,那么所述控制器对所述恢复的已隔离资源进行恢复,以保证对业务量的处理。在当前周期内,所述当前时刻已隔离资源的数量是可能发生变化的,在所述控制器第一次将所述当前时刻已隔离资源的数量与所述调度临界值进行比较时,所述当前时刻已隔离资源的数量与所述上一周期的故障资源数相等;在当前周期,如果对某一资源进行了恢复,那么对应的所述当前时刻已隔离资源的数量相应地减少,如果对某一资源进行了隔离,那么对应的所述当前时刻已隔离资源的数量相应地增加。

所述控制器将当前时刻已隔离资源的数量与所述调度临界值进行比较,如果所述当前时刻已隔离资源的数量小于所述调度临界值,并且所述恢复的已隔离资源不属于频繁调度的资源,那么所述控制器对所述恢复的已隔离资源进行恢复。

所述控制器将当前时刻已隔离资源的数量与所述调度临界值进行比较,如果所述当前时刻已隔离资源的数量小于所述调度临界值,并且所述恢复的已隔离资源属于频繁调度的资源,那么所述控制器不对所述恢复的已隔离资源进行恢复。

其中,所述控制器根据所述资源故障集,获得当前周期内的所有故障资源,结合所述业务平台的所有资源,可以确定当前周期内的正常资源;所述控制器根据所述数据流表,获得上一周期内的正常资源,结合所述业务平台的所有资源,可以确定上一周期内的所有故障资源;所述控制器根据所述当前周期内的正常资源和所述上一周期内的所有故障资源,即可确定当前周期内出现的恢复的已隔离资源,所述恢复的已隔离资源即上一周期内故障、但在当前周期内处于正常工作状态的资源。

所述调度临界值是指确保当前业务量正常处理的情况下,所述业务平台中最大可隔离资源数。例如,根据业务量情况,所述业务平台共有5个资源,如果需要3个资源保障当前业务量正常处理,即当前最大可隔离资源数为2,所述调度临界值Δ=2。调度临界值的确定与业务平台当前业务量相关,随着当前业务量变化自适应调整,当前业务量越大,则说明所需要的资源数越多,可隔离的资源数应该越少,因此调度临界值也应该越小。调度临界值可以根据如下公式确定其中N为业务平台当前的业务量,M为业务平台的最大处理业务量,S业务平台的资源总数,k大于0而小于等于1,为业务平台的使用率,通常为了保证业务平台的正常工作,k小于1,例如k取90%。

本发明提供的业务平台资源调度处理方法,由于能够通过对工作指标信息和健康度指标信息的比较获得资源故障集,并通过控制器获取数据流表,并根据资源故障集、数据流表和预设的调度规则,确定需要隔离和/或恢复的资源,避免了在资源调度过程中使用故障资源,从而提高了资源调度的效率。通过给出恢复的已隔离资源调度规则,便于判断是否对恢复的已隔离资源进行恢复。

在上述各实施例的基础上,进一步地,所述方法还包括:

获取所述恢复的已隔离资源在单位时间内进行恢复的次数,若所述次数大于阈值,则确定所述恢复的已隔离资源属于频繁调度的资源;若所述次数不大于所述阈值,则确定所述恢复的已隔离资源不属于频繁调度的资源。

具体地,所述频繁调度的资源是指在单位时间内该资源被隔离或恢复的次数达到阈值,所述单位时间和所述阈值根据实际情况进行设定,本发明实施例不做限定。所述控制器获取所述恢复的已隔离资源在单位时间内进行恢复的次数,如果所述恢复的次数大于所述阈值,表明所述恢复的已隔离资源属于所述频繁调度的资源,如果所述恢复的次数不大于所述阈值,表明所述恢复的已隔离资源属于所述频繁调度的资源。所述资源被频繁恢复或者隔离时,说明该资源在短时间多次被判定为故障资源,虽然该资源多次被恢复,但如果对该资源进行使用,存在很大的发生故障的风险,增加资源调度的不稳定性因此,被判断为所述频繁调度的资源将不会被恢复。

例如,对每个资源每次被隔离或者恢复的时间点做一个标记,根据业务的性质可以选用不同粒度的时间窗,在同一时间窗内某一资源被隔离或者恢复3次或以上时,则可判定为该资源为频繁调度的资源,对业务平台网络稳定性要求高的业务,建议选取粒度较小的时间窗。

本发明提供的业务平台资源调度处理方法,由于能够通过对工作指标信息和健康度指标信息的比较获得资源故障集,并通过控制器获取数据流表,并根据资源故障集、数据流表和预设的调度规则,确定需要隔离和/或恢复的资源,避免了在资源调度过程中使用故障资源,从而提高了资源调度的效率。通过对频繁调度资源的判断,进一步提高了资源调度的效率。

在上述各实施例的基础上,进一步地,所述调度规则包括:

若判断获知当前时刻已隔离资源的数量达到调度临界值,则计算所述业务平台中所有故障资源在预设时间段内被隔离的次数,并根据所述次数对所述所有故障资源进行优先级排序,对优先级低的故障资源进行恢复,对优先级高的故障资源进行隔离;其中,所述次数越低,故障资源对应的优先级越低;

若判断获知所述当前时刻已隔离资源的数量未达到所述调度临界值,且所述故障资源为未被隔离的故障资源,则将所述故障资源进行隔离;其中,所述未被隔离的故障资源是指所述上一周期中未被隔离的、且在所述当前周期内发生故障的资源;

其中,根据所述资源故障集,确定所述当前周期内出现的所述故障资源;所述调度临界值是指确保当前业务量正常处理的情况下,所述业务平台中最大可隔离资源数。

具体地,所述控制器将当前时刻已隔离资源的数量与调度临界值进行比较,如果所述当前时刻已隔离资源的数量大于等于所述调度临界值,那么对优先级低的所述故障资源进行恢复,使得所述已隔离资源的数量小于所述调度临界值,保证当前周期内的可用资源数能够满足当前业务量的正常处理。所述优先级低的故障资源是所述控制器通过计算所述业务平台中所有故障资源在预设时间段内被隔离的次数,并根据所述次数对所有故障资源进行优先级排序后获得的,所述次数越低故障资源对应的优先级越低。可理解的是,在所述已隔离资源的数量小于所述调度临界值后,可以对未被恢复的优先级高的故障资源进行隔离。

所述控制器将所述当前时刻已隔离资源的数量与所述调度临界值进行比较,如果所述当前时刻已隔离资源的数量小于所述调度临界值,那么对所述故障资源进行是否是未被隔离的故障资源的判断。所述控制器根据所述数据流表,获得上一周期内处于正常工作状态的资源,如果所述故障资源出现在所述数据流表中,那么该故障资源为所述未被隔离的资源,对所述未被隔离的故障资源进行隔离。所述未被隔离的故障资源是指上一周期中未被隔离的、且在当前周期内发生故障的资源。

其中,所述控制器根据所述资源故障集,获得所述当前周期内的出现的所述故障资源。所述调度临界值在上述的实施例中已经进行了解释,此处不再赘述。

本发明提供的业务平台资源调度处理方法,由于能够通过对工作指标信息和健康度指标信息的比较获得资源故障集,并通过控制器获取数据流表,并根据资源故障集、数据流表和预设的调度规则,确定需要隔离和/或恢复的资源,避免了在资源调度过程中使用故障资源,从而提高了资源调度的效率。通过给出故障资源调度规则,便于判断是否对故障资源进行恢复或者隔离。

图4为本发明又一实施例业务平台资源调度处理方法的流程示意图,下面结合图4对本发明提供的业务平台资源调度处理方法进行举例说明。假设所述业务平台共有A、B、C、D、E、F、G、H八个资源,所述控制器获得当前周期的故障集为:A、C、H;那么所述当期周期的正常资源为:B、D、E、F、G;如果所述控制器获取到的流量表中包括的正常资源为:B、C、E、F、G;那么上一周期故障的资源为:A、D、H。

如图4所示,若所述控制器在步骤1判断所述资源是否是故障资源后,先对当前周期内的正常资源进行处理,即对B、D、E、F、G,进行处理。在步骤2判断所述正常资源是否是恢复的已隔离的资源,只有D是上一个周期故障的资源,而在当前周期是正常资源,即D是所述恢复的已隔离的资源,对B、E、F、G将不做任何处理。对于D继续步骤3判断所述当前时刻的已隔离资源的数量是否达到调度临界值,如果当前业务处理需要的资源数为4,在所述业务平台使用率为100%的情况下,所述调度临界值为8-4=4;由于所述当前时刻已隔离资源的数量与所述上一周期故障的资源数相等,都为3,小于所述调度临界值,所述控制器进行步骤4,对D是否是频繁调度的资源的判断,如果D被确定为所述频繁调度的资源,不会对D进行恢复;如果D被确定不是所述频繁调度的资源,则对D启动一般调度机制,所述一般调度机制是指改变资源在上一个周期的状态,即对隔离的资源进行恢复或者对正常的资源进行隔离。在对于D继续步骤3判断是否达到调度临界值时,如果当前业务处理需要的资源数为5,那么所述调度临界值为3,与所述当前已隔离的资源数相等,那么所述控制器对D直接启用一般调度机制,即对D进行恢复。

所述控制器对所述正常资源B、D、E、F、G处理完成后,接着依次对当前周期的故障资源A、C、H进行处理。如果在当前业务处理需要的资源数为4的情况下,对正常资源D的处理结果是不对D进行恢复。对于A,所述控制器进行步骤5,判断所述当前时刻的已隔离资源的数量是否达到调度临界值,由于所述当前隔离的资源数为3小于所述调度临界值,接着对A进行步骤6是否是未被隔离的故障资源的判断,由于A在所述上一周期为故障资源,A不是所述未被隔离的故障资源,将不对A进行恢复;对于C,所述当前隔离的资源数为3小于所述调度临界值,接着对C进行步骤6是否是未被隔离的故障资源的判断,由于C在上一周期中未被隔离,且在当前周期内为故障资源,所以C是所述未被隔离的故障资源,对C采用一般调度机制,对C进行隔离;对于H,由于C被隔离,所述当前时刻的已隔离资源的数量变为4与所述调度临界值相等,所述控制器启用保护调度机制,即计算所述业务平台中所有故障资源在预设时间段内被隔离的次数,并根据所述次数对所述所有故障资源进行优先级排序,对优先级低的故障资源进行恢复,对优先级高的故障资源进行隔离;所述控制器对A、C、D、H进行优先级排序,如果A的优先级最低,即在预设时间间隔内被隔离的次数最少,优先对A进行恢复;对A进行恢复后,所述当前隔离的资源数变为3,小于所述调度临界值4,可以满足当前业务处理需求,所述控制器对C、D、H保持隔离状态。

图5为本发明一实施例业务平台资源调度处理装置的结构示意图,如图5所示,本发明提供的业务平台资源调度处理装置包括获取单元501、接收单元502和处理单元503,其中:

获取单元501用于获取业务平台中各资源的工作指标信息,根据所述工作指标信息和预设的用于表征资源是否发生故障的健康度指标信息,获得资源故障集;其中,所述资源故障集中包括当前周期内发生故障的资源;接收单元502用于获取数据流表,所述数据流表中包括上一周期内处于正常工作状态的资源;处理单元503用于根据所述资源故障集、所述数据流表,以及预设的调度规则,确定所述当前周期需要隔离和/或恢复的资源。

具体地,故障采集接口可以获取业务平台中各个资源的工作指标信息,并将获取的所述工作指标信息上传至获取单元501,所述故障采集接口对所述工作指标信息的获取可以是周期性的,即每隔预定时间,例如30s获取一次,所述预定时间可以根据实际情况进行设置,本发明实施例不做限定。所述工作指标信息是从业务处理的角度出发预设的,包括但不限于:处理机进程或线程运行情况、处理机与数据库连通性、处理机消息处理成功率、处理机消息队列积压情况、处理机异常错误码占比。获取单元501接收所述工作信息指标,并将每个资源的所述工作指标信息与预设的健康度指标信息进行比较,如果所述工作指标信息不满足所述预设的健康度指标信息的条件,那么获取单元501将所述工作指标信息对应的资源判定为故障资源。当前周期内所有判定的故障资源构成故障资源集。所述预设的健康度指标信息与工作信息指标相对应,设置了满足所述资源处于正常工作状态的条件,所述资源必须满足所有所述条件,才被所述控制器判定为处于正常工作状态的资源,即正常资源。例如处理机进程或线程运行情况正常,处理机与数据库连通性正常,处理机消息处理成功率不低于60%等。所述工作指标信息和所述预设的健康度指标信息根据实际工作的业务平台进行对应设置,本发明实施例不做限定。

数据交换机将储存的数据流表上传至接收单元502,所述数据流表中包括上一周期内处于正常工作状态的资源,以下简称为正常资源,接收单元502接收所述数据交换机上传的所述数据流表。

处理单元503获取到所述资源故障集和所述数据流表后,根据所述资源故障集、所述数据流表和预设的调度规则,获得当前周期需要隔离和/或恢复的资源。例如,所述控制器可以将既属于所述资源故障集、又在所述数据流表中出现的正常资源,判定为需要隔离的资源;将不属于所述资源故障集,而没有出现在所述数据流表中的正常资源,判定为需要恢复的资源。对于当前周期内的所述需要隔离和/或恢复的资源,会在后续的处理中,对需要隔离的资源进行隔离操作,即将所述数据流表中存在的、所述需要隔离的资源进行删除,对需要恢复的资源进行恢复操作,即将所述数据流表中不存在的、所述需要恢复的资源进行添加。

本发明提供的业务平台资源调度处理装置,由于能够通过对工作指标信息和健康度指标信息的比较获得资源故障集,并通过控制器获取数据流表,并根据资源故障集、数据流表和预设的调度规则,确定需要隔离和/或恢复的资源,避免了在资源调度过程中使用故障资源,从而提高了资源调度的效率。

图6为本发明另一实施例业务平台资源调度处理装置的结构示意图,如图6所示,本发明提供的业务平台资源调度处理装置还包括:

发送单元504用于根据所述需要隔离和/或恢复的资源,向所述数据交换机下发控制指令,以使得所述数据交换机更新所述数据流表,并根据更新后的数据流表向所述业务平台中各资源转发数据。

具体地,在获得所述需要隔离和/或恢复的资源后,所述控制器向所述数据交换机下发控制指令,将所述数据交换机的所述数据流表进行更新,将需要隔离的资源从所述数据流表中删除,将需要恢复的资源添加到所述数据流表中,所述数据交换机根据更新后的数据流表向所述业务平台中的各资源转发数据。

本发明提供的业务平台资源调度处理装置,由于能够通过对工作指标信息和健康度指标信息的比较获得资源故障集,并通过控制器获取数据流表,并根据资源故障集、数据流表和预设的调度规则,确定需要隔离和/或恢复的资源,避免了在资源调度过程中使用故障资源,从而提高了资源调度的效率。而通过对数据交换机中数据流表的更新,保证了数据流表中使用的资源都是正常资源。

在上述各实施例的基础上,进一步地,所述调度规则包括:

若判断获知当前时刻已隔离资源的数量达到调度临界值,则将恢复的已隔离资源进行恢复;

若判断获知所述当前时刻已隔离资源的数量未达到所述调度临界值,且所述恢复的已隔离资源不属于频繁调度的资源,则将所述恢复的已隔离资源进行恢复;

若判断获知所述当前时刻已隔离资源的数量未达到所述调度临界值,且所述恢复的已隔离资源属于频繁调度的资源,则不对所述恢复的已隔离资源进行恢复;

其中,根据所述资源故障集和所述数据流表,确定所述当前周期内出现的所述恢复的已隔离资源,所述恢复的已隔离资源是指在上一周期内故障、但在所述当前周期内处于正常工作状态的资源;所述调度临界值是指确保当前业务量正常处理的情况下,所述业务平台中最大可隔离资源数。

具体地,所述控制器将当前时刻已隔离资源的数量与所述调度临界值进行比较,如果所述当前时刻已隔离资源的数量大于等于所述调度临界值,那么所述控制器对所述恢复的已隔离资源进行恢复,以保证对业务量的处理。在当前周期内,所述当前时刻已隔离资源的数量是可能发生变化的,在所述控制器第一次将所述当前时刻已隔离资源的数量与所述调度临界值进行比较时,所述当前时刻已隔离资源的数量与所述上一周期的故障资源数相等;在当前周期,如果对某一资源进行了恢复,那么对应的所述当前时刻已隔离资源的数量相应地减少,如果对某一资源进行了隔离,那么对应的所述当前时刻已隔离资源的数量相应地增加。

所述控制器将当前时刻已隔离资源的数量与所述调度临界值进行比较,如果所述当前时刻已隔离资源的数量小于所述调度临界值,并且所述恢复的已隔离资源不属于频繁调度的资源,那么所述控制器对所述恢复的已隔离资源进行恢复。

所述控制器将当前时刻已隔离资源的数量与所述调度临界值进行比较,如果所述当前时刻已隔离资源的数量小于所述调度临界值,并且所述恢复的已隔离资源属于频繁调度的资源,那么所述控制器不对所述恢复的已隔离资源进行恢复。

其中,所述控制器根据所述资源故障集,获得当前周期内的所有故障资源,结合所述业务平台的所有资源,可以确定当前周期内的正常资源;所述控制器根据所述数据流表,获得上一周期内的正常资源,结合所述业务平台的所有资源,可以确定上一周期内的所有故障资源;所述控制器根据所述当前周期内的正常资源和所述上一周期内的所有故障资源,即可确定当前周期内出现的恢复的已隔离资源,所述恢复的已隔离资源即上一周期内故障、但在当前周期内处于正常工作状态的资源。

所述调度临界值是指确保当前业务量正常处理的情况下,所述业务平台中最大可隔离资源数。例如,根据业务量情况,所述业务平台共有5个资源,如果需要3个资源保障当前业务量正常处理,即当前最大可隔离资源数为2,所述调度临界值Δ=2。调度临界值的确定与业务平台当前业务量相关,随着当前业务量变化自适应调整,当前业务量越大,则说明所需要的资源数越多,可隔离的资源数应该越少,因此调度临界值也应该越小。调度临界值可以根据如下公式确定其中N为业务平台当前的业务量,M为业务平台的最大处理业务量,S业务平台的资源总数,k大于0而小于等于1,为业务平台的使用率,通常为了保证业务平台的正常工作,k小于1,例如k取90%。

本发明提供的业务平台资源调度处理装置,由于能够通过对工作指标信息和健康度指标信息的比较获得资源故障集,并通过控制器获取数据流表,并根据资源故障集、数据流表和预设的调度规则,确定需要隔离和/或恢复的资源,避免了在资源调度过程中使用故障资源,从而提高了资源调度的效率。通过给出恢复的已隔离资源调度规则,便于判断是否对恢复的已隔离资源进行恢复。

图7为本发明又一实施例业务平台资源调度处理装置的结构示意图,如图7所示,本发明提供的业务平台资源调度处理装置还包括:

判断单元505用于获取所述恢复的已隔离资源在单位时间内进行恢复的次数,若所述次数大于阈值,则确定所述恢复的已隔离资源属于频繁调度的资源;若所述次数不大于所述阈值,则确定所述恢复的已隔离资源不属于频繁调度的资源。

具体地,所述频繁调度的资源是指在单位时间内该资源被隔离或恢复的次数达到阈值,所述单位时间和所述阈值根据实际情况进行设定,本发明实施例不做限定。判断单元505获取所述恢复的已隔离资源在单位时间内进行恢复的次数,如果所述恢复的次数大于所述阈值,表明所述恢复的已隔离资源属于所述频繁调度的资源,如果所述恢复的次数不大于所述阈值,表明所述恢复的已隔离资源属于所述频繁调度的资源。所述资源被频繁恢复或者隔离时,说明该资源在短时间多次被判定为故障资源,虽然该资源多次被恢复,但如果对该资源进行使用,存在很大的发生故障的风险,增加资源调度的不稳定性,因此,被判断为所述频繁调度的资源将不会被恢复。

本发明提供的业务平台资源调度处理装置,由于能够通过对工作指标信息和健康度指标信息的比较获得资源故障集,并通过控制器获取数据流表,并根据资源故障集、数据流表和预设的调度规则,确定需要隔离和/或恢复的资源,避免了在资源调度过程中使用故障资源,从而提高了资源调度的效率。通过对频繁调度资源的判断,进一步提高了资源调度的效率。

在上述各实施例的基础上,进一步地,所述调度规则包括:

若判断获知当前时刻已隔离资源的数量达到调度临界值,则计算所述业务平台中各资源在预设时间段内被隔离的次数,并根据所述次数对所述所有故障资源进行优先级排序,对优先级低的故障资源进行恢复,对优先级高的故障资源进行隔离;其中,所述次数越低,故障资源对应的优先级越低;

若判断获知所述当前时刻已隔离资源的数量未达到所述调度临界值,且所述故障资源为未被隔离的故障资源,则将所述故障资源进行隔离;其中,所述未被隔离的故障资源是指所述上一周期中未被隔离的、且在所述当前周期内发生故障的资源;

其中,根据所述资源故障集,确定所述当前周期内出现的故障资源;所述调度临界值是指确保当前业务量正常处理的情况下,所述业务平台中最大可隔离资源数。

具体地,所述控制器将当前时刻已隔离资源的数量与调度临界值进行比较,如果所述当前时刻已隔离资源的数量大于等于所述调度临界值,那么对优先级低的所述故障资源进行恢复,使得所述已隔离资源的数量小于所述调度临界值,保证当前周期内的可用资源数能够满足当前业务量的正常处理。所述优先级低的故障资源是所述控制器通过计算所述业务平台中所有故障资源在预设时间段内被隔离的次数,并根据所述次数对所有故障资源进行优先级排序后获得的,所述次数越低故障资源对应的优先级越低。可理解的是,在所述已隔离资源的数量小于所述调度临界值后,可以对未被恢复的优先级高的故障资源进行隔离。

所述控制器将所述当前时刻已隔离资源的数量与所述调度临界值进行比较,如果所述当前时刻已隔离资源的数量小于所述调度临界值,那么对所述故障资源进行是否是未被隔离的故障资源的判断。所述控制器根据所述数据流表,获得上一周期内处于正常工作状态的资源,如果所述故障资源出现在所述数据流表中,那么该故障资源为所述未被隔离的资源,,对所述未被隔离的故障资源进行隔离。所述未被隔离的故障资源是指上一周期中未被隔离的、且在当前周期内发生故障的资源。

其中,所述控制器根据所述资源故障集,获得所述当前周期内的出现的故障资源;所述调度临界值在上述的实施例中已经进行了解释,此处不再赘述。

本发明提供的业务平台资源调度处理方法,由于能够通过对工作指标信息和健康度指标信息的比较获得资源故障集,并通过控制器获取数据流表,并根据资源故障集、数据流表和预设的调度规则,确定需要隔离和/或恢复的资源,避免了在资源调度过程中使用故障资源,从而提高了资源调度的效率。通过给出故障资源调度规则,便于判断是否对故障资源进行恢复或者隔离。

本发明提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。

图8为本发明实施例电子设备的实体结构示意图,如图8所示,本发明提供的电子设备包括:

处理器(processor)801、存储器(memory)802和通信总线803;

其中,

所述处理器801和存储器802通过所述通信总线803完成相互间的通信;

所述处理器801用于调用所述存储器802中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取业务平台中各资源的工作指标信息,根据所述工作指标信息和预设的用于表征资源是否发生故障的健康度指标信息,获得资源故障集;其中,所述资源故障集中包括当前周期内发生故障的资源;获取数据流表,所述数据流表中包括上一周期内处于正常工作状态的资源;根据所述资源故障集、所述数据流表,以及预设的调度规则,确定所述当前周期需要隔离和/或恢复的资源。

本发明实施例提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取业务平台中各资源的工作指标信息,根据所述工作指标信息和预设的用于表征资源是否发生故障的健康度指标信息,获得资源故障集;其中,所述资源故障集中包括当前周期内发生故障的资源;获取数据流表,所述数据流表中包括上一周期内处于正常工作状态的资源;根据所述资源故障集、所述数据流表,以及预设的调度规则,确定所述当前周期需要隔离和/或恢复的资源。

本发明实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如获取业务平台中各资源的工作指标信息,根据所述工作指标信息和预设的用于表征资源是否发生故障的健康度指标信息,获得资源故障集;其中,所述资源故障集中包括当前周期内发生故障的资源;获取数据流表,所述数据流表中包括上一周期内处于正常工作状态的资源;根据所述资源故障集、所述数据流表,以及预设的调度规则,确定所述当前周期需要隔离和/或恢复的资源。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1