1.一种保障系统可用率的风险管理方法,其特征在于,其步骤如下:
步骤1:根据系统一个周期的调用量计算系统在满足系统可用率的情况下,允许失败的交易笔数,将这部分允许失败的交易笔数设为系统风险沙漏的可用风险指标总数;
步骤2:当出现交易异常时,对系统风险沙漏中的可用性风险指标总数进行扣减;
步骤3:定期检查系统可用风险指标的消耗率是否超过阈值,当系统的可用风险指标的消耗率超过阈值时,则视系统为不稳定状态,执行步骤4,如果没有超过阈值,则系统视为稳定状态,重复步骤3;
步骤4:对系统执行版本发布禁令,停止系统的任何功能发布请求,并责令系统进行稳定性的整改,所述整改方案参考以记录在案的异常交易,整改完毕后,执行步骤5;
步骤5:检查系统是否整改完毕,如果整改完毕则恢复系统的可用性风险指标总数为初始值,并解除系统发布禁令,允许系统发布新功能;
步骤6:监管报送,基于系统运行时间与风险沙漏可用风险指标消耗百分比,对系统的可用性进行报送。
2.根据权利要求1所述的一种保障系统可用率的风险管理方法,其特征在于,所述系统可用风险指标总数=系统的交易笔数*(1-系统可用率百分比)。
3.根据权利要求1所述的一种保障系统可用率的风险管理方法,其特征在于,所述交易异常的定义包括接口响应耗时超过阈值、交易返回码为业务失败、发生生产事件并影响到业务的笔数。
4.根据权利要求3所述的一种保障系统可用率的风险管理方法,其特征在于,所述接口响应耗时超过阈值判定方法为,使用分布式链路跟踪系统对每笔交易的链路及接口响应耗时进行分析,检查接口的内部耗时是否超过接口响应阈值,针对内部耗时超过阈值的接口,对可用风险指标进行扣减,并记录异常交易的详情,方便后期排查,所述接口内部耗时计算公式如下:接口内部耗时=交易总耗时-外部耗时。
5.根据权利要求4所述的一种保障系统可用率的风险管理方法,其特征在于,所述分布式链路跟踪系统包括:
(a)在发生接口调用时,服务端/客户端通过打印携带链路id的接口调用信息进行链路采集;
(b)应用在收到服务请求时,打印服务端日志;
(c)应用在调用其他服务时,打印客户端日志,打印时先判断环境中是否存在链路id,如果不存在则生成一个全局唯一的链路id,创建链路id后,当前节点就做为接口调用的源点;如果存在,则复用该链路id;
(d)通过采集各个服务的服务端和客户端的调用日志,汇总到分布式链路跟踪模块,该模块通过链路id将接口调用分组,再通过服务端、客户端的当前ip和下游ip关系,串联出调用链路,以及耗时关系。
6.根据权利要求3所述的一种保障系统可用率的风险管理方法,其特征在于,所述交易返回码为业务失败处理判定方法为,在系统的业务维度,通过定制系统的业务交易日志,来追踪每一笔业务交易的执行结果;当交易失败时,将该笔交易对应的数据记录到异常交易中,并对可用风险指标进行扣减;当出现生产事件后,我们通过统计系统接口调用与业务交易的成功、失败总笔数来对该事件影响的渠道、产品、交易类型、金额进行报表统计,用实际交易的影响数量来对事件进行有效定级。
7.根据权利要求6所述的一种保障系统可用率的风险管理方法,其特征在于,所述业务交易调用成败判定方法为,当发生系统接口调用时,应用服务打印本次接口调用的链路id和业务金额以及本次交易的返回码,分布式链路跟踪模块对该业务交易日志进行采集,使用链路id与接口调用时的链路id进行关联,最后通过业务响应码来进行判定。
8.根据权利要求7所述的一种保障系统可用率的风险管理方法,其特征在于,所述业务交易日志包括:渠道码、产品码、事件码、链路跟踪号以及交易金额。
9.根据权利要求3所述的一种保障系统可用率的风险管理方法,其特征在于,所述对生产事件并影响到业务判定方法为,在系统发生生产事件时,查看事件的影响范围及影响笔数,并排除接口异常笔数和交易响应码异常笔数,作为扣除风险沙漏中可用风险指标的依据。