监控交易系统运行状态的方法、设备和存储介质与流程

文档序号:28861844发布日期:2022-02-12 01:09阅读:155来源:国知局
监控交易系统运行状态的方法、设备和存储介质与流程

1.本公开总体上涉及信息处理,并且具体地,涉及用于监控交易系统运行状态的方法、计算设备和计算机存储介质。


背景技术:

2.对于交易系统而言,尤其是对于需要针对大量的并发请求迅速处理的集中式交易系统,交易系统运行的精确性、稳定性要求非常高,因为几乎所有交易的正常进行均依赖于交易系统的软硬件正常运行这一前提和基础条件。因此,实时监控交易系统的健康状态,以及对于交易系统的健康状态准确评估、提前对健康异常状态预警或预测,进而避免影响交易正常进行的故障的发生则变得尤为重要。
3.传统的用于监控交易系统运行状态的方案例如是:利用专用应用软件(例如网络管理软件)来监控交易系统网络,实时发现网络中的异常情况,以便辅助网络管理员完成故障的排查和解决,进而保证交易系统的正常运行。由于专用应用软件所发现的异常情形通常是事后的、而且仅涉及交易系统的基础硬件或网络链路的故障状态。因此,难以对于交易系统的健康状态准确评估,并且无法针对交易系统的健康异常状态进行预警,因而无法提前避免影响交易的故障产生。
4.综上,传统用于监控交易系统运行状态的方案存在的不足之处在于:难以对于交易系统的健康状态准确评估,并且无法针对交易系统的健康异常状态进行预警。


技术实现要素:

5.本公开提供一种用于监控系统运行状态的方法、计算设备和计算机存储介质,能够准确评估交易系统的健康状态,并且针对交易系统的健康异常状态能够进行预警。
6.根据本公开的第一方面,提供了一种用于监控系统运行状态的方法。该方法包括:获取预定时间间隔内的关于多台主机的第一运行状态信息、关于多个网络设备的第二运行状态信息和关于交易系统所运行的应用的第三运行状态信息,交易系统至少包括多台主机和多个网络设备,第一运行状态信息至少包括主机的设备状态信息、操作系统状态信息和数据库状态信息;针对第一运行状态信息、第二运行状态信息和第三运行状态信息进行数据清洗,以便生成关于交易系统运行状态的监控事件数据;确定监控事件数据的事件属性信息,事件属性信息至少包括通知类别、告警类别、故障类别和生产变更类别中的多种;基于监控事件数据的事件属性信息,针对监控事件数据进行聚类,以便确定与各事件属性信息所对应的监控事件表征数据;生成预定时间间隔内的交易审批状态表征数据;以及基于与各事件属性信息所对应的监控事件表征数据和交易审批状态表征数据,预测交易系统的健康状态。
7.根据本发明的第二方面,还提供了一种计算设备,该设备包括:至少一个处理单元;至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令,指令当由至少一个处理单元执行时,使得计算设备执行本公开的
第一方面的方法。
8.根据本公开的第三方面,还提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,计算机程序被机器执行时执行本公开的第一方面的方法。
9.在一些实施例中,获取预定时间间隔内的关于多台主机的第一运行状态信息、关于多个网络设备的第二运行状态信息和关于交易系统所运行的应用的第三运行状态信息包括:基于预定时间间隔内的应用程序接口的响应时间、应用日志所输出的错误代码及关键字,确定关于交易系统所运行的应用的第三运行状态信息。
10.在一些实施例中,生成预定时间间隔内的交易审批状态表征数据包括:分别基于预定时间间隔内的交易审批的数量、待审批交易数量、审批通过数量、放款笔数和还款笔数,生成交易审批状态表征数据所包括的:交易审批数量表征数据、待审批交易数量表征数据、审批通过数量表征数据、放款笔数表征数据和还款笔数表征数据。
11.在一些实施例中,预测交易系统的健康状态包括:基于逻辑回归算法,针对多台主机中的每一台主机,分别确定与各个事件属性信息所对应的多个第一权重和与交易审批状态表征数据所对应的多个第二权重,多个第一权重用于分别指示与各个事件属性信息所对应的各个监控事件表征数据对每一台主机的健康状态的影响,第二权重用于分别指示待审批交易数量表征数据、审批通过数量表征数据、放款笔数表征数据和还款笔数表征数据对每一台主机的健康状态的影响;以及基于与各个事件属性信息所对应的监控事件表征数据、多个第一权重、交易审批状态表征数据和多个第二权重,确定交易系统中每一台主机的健康状态。
12.在一些实施例中,生成关于交易系统运行状态的监控事件数据包括:针对连续采样时间间隔内的、相同的监控事件记录进行收敛;基于与当前监控事件记录关联的其他监控事件记录,对当前监控事件记录进行过滤;以及基于经收敛和经过滤的监控事件记录,生成关于交易系统运行状态的监控事件数据。
13.在一些实施例中,用于监控交易系统运行状态的方法还包括:针对所确定的每一台主机的健康状态进行排序;响应于确定当前主机的健康状态的所排顺序在第一预定顺序之前,确定当前主机的健康状态符合预定条件;以及响应于确定当前主机的健康状态的所排顺序在第二预定顺序之后,确定当前主机的健康状态不符合预定条件。
14.在一些实施例中,用于监控交易系统运行状态的方法还包括:确定当前主机的健康状态是否不符合预定条件;以及响应于确定当前主机的健康状态不符合预定条件,生成关于当前主机的维护订单。
15.在一些实施例中,用于监控交易系统运行状态的方法还包括:关于主机的中央处理器、存储器、端口的运行状态信息,第二运行状态信息至少指示网络设备的故障信息、可用性信息和运行性能信息。
16.提供发明内容部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的范围。
附图说明
17.图1示出了根据本公开的实施例的用于实施用于监控交易系统运行状态的方法的
系统的示意图。
18.图2示出了根据本公开的实施例的用于监控系统运行状态的方法的流程图。
19.图3示出根据本公开实施例的用于确定交易系统的健康状态的方法的流程图。
20.图4示出根据本公开实施例的用于针对运行状态信息进行数据清洗的方法的流程图。
21.图5示出根据本公开实施例的用于生成关于当前主机的维护订单的方法的示意图。
22.图6示意性示出了适于用来实现本公开实施例的电子设备的框图。
23.在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
24.下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
25.在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。
26.如前文所描述,在传统的用于监控交易系统的运行状态的方案中,专用应用软件所发现的异常情形通常是事后的、而且仅涉及交易系统的基础硬件或网络链路的故障情况。因此,难以对于交易系统的健康状态准确评估,并且无法针对健康异常状态进行预警,并且无法提前避免影响交易的故障产生。
27.为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开的示例实施例提出了一种用于监控交易系统运行状态的方案。在该方案中,通过获取交易系统的主机、网络设备和所运行应用的多维度的运行状态信息,以及针对多维度的运行状态信息进行数据清洗,本公开不仅能够多维度的全面采集交易系统的运行信息,而且可以使得所生成的监控事件数据不会以因网络不稳定等偶发性因素而引发对交易系统健康状态的误判断。另外,通过确定监控事件数据的事件属性信息(包括通知类别、告警类别、故障类别和生产变更类别中的多种),以及针对监控事件数据进行聚类以便确定监控事件表征数据,本公开能够提前对运维记录从多个不同严重程序的维度加以区分并综合判断对系统健康状态的影响,有利于提升对故障事件预测的前瞻性,提前避免交易的故障的发生。再者,通过生成预定时间间隔内的关于交易审批状态表征数据,以及基于与各事件属性信息所对应的监控事件表征数据和交易审批状态表征数据,预测交易系统的健康状态,本公开可以基于交易系统的基础技术环境的运维状态数据和业务交易的状态数据确定交易系统的健康状态,因而能够显著提升关于系统健康状态及运行趋势的精确判断能力。因此,本公开能够准确评估交易系统的健康状态,并且针对交易系统的健康异常状态能够进行预警。
28.图1示出了根据本公开的实施例的用于实施用于监控系统运行状态的方法的系统100的示意图。如图1所示,系统100包括:计算设备110、交易系统130。交易系统130包括多台
主机134和多个网络设备132。网络设备132例如包括防火墙136、交换机138、路由器140等。交易系统130例如可以通过网络150与外部服务器(未示出)进行数据交互。交易系统130还可以与计算设备110通过有线或者无线的方式进行数据交互。
29.交易系统130例如是用于基于其上所运行的应用程序为用户提供交易服务。交易系统130例如而不限于是银行的业务系统,其可以针对用户的交易请求(例如贷款请求)进行审批。
30.计算设备110用于监控交易系统130的运行状态,以便预测或确定交易系统130的健康状态。具体而言,计算设备110可以获取关于多台主机134的第一运行状态信息、关于多个网络设备132的第二运行状态信息和关于交易系统130所运行的应用的第三运行状态信息;以及针对第一运行状态信息、第二运行状态信息和第三运行状态信息进行数据清洗等处理,以便生成关于系统运行状态的监控事件数据。计算设备110还可以确定监控事件数据的事件属性信息;基于监控事件数据的事件属性信息,针对监控事件数据进行聚类,以便确定与各事件属性信息所对应的监控事件表征数据。此外,计算设备110还可以生成预定时间间隔内的交易审批状态表征数据;以及基于与各事件属性信息所对应的监控事件表征数据和交易审批状态表征数据,预测交易系统的健康状态。计算设备110例如包括但不限于服务器计算机、多处理器系统、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境等。在一些实施例中,计算设备110可以具有一个或多个处理单元,包括诸如图像处理单元gpu、现场可编程门阵列fpga和专用集成电路asic等的专用处理单元以及诸如中央处理单元cpu的通用处理单元。在一些实施例中,计算设备110例如包括运行状态信息获取单元112、监控事件数据生成单元114、事件属性信息确定单元116、监控事件表征数据确定单元118、交易审批状态表征数据生成单元120以及交易系统健康状态确定单元122。
31.关于运行状态信息获取单元112,其用于获取预定时间间隔内的关于多台主机的第一运行状态信息、关于多个网络设备的第二运行状态信息和关于交易系统所运行的应用的第三运行状态信息,交易系统至少包括多台主机和多个网络设备,第一运行状态信息至少包括主机的设备状态信息、操作系统状态信息和数据库状态信息。
32.关于监控事件数据生成单元114,其用于针对第一运行状态信息、第二运行状态信息和第三运行状态信息进行数据清洗,以便生成关于交易系统运行状态的监控事件数据。
33.关于事件属性信息确定单元116,其用于确定监控事件数据的事件属性信息,事件属性信息至少包括通知类别、告警类别、故障类别和生产变更类别中的多种。
34.关于监控事件表征数据确定单元118,其用于基于监控事件数据的事件属性信息,针对监控事件数据进行聚类,以便确定与各事件属性信息所对应的监控事件表征数据。
35.关于交易审批状态表征数据生成单元12,其用于生成预定时间间隔内的交易审批状态表征数据。
36.关于交易系统健康状态确定单元122,其用于基于与各事件属性信息所对应的监控事件表征数据和交易审批状态表征数据,预测交易系统的健康状态。
37.以下将结合图2描述根据本公开的实施例的用于监控系统运行状态的方法200。图2示出了根据本公开的实施例的用于监控系统运行状态的方法200的流程图。应当理解,方法200例如可以在图6所描述的电子设备600处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法200还可以包括未示出的附加动作和/或可以省略所示出的动作,本公
开的范围在此方面不受限制。
38.在步骤202处,计算设备110获取预定时间间隔内的关于多台主机的第一运行状态信息、关于多个网络设备的第二运行状态信息和关于交易系统所运行的应用的第三运行状态信息,交易系统至少包括多台主机和多个网络设备,第一运行状态信息至少包括主机的设备状态信息、操作系统状态信息和数据库状态信息。
39.关于第一运行状态信息,其例如指示主机的基础的软硬件环境的状态,其至少包括各个主机的设备状态信息、操作系统状态信息和数据库状态信息。具体而言,例如包括:关于各个主机的操作系统、中央处理器(cpu)、内存、磁盘、外设、网络和关于数据库的运行状态信息。例如,操作系统正常与否数据(例如,启动或宕机),内存使用率数据、磁盘空间使用率数据、存盘的读写报错数据、cpu运行正常与否数据(例如是否因繁忙而导致应用调度出错)、与其他设备(例如其他主机)网络连通正常与否数据、数据包的转发状态数据等等。
40.关于获取多台主机的第一运行状态信息的方法,其例如包括:在各个被监控的主机上配置代理(agent)模块,代理模块请求从计算设备110获取预定监控项列表,各代理模块基于所获取的监控项列表定期收集所在主机的各项数据,并将所收集数据(例如,监控事件记录)发送到计算设备110以生成第一运行状态信息。
41.关于第二运行状态信息,其例如包括:关于各个网络设备(例如路由器、交换机、无线网卡、防火墙)的网络设备的故障信息、可用性信息和运行性能信息。在一些实施例中,计算设备110还可以自动发现网络设备,监控基于snmp及其他协议的网络设备。网络设备的路由或转发通路正常与否数据,带宽的利用率数据、网络丢包数据等等。
42.关于第三运行状态信息,其例如包括:用于指示应用程序的响应时间信息、应用程序可用性信息及正确性信息。
43.关于获取关于交易系统所运行的应用的第三运行状态信息的方法,其例如包括:基于预定时间间隔内的应用程序接口的响应时间(例如是针对交易请求的响应时间)、应用日志所输出的错误代码及关键字,确定关于交易系统所运行的应用的第三运行状态信息。
44.应用程序的正确性信息例如用于指示当前应用程序运行状态是否正常,其例如包括:进程是否存在、是否存在宕机。关于应用程序的正确性信息的确定方法,其例如包括:计算设备110计算预定时间间隔内(例如而不限于为最近10分钟)的应用程序接口的平均响应时间(例如100毫秒);比较所计算的平均响应时间与预定响应时间阈值(例如1毫秒),以便基于比较结果确定应用程序接口响应时间是否为正常(例如,平均响应时间100毫秒远大于预定响应时间阈值1毫秒,因此,确定应用程序接口响应时间为异常);计算预定次数中应用程序接口响应时间正常的所占比例;基于所计算的所占比例确定应用程序的正确性信息。
45.应用程序可用性信息例如用于指示当前应用程序运行状态数据。可用性信息例如包括:应用程序中间件状态数据(即,用于指示应用组件是否正常的数据,应用组件例如是涉及转发、存储和应用程序运行环境的组件)、应用程序运行状态正常与否数据(例如进程是否存在、是否存在宕机)、应用日志输出的错误状态数据。
46.关于交易请求的应用日志输出的错误状态数据是基于应用日志输出的错误代码和关键字而确定的。针对应用程序的交易交互行为的应用日志输出可以指示该交互行为正常与否。例如,如果该交易交互行为正常,则对应的应用日志输出为一般信息代码;如果该交易交互行为异常,则对应的应用日志输出为错误代码。错误代码还可以指示应用程序的
异常的严重程度。例如计算设备110基于关键字,针对交易交互行为异常的数量进行统计;比较交易交互行为异常的数量和第一应用异常数量阈值、第二应用异常数量阈值;如果交易交互行为异常的数量大于或者等于第一应用异常数量阈值并且小于第二应用异常数量阈值,则生成用于指示较低级别异常状态的第一错误代码;如果交易交互行为异常的数量大于或者等于第二应用异常数量阈值,则生成用于指示较高级别故障状态的第二错误代码。
47.在步骤204处,计算设备110针对第一运行状态信息、第二运行状态信息和第三运行状态信息进行数据清洗,以便生成关于交易系统运行状态的监控事件数据。通过采用上述手段,可以使得所生成关于交易系统运行状态的监控事件数据不会以因偶发性因素而产生的状态数据引发对交易系统健康状态的误判断。
48.关于针对运行状态信息进行数据清洗的方法,其例如包括:计算设备110针对连续采样时间间隔内的、相同的监控事件记录进行收敛(应当理解,相同的监控事件记录是指监控事件记录所指示的监控事件和所关联的主机、网络设备或者应用均相同);基于与当前监控事件记录关联的其他监控事件记录,对当前监控事件记录进行过滤;以及基于经收敛和经过滤的监控事件记录,生成关于交易系统运行状态的监控事件数据。下文将结合图4详细说明用于针对运行状态信息进行数据清洗的方法400,在此,不再赘述。
49.在步骤206处,计算设备110确定监控事件数据的事件属性信息,事件属性信息至少包括通知类别、告警类别、故障类别和生产变更类别中的多种。通过区分并监控通知类别、告警类别、故障类别和生产变更类别,本公开可以在问题产生初期即可关注并处理监控事件,避免影响交易的严故障产生。
50.关于确定监控事件数据的事件属性信息的方法,其例如包括:计算设备110将监控事件数据与预先定义的与各个监控事件相关联的设定值进行比较,以便基于比较结果确定监控事件数据的事件属性信息。通知类别用于指示不需要关注的监控事件。告警类别指示还未影响或者影响少量的交易处理而需要关注的监控事件。故障类别指示已经影响交易处理的需要运维的监控事件。生产变更类别指示软件的变更或运维的监控事件。例如,针对操作系统的数据、参数(例如,进程数等)的调整或者应用程序包的更新的监控事件。
51.例如,主机的磁盘空间使用率数据低于80%,则磁盘空间使用率的监控事件属于通知类别。如果主机的磁盘空间使用率数据高于80%并且低于90%,则磁盘空间使用率的监控事件属于告警类别。如果主机的磁盘空间使用率数据高于90%,则磁盘空间使用率的监控事件属于故障类别。
52.在步骤208处,计算设备110基于监控事件数据的事件属性信息,针对监控事件数据进行聚类,以便确定与各事件属性信息所对应的监控事件表征数据。通过经由针对监控事件数据进行聚类而生成与不同事件属性信息所对应的各个监控事件表征数据,本公开可以在无须对大量监控事件记录的复杂处理的前提下即可高效率地表征不同程度的监控事件集中程度。数量表征数据例如包括:与通知类别这一事件属性信息所对应的监控事件表征数据、与告警类别这一事件属性信息所对应的监控事件表征数据、与故障类别这一事件属性信息所对应的监控事件表征数据、以及与生产变更类别这一事件属性信息所对应的监控事件表征数据。
53.关于确定与各事件属性信息所对应的监控事件表征数据的方法,其例如包括:针
对每个主机相关联的与各事件属性信息所对应的监控事件数量进行排序,以便基于排序结果生成关于每个设备的与各事件属性信息所对应的监控事件表征数据。
54.以下结合公式(1),以与通知类别这一事件属性信息为例,示例性说明用于确定第x台主机的与通知类别这一事件属性信息所对应的监控事件表征数据的方法。
[0055][0056]
在上述公式(1)中,n代表主机的数量。g1(x)代表第x台主机的、与通知类别这一事件属性信息所对应的监控事件表征数据。m1代表针对n台主机的与通知类别这一事件属性信息所对应的各个监控事件表征数据按照从低到高的顺序进行排序,该第x台主机所排的次序。
[0057]
应当理解,根据与以上公式(1)类似的方法,可以分别针对每一主机确定与告警类别这一事件属性信息所对应的监控事件表征数据、与故障类别这一事件属性信息所对应的监控事件表征数据和与生产变更类别这一事件属性信息所对应的监控事件表征数据。
[0058]
在步骤210处,计算设备110生成预定时间间隔内的交易审批状态表征数据。
[0059]
关于生成交易审批状态表征数据的方法,其例如包括:计算设备110分别基于预定时间间隔内的交易审批的数量、待审批交易数量、审批通过数量、放款笔数和还款笔数,生成交易审批状态表征数据所包括的:交易审批数量表征数据、待审批交易数量表征数据、审批通过数量表征数据、放款笔数表征数据和还款笔数表征数据。
[0060]
关于待审批交易数量的计算方法,可以基于以下公式(2)进行计算。
[0061][0062]
在上述公式(2)中,代表第i台主机针对单个交易对象k在每个预定时间间隔内的交易审批的数量。代表第i台主机针对单个交易对象k在每个预定时间间隔内的总的审批通过数量。代表第i台主机针对单个交易对象k在每个预定时间间隔内的放款笔数。代表第i台主机针对单个交易对象k在每个预定时间间隔内的审批拒绝数量。代表针对全部交易对象在每个预定时间间隔内的总的待审批交易数量。n代表全部交易对象的数量。
[0063]
以下以交易审批数量表征数据为例,示例生成交易审批状态表征数据的方法。
[0064]
关于第x台主机的交易审批数量表征数据的计算方式,其例如包括:针对单个交易对象和所有交易对象,分别计算第x台主机的在当前预定时间间隔和前一预定时间间隔的交易审批数量表征数据的均值,以便生成关于第x台主机的交易审批数量表征数据。
[0065]
关于交易系统的交易审批数量表征数据是基于各个主机的交易审批数量表征数据和与各个主机所对应的各贡献度而计算的。
[0066]
以下结合公式(3)示例性说明用于生成第x台设备的交易审批数量表征数据的方
法。
[0067][0068]
在上述公式(3)中,a代表交易审批数量这一因素变量。θj代表第i个特征向量下,第j个元素(例如训练样本元素或测试元素)的函数权重因子,即模型参数。代表第i个特征向量、第j个元素的交易审批数量表征数据。ha(x)代表训练集(或测试集)中m个元素的交易审批数量表征数据。代表在交易审批数量这一因素变量a影响下,第i个特征向量,训练集(或测试集)x的第j个元素的交易审批数量表征数据模型函数。x
j(i)
代表训练集(或测试集)x中的第i个特征向量中的第j个元素。m代表训练集(或测试集)的训练样本元素(或测试元素)的数量。n代表特征向量的数量。
[0069]
交易审批数量表征数据模型函数的损失函数j(θ)例如而不限于基于如下公式(4)进行处理。
[0070][0071]
在上述公式(4)中,y(i)代表第i个特征向量在交易审批数量表征数据模型函数中的真实值。h
θ
(x(i))代表第x个特征向量在交易审批数量表征数据模型函数中的预测值。m代表训练集(或测试集)的训练样本元素(或测试元素)的数量。
[0072]
应当理解,以类似于计算第x台设备的交易审批数量表征数据的方法,可以计算第x台设备的待审批交易数量表征数据、审批通过数量表征数据、放款笔数表征数据和还款笔数表征数据。以下结合公式(5)至(8)说明生成第x台设备的待审批交易数量表征数据、审批通过数量表征数据、放款笔数表征数据和还款笔数表征数据的计算方式。
[0073][0074][0075][0076][0077]
在上述公式(5)至(8)中,b代表待审批交易数量这一因素变量。c代表待审批交易数量这一因素变量。d代表放款笔数这一因素变量。e代表还款笔数这一因素变量。代表,第i个特征向量、第j个元素的待审批交易数量表征数据。hb(x)代表m个元素的待审批交易数量表征数据。代表在待审批交易数量这一因素变量b影响下,第i个特征向量,第j个元素的待审批交易数量表征数据模型函数。代表第i个特征向量、第j个元素的审批通过数量表征数据。hc(x)代表m个元素的审批通过数量表征数
据。代表在审批通过数量这一因素变量c影响下,第i个特征向量,训练集(或测试集)x的第j个元素的审批通过数量表征数据模型函数。代表第i个特征向量、第j个元素的放款笔数表征数据。hd(x)代表m个元素的放款笔数表征数据。代表在放款笔数这一因素变量d影响下,第i个特征向量,训练集(或测试集)x的第j个元素的放款笔数表征数据模型函数。代表第i个特征向量、第j个元素的还款笔数表征数据。he(x)代表m个元素的还款笔数表征数据。代表在还款笔数这一因素变量d影响下,第i个特征向量,训练集(或测试集)x的第j个元素的还款笔数表征数据模型函数。θj代表第i个特征向量下,第j个元素的函数权重因子,即模型参数。x
j(i)
代表训练集(或测试集)x中的第i个特征向量中的第j个元素。m代表训练集(或测试集)的元素的数量。n代表特征向量的数量。
[0078]
在步骤212处,计算设备110基于与各事件属性信息所对应的监控事件表征数据和交易审批状态表征数据,预测交易系统的健康状态。
[0079]
关于确定交易系统的健康状态的方法,其例包括:计算设备110基于逻辑回归算法,针对多台主机中的每一台主机,分别确定与各个事件属性信息所对应的多个第一权重和与交易审批状态表征数据所对应的多个第二权重,多个第一权重用于分别指示与各个事件属性信息所对应的各个监控事件表征数据对每一台主机的健康状态的影响,第二权重用于分别指示待审批交易数量表征数据、审批通过数量表征数据、放款笔数表征数据和还款笔数表征数据对每一台主机的健康状态的影响;以及基于与各个事件属性信息所对应的监控事件表征数据、多个第一权重、交易审批状态表征数据和多个第二权重,确定交易系统中每一台主机的健康状态。下文将结合图3具体说明确定交易系统的健康状态的方法300,在此,不再赘述。
[0080]
在该方案中,通过获取交易系统的主机、网络设备和所运行应用的多维度的运行状态信息,以及针对多维度的运行状态信息进行数据清洗,本公开不仅能够多维度的全面采集交易系统的运行信息,而且可以使得所生成的监控事件数据不会以因网络不稳定等偶发性因素而引发对交易系统健康状态的误判断。另外,通过确定监控事件数据的事件属性信息(包括通知类别、告警类别、故障类别和生产变更类别中的多种),以及针对监控事件数据进行聚类以便确定监控事件表征数据,本公开能够提前对运维记录从多个不同严重程序的维度加以区分并综合判断对系统健康状态的影响,有利于提升对故障事件预测的前瞻性,提前避免交易的故障的发生。再者,通过生成预定时间间隔内的关于交易审批状态表征数据,以及基于与各事件属性信息所对应的监控事件表征数据和交易审批状态表征数据,预测交易系统的健康状态,本公开可以基于交易系统的基础技术环境的运维状态数据和业务交易的状态数据确定交易系统的健康状态,因而能够显著提升关于系统健康状态及运行趋势的精确判断能力。因此,本公开能够准确评估交易系统的健康状态,并且针对交易系统的健康异常状态能够进行预警。
[0081]
以下将结合图3描述根据本公开的实施例的用于确定交易系统的健康状态的方法300。图3示出了根据本公开的实施例的用于确定交易系统的健康状态的方法300的流程图。应当理解,方法300例如可以在图6所描述的电子设备600处执行。也可以在图1所描述的计
算设备110处执行。应当理解,方法300还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
[0082]
在步骤302处,计算设备110基于逻辑回归算法,针对多台主机中的每一台主机,分别确定与各个事件属性信息所对应的多个第一权重和与交易审批状态表征数据所对应的多个第二权重,多个第一权重用于分别指示与各个事件属性信息所对应的各个监控事件表征数据对每一台主机的健康状态的影响,第二权重用于分别指示待审批交易数量表征数据、审批通过数量表征数据、放款笔数表征数据和还款笔数表征数据对每一台主机的健康状态的影响。
[0083]
在步骤304处,计算设备110基于与各个事件属性信息所对应的监控事件表征数据、多个第一权重、交易审批状态表征数据和多个第二权重,确定交易系统中每一台主机的健康状态。
[0084]
以下结合公式(9)说明用于确定每一台主机的健康状态的方法。
[0085][0086]
在上述公式(8)中,j1代表与通知类别这一事件属性信息所对应的权重。j2代表与告警类别这一事件属性信息所对应的权重。j3代表与故障类别这一事件属性信息所对应的权重。j4代表与生产变更类别这一事件属性信息所对应的权重。第一权重包括j1、j2、j3和j4。ja代表与交易审批数量表征数据对应的权重。jb代表与待审批交易数量表征数据对应的权重。jc代表与审批通过数量表征数据对应的权重。jd代表与放款笔数表征数据对应的重。je代表与还款笔数表征数据对应的权重。第二权重包括ja、jb、jc、jd和je。y代表第x台主机的健康状态。g1(x)代表通知类别这一事件属性信息所对应的监控事件表征数据。g2(x)代表告警类别这一事件属性信息所对应的监控事件表征数据。g3(x)代表故障类别这一事件属性信息所对应的监控事件表征数据。g4(x)代表生产变更类别这一事件属性信息所对应的监控事件表征数据。
[0087]
以下将结合图4描述根据本公开的实施例的用于针对运行状态信息进行数据清洗的方法400。图4示出了根据本公开的实施例的用于针对运行状态信息进行数据清洗的方法400的流程图。应当理解,方法400例如可以在图6所描述的电子设备600处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法400还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
[0088]
在步骤402处,计算设备110针对连续采样时间间隔内的、关于相同的监控事件记录进行收敛。
[0089]
例如,计算设备110确定连续采样时间间隔内存在相同的第一记录和第二记录。第一记录例如为用于指示前一采样时间间隔内(例如5分钟),主机磁盘使用率过高(例如主机的磁盘使用率数据为80%,高于使用率阈值)的监控事件记录;第二记录例如为用于指示下一采样时间间隔内主机的磁盘使用率数据依然为80%的主机磁盘使用率过高的监控事件记录;则计算设备110将第一记录和第二记录收敛为一条关于主机磁盘使用率过高的监控事件记录。
[0090]
在步骤404处,计算设备110基于与当前监控事件记录关联的其他监控事件记录,对当前监控事件记录进行过滤。
[0091]
例如,计算设备110确定第三记录为指示某一时刻某一主机的应用程序的进程宕机的监控事件记录;计算设备110同时确定用于指示该应用程序所在主机与其他主机的流量传输监控事件记录指示正常,并且该应用程序所对应的交易审批的审批通过数量等监控事件指示正常;以及应用程序接口的响应时间监控事件记录也指示正常,则计算设备110确定该第三记录为无效的,因而过滤掉第三记录。
[0092]
在步骤406处,计算设备110基于经收敛和经过滤的监控事件记录生成关于系统运行状态的监控事件数据。
[0093]
通过采用上述手段,本公开能够更有效地使得所生成关于系统运行状态的监控事件数据不会因网络不稳定等偶发性因素而产生的告警数据引发对交易系统健康状态的误判断。
[0094]
以下将结合图5描述根据本公开的实施例的用于生成关于当前主机的维护订单的方法500。图5示出了根据本公开的实施例的用于生成关于当前主机的维护订单的方法500的流程图。应当理解,方法500例如可以在图6所描述的电子设备600处执行。也可以在图1所描述的计算设备110处执行。应当理解,方法500还可以包括未示出的附加动作和/或可以省略所示出的动作,本公开的范围在此方面不受限制。
[0095]
在步骤502处,计算设备110针对所确定的每一台主机的健康状态进行排序。
[0096]
在步骤504处,计算设备110确定当前主机的健康状态的所排顺序是否在第一预定顺序之前。在一些实施例中,第一预定顺序例如对应于所有主机的排名的第20%。
[0097]
在步骤506处,如果计算设备110确定当前主机的健康状态的所排顺序在第一预定顺序之前,确定当前主机的健康状态符合预定条件;
[0098]
在步骤508处,如果计算设备110确定当前主机的健康状态的所排顺序不在第一预定顺序之前,确定当前主机的健康状态的所排顺序是否在第二预定顺序之后。在一些实施例中,第二预定顺序例如对应于所有主机的排名的第60%。
[0099]
在步骤510处,如果计算设备110确定当前主机的健康状态的所排顺序在第二预定顺序之后,确定当前主机的健康状态不符合预定条件。如果计算设备110确定当前主机的健康状态的所排顺序不在第二预定顺序之后,跳转至步骤512处,确定当前主机的健康状态需要关注。
[0100]
在步骤514处,计算设备110确定当前主机的健康状态是否不符合预定条件。如果确定当前主机的健康状态并非不符合预定条件,跳转至步骤518处,基于当前主机的健康状态,呈现对应的指示信息。例如,针对健康状态排名的前20%的呈现指示健康的指示信息。针对健康状态排名20%至40%的呈现指示需被关注的指示信息。
[0101]
在步骤516处,如果计算设备110确定当前主机的健康状态不符合预定条件,生成关于当前主机的维护订单。例如,针对健康状态排名的后60%的主机,生成维护订单。
[0102]
通过采用上述手段,本公开可以自动针对故障主机的维护订单,而且可以针对处于健康状态的主机和处于需关注状态的主机呈现对应指示信号。
[0103]
图6示意性示出了适于用来实现本公开实施例的电子设备(或者计算设备)600的框图。设备600可以是用于实现执行图2至图5所示的方法200、300、400和500的设备。如图6所示,设备600包括中央处理单元(cpu)601,其可以根据存储在只读存储器(rom)602中的计算机程序指令或者从存储单元608加载到随机存取存储器(ram)603中的计算机程序指令,
来执行各种适当的动作和处理。在ram中,还可存储设备600操作所需的各种程序和数据。cpu、rom以及ram通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。
[0104]
设备600中的多个部件连接至输入/输出(i/o)605,包括:输入单元606、输出单元607、存储单元608,中央处理单元601执行上文所描述的各个方法和处理,例如执行方法200、300、400和500例如,在一些实施例中,方法200、300、400和500可被实现为计算机软件程序,其被存储于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由rom和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到ram并由cpu执行时,可以执行上文描述的方法200、300、400和500的一个或多个操作。备选地,在其他实施例中,cpu可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200、300、400和500的一个或多个动作。
[0105]
需要进一步说明的是,本公开可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
[0106]
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
[0107]
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
[0108]
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,该编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及常规的过程式编程语言—诸如c语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编
程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
[0109]
这里参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或步骤图描述了本公开的各个方面。应当理解,流程图和/或步骤图的每个方步骤以及流程图和/或步骤图中各方步骤的组合,都可以由计算机可读程序指令实现。
[0110]
这些计算机可读程序指令可以提供给语音交互装置中的处理器、通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或步骤图中的一个或多个方步骤中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或步骤图中的一个或多个方步骤中规定的功能/动作的各个方面的指令。
[0111]
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或步骤图中的一个或多个方步骤中规定的功能/动作。
[0112]
附图中的流程图和步骤图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或步骤图中的每个方步骤可以代表一个模块、程序段或指令的一部分,该模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方步骤中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方步骤实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,步骤图和/或流程图中的每个方步骤、以及步骤图和/或流程图中的方步骤的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0113]
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
[0114]
以上仅为本公开的可选实施例,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等效替换、改进等,均应包含在本公开的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1