本发明涉及计算机技术领域,尤其涉及一种服务异常的监控方法和装置。
背景技术:
在目前的应用服务中,数据从上游集市(数据中心)经过bi(商务智能)人员进行etl(extract-transform-load,将数据从来源端经过抽取、交互转换、加载至目的端)后,通过调度工具配置相应的调度任务把数据推送到下游目标应用系统。各个应用使用这些数据进行相应的产品开发,其中通过数据服务rpc(远程过程调用)的方式,服务端把业务方想要的数据同步给业务方的客户端,这种方式即接口服务化开发。
在bi推送数据到服务端,再提供给客户端的过程中往往会存在一些服务异常问题。以往都是由人工检查服务是否存在异常,不能实现及时监控和预警,导致业务系统已经存在问题后才能发现。此外,业务方的需求迭代更新,在原使用的服务因产品需求功能下线而不需要再使用的情况下,服务端仍对外提供服务,造成资源浪费且占用服务端数据库资源。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
需要人工检查问题和发现不需要的服务,人力和时间成本高,易出现误判,对问题的监控和预警不及时,也无法及时回收不需要的服务,浪费资源。
技术实现要素:
有鉴于此,本发明实施例提供一种服务异常的监控方法和装置,能够在下游客户端调用前自动检查问题和发现不需要的服务,监控和预警服务异常,以便提前排查定位问题和回收不需要的服务,节省人力和时间成本,并避免资源浪费。
为实现上述目的,根据本发明实施例的一个方面,提供了一种服务异常的监控方法。
一种服务异常的监控方法,包括:配置定时任务,定时任务用于模拟下游客户端对服务的调用行为;按照预设的校验规则校验服务异常,其中包括:执行定时任务,以统计固定时间段内服务调用结果返回的超时次数,根据超时次数校验服务的连通性异常;输出服务异常的通知消息。
可选地,按照预设的校验规则校验服务异常,还包括:记录每次服务被调用时的查询响应时间,根据查询响应时间校验服务的性能异常。
可选地,按照预设的校验规则校验服务异常,还包括:判断上游数据源推送与服务对应的数据的延迟时间是否超过预设的延迟时间阈值;根据判断结果校验服务的延迟性异常。
可选地,按照预设的校验规则校验服务异常,还包括:从服务对应的当前数据中抽取数据样例;根据数据样例与数据样例对应的历史数据计算数据误差;根据数据误差校验服务的波动性异常。
可选地,按照预设的校验规则校验服务异常,还包括:定期扫描下游客户端对服务调用的日志信息,以获取下游客户端对服务的调用记录;根据调用记录校验服务的调用频次异常。
可选地,按照预设的校验规则校验服务异常,还包括:根据保存的下游客户端对服务的调用权限记录,判断下游客户端当前是否具有对服务的调用权限;根据判断的结果,校验服务的调用频次异常。
根据本发明实施例的另一方面,提供了一种服务异常的监控装置。
一种服务异常的监控装置,包括:任务配置模块,用于配置定时任务,定时任务用于模拟下游客户端对服务的调用行为;异常校验模块,用于按照预设的校验规则校验服务异常,其中包括:执行定时任务,以统计固定时间段内服务调用结果返回的超时次数,根据超时次数校验服务的连通性异常;消息输出模块,用于输出服务异常的通知消息。
可选地,异常校验模块还用于:记录每次服务被调用时的查询响应时间,根据查询响应时间校验服务的性能异常。
可选地,异常校验模块还用于:判断上游数据源推送与服务对应的数据的延迟时间是否超过预设的延迟时间阈值;根据判断结果校验服务的延迟性异常。
可选地,异常校验模块还用于:从服务对应的当前数据中抽取数据样例;根据数据样例与数据样例对应的历史数据计算数据误差;根据数据误差校验服务的波动性异常。
可选地,异常校验模块还用于:定期扫描下游客户端对服务调用的日志信息,以获取下游客户端对服务的调用记录;根据调用记录校验服务的调用频次异常。
可选地,异常校验模块还用于:根据保存的下游客户端对服务的调用权限记录,判断下游客户端当前是否具有对服务的调用权限;根据判断的结果,校验服务的调用频次异常。
根据本发明实施例的又一方面,提供了一种电子设备。
一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现本发明提供的服务异常的监控方法。
根据本发明实施例的又一方面,提供了一种计算机可读介质。
一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现本发明提供的服务异常的监控方法。
上述发明中的一个实施例具有如下优点或有益效果:根据固定时间段内服务调用结果返回的超时次数,校验服务的连通性异常;根据服务被调用时的查询响应时间校验服务的性能异常;根据上游数据源推送数据的延迟时间是否超过预设的延迟时间阈值,校验服务的延迟性异常;根据抽取的数据样例与对应的历史数据之间的数据误差校验服务的波动性异常;根据下游客户端对服务的调用记录或调用权限记录校验服务的调用频次异常。能够在下游客户端调用前自动检查问题和发现不需要的服务,监控和预警服务的问题,以便及时告知相关负责人,提前排查定位问题和回收不需要的服务,节省人力和时间成本,并避免资源浪费。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明第一实施例的服务异常的监控方法的主要步骤示意图;
图2是根据本发明第二实施例的服务异常监控的系统构成示意图;
图3是根据本发明第三实施例的服务异常的监控装置的主要模块示意图;
图4是本发明实施例可以应用于其中的示例性系统架构图;
图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
图1是根据本发明第一实施例的服务异常的监控方法的主要步骤示意图。
如图1所示,本发明第一实施例的服务异常的监控方法主要包括如下的步骤s101至步骤s103。
步骤s101:配置定时任务,定时任务用于模拟下游客户端对服务的调用行为。
下游客户端为业务方的客户端,本发明实施例的服务异常的监控方法在服务端执行,服务端的上游数据中心(即上游数据源)将数据推送到服务端的相应数据库进行存储,服务端可以对数据进行查询并封装成接口,向业务方的客户端提供数据服务。
定时任务调用服务的时间间隔可以根据需要设定,例如配置定时任务每隔5分钟调用服务。
步骤s102:按照预设的校验规则校验服务异常,其中包括:执行定时任务,以统计固定时间段内服务调用结果返回的超时次数,根据该超时次数校验服务的连通性异常。
固定时间段可以根据需要设定,可以是定时任务调用服务的时间间隔。以定时任务每隔5分钟调用服务为例,如果在5分钟内多次调用结果返回超时,且超时次数超过预定的超时次数阈值,那么可以判定为服务连通性存在问题,否则,不存在服务连通性异常。
按照预设的校验规则校验服务异常,还可以包括:记录每次服务被调用时的查询响应时间,根据查询响应时间校验服务的性能异常。
其中,作为一种实施方式,可以判断查询响应时间是否超过预设的时间阈值(根据需要设定),若是,则判定服务存在性能异常,否则不存在性能异常。
作为另一种实施方式,可以判断在一个时间段内查询响应时间超过预设的时间阈值的次数是否达到预设次数,若是,则判定服务存在性能异常,否则不存在性能异常。
每次服务被调用时的查询响应时间,可以是服务被定时任务调用时的查询响应时间,根据该查询响应时间可以在下游客户端调用服务之前实现对服务的性能异常校验,以达到服务端对外提供该服务之前的事前监控的效果。
在服务通过校验后,在服务端对外提供该服务期间,还可以记录该服务被下游客户端调用时的查询响应时间,以进一步校验服务的性能异常,以达到服务端对外提供该服务期间的事中监控的效果。
按照预设的校验规则校验服务异常,还可以包括:判断上游数据源推送与服务对应的数据的延迟时间是否超过预设的延迟时间阈值;根据判断结果校验服务的延迟性异常。具体地,判断上游数据源推送数据的结束时间是否超过每日平均推送的时间,根据该结束时间超过每日平均推送时间的时长计算上游数据源推送数据的延迟时间,将该延迟时间与预先设定的延迟时间阈值(例如1小时)进行比较,若超过,则判定为服务存在延迟性异常,否则,无延迟性异常。
按照预设的校验规则校验服务异常,还可以包括:从服务对应的当前数据中抽取数据样例;根据数据样例与该数据样例对应的历史数据计算数据误差;根据数据误差校验服务的波动性异常,具体地,在数据误差大于设定值时,判定为服务出现波动性异常,否则,无波动性异常。其中,该数据误差的值可以是出现误差的数据量,也可以是出现误差的数据的比例。例如,抽样获取当日数据样例,跟前日数据进行比对,若数据误差的值大于某设定的数据量,则判定为服务出现波动异常。或者,抽样获取当日数据样例,跟前日数据进行比对,若数据误差的值大于某设定的比值(例如50%,即与前日数据比较,抽样的数据样例中有一半存在误差),则判定为服务出现波动异常。
按照预设的校验规则校验服务异常,还可以包括在服务端对外提供服务期间,校验服务的调用频次异常,从而在第一时间发现不需要的服务,以便及时回收服务,避免资源浪费。
其中,作为一种实施方式,可以定期扫描下游客户端对服务调用的日志信息,以获取下游客户端对服务的调用记录;根据调用记录校验服务的调用频次异常。下游客户端每次调用服务端提供的服务时都会记录日志(其中包括调用记录,具体包括访问时间、频次、调用人等信息),服务端定期扫描调用日志信息,若查询到服务没有对应的访问记录的时长超过预先设置的阈值(如一周等),则判定为服务存在调用频次异常,若该时长未超过该预先设置的阈值,则服务不存在调用频次异常。长期未被调用的服务(即长期未使用服务)为不需要的服务,应及时回收。
作为另一种实施方式,可以根据保存的下游客户端对服务的调用权限记录,判断下游客户端当前是否具有对服务的调用权限;根据判断的结果,校验服务的调用频次异常。下游客户端定期向服务端申请调用服务的权限,例如申请30天的权限,在超过30天的情况下,下游客户端应再次向服务端申请调用权限。下游客户端申请调用权限的信息记录在服务端的数据库中。可以从数据库查询下游客户端对服务的调用权限记录,如果超过下游客户端具有调用权限的期限,且下游客户端未再次申请调用权限,则判定该服务调用频次异常,表示该服务为不需要的服务,需要及时回收。下游客户端当前具有对服务的调用权限,则调用频次无异常。
上述实施例校验服务的多个监控项,具体包括服务的连通性异常、服务的性能异常、服务的延迟性异常、服务的波动性异常、服务的调用频次异常。
本发明的服务异常的监控方法在本发明另外的实施例中,可以根据业务需求选择上述监控项之中的一项或多项来监控服务异常。
步骤s103:输出服务异常的通知消息。
具体地,根据服务异常的类型,可以发送相应的邮件或短信给服务方负责人和服务使用人。例如发送连通性预警邮件、性能预警邮件、延迟性预警邮件、波动性预警邮件、长期未使用服务预警邮件等。波动性预警邮件还可以发送上游bi推送人员。
本发明实施例能自动发现错误和回收长期未被使用的服务,并将信息反馈给服务方负责人。实现服务端在给下游客户端使用服务之前,及时地监控预警,自动发送相关预警邮件给服务负责人和服务使用人,使问题能在第一时间得到处理和解决,避免业务方在使用业务系统时,因出现错误的数据给业务人员造成误判而影响业务收益。
图2是根据本发明第二实施例的服务异常监控的系统构成示意图。
如图2所示,第二实施例的服务异常监控的系统架构包括上游数据中心、应用服务端(简称服务端)、业务方客户端,需要说明的是
图2箭头所示的数据流向不代表上游数据中心、应用服务端、业务方客户端三者之间的全部数据流向。在上游数据中心,通过调度工具配置相应的调度任务将数据推送到应用服务端。应用服务端进行接口服务化开发,即,使用这些数据进行相应的产品开发,其中通过数据服务rpc的方式,把业务方需要的数据同步给下游的业务方客户端(图2中该数据流向未画出)。服务端对服务异常进行监控,可以设置主监控项,以事前、事中监控为主,涉及服务的连通性、性能、延迟性、波动性校验;还可以设置副监控,以事后监控为主,主要目的是监控长期未被使用、调用频次极低的服务。
其中,在业务方客户端调用服务之前,可以进行服务的连通性、性能、延迟性、波动性校验,实现事前监控,事前监控时,可以通过服务端的定时任务模拟业务方客户端调用服务。从而在业务方客户端调用前就预警提示当天的数据是否上游数据中心已经推送完成,并且数据是否准确、数据服务连通性是否存在问题、数据的准确性跟前一天比是否有巨大的波动,以便及时告知服务端负责人,提前排查定位问题,使得错误得到尽快地解决,并降低人力和时间成本。
在业务方客户端调用服务端提供的服务期间,也可以进行服务的连通性、性能、延迟性、波动性校验,实现事中监控。以性能异常校验为例,从记录的服务被调用时的查询响应时间,识别出服务被业务方客户端调用时的查询响应时间,以实现事中监控服务的性能异常,其中,服务端可以从token(令牌)中获取调用方的pin(识别码)来识别调用方具体是服务端的定时任务还是业务方客户端。
本发明实施例在服务端增加一个监控业务方客户端调用的方法,监控长期未被使用、调用频次极低的服务。当监控到业务方客户端长时间没有调用,可以自动发送提醒消息给服务端负责人,服务端负责人可以联系业务方客户端沟通确认,如果该服务不再继续使用,则把服务下线(回收),释放上游调度任务资源、数据库存储资源,减少资源浪费。
图3是根据本发明第三实施例的服务异常的监控装置的主要模块示意图。
本发明第三实施例的服务异常的监控装置300主要包括:任务配置模块301、异常校验模块302、消息输出模块303。
任务配置模块301,用于配置定时任务,定时任务用于模拟下游客户端对所述服务的调用行为。
异常校验模块302,用于按照预设的校验规则校验服务异常,其中包括:执行定时任务,以统计固定时间段内服务调用结果返回的超时次数,根据该超时次数校验服务的连通性异常。
消息输出模块303,用于输出服务异常的通知消息。
异常校验模块302还可以用于:记录每次服务被调用时的查询响应时间,根据该查询响应时间校验服务的性能异常。
异常校验模块302还可以用于:判断上游数据源推送与服务对应的数据的延迟时间是否超过预设的延迟时间阈值;根据判断结果校验服务的延迟性异常。
异常校验模块302还可以用于:从服务对应的当前数据中抽取数据样例;根据该数据样例与该数据样例对应的历史数据计算数据误差;根据数据误差校验服务的波动性异常。
异常校验模块302还可以用于:定期扫描下游客户端对服务调用的日志信息,以获取下游客户端对服务的调用记录;根据调用记录校验服务的调用频次异常。
异常校验模块302还可以用于:根据保存的下游客户端对服务的调用权限记录,判断下游客户端当前是否具有对服务的调用权限;根据该判断的结果,校验服务的调用频次异常。
本发明实施例可以在服务端提供服务前自动校验该服务的可用性,并将监控的结果(校验结果)自动反馈给相关负责人。
在本发明实施例中服务异常的监控装置的具体实施内容,在上面所述服务异常的监控方法中已经详细说明了,故在此重复内容不再说明。
图4示出了可以应用本发明实施例的服务异常的监控方法或服务异常的监控装置的示例性系统架构400。
如图4所示,系统架构400可以包括终端设备401、402、403,网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备401、402、403通过网络404与服务器405交互,以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器405可以是提供各种服务的服务器,例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的服务异常的监控方法一般由服务器405执行,相应地,服务异常的监控装置一般设置于服务器405中。
应该理解,图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图5,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统500的结构示意图。图5示出的终端设备或服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(cpu)501,其可以根据存储在只读存储器(rom)502中的程序或者从存储部分508加载到随机访问存储器(ram)503中的程序而执行各种适当的动作和处理。在ram503中,还存储有系统500操作所需的各种程序和数据。cpu501、rom502以及ram503通过总线504彼此相连。输入/输出(i/o)接口505也连接至总线504。
以下部件连接至i/o接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至i/o接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本发明公开的实施例,上文参考主要步骤示意图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤示意图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(cpu)501执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。
附图中的主要步骤示意图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,主要步骤示意图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或主要步骤示意图中的每个方框、以及框图或主要步骤示意图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括任务配置模块、异常校验模块、消息输出模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,任务配置模块还可以被描述为“用于配置定时任务的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:配置定时任务,所述定时任务用于模拟下游客户端对所述服务的调用行为;按照预设的校验规则校验服务异常,其中包括:执行所述定时任务,以统计固定时间段内服务调用结果返回的超时次数,根据所述超时次数校验所述服务的连通性异常;输出所述服务异常的通知消息。
根据本发明实施例的技术方案,根据固定时间段内服务调用结果返回的超时次数,校验服务的连通性异常;根据服务被调用时的查询响应时间校验服务的性能异常;根据上游数据源推送数据的延迟时间是否超过预设的延迟时间阈值,校验服务的延迟性异常;根据抽取的数据样例与对应的历史数据之间的数据误差校验服务的波动性异常;根据下游客户端对服务的调用记录或调用权限记录校验服务的调用频次异常。能够在下游客户端调用前自动检查问题和发现不需要的服务,监控和预警服务的问题,以便及时告知相关负责人,提前排查定位问题和回收不需要的服务,节省人力和时间成本,避免资源浪费。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。