故障检测与自愈系统、方法和计算机程序产品与流程

文档序号:36647805发布日期:2024-01-06 23:31阅读:18来源:国知局
所属的技术人员能够理解,本技术的各个方面可以实现为系统、方法或程序产品。因此,本技术的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。与上述方法实施例基于同一发明构思,本技术实施例中还提供了一种电子设备。在一种实施例中,该电子设备可以是图1所示的检测设备10。在该实施例中,电子设备的结构可以如图10所示,包括存储器801,通讯模块803以及一个或多个处理器802。存储器801,用于存储处理器802执行的计算机程序。存储器801可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。存储器801可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,ram);存储器801也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,hdd)或固态硬盘(solid-state drive,ssd);或者存储器801是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。存储器801可以是上述存储器的组合。处理器802,可以包括一个或多个中央处理单元(central processing unit,cpu)或者为数字处理单元等等。处理器802,用于调用存储器801中存储的计算机程序时实现上述故障检测与自愈方法,如图6所示。通讯模块803用于与被测设备进行通信。本技术实施例中不限定上述存储器801、通讯模块803和处理器802之间的具体连接介质。本技术实施例在图10中以存储器801和处理器802之间通过总线804连接,总线804在图10中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线804可以分为地址总线、数据总线、控制总线等。为便于描述,图10中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。存储器801中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本技术实施例的故障检测与自愈方法。处理器802用于执行上述的各故障检测与自愈方法。下面参照图11来描述根据本技术的这种实施方式的计算装置900。图11的计算装置900仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。如图11,计算装置900以通用计算装置的形式表现。计算装置900的组件可以包括但不限于:上述至少一个处理单元901、上述至少一个存储单元902、连接不同系统组件(包括存储单元902和处理单元901)的总线903。总线903表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。存储单元902可以包括易失性存储器形式的可读介质,例如随机存取存储器(ram)921和/或高速缓存存储器922,还可以进一步包括只读存储器(rom)923。存储单元902还可以包括具有一组(至少一个)程序模块924的程序/实用工具925,这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。计算装置900也可以与一个或多个外部设备904(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置900交互的设备通信,和/或与使得该计算装置900能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口905进行。并且,计算装置900还可以通过网络适配器906与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图11所示,网络适配器906通过总线903与用于计算装置900的其它模块通信。应当理解,尽管图中未表示出,可以结合计算装置900使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。本技术实施例还提供一种计算机程序产品,本技术中的方法可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序或指令。在计算机上加载和执行所述计算机程序或指令时,全部或部分地执行本技术所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、用户设备、核心网设备、oam或者其它可编程装置。计算机可读存储介质可以作为计算机程序产品的一种实现,即本技术实施例还提供一种计算机可读存储介质,其包括计算机程序,当所述计算机程序被处理器执行时实现如上述任意一种故障检测与自愈方法。所述计算机程序或指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序或指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是集成一个或多个可用介质的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,例如,软盘、硬盘、磁带;也可以是光介质,例如,数字视频光盘;还可以是半导体介质,例如,固态硬盘。该计算机可读存储介质可以是易失性或非易失性存储介质,或可包括易失性和非易失性两种类型的存储介质。本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本技术是参照根据本技术的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
背景技术
::1、类unix(unix-like)操作系统是一种强大的多用户、多任务操作系统,支持多种处理器架构,类unix操作系统既包括各种传统的unix操作系统,如freebsd、openbsd、sunsolaris等操作系统,还包括与unix操作系统相似的操作系统,如linux、qnx、minix等操作系统,类unix操作系统相当程度地继承了原始unix操作系统的特性,并且都在一定程度上遵守posix(portable operating system interface of unix,unix可移植操作系统接口)规范。2、类unix操作系统在车辆中的硬件设备上得到越来越广泛的应用,例如bgm(bodygateway module,车身网关模块)、tcam(telematics and connectivity module,远程通信和连接模块)、cdc(cockpit domain controller,座舱域控制器)、acu(apollo computingunit,自动驾驶计算平台)等硬件设备,目前,在通过soa(service-orientedarchitecture,面向服务的架构)平台对硬件设备上安装的应用程序进行测试时,被测的硬件设备经常会出现一些操作系统功能层面的故障,严重影响应用程序的正常运行。相关技术中,一般通过手动输入检测指令的方式对操作系统的各功能模块进行人工检测,检测效率较低,且无法及时进行恢复,从而,进一步影响硬件设备的应用程序的检测效率。技术实现思路1、为了解决现有的操作系统故障检测效率较低且无法及时进行恢复,进而影响应用程序的检测效率的问题,本技术实施例提供一种故障检测与自愈系统、方法和计算机程序产品。2、本技术实施例提供了一种故障检测与自愈系统,包括检测设备和被测设备,所述检测设备与所述被测设备相连接,其中:3、所述检测设备,用于响应于检测请求,获取每一待检测项目各自对应的配置文件,所述配置文件包含待检测项目所属操作系统功能模块的类别、检测手段和恢复手段;将每一待检测项目对应的检测手段信息发送至所述被测设备;接收所述被测设备返回的每一待检测项目的执行日志文件,所述执行日志文件包含检测结果;针对每一待检测项目,若基于所述待检测项目的检测结果确定满足恢复条件,则将所述待检测项目对应的恢复手段信息发送至所述被测设备;4、所述被测设备,用于针对每一待检测项目,执行所述待检测项目对应的检测手段,并存储执行日志文件,将所述执行日志文件返回至检测设备;以及执行满足恢复条件的待检测项目对应的恢复手段进行恢复。5、在一种实施方式中,所述配置文件还包含待检测项目的风险等级和告警参数,所述告警参数用于声明所述待检测项目的风险等级是否作为确定目标风险值的依据;6、所述检测设备,还用于根据每一待检测项目的风险等级、告警参数确定告警阈值;基于所述每一待检测项目的风险等级、告警参数和检测结果确定目标风险值,若基于所述目标风险值和所述告警阈值确定满足告警条件,则触发告警。7、在一种实施方式中,所述检测设备包括调度中心模块、设备自愈处理器和设备自愈日志服务模块,所述设备自愈处理器包括设备自愈处理模块、检测项目恢复手段列表;所述被测设备包括执行模块和设备自愈日志代理模块;8、所述调度中心模块,用于响应于所述检测请求,获取所述每一待检测项目各自对应的配置文件;将所述每一待检测项目对应的配置文件中包含的检测脚本和恢复脚本存储至所述检测项目恢复手段列表;并将所述每一待检测项目对应的检测脚本发送至所述执行模块;9、所述执行模块,用于分别执行所述每一待检测项目对应的检测脚本,并将每一待检测项目的执行日志文件存储至所述设备自愈日志代理模块;10、所述设备自愈日志代理模块,用于将所述每一待检测项目的执行日志文件上传至所述设备自愈日志服务模块;11、所述设备自愈日志服务模块,用于按照预设时间周期向所述设备自愈处理模块上报所述每一待检测项目执行日志文件。12、在一种实施方式中,所述设备自愈处理模块,用于针对所述每一待检测项目,若确定所述待检测项目的执行日志文件中包含的执行所述待检测项目的检测脚本对应的返回值表征检测脚本执行失败时,则确定满足恢复条件,将所述待检测项目对应的恢复脚本发送至所述执行模块;13、所述执行模块,用于执行所述待检测项目对应的恢复脚本对所述待检测项目进行恢复。14、在一种实施方式中,所述检测设备还包括设备自愈告警模块;15、所述设备自愈处理模块,用于将告警参数为设定值的各第一待检测项目的风险等级的和值确定为所述告警阈值;将返回值表征检测脚本正常执行且检测结果为异常、且告警参数为所述设定值的各第二待检测项目的风险等级的和值确定为所述目标风险值,其中,所述告警参数为所述设定值时表征所述待检测项目的风险等级作为确定所述目标风险值的依据;以及在基于所述目标风险值和所述告警阈值确定满足告警条件时,向所述设备自愈告警模块触发告警指令;16、所述设备自愈告警模块,具体用于响应于所述告警指令,对所述各第二待检测项目进行告警。17、在一种实施方式中,所述设备自愈处理模块,具体用于分别确定每一第一待检测项目所属的操作系统功能模块的类别,将属于各操作系统功能模块的类别下的每一第一待检测项目的风险等级的和值确定为所述告警阈值。18、在一种实施方式中,所述设备自愈处理模块,具体用于分别确定每一第二待检测项目所属的操作系统功能模块的类别,将属于各操作系统功能模块的类别下的每一第二待检测项目的风险等级的和值确定为所述目标风险值。19、在一种实施方式中,所述告警指令包括第一告警指令和第二告警指令;20、所述设备自愈处理模块,具体用于采用第一调整参数对所述告警阈值进行调整得到第一告警阈值,以及采用第二调整参数对所述告警阈值进行调整得到第二告警阈值;若确定所述目标风险值大于所述第一告警阈值,则向所述设备自愈告警模块触发所述第一告警指令;若确定所述目标风险值大于所述第二告警阈值且小于或者等于所述第一告警阈值,则向所述设备自愈告警模块触发所述第二告警指令;21、所述设备自愈告警模块,具体用于响应于所述第一告警指令,采用第一告警模式对所述各第二待检测项目进行告警;或者,响应于所述第二告警指令,采用第二告警模式对所述各第二待检测项目进行告警。22、在一种实施方式中,所述执行模块,具体用于调用执行实例并行执行各待检测项目对应的检测脚本。23、在一种实施方式中,所述执行模块,具体用于按照优先级由高到低采用轮询方式执行所述待检测项目对应的各个恢复脚本,直至所述待检测项目的检测脚本正常执行。24、本技术实施例提供了一种检测设备侧实施的故障检测与自愈方法,包括:25、响应于检测请求,获取每一待检测项目各自对应的配置文件,所述配置文件包含待检测项目所属操作系统功能模块的类别、检测手段和恢复手段;26、将每一待检测项目对应的检测手段信息发送至被测设备,所述待检测项目对应的检测手段用于对所述待检测项目进行检测;27、接收被测设备返回的每一待检测项目的执行日志文件,所述执行日志是所述被测设备执行所述待检测项目的检测手段后生成的,所述执行日志文件包含检测结果;28、针对每一待检测项目,若基于所述待检测项目的检测结果确定满足恢复条件,则将所述待检测项目对应的恢复手段信息发送至所述被测设备,所述恢复手段用于对所述待检测项目进行恢复。29、在一种实施方式中,所述配置文件还包含待检测项目的风险等级和告警参数,所述告警参数用于声明所述待检测项目的风险等级是否作为确定目标风险值的依据;30、所述方法,还包括:31、根据每一待检测项目的风险等级、告警参数确定告警阈值;32、基于所述每一待检测项目的风险等级、告警参数和检测结果确定目标风险值;33、若基于所述目标风险值和所述告警阈值确定满足告警条件,则触发告警。34、在一种实施方式中,基于所述待检测项目的检测结果确定满足恢复条件,具体包括:35、若确定所述待检测项目的执行日志文件中包含的执行所述待检测项目的检测脚本对应的返回值表征检测脚本执行失败时,则确定满足恢复条件。36、在一种实施方式中,根据每一待检测项目的风险等级、告警参数确定告警阈值,具体包括:37、将告警参数为设定值的各第一待检测项目的风险等级的和值确定为所述告警阈值,其中,所述告警参数为所述设定值时表征所述待检测项目的风险等级作为确定所述目标风险值的依据。38、在一种实施方式中,基于所述每一待检测项目的风险等级、告警参数和检测结果确定目标风险值,具体包括:39、将返回值表征检测脚本正常执行且检测结果为异常、且告警参数为所述设定值的各第二待检测项目的风险等级的和值确定为所述目标风险值。40、在一种实施方式中,将告警参数为设定值的各第一待检测项目的风险等级的和值确定为所述告警阈值,具体包括:41、分别确定每一第一待检测项目所属的操作系统功能模块的类别;42、将属于各操作系统功能模块的类别下的每一第一待检测项目的风险等级的和值确定为所述告警阈值。43、在一种实施方式中,将返回值表征检测脚本正常执行且检测结果为异常、且告警参数为所述设定值的各第二待检测项目的风险等级的和值确定为所述目标风险值,具体包括:44、分别确定每一第二待检测项目所属的操作系统功能模块的类别;45、将属于各操作系统功能模块的类别下的每一第二待检测项目的风险等级的和值确定为所述目标风险值。46、在一种实施方式中,所述告警指令包括第一告警指令和第二告警指令;47、若基于所述目标风险值和所述告警阈值确定满足告警条件,则触发告警,具体包括:48、采用第一调整参数对所述告警阈值进行调整得到第一告警阈值,以及采用第二调整参数对所述告警阈值进行调整得到第二告警阈值;49、若确定所述目标风险值大于所述第一告警阈值,则采用第一告警模式对所述各第二待检测项目进行告警;50、若确定所述目标风险值大于所述第二告警阈值且小于或者等于所述第一告警阈值,则采用第二告警模式对所述各第二待检测项目进行告警。51、本技术实施例提供了一种被测设备侧实施的故障检测与自愈方法,包括:52、接收检测设备发送的每一待检测项目对应的检测手段信息;53、针对每一待检测项目,执行所述待检测项目对应的检测手段,并存储执行日志文件,将所述执行日志文件返回至检测设备;54、接收所述检测设备发送的满足恢复条件的待检测项目对应的恢复手段信息;55、执行所述满足恢复条件的待检测项目对应的恢复手段进行恢复。56、一种实施方式中,针对每一待检测项目,执行所述待检测项目对应的检测手段,具体包括:调用执行实例并行执行各待检测项目对应的检测脚本。57、一种实施方式中,执行所述满足恢复条件的待检测项目对应的恢复手段进行恢复,具体包括:58、按照优先级由高到低采用轮询方式执行所述待检测项目对应的各个恢复脚本,直至所述待检测项目的检测脚本正常执行。59、本技术实施例提供的一种计算机程序产品,包括计算机程序,当所述计算机程序被处理器执行时实现本技术所述的故障检测与自愈方法。60、本技术实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本技术所述的故障检测与自愈方法。61、可选的,计算机可读存储介质可以作为计算机程序产品的一种实现,即本技术实施例还提供一种计算机可读存储介质,其包括计算机程序,当所述计算机程序被处理器执行时实现本技术所述的故障检测与自愈方法。62、本技术有益效果如下:63、本技术实施例提供了一种故障检测与自愈系统、方法和计算机程序产品,故障检测与自愈系统可以包括检测设备和被测设备,检测设备和被测设备相连接,其中:检测设备,用于响应于检测请求,获取每一待检测项目各自对应的配置文件,配置文件包含待检测项目所属操作系统功能模块的类别、检测手段和恢复手段;将每一待检测项目对应的检测手段信息发送至被测设备;接收被测设备返回的每一待检测项目的执行日志文件,执行日志文件包含检测结果;针对每一待检测项目,若基于待检测项目的检测结果确定满足恢复条件,则将待检测项目对应的恢复手段信息发送至被测设备;被测设备,用于针对每一待检测项目,执行待检测项目对应的检测手段,并存储执行日志文件,将执行日志文件返回至检测设备;以及执行满足恢复条件的待检测项目对应的恢复手段进行恢复。本技术实施例中,通过预先为各类别的操作系统功能模块下的各检测项目分别设置对应的配置文件,在配置文件中配置待检测项目所属操作系统功能模块的类别、对待检测项目进行故障检测的检测手段和待检测项目出现故障时对应的恢复手段,当检测设备接收到检测请求后,即可自动获取每一待检测项目各自对应的配置文件,将每一待检测项目的配置文件中包含的检测手段信息发送至被测设备,被测设备分别执行每一待检测项目对应的检测手段,并将执行日志文件返回至检测设备,检测设备基于每一待检测项目的检测结果判断是否满足恢复条件,将满足恢复条件的待检测项目的恢复手段信息发送至被测设备,被测设备执行满足恢复条件的待检测项目的恢复手段对其进行恢复,从而,实现了根据检测请求自动灵活对操作系统不同类别功能模块下的检测项目进行故障检测,并对满足恢复条件的待检测项目直接进行故障恢复,提高了操作系统的检测效率以及故障恢复效率,进而提高了被测设备中应用程序的运行与检测效率。64、本技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1