一种系统故障解决方案获取方法及装置与流程

文档序号:15521327发布日期:2018-09-25 19:32阅读:102来源:国知局
本发明涉及系统运维
技术领域
,具体涉及一种系统故障解决方案获取方法及装置。
背景技术
:对于通讯电子设备而言,设备故障是随机发生的,导致设备故障的原因不仅包括设备的硬件失效、设备的软件故障,也包括设备的人为操作错误。但由多个组件构成的复杂系统如果发生故障时,维护人员往往无法快速准确地找到系统故障的解决方案,导致维修时间过长,而这对于高可用系统而言,过长的维修时间是不允许的。现有的系统故障解决方案获取方法在进行故障处理时,维护人员需要人工根据系统出现的问题的进行相关知识的手工查找,采用合理的方案进行故障的处理。当故障得到有效处理后,运维故障经验库需要维护人员进行手工的记录和归档,记录处理的详细步骤、经验教训和整改措施等内容。当以后发生类似故障时,故障处理人可以根据以前的故障处理经验进行处理。现有的系统故障解决方案获取方法只能对系统中的各个资源进行逐一核查,无法根据系统的架构体系综合多种因素获取解决方案。例如出现业务系统不能运行,让主机厂商核查,经核查,主机没有问题;再让存储厂商核查,也没有发现问题;另数据库厂商核查也没有问题,网络也没有问题,双机管理软件厂商也没有发现问题,但系统就是不能运行,没法知道真实的原因。运维故障经验库只能记录真实发生的故障处理信息,而非提供未来可能发生故障的有效解决方案的知识库,与实际发生的故障情况类似但并非一致的问题在运维故障经验库中没有很好的积累。只有故障发生后,维护人员才可按照故障现象手工进行问题信息查找,定位寻找解决方案,无法预先准备系统可能存在的典型问题及相关解决方案,不能使维护人员获得更广泛的问题相关信息,无法有效获取解决方案。技术实现要素:本发明实施例提供一种系统故障解决方案获取方法及装置,用于解决现有的系统故障解决方案获取方法中考虑因素单一、无法有效获取解决方案的问题。本发明实施例提供了一种系统故障解决方案获取方法,包括:根据系统的网络拓扑结构获取所述系统中各个资源的连接关系;根据所述各个资源的连接关系和故障关键词集合获取爬取关键词组合集合;根据所述爬取关键词组合集合进行网络爬虫爬取,以获得与所述爬取关键词组合对应的系统故障解决方案;根据各个爬取关键词组合以及与所述爬取关键词组合对应的系统故障解决方案建立解决方案数据库;根据当前系统故障查找所述解决方案数据库,获取与所述当前系统故障对应的系统故障解决方案。可选地,所述根据系统的网络拓扑结构获取所述系统中各个资源的连接关系,包括:根据系统的网络拓扑结构获取所述系统的资源种类和各个资源的配置信息;根据所述系统的资源种类获取所述系统的各个种类的资源的连接关系;根据所述系统的各个种类的资源的连接关系和各个资源的配置信息获取所述系统中各个资源的连接关系。可选地,所述根据所述各个资源的连接关系和故障关键词集合获取爬取关键词组合集合,包括:将所述各个资源的连接组合和所述故障关键词集合中的各个故障关键词进行组合,获取爬取关键词组合集合。可选地,所述根据所述爬取关键词组合集合进行网络爬虫爬取,包括:采用大站优先策略根据所述爬取关键词组合集合进行网络爬虫爬取。可选地,所述解决方案数据库采用分布式数据库hbase。本发明实施例提供了一种系统故障解决方案获取装置,包括:连接关系获取单元,用于根据系统的网络拓扑结构获取所述系统中各个资源的连接关系;爬取关键词组合集合获取单元,用于根据所述各个资源的连接关系和故障关键词集合获取爬取关键词组合集合;网络爬虫爬取单元,用于根据所述爬取关键词组合集合进行网络爬虫爬取,以获得与所述爬取关键词组合对应的系统故障解决方案;数据库建立单元,用于根据各个爬取关键词组合以及与所述爬取关键词组合对应的系统故障解决方案建立解决方案数据库;解决方案获取单元,用于根据当前系统故障查找所述解决方案数据库,获取与所述当前系统故障对应的系统故障解决方案。可选地,所述连接关系获取单元进一步用于:根据系统的网络拓扑结构获取所述系统的资源种类和各个资源的配置信息;根据所述系统的资源种类获取所述系统的各个种类的资源的连接关系;根据所述系统的各个种类的资源的连接关系和各个资源的配置信息获取所述系统中各个资源的连接关系。可选地,所述爬取关键词组合集合获取单元进一步用于:将所述各个资源的连接组合和所述故障关键词集合中的各个故障关键词进行组合,获取爬取关键词组合集合。可选地,所述网络爬虫爬取单元进一步用于:采用大站优先策略根据所述爬取关键词组合集合进行网络爬虫爬取。可选地,所述解决方案数据库采用分布式数据库hbase。本发明实施例提供的系统故障解决方案获取方法及装置,根据系统的网络拓扑结构获取所述系统中各个资源的连接关系;根据所述各个资源的连接关系和故障关键词集合获取爬取关键词组合集合;根据所述爬取关键词组合集合进行网络爬虫爬取,以获得与所述爬取关键词组合对应的系统故障解决方案;根据各个爬取关键词组合以及与所述爬取关键词组合对应的系统故障解决方案建立解决方案数据库;根据当前系统故障查找所述解决方案数据库,获取与所述当前系统故障对应的系统故障解决方案。本发明实施例根据系统的网络拓扑结构获取系统中各个资源的连接关系,综合考虑多种因素,将网络爬虫爬取获得的解决方案自动保存到数据库,无需维护人员手动录入和核对,节省了人力,对可能发生的故障也提供了解决方案,可有效获得系统故障解决方案,缩短故障处理时间。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本发明一个实施例的系统故障解决方案获取方法的流程示意图;图2是本发明一个实施例的网络爬虫爬取的原理图;图3是本发明一个实施例的系统故障解决方案获取装置的结构示意图;图4是本发明一个实施例的电子设备的结构示意图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。图1是本发明一个实施例的系统故障解决方案获取方法的流程示意图。如图1所示,该实施例的方法包括:s11:根据系统的网络拓扑结构获取所述系统中各个资源的连接关系;需要说明的是,本发明实施例中的网络拓扑结构指的是系统中各个资源的调用关系和各个资源的配置信息。系统中可以包括主机、数据库、操作系统、交换机等多种资源。各种资源至少对应一种类型,比如,主机资源对应x86服务器、hp小型机和ibm小型机等多种类型。s12:根据所述各个资源的连接关系和故障关键词集合获取爬取关键词组合集合;需要说明的是,故障关键词集合中包括多个故障关键词,例如负载高、进程崩溃和内存溢出。举例来说,系统中包括主机m和操作系统o,主机m和操作系统o存在连接关系;将主机m和操作系统o的连接关系与故障关键词集合进行组合,可获得爬取关键词组合集合;主机、操作系统、负载高为爬取关键词组合集合中的一个元素。s13:根据所述爬取关键词组合集合进行网络爬虫爬取,以获得与所述爬取关键词组合对应的系统故障解决方案;需要说明的是,本发明实施例在网络爬虫爬取过程中(如图2所示),首先根据爬取关键词组合集合选取种子url,将种子url放入待抓取url队列;然后从待抓取url队列中取出待抓取在url,解析dns,并且得到主机的ip,并将url对应的网页下载下来,存储进已下载网页库中;将这些url放进已抓取url队列;分析已抓取url队列中的url,分析其中的其他url,并且将url放入待抓取url队列,从而进入下一个循环。s14:根据各个爬取关键词组合以及与所述爬取关键词组合对应的系统故障解决方案建立解决方案数据库;需要说明的是,本发明实施例建立的解决方案数据库中包括爬取关键词组合以及系统故障解决方案。s15:根据当前系统故障查找所述解决方案数据库,获取与所述当前系统故障对应的系统故障解决方案;可理解的是,本发明实施例在故障发生之前搜索并存储了大量的系统故障解决方案。当系统故障发生时,根据得到的故障信息关键字,自动在解决方案数据库中进行搜索,并将相关信息链接自动显示,维护人员可以在第一时间得到与系统故障相关信息契合度很高的解决方案,协助和指导维护人员尽快完成故障处理操作。本发明实施例提供的系统故障解决方案获取方法,根据系统的网络拓扑结构获取系统中各个资源的连接关系,综合考虑多种因素,将网络爬虫爬取获得的解决方案自动保存到数据库,无需维护人员手动录入和核对,节省了人力,对可能发生的故障也提供了解决方案,可有效获得系统故障解决方案,缩短故障处理时间。在本发明实施例一种可选的实施方式中,所述根据系统的网络拓扑结构获取所述系统中各个资源的连接关系,包括:根据系统的网络拓扑结构获取所述系统的资源种类和各个资源的配置信息;根据所述系统的资源种类获取所述系统的各个种类的资源的连接关系;根据所述系统的各个种类的资源的连接关系和各个资源的配置信息获取所述系统中各个资源的连接关系。以下以移动业务支撑系统为例说明本发明实施例获取系统中各个资源的连接关系的具体过程:根据系统的网络拓扑结构按照资源的类型与用途进行分类,如表1所示,以便形成各类资源不同的连接组合。表1系统的资源分类信息以上表格对系统的资源进行了分类,包括主机、操作系统、交换机、数据库、数据库备份软件和磁带库,并根据资源的配置信息举例了分类中的常用类型,在实际使用中,可能的具体型号会超出以上表,具体情况按照实际采集的情况处理。经分析,系统资源可能存在的连接关系方式如下:主机(a)必然有操作系统(b);数据库(d)必然有操作系统(b);主机(a)与交换机(c)有连接关系;数据库(d)与交换机(c)有连接关系;数据库(d)与备份(e)有连接关系;数据库(d)与磁带库(f)有连接关系;备份(e)与交换机(c)有连接关系;磁带库(f)与交换机(c)有连接关系。根据以上情况,按照排列组合算法,每一种连接关系存在组合关系,即连接关系数量为:count(a,b)=ca1×cb1其中,count(a,b)表示a代码和b代码所有组合的数量;ca1表示任取a类型中任意一个;cb1表示任取b类型中任意一个。count(a,b)是a类和b类之间的组合数量计算,根据关联关系规则,那么全系统中所有连接关系的数量为:count(resource)=ca1×cb1+cb1×cd1+ca1×cc1+cd1×cc1+cd1×ce1+cd1×cf1+cc1×ce1+cc1×cf1具体地,所述根据所述各个资源的连接关系和故障关键词集合获取爬取关键词组合集合,包括:将所述各个资源的连接组合和所述故障关键词集合中的各个故障关键词进行组合,获取爬取关键词组合集合。需要说明的是,为了在进行信息搜索时可以最大限度的挖掘系统可能存在运维故障情况,本规则会按照系统资源可能关联关系进行所有连接情况的组合。为了通过网络爬虫爬取获取系统故障解决方案,本发明实施例将各个资源的连接组合和各个故障关键词进行组合。在实际应用中,故障关键词集合可以是一个单独的故障关键词字典,该字典为系统经常发生的故障关键词集合,如表2所示:表2故障关键词字典故障负载高io高问题进程崩溃内存溢出磁盘空间宕机性能优化系统优化可理解的是,故障关键词集合由系统管理员不定期进行维护,可以按照系统经常出现问题的关键点,维护计划等方面的因素进行集合元素的增删改。各个资源的连接组合和各个故障关键词进行组合的组合数量为:count=cx1×cy1×cword1其中,x,y表示系统关联关系组合,word表示故障关键词。因此,爬取关键词组合集合的元素总数为:count(n)=(ca1×cb1+cb1×cd1+ca1×cc1+cd1×cc1+cd1×ce1+cd1×cf1+cc1×ce1+cc1×cf1)×cword1进一步地,所述根据所述爬取关键词组合集合进行网络爬虫爬取,包括:采用大站优先策略根据所述爬取关键词组合集合进行网络爬虫爬取。在爬虫系统中,待抓取url队列是很重要的一部分。待抓取url队列中的url以什么样的顺序排列也是一个很重要的问题,因为这涉及到先抓取那个页面,后抓取哪个页面;决定这些url排列顺序的方法,叫做抓取策略。抓取策略分为深度优先遍历策略、宽度优先遍历策略、反向链接数策略、partialpagerank策略、opic策略和大站优先策略。深度优先遍历等策略在很多情况下会导致爬虫的陷入(trapped)问题本发明实施例为了提高爬取效率采用大站优先策略。各个遍历策略具体如下:深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。宽度优先遍历策略的基本思路是,将新下载网页中发现的链接直接插入待抓取url队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。反向链接数是指一个网页被其他网页链接指向的数量。反向链接数表示的是一个网页的内容受到其他人的推荐的程度。因此,很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度,从而决定不同网页的抓取先后顺序。在真实的网络环境中,由于广告链接、作弊链接的存在,反向链接数不能完全等同网页他我那个也的重要程度。因此,搜索引擎往往考虑一些可靠的反向链接数。partialpagerank策略借鉴了pagerank算法的思想:对于已经下载的网页,连同待抓取url队列中的url,形成网页集合,计算每个页面的pagerank值,计算完之后,将待抓取url队列中的url按照pagerank值的大小排列,并按照该顺序抓取页面。opic策略实际上也是对页面进行一个重要性打分。在算法开始前,给所有页面一个相同的初始现金(cash)。当下载了某个页面p之后,将p的现金分摊给所有从p中分析出的链接,并且将p的现金清空。对于待抓取url队列中的所有页面按照现金数进行排序。大站优先策略对于待抓取url队列中的所有网页,根据所属的网站进行分类。对于待下载页面数多的网站,优先下载。这个策略也因此叫做大站优先策略。需要说明的是,本发明实施例网络爬虫爬取采用基于网页内容的分析算法,利用网页内容(文本、数据等资源)特征进行的网页评价。网页的内容从原来的以超文本为主,发展到后来动态页面(或称为hiddenweb)数据为主,后者的数据量约为直接可见页面数据(piw,publiclyindexableweb)的400-500倍。另一方面,多媒体数据、webservice等各种网络资源形式也日益丰富。因此,基于网页内容的分析算法也从原来的较为单纯的文本检索方法,发展为涵盖网页数据抽取、机器学习、数据挖掘、语义理解等多种方法的综合应用。可选地,所述解决方案数据库采用分布式数据库hbase。基于搜索信息的特点,本发明实施例采用分布式数据库hbase,存储网络爬虫搜索结果。hbase是一个是建立的hdfs之上,提供高可靠性、高性能、面向列、可伸缩的分布式存储系统,介于nosql和rdbms之间,仅能通过主键(rowkey)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。本发明实施例通过对各种类型的分类,使用排列组合算法计算出系统中的连接方式数量和组合的关键字,通过组合关键字在互联网上通过网络爬虫搜索相关的运维故障描述以及解决方案,搜多到的相关信息储存在系统知识数据库中,当系统进行运维管理或者故障发生时,系统自动检索出相关的信息并显示提供给处理人员,供运维操作参考使用。图3是本发明一个实施例的系统故障解决方案获取装置的结构示意图。如图3所示,该实施例的装置包括:连接关系获取单元31、爬取关键词组合集合获取单元32、网络爬虫爬取单元33、数据库建立单元34和解决方案获取单元35,具体地:连接关系获取单元31,用于根据系统的网络拓扑结构获取所述系统中各个资源的连接关系;爬取关键词组合集合获取单元32,用于根据所述各个资源的连接关系和故障关键词集合获取爬取关键词组合集合;网络爬虫爬取单元33,用于根据所述爬取关键词组合集合进行网络爬虫爬取,以获得与所述爬取关键词组合对应的系统故障解决方案;数据库建立单元34,用于根据各个爬取关键词组合以及与所述爬取关键词组合对应的系统故障解决方案建立解决方案数据库;解决方案获取单元35,用于根据当前系统故障查找所述解决方案数据库,获取与所述当前系统故障对应的系统故障解决方案。本发明实施例提供的系统故障解决方案获取装置,根据系统的网络拓扑结构获取系统中各个资源的连接关系,综合考虑多种因素,将网络爬虫爬取获得的解决方案自动保存到数据库,无需维护人员手动录入和核对,节省了人力,对可能发生的故障也提供了解决方案,可有效获得系统故障解决方案,缩短故障处理时间。连接关系获取单元31进一步用于:根据系统的网络拓扑结构获取所述系统的资源种类和各个资源的配置信息;根据所述系统的资源种类获取所述系统的各个种类的资源的连接关系;根据所述系统的各个种类的资源的连接关系和各个资源的配置信息获取所述系统中各个资源的连接关系。爬取关键词组合集合获取单元32进一步用于:将所述各个资源的连接组合和所述故障关键词集合中的各个故障关键词进行组合,获取爬取关键词组合集合。网络爬虫爬取单元33进一步用于:采用大站优先策略根据所述爬取关键词组合集合进行网络爬虫爬取。可选地,所述解决方案数据库采用分布式数据库hbase。本发明实施例的系统故障解决方案获取装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。图4是本发明一个实施例的电子设备的结构示意图。参照图4,电子设备包括:处理器(processor)41、存储器(memory)42、和总线43;其中,处理器41和存储器42通过总线43完成相互间的通信;处理器41用于调用存储器42中的程序指令,以执行上述各方法实施例所提供的系统故障解决方案获取方法。此外,上述的存储器42中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。本实施例提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的系统故障解决方案获取方法。本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的系统故障解决方案获取方法。本发明实施例提供的系统故障解决方案获取方法及装置,根据系统的网络拓扑结构获取所述系统中各个资源的连接关系;根据所述各个资源的连接关系和故障关键词集合获取爬取关键词组合集合;根据所述爬取关键词组合集合进行网络爬虫爬取,以获得与所述爬取关键词组合对应的系统故障解决方案;根据各个爬取关键词组合以及与所述爬取关键词组合对应的系统故障解决方案建立解决方案数据库;根据当前系统故障查找所述解决方案数据库,获取与所述当前系统故障对应的系统故障解决方案。本发明实施例根据系统的网络拓扑结构获取系统中各个资源的连接关系,综合考虑多种因素,将网络爬虫爬取获得的解决方案自动保存到数据库,无需维护人员手动录入和核对,节省了人力,对可能发生的故障也提供了解决方案,可有效获得系统故障解决方案,缩短故障处理时间。本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。需要说明的是术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本发明的说明书中,说明了大量具体细节。然而能够理解的是,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。以上实施例仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1