一种问题定位方法及装置与流程

文档序号:19320535发布日期:2019-12-04 00:29阅读:154来源:国知局
一种问题定位方法及装置与流程
本发明涉及网络通信
技术领域
,尤其涉及一种问题定位方法及装置。
背景技术
:传统的运维诊断主要是借助分散的监控、流程、自动化等多个不同的运维工具提供的数据和能力,基于运维人员的经验,人工分析,尝试去解决现场遇到的各种问题。新时代的运维是多云时代,随着容器化技术的发展,传统的单域运维难以满足当今复杂的多域运维需求,如何实现多域统一运维成为一个亟待解决的技术问题。技术实现要素:有鉴于此,本发明提供一种问题定位方法及装置,以解决现有技术中无法实现多域统一运维的问题。根据本发明实施例的第一方面,提供一种问题定位方法,应用于统一运维系统,所述方法包括:从技术域工具中获取运维数据;所述技术域工具包括多个不同
技术领域
的技术域工具;根据所述运维数据的关键属性为所述运维数据分配标识信息;其中,关键属性相同的运维数据的标识信息相同,关键属性不同的运维数据的标识信息不同;根据所述运维数据以及所述运维数据的标识信息,维护统一运维界面,并基于所述统一运维界面进行问题定位;所述统一运维界面中记录有不同技术域的告警。根据本发明实施例的第二方面,提供一种问题定位装置,应用于统一运维系统,所述装置包括:获取单元,用于从技术域工具中获取运维数据;所述技术域工具包括多个不同
技术领域
的技术域工具;分配单元,用于根据所述运维数据的关键属性为所述运维数据分配标识信息;其中,关键属性相同的运维数据的标识信息相同,关键属性不同的运维数据的标识信息不同;维护单元,用于根据所述运维数据以及所述运维数据的标识信息,维护统一运维界面;所述统一运维界面中记录有不同技术域的告警;定位单元,用于基于所述统一运维界面进行问题定位。根据本发明实施例的第三方面,提供一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可读指令,所述处理器被所述机器可读指令促使执行上述问题定位方法。根据本发明实施例的第四方面,提供一种机器可读存储介质,存储有机器可执行指令,在被处理器调用和执行时,所述机器可执行指令促使所述处理器执行上述问题定位方法。应用本发明实施例,通过从多个技术域工具获取运维数据,并根据获取到的运维数据的关键属性为运维数据分配标识信息,实现了运维数据的统一,进而,根据该运维数据以及运维数据的标识信息,维护统一运维界面,并基于该统一运维界面进行问题定位,实现了多技术域场景的统一运维。附图说明图1是本发明实施例提供的一种问题定位方法的流程示意图;图2a是本发明实施例提供的一种统一运维系统的主界面的示意图;图2b是本发明实施例提供的一种问题定位的相关运维数据展示的示意图;图2c是本发明实施例提供的一种影响关联标签页的示意图;图3是本发明实施例提供的一种电子设备的硬件结构示意图;图4是本发明实施例提供的一种问题定位装置的结构示意图;图5是本发明实施例提供的另一种问题定位装置的结构示意图。具体实施方式为了使本
技术领域
的人员更好地理解本发明实施例中的技术方案,下面先对本发明实施例中提及的部分技术术语进行简单说明。技术域工具:指关注单个
技术领域
的运维功能的运维工具;其中,
技术领域
可以包括但不限于应用领域、主机领域、网络领域或终端领域等。为了使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方案作进一步详细的说明。请参见图1,为本发明实施例提供的一种问题定位方法的流程示意图,如图1所示,该问题定位方法可以包括以下步骤:步骤101、从技术域工具中获取运维数据,该技术域工具包括多个不同
技术领域
的技术域工具。步骤102、根据运维数据的关键属性为运维数据分配标识信息;其中,关键属性相同的运维数据的标识信息相同,关键属性不同的运维数据的标识信息不同。本发明实施例中,为了实现统一运维,需要先实现数据统一,即实现从不同
技术领域
的技术域工具获取到的运维数据的统一。其中,运维数据包括但不限于系统组网的基础数据(如资源数据、拓扑数据等)以及系统组网运行过程中产生的数据(如监控数据、告警数据等),用于为系统组网的维护提供数据支持。示例性的,该运维数据可以包括但不限于资源数据、监控数据、告警数据或拓扑数据。其中,资源数据为实际组网中节点(如交换机、服务器等,在运维系统中可以称为监控对象)的资源信息,如硬盘大小、内存大小、cpu(centerprocessunit,中央处理单元)核数等;监控数据为实际组网中节点的性能监控信息,如内存使用率、cpu利用率等资源使用信息,或/和,应用使用体验信息,如应用响应时间(如打开应用的响应时间、应用访问指定url(uniformresourcelocator,统一资源定位符)的响应时间等);告警数据为实际组网中节点按照预设告警规则产生的告警,或,技术域工具按照预设告警规则,基于监控数据产生的告警,如内存占用率超过预设阈值、应用访问响应时间超过预设时间阈值等;拓扑数据为实际组网中各节点之间的拓扑信息,如节点a与节点b连接等。由于同一监控对象的不同类型的运维数据可以来自不同的技术域工具,同一监控对象在不同技术域内部的id(标识)可能不同,使用监控对象在技术域内的id无法实现数据的统一,因此,对从不同技术域工具中获取到的同一监控对象的运维数据的匹配是数据统一的关键。相应地,在本发明实施例中,对于从多个技术域工具中获取到运维数据,可以根据运维数据的关键属性为运维数据分配标识信息。其中,关键属性用于唯一标识监控对象,标识信息与关键属性一一对应。需要说明的是,在本发明实施例中,关键属性通过包括多个属性,该多个属性共同唯一标识监控对象,标识信息与该多个属性组成的属性组(或称为属性集合)一一对应。步骤103、基于运维数据以及运维数据的标识信息,维护统一运维界面,并基于该同一运维界面进行问题定位,该统一运维界面中记录有不同技术域的告警。本发明实施例中,根据获取到的运维数据的关键属性为运维数据分配标识信息之后,可以根据获取到的运维数据以及为运维数据分配的标识信息,维护统一运维界面。其中,该统一运维界面中可以记录不同技术域的告警,例如,可以将不同的技术域的告警记录到不同标签页中。示例性的,技术域可以包括应用类、主机类、网络类或终端类等类型。在一个示例中,对于同一技术域的告警,还可以进一步进行分类。例如,对于应用类的问题,可以进一步分类为:应用级(如访问体验、数据库连接)、硬件级(如cpu性能、内存溢出)、代码级(如进程崩溃、异常捕获)等。本发明实施例中,可以基于根据运维数据以及运维数据的标识维护的统一界面进行问题定位。可见,在图1所示方法流程中,通过从多个技术域工具获取运维数据,并根据获取到的运维数据的关键属性为运维数据分配标识信息,实现了运维数据的统一,进而,根据该运维数据以及运维数据的标识信息,维护统一运维界面,并基于该统一运维界面进行问题定位,实现了多技术域场景的统一运维。可选地,在本发明其中一个实施例中,上述根据所述运维数据的关键属性为所述运维数据分配标识信息,包括:当获取到一条运维数据时,根据该运维数据的关键属性查询是否存在包括相同关键属性的目标运维数据;其中,目标运维数据为已分配标识信息的运维数据;若存在,则将该目标运维数据的标识信息分配给该运维数据;否则,为该运维数据分配新的标识信息。在该实施例中,为了实现数据的统一,在从多个技术域工具中获取运维数据的过程中,对于获取到的每一条运维数据,需要基于该运维数据的关键属性,为该运维数据分配一个唯一的标识信息。相应地,对于从多个技术域工具中获取到的每一条运维数据,可以根据该运维数据的关键属性,查询已分配标识信息的运维数据(本文中称为目标运维数据),以确定是否存在关键属性与该运维数据(待分配标识的运维数据)的关键属性相同的目标运维数据。若存在,则将该目标运维数据的标识信息分配给该运维数据,而不需要为该运维数据分配新的标识信息;若不存在,则为该运维数据分配的新的标识信息。在一个示例中,若存在包括相同关键属性的目标运维数据,上述问题定位方法还可以包括:当该目标运维数据与该运维数据存在冲突时,生成审计任务,该审计任务用于提示该目标运维数据与该运维数据存在冲突。在该示例中,当查询到关键属性与该运维数据的关键属性相同的目标运维数据时,还可以进一步确定该目标运维数据与该运维数据之间是否存在冲突。其中,运维数据冲突是指两条运维数据的关键属性相同,但是其他非关键属性存在冲突(相同类型的非关键属性的属性值不同)。举例来说,以资源数据为例,假设运维数据1和运维数据2的关键属性相同,但是运维数据1中cpu核数为4核,运维数据2中的cpu核数为6核,由于同一监控对象不可能同时为4核和6核,因此,运维数据1和运维数据2存在冲突,此时,可以生成审计任务,以提示运维人员运维数据1和运维数据2存在冲突,由运维人员对运维数据1和运维数据2进行审计。可选地,在本发明其中一个实施例中,上述基于统一运维界面进行问题定位,包括:当检测当针对统一运维界面中的目标告警的选择指令时,展示与该目标告警所属的目标技术域匹配的目标运维子界面;基于该目标运维子界面对所述目标告警进行问题定位。在该实施例中,统一运维界面中展示了各技术域的告警,当检测到针对统一运维界面中的任一告警(本文中称为目标告警)时,可以根据该目标告警所属的技术域(本文中称为目标技术域),跳转到与目标技术域匹配的运维子界面(本文中称为目标运维子界面),并基于该目标运维子界面对目标告警进行问题定位,即定位目标告警产生的原因。在一个示例中,上述基于目标运维子界面对目标告警进行定位,包括:当检测到针对目标运维子界面中的历史统计标签的选择指令时,展示目标运维子界面的历史统计标签页,该历史统计标签页中展示有与目标标识信息匹配的监控数据,目标标识信息为与目标告警关联的标识信息;基于该历史统计标签页对所述目标告警进行问题定位。在该示例中,各技术域对应的运维子界面中可以包括历史统计标签,通过该历史统计标签可以进入相应技术域的历史统计标签页,该历史统计标签页中包括该技术域中与待定位告警匹配的监控数据。相应地,当检测到针对目标运维子界面中的历史统计标签的选择指令时,可以跳转至目标运维子界面的历史统计标签页,该历史统计标签页中展示有与目标告警关联的标识信息(本文中称为目标标识信息)匹配的监控数据。举例来说,以目标告警为应用类技术域的告警“web站点访问体验慢”为例,对应的历史统计标签页中可以展示该web站点对应的页面访问关联的监控数据,如不同浏览器访问该站点的白屏时间、首屏时间、dom(documentobjectmodel,文件对象模型)加载时间、完全加载时间等。进而,可以基于该历史统计标签页中展示的数据进行目标告警的问题定位。在另一个示例中,上述基于目标运维子界面对目标告警进行定位,包括:当检测到针对目标运维子界面中的告警列表标签的选择指令时,展示目标运维子界面的告警列表标签页,该告警列表标签页中展示有与目标告警的关联告警;基于该告警列表标签页对目标告警进行问题定位。在该示例中,各技术域对应的运维子界面中可以包括告警列表标签,通过该告警列表标签可以进入相应技术域的告警列表标签页,该告警列表标签页中包括待定位告警的关联告警。其中,告警数据之间关联关系可以基于告警数据的标识信息和产生告警的指标来确定,其具体实现可以在下文中结合具体实例进行说明。相应地,当检测到针对目标运维子界面中的告警列表标签的选择指令时,可以跳转至目标运维子界面的告警列表标签页,该告警列表标签页中展示有目标告警的关联告警,进而,可以基于目标告警的关联告警对目标告警进行问题定位。在另一个示例中,上述基于目标运维子界面对目标告警进行问题定位,包括:当检测到针对目标运维子界面中的告警分布标签的选择指令时,展示目标运维子界面的告警分布标签页,该告警分布标签页中展示有与目标告警相关的告警的历史分布统计信息;基于该告警分布标签页对目标告警进行问题定位。在该示例中,各技术域对应的运维子界面中可以包括告警分布标签,通过该告警分布标签可以进入相应技术域的告警分布标签,该告警分布标签页中包括与待定位告警相关的告警的历史分布统计信息。相应地,当检测到针对目标运维子界面中的告警分布标签的选择指令时,可以跳转至目标运维子界面的告警分布标签页,该告警分布标签页中展示有与目标告警相关的告警的历史分布统计信息,进而,可以基于与目标告警相关的告警的历史分布统计信息,对目标告警进行问题定位,其具体实现可以在下文中结合实例进行说明。在另一个示例中,上述基于目标运维子界面对目标告警进行定位,包括:当检测到针对目标运维子界面中的影响关联标签的选择指令时,展示目标运维子界面的影响关联标签页,该影响关联标签页中展示有与目标告警对应的关联拓扑信息;基于该影响关联标签页对目标告警进行问题定位。在该示例中,各技术域对应的运维子界面中可以包括影响关联标签,通过该影响关联标签可以进入相应技术域的影响关联标签页,该影响关联标签页中包括与待定位告警对应的关联拓扑信息。相应地,当检测到针对目标运维子界面中的影响关联标签的选择指令时,可以跳转至目标运维子界面的影响关联标签页,该影响关联标签页中展示有与目标告警对应的关联拓扑信息,进而,可以基于与目标告警对应的关联拓扑信息对目标告警进行问题定位,其具体实现可以在下文中结合具体实例进行说明。在另一个示例中,上述基于目标运维子界面对目标告警进行定位,包括:当检测到针对目标运维子界面中的趋势预测标签的选择指令时,展示目标运维子界面的趋势预测标签页,该趋势预测标签页中展示有与目标告警关联的趋势预测信息;基于该趋势预测标签页对所述目标告警进行问题定位。在该示例中,各技术域对应的运维子界面中可以包括趋势预测标签,通过该趋势预测标签可以进入相应技术域的趋势预测标签页,该趋势预测标签页中包括与待定位告警关联的趋势预测信息。相应地,当检测到针对目标运维子界面中的趋势预测标签的选择指令时,可以跳转至目标运维子界面的趋势预测标签页,该趋势预测标签页中展示有与目标告警关联的趋势预测信息。例如,假设目标告警为“**应用访问慢”,且“**应用”部署在监控对象a上,则目标告警关联的趋势预测信息可以包括监控对象a的硬盘占用率、内存占用率或/和cpu利用率等资源占用的趋势预测,以及“**应用”的访问响应时间的区域预测等。在该示例中,可以基于该趋势预测标签页中展示的与目标告警关联的趋势预测信息,对目标告警进行问题定位,其具体实现可以在下文中结合具体实例进行说明。在另一个示例中,上述基于目标运维子界面对目标告警进行定位,包括:当检测到针对目标运维子界面中的知识建议标签的选择指令时,展示目标运维子界面的知识建议标签页,该知识建议标签页中展示有与目标告警关联的技术资料;基于该知识建议标签页对所述目标告警进行问题定位。在该示例中,各技术域对应的运维子界面中可以包括知识建议标签,通过该知识建议标签可以进入相应技术域的知识建议标签页,该知识建议标签页中包括与待定位告警关联的技术资料。相应地,当检测到针对目标运维子界面中的知识建议标签的选择指令时,可以跳转至目标运维子界面的知识建议标签页,该知识建议标签页中展示有与目标告警关联的技术资料。示例性的,技术资源与告警之间的关联可以基于关键字实现。在该示例中,可以基于该知识建议标签页中展示的与目标告警关联的技术资料,对目标告警进行问题定位,其具体实现可以在下文中结合具体实例进行说明。进一步地,在本发明实施例中,统一实现需要基于多个技术域工具实现,在问题定位的过程中,可能会需要调用其中任一技术域工具的特定功能,如安全风险处理功能由安全软件提供,当需要在统一运维界面中挂载安全风险处理功能时,需要能够实时调用该安全软件的安全风险处理功能,而调用安全软件的安全风险处理功能时可能会涉及到权限认证流程。同理,调用其他技术域工具的其他特定功能可能也会涉及到权限认证,若调用每个技术域工具的功能均分别进行权限认证,其操作将会十分繁琐,效率会很低。基于此,在本发明实施例中,可以对接统一的认证服务器和用户数据库来实现统一权限和单点登录,实现权限认证统一。相应地,在本发明其中一个实施例中,上述问题定位方法还包括:接收针对统一运维界面的登录请求,该登录请求中携带有登录验证信息;对该用户验证信息进行验证;当验证通过时,为登录请求方分配角色id;根据记录的角色id、操作id以及运维数据的标识信息三者的对应关系,对该登录请求方进行权限控制。在该实施例中,将分别针对各技术域工具进行登陆验证统一为针对统一运维界面的登录验证。当接收到针对统一运维界面的登录请求时,可以获取该登录请求中携带的登录验证信息,如用户名和密码等,并对该登录验证信息进行验证。当验证通过时,可以为登录请求方分配角色id,如根据登录请求方的用户名为登录请求方分配角色id。示例性的,不同角色id对应不同运维数据的不同的操作权限,其可以通过角色id、操作id以及运维数据的标识信息三者的对应关系来限定。进而,可以基于角色id、操作id以及运维数据的标识信息三者的对应关系,对登录请求方进行权限控制,即当检测到登录请求方的操作指令时,根据登录请求方的操作指令对应的操作id,以及操作所针对的运维数据的标识信息,确定登录请求方是否具备该操作权限,若是,则允许该操作;否则,拒绝该操作。需要说明的是,在本发明实施例中,当对登录请求方的登录验证信息验证不通过时,则确定登录请求方登录失败,此时,可以拒绝登录请求方的针对任何运维数据的任何操作,或者,可以仅允许登录请求方针对特定运维数据(可以根据实际场景设定)的特定操作(可以根据实际场景设定),如针对公共数据的查阅操作。为了使本领域技术人员更好地理解本发明实施例提供的技术方案,下面结合具体实例对本发明实施例提供的技术方案进行说明。在该实施例中,统一运维的实现主要包括以下几个统一:1、运维数据统一i)、统一运维系统可以通过cmdb(configurationmanagementdatabase,配置管理数据库)的南向接口对接各技术域工具,拉取或接收各技术域工具的资源数据,形成统一的资源数据管理,同时方便权限认证;ii)、统一运维系统可以通过iom(infrastructureoperations&management,基础设施运维监控)的南向接口对接各技术域工具,拉取或接收各技术域工具的监控数据,同时,汇集告警数据和拓扑数据;iii)、将资源数据、监控数据、告警数据和拓扑数据输出给大数据平台,实现运维数据的统一,并基于统一运维数据进行深入的数据模型计算和数据分析。在该实施例中,由于从不同系统的不同接口获取资源数据、监控数据、告警数据以及拓扑数据,此外,同一监控对象的不同类型的运维数据可能来自不同的技术域工具,即技术域工具内部的id不具备唯一标识的作用,因此,不同类型的运维数据需要通过唯一的标识(以uuid(universallyuniqueidentifier,通用唯一标识码))匹配,实现运维数据的统一。示例性的,可以通过一个唯一的资源调和服务来实现uuid的唯一性,资源调和的关键是关键属性,通过多个关键属性来唯一标识一个监控对象。举例来说,假设统一运维系统包括6个技术域工具:a、b、c、d、e和f;其中,a、b、d、e和f这5个技术域工具具备资源纳管能力;c、d、e和f这4个技术域工具具备性能监控能力;此外,实际组网中包括2个站点(站点id分别为1和2),共有4台设备(假设为2台交换机和两台linux系统的终端,设备类型分别为交换机和linux)。下面以资源数据和监控数据的统一为例对通过uuid进行资源数据和监控数据的匹配和标识为例。在该示例中,假设关键属性包括站点id、ip地址以及设备类型,cbdm系统从技术域工具中获取到的资源数据如表1所示,iom系统从技术域工具中获取到的性能监控数据如表2所示:表1表2数据源站点idip地址设备类型cpu利用率a1192.168.1.1交换机20%b1192.168.1.2linux60%c2192.168.1.1交换机40%d2192.168.1.2linux80%在该实施例中,由于cmdb系统和iom系统从各技术域工具中获取资源数据和监控数据的时间不一致,假设cmdb系统首先从技术域工具a中获取到一条资源数据:站点1的192.168.1.1的交换机设备(如表1中第1行所示),根据该资源数据的关键属性未查询到已分配uuid的运维数据,因此,为该条资源数据分配uuid(假设为e7295fca-5c50-11e9-8647-d663bd873d93)。cmdb系统还从技术域工具b获取到一条资源数据:站点1的192.168.1.2的linux(如表2中第2行所示),根据该资源数据的关键属性未查询到已分配uuid的运维数据,因此,为该条资源数据分配uuid(假设为2291669c-5c52-11e9-8647-d663bd873d93)。cmdb系统还从技术域工具d获取到一条资源数据:站点1的192.168.1.2的linux,根据该资源数据的关键属性查询到已分配uuid的运维数据(即从技术域工具b获取的资源数据),且该条资源数据中的cpu核数(5)与从技术域工具b中获取到的资源数据中的cpu核数(6)不同,即二者存在冲突,此时,可以将2291669c-5c52-11e9-8647-d663bd873d93也作为该条资源数据的uuid,并审计任务,以提示存在资源数据冲突,由用户(如管理员或运维人员)人工判定。cmdb系统还从技术域工具e获取到一条资源数据:站点2的192.168.1.1的交换机设备,根据该资源数据的关键属性未查询到已分配uuid的运维数据,此时,为该条运维数据分配uuid(假设为52c144ca-5c54-11e9-8647-d663bd873d93)。cmdb系统还从技术域工具f获取到一条资源数据:站点2的192.168.1.3的linux,根据该资源数据的关键属性未查询到已分配uuid的运维数据,此时,为该条运维数据分配uuid(假设为6a4a8d0e-5c54-11e9-8647-d663bd873d93)。在该实施例中,各资源数据的uuid分配情况可以如表3所示:表3同理,对于iom系统从各技术域工具获取到的监控数据,也可以按照上述方式,根据关键属性进行uuid分配。其中,对于表2所示的各监控数据,前3条均存在已分配uuid的资源数据,可以不再分配新的uuid,而是直接使用对应的资源数据的uuid,最后1条不存在已分配uuid的运维数据,需要分配新的uuid(假设为07b2ee4c-5c55-11e9-8647-d663bd873d93),各监控数据的uuid分配情况可以如表4所示:表42、统一权限:通过统一的认证服务器对接,例如通过cas(centralauthenticationservice,中央认证服务)server(服务器)+ldap(lightweightdirectoryaccessprotocol,轻量目录访问协议)的方式,实现多技术域工具的统一认证和权限控制。需要说明是,实现多技术域工具的统一认证和权限控制并不限于使用ldap的方式,其也可以通过其他方式,如通过本地数据库的方式实现,其具体实现在此不做赘述。示例性的,用户体系对接casserver和ldap完成统一认证和权限控制,权限控制包括数据级权限控制和操作级权限控制。其中,由于uuid的唯一性保证了运维数据的统一标识,因此数据级的权限基于资源uuid可以实现区分。操作级权限是功能关联,对于各个技术域工具有的特定功能,统一运维系统可以通过菜单或按钮的方式进行功能挂载关联。例如,安全风险处理功能是专业的安全软件提供的,统一运维系统可以挂载一个安全风险的菜单功能,对于用户设置这个菜单的权限,点击钻取到技术域的安全风险处理的页面。由于统一运维系统和各技术域工具是统一认证和权限控制,因此,可以实现单点登录,直接通过统一运维系统挂载的菜单功能进入到对应页面,而不需要重复登录认证。3、统一应用:通过bsm(businessservicemanagement,业务服务管理)系统,以业务视角将各技术域的运维数据业务化,为业务健康度提供数据支撑,通过为不同应用设定不同kqi(keyqualityindicators,关键质量指标)模型来计算业务的健康度。4、统一流程:通过itsm(internettechnologyservicemanagement,互联网技术服务管理)系统的流程架构拉通各技术域工具的服务流程信息记录(可以称为服务工单),满足多云多机构场景的统一运维需求。如图2a所示,在该实施例中,在统一运维系统的主界面(本文中可以称为统一运维界面)中,可以针对每类技术域的特有特点进行告警分类。例如应用类技术域的告警,其分类可以包括:应用级(访问体验、数据库连接)、硬件级(cpu性能、内存溢出)、代码级(进程崩溃、异常捕获)等。当统一运维系统从任一技术域工具获取到告警数据时,可以确定告警的tag,并基于告警tag确定其在相应技术域中所属的分类,并将其记录到相应技术域的对应分类中。示例性的,告警的tag可以在告警产生时就携带在告警中,也可以动态生成。举例来说,假设告警数据为“**访问时间超过2级阈值12秒”,该告警的tag为响应慢,对应的分类为应用类技术域下的应用访问体验,因此,可以将其添加至“应用类→应用访问体验→响应慢”。其中,点击某技术域下某分类中某tag对应的数字,可以进入告警列表;点击告警列表中的告警,可以查看该告警的具体信息。又举例来说,假设告警数据为“**指标超过二级阈值,大小为:**”,该告警的tag与指标有关,若该指标为cpu利用率,则tag会归属到cpu性能;若该指标为url连接时间,则tag会归属到应用访问体验。在该实施例中,统一运维界面中每类技术域均对应有运维子界面,各运维子界面中均可以提供历史统计、告警列表、告警分布、影响关联、趋势预测以及知识建议等标签来实现问题定位。其中,对于不同类型的技术域,这6个标签的实际内容不同,其分别针对不同的运维场景,提供不同的数据支撑。举例来说,以应用类
技术领域
对应的运维子界面中各标签为例,其中:1、历史统计:历史统计标签页中可以包括多个widget(卡片),各widget设置有tag,可以归属到不同分类。此外,基于待定位问题关联的资源数据的uuid,展示对应的应用的数据。示例性的,widget可以有多个tag,各tag设置有优先级,基于优先级确定widget在历史标签页中的展示顺序。其中,widget的布局可以手工调节,也可以采用默认布局。举例来说,请参见图2b,以告警数据“**web站点访问体验慢”为例,针对该告警进行问题定位的核心在于页面访问的性能分析,通过细化每个阶段的性能参数能够得出访问慢主要体现在哪个阶段,然后再针对对应阶段的详细数据分析。同时关注最核心的3个指标:top用户行为(出现次数最多的用户行为)、topjs错误(出现次数最多的js错误)和topweb请求(出现次数最多的web请求)来协助定位问题原因。2、告警列表:告警列表标签页用于展示待定位告警以及待定位告警的关联告警。告警之间的关联可以基于cmdb系统的ci关系(即基于告警数据涉及的资源数据的uuid以及涉及的指标来进行告警关联)。示例性的,告警列表标签页可以与影响关联标签页实现联动,在具体实现在下文中说明。3、告警分布:告警分布标签页用于展示与待定位告警相关的告警的历史分布统计信息。此外,该告警分布标签页中还可以展示已关闭告警的数量(即处理完成或超过处理期限的告警)/待处理告警的数量/受影响用户的数量/告警的最长持续影响时长/不满意率等信息。4、影响关联:影响关联标签页用于展示资源数据的拓扑关系,其示意图可以如图2c所示。示例性的,当选中影响关联标签页中展示的拓扑关系中的任一监控对象时,可以展示该监控对象的核心指标数据,如cpu利用率、内存占用率、硬盘使用率等。5、趋势预测:趋势预测标签页用于展示基于历史数据确定的,待定位告警关联的指标(如cpu利用率、内存占用率等)的趋势预测,以确定待定位告警是否会带来更严重的问题。6、知识建议:知识建议标签页用于展示与待定位告警相关联的技术资料,技术资源与告警之间的关联可以基于关键字实现。示例性的,知识建议标签页可以提供基于关键字的查询功能。以下告警数据“财务系统访问慢,超12秒”的问题定位为例。1、统一运维系统在实时告警台中展示“财务系统访问慢,超12秒”的告警,当检测到针对实时告警台中的该告警的选择指令时,跳转至统一运维界面,该统一运维界面的应用类技术域下的应用访问体验慢的分类下包括该告警,当接收到针对统一运维界面中的该告警的选择指令时,跳转至应用类技术域对应的运维子界面;其中,该运维子界面中包括历史统计、告警列表、告警分布、影响关联、趋势预测以及知识建议等标签。2、当接收到针对历史统计标签的选择指令时,跳转至历史统计标签页,该历史统计标签页中展示有与财务系统访问的性能分析关联的widget,该widget中记录有财务系统访问的历史数据,可以用于确定财务系统访问慢是前端问题还是后端问题。假设在该示例中前端并不存在问题,但是调用数据库返回结果慢。3、当接收到针对告警列表标签的选择指令时,跳转至告警列表标签页,该告警列表标签页中展示有“财务系统访问慢,超12秒”的关联告警。假设有几条关联告警如下:“windows的d盘占用率超过2级阈值95%”“linux的cpu利用率超过2级阈值95%”“oracle慢sql”4、当检测到针对影响关联标签的选择指令时,跳转至影响关联标签页,基于拓扑数据确定财务系统部署在windows上,连接的oracle部署在另外一台linux上。由于存在数据库返回慢的问题,且关联告警中oracle的慢sql包括财务系统的sql,因此,可以,对财务系统的sql进行检测,以确定是否是财务系统的sql的问题导致“财务系统访问慢”。假设财务系统的sql未检测出问题,则进一步检测关联拓扑上的oracle节点的关键指标的信息,以确定是否是oracle所在的linux的问题导致的“财务系统访问慢”。假设检测结果为oracle节点的关键指标未超过阈值,但接近阈值。5、当接收到针对告警分布的标签的选择指令时,跳转至告警分布标签页,该告警分布标签页展示有与“财务系统访问慢”相关的告警的历史分布统计信息。假设基于该历史分布统计信息确定财务系统访问关联的告警的数量低于预设阈值。6、当检测到针对趋势预测标签的选择指令时,跳转至趋势预测标签页,该趋势预测标签页展示有财务系统关联的关键指标,如windows的d盘占用率、linux的cpu利用率等,以确定该关联指标的预测趋势。假设预测趋势并未包括linux的cpu利用率升高,则确定linux的cpu利用率是由于非正常原因导致的突然升高。7、检测linux的进程占用,以确定是否存在cpu占用率异常的进程。假设发现“aaa”进程的cpu占用率超过预设阈值。8、当检测到针对知识建议标签的选择指令时,跳转至知识建议标签页,该知识建议标签页可以展示与“oracle慢sql”、“aaa”进程关联的技术资料,基于该基于资料对linux系统进行恢复。9、假设linux的cpu利用率下降至正常范围后,财务系统访问恢复,则确定“财务系统访问慢,超12秒”是由于linux的cpu利用率过高导致的。通过以上描述可以看出,在本发明实施例提供的技术方案中,通过从多个技术域工具获取运维数据,并根据获取到的运维数据的关键属性为运维数据分配标识信息,实现了运维数据的统一,进而,根据该运维数据以及运维数据的标识信息,维护统一运维界面,并基于该统一运维界面进行问题定位,实现了多技术域场景的统一运维。请参见图3,为本发明实施例提供的一种电子设备的硬件结构示意图。该电子设备可包括处理器301、存储有机器可执行指令的机器可读存储介质302。处理器301与机器可读存储介质302可经由系统总线303通信。并且,通过读取并执行机器可读存储介质302中与问题定位控制逻辑对应的机器可执行指令,处理器301可执行上文描述的问题定位方法。本文中提到的机器可读存储介质302可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:ram(radomaccessmemory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。如图4所示,从功能上划分,上述问题定位控制逻辑可以包括:获取单元410,用于从技术域工具中获取运维数据;所述技术域工具包括多个不同
技术领域
的技术域工具;分配单元420,用于根据所述运维数据的关键属性为所述运维数据分配标识信息;其中,关键属性相同的运维数据的标识信息相同,关键属性不同的运维数据的标识信息不同;维护单元430,用于根据所述运维数据以及所述运维数据的标识信息,维护统一运维界面;所述统一运维界面中记录有不同技术域的告警;定位单元440,用于基于所述统一运维界面进行问题定位。在可选实施例中,所述分配单元420,具体用于当所述获取单元获取到一条运维数据时,根据该运维数据的关键属性查询是否存在包括相同关键属性的目标运维数据;其中,目标运维数据为已分配标识信息的运维数据;若存在,则将该目标运维数据的标识信息分配给该运维数据;否则,为该运维数据分配新的标识信息。在可选实施例中,所述分配单元420,还用于当该目标运维数据与该运维数据存在冲突时,生成审计任务,所述审计任务用于提示该目标运维数据与该运维数据存在冲突。在可选实施例中,所述定位单元430,具体用于当检测当针对所述统一运维界面中的目标告警的选择指令时,展示与所述目标告警所属的目标技术域匹配的目标运维子界面;基于所述目标运维子界面对所述目标告警进行问题定位。在可选实施例中,所述定位单元430,具体用于当检测到针对目标运维子界面中的历史统计标签的选择指令时,展示所述目标运维子界面的历史统计标签页,该历史统计标签页中展示有与目标标识信息匹配的监控数据,所述目标标识信息为与所述目标告警关联的标识信息;基于所述历史统计标签页对所述目标告警进行问题定位。在可选实施例中,所述定位单元430,具体用于当检测到针对目标运维子界面中的告警列表标签的选择指令时,展示所述目标运维子界面的告警列表标签页,该告警列表标签页中展示有与所述目标告警的关联告警;基于所述告警列表标签页对所述目标告警进行问题定位。在可选实施例中,所述定位单元430,具体用于当检测到针对目标运维子界面中的告警分布标签的选择指令时,展示所述目标运维子界面的告警分布标签页,该告警分布标签页中展示有与目标告警相关的告警的历史分布统计信息;基于所述告警分布标签页对所述目标告警进行问题定位。在可选实施例中,所述定位单元430,具体用于当检测到针对目标运维子界面中的影响关联标签的选择指令时,展示所述目标运维子界面的影响关联标签页,该影响关联标签页中展示有与目标告警对应的关联拓扑信息;基于所述影响关联标签页对所述目标告警进行问题定位。在可选实施例中,所述定位单元430,具体用于当检测到针对目标运维子界面中的趋势预测标签的选择指令时,展示所述目标运维子界面的趋势预测标签页,该趋势预测标签页中展示有与所述目标告警关联的趋势预测信息;基于所述趋势预测标签页对所述目标告警进行问题定位。在可选实施例中,所述定位单元430,具体用于当检测到针对目标运维子界面中的知识建议标签的选择指令时,展示所述目标运维子界面的知识建议标签页,该知识建议标签页中展示有与目标告警关联的技术资料;基于所述知识建议标签页对所述目标告警进行问题定位。如图5所示,所述问题定位控制逻辑还包括:权限控制单元450,用于接收针对所述统一运维界面的登录请求,所述登录请求中携带有登录验证信息;对所述用户验证信息进行验证;当验证通过时,为登录请求方分配角色id;根据记录的角色id、操作id以及运维数据的标识信息三者的对应关系,对所述登录请求方进行权限控制。本发明实施例还提供了一种包括机器可执行指令的机器可读存储介质,例如图3中的机器可读存储介质302,所述机器可执行指令可由报文传输设备中的处理器301执行以实现以上描述的问题定位方法。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。由上述实施例可见,通过从多个技术域工具获取运维数据,并根据获取到的运维数据的关键属性为运维数据分配标识信息,实现了运维数据的统一,进而,根据该运维数据以及运维数据的标识信息,维护统一运维界面,并基于该统一运维界面进行问题定位,实现了多技术域场景的统一运维。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本
技术领域
中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1