一种基于事件日志的自主式实时故障隔离方法与流程

文档序号:37213372发布日期:2024-03-05 14:59阅读:17来源:国知局
一种基于事件日志的自主式实时故障隔离方法与流程

本发明涉及信息,尤其涉及一种基于事件日志的自主式实时故障隔离方法。


背景技术:

1、随着信息技术的快速发展,企业和组织面临着越来越多的it运维事件。这些事件日志通常以海量的形式存在,包含了大量的信息。然而,从这些海量日志中准确地提取出异常模式,并准确地标记可能的故障源点是一个具有挑战性的问题。当前的方法往往依赖于it专家的经验和手动分析来进行故障识别和隔离。这不仅增加了操作复杂性和时间成本,而且可能因为分析的局限性导致故障不能被完全准确地识别。许多现有的方法缺乏自动化和智能化特性,无法快速准确地从海量日志中提取出异常模式,并准确地标记可能的故障源点。这使得故障处理过程变得低效,且可能错过一些潜在的故障源点。一些现有的方法无法实现实时监控和隔离故障,只能在事后对日志进行分析。这可能导致故障影响扩大,增加了修复成本和时间。由于海量日志的复杂性和多样性,现有的方法可能无法准确地识别出异常模式和可能的故障源点。这可能导致故障的误判或漏判,从而影响到故障隔离的准确性。现有的方法往往只关注于故障的识别和隔离,缺乏对整个故障处理流程的系统性和完整性考虑。例如,缺乏对故障影响的分析、恢复策略的制定等环节,这可能导致故障处理不够全面和高效。


技术实现思路

1、本发明提供了一种基于事件日志的自主式实时故障隔离方法,主要包括:

2、从it运维事件日志中提取异常模式并标记可能的故障源点;根据已标记的异常模式,构建一个智能过滤器,从日常日志中筛选出与故障相关的日志;使用加权有向图,将标记为异常的日志视为图中的边,系统组件视为节点,构建故障传播图;在故障传播图中,快速定位核心故障节点和其关联节点;利用图论方法,分析核心故障节点与其他节点之间的依赖关系,判断显示依赖节点与隐形依赖节点,获得整个故障网络;量化核心故障节点对服务的影响力,以确定哪些节点需要优先恢复;针对核心故障节点和关联节点,设计隔离策略,阻断与健康节点的连接,以防止故障进一步扩散;建立恢复策略并在模拟环境中进行验证,确保其可以有效地恢复故障节点而不影响其他与之有依赖关系的健康节点;对故障节点进行实际恢复,确保故障节点快速返回到正常状态,分析系统日志确保系统恢复稳定,无新的异常模式出现。

3、在一种实施方式中,所述从it运维事件日志中提取异常模式并标记可能的故障源点,包括:

4、从系统、应用程序和网络设备中获取事件日志数据,记录系统运行中发生的异常或错误,包括系统性能下降,应用程序崩溃,网络连接中断,数据丢失或损坏;对获取到的事件日志数据进行清洗和预处理,包括去除重复项、处理缺失值和异常值;根据事件日志的内容和特点,从日志中提取特征信息,包括时间戳、事件类型、错误代码、关键词,将事件日志数据转化为可用于进一步分析的结构化数据;使用长短期记忆网络,对提取到的事件日志特征进行异常模式识别,获取日志数据中的异常行为和模式;根据异常模式识别的结果,结合系统架构、网络拓扑、硬件配置,标记故障源点和影响范围;根据识别的具体故障源点和影响范围,自动调整it运维策略,和相关系统和设备的配置,减缓或防止故障扩散。

5、在一种实施方式中,所述根据已标记的异常模式,构建一个智能过滤器,从日常日志中筛选出与故障相关的日志,包括:

6、根据日志与日志中被标记的异常模式,使用朴素贝叶斯建立一个智能过滤器,对日志中的文本数据进行分类,筛选出与故障相关的日志条目;将智能过滤器的分类结果与已知的异常模式进行匹配,对这些日志条目进行分类和标记,将其归类到不同的异常类别中;对标记的日志条目进行统计分析,获取日志数据的特性,包括频率、密度;基于统计特性,采用k-means算法,将日志数据细分为不同的异常类别;将细分后的异常类别数据整理和归档,存储在数据库中供进一步的分析和处理;从数据库中提取异常类别数据,分析数据是否存在未知的故障模式或者能与已知模式关联的信息,将未知故障的特征加入智能过滤器;使用训练好的模型,实时监控含有这些异常模式的日志,进行实时数据分析,快速响应和处理潜在的系统故障。

7、在一种实施方式中,所述使用加权有向图,将标记为异常的日志视为图中的边,系统组件视为节点,构建故障传播图,包括:

8、若异常日志数量增加,对日志进行分类,每种异常类型对应特定的系统组件和故障模式;根据每种异常类型,利用加权有向图构建故障传播图,每个系统组件作为节点,异常日志作为边,边的权重由异常日志的严重性决定;通过facets将故障传播图可视化,分析系统组件间的关系和异常传播路径,图中每个节点和边都包含属性和元数据;如果异常识别准确,根据组件关系和传播路径数据,对故障传播图进行深度分析,寻找潜在的故障和异常传播模式;获取分析结果,明确异常传播模式和受影响的系统组件,根据组件的属性和元数据,判断其在故障传播中的角色;判断故障传播模式的完整性和准确性,如果不足,回到异常日志,提取更多的属性和元数据,以丰富故障传播图;根据更新后的故障传播图,重新分析受影响的系统组件和异常传播路径;对更新后的故障传播图进行训练和优化,分析优化后的故障传播图,识别关联到系统的故障和异常的关键节点和边,输出优化后的系统故障传播图。

9、在一种实施方式中,所述在故障传播图中,快速定位核心故障节点和其关联节点,包括:

10、故障传播图显示存在故障时,对故障范围内的节点进行实时监控,获取节点的状态数据和网络流量信息;将实时监控得到的异常数据输入数据分析中心,根据故障传播图的图形相关特征,训练gcn模型,使用gcn对故障传播图进行初步筛选和分析,识别存在异常的节点;根据初步分析结果中异常节点连接的节点数量,判断哪些节点是核心故障节点,若异常节点连接的节点数量高于预设节点数量,判断为核心故障节点;获取核心故障节点和关联节点的数据,通过网络拓扑信息分析节点的连接路径和数据交换,判断故障范围和影响;如果发现故障节点及关联节点间的连接路径显示异常,判断故障是否扩散;如果连接路径异常,启动自动修复机制,调整网络配置或限制数据流向来修复或隔离异常路径;对修复或隔离后的数据进行再次处理,对修复后网络状态进行监控;如果监控发现故障未彻底修复,启动预防机制,限制故障节点的数据传输或增强网络安全设置;根据预防机制的运行状况,对故障传播图进行调整,调整节点连接权重或路径优先级;还包括:根据故障传播图的图形信息训练gcn模型。

11、所述根据故障传播图的图形信息训练gcn模型,具体包括:

12、将故障传播图表示为一个由节点和边组成的网络。每个节点代表一个设备或系统,每个边代表设备或系统之间的连接关系。获取与图形相关的特征,包括节点的度、节点的邻居节点。将获取到的图形数据和特征进行预处理,包括数据清洗、标准化、归一化,将图形数据转换为可被gcn处理的邻接矩阵和特征矩阵格式。使用gcn模型对预处理后的图形数据进行训练。gcn模型对节点特征进行卷积操作,捕捉节点的局部和全局信息。在训练过程中,使用已知的异常节点作为标签来训练模型。使用训练好的gcn模型对新的故障传播图中的节点进行预测,得到每个节点的异常分数。根据预测结果,设定一个阈值来判断哪些节点是异常节点。如果某个节点的异常分数高于阈值,则认为该节点是异常节点。

13、在一种实施方式中,所述利用图论方法,分析核心故障节点与其他节点之间的依赖关系,判断显示依赖节点与隐形依赖节点,获得整个故障网络,包括:

14、分析故障网络的结构,识别核心故障节点及其属性,根据节点与节点间的连接关系,建立初步的故障网络模型;使用k-means,对初步的故障网络模型中核心故障节点与其他节点之间的依赖关系进行分析和分类;基于k-means分析结果,细化依赖关系,包括隐形依赖节点的识别和分类,通过加权有向图更新故障网络模型;根据更新后的故障网络模型,使用最短路径分析法定量评估核心故障节点与显示依赖节点之间的连接强度和路径;将最短路径分析法的结果反馈回故障网络模型,进一步优化模型,包括隐形依赖节点与核心故障节点之间的连接关系;对优化后的故障网络模型进行动态模拟,特别是核心故障节点的状态变化对显示依赖节点和隐形依赖节点的影响;通过动态模拟,识别潜在的故障传播路径和影响范围,进一步优化故障网络模型;使用优化后的故障网络模型,输出完整的故障网络;还包括:使用k-means,获取核心故障节点与其他节点之间的依赖关系;根据网络结构和流量路径识别潜在的故障传播路径和影响范围。

15、所述使用k-means,获取核心故障节点与其他节点之间的依赖关系,具体包括:

16、获取节点依赖关系相关的特征,包括节点的度中心性、介数中心性,以及节点的属性信息和元数据。对数据进行预处理,包括数据清洗、缺失值填充、异常值处理。根据节点间相似性的变化,确定合适的聚类数量。使用基于距离的聚类算法k-means,根据节点间的相似性和距离来将节点分为不同的簇,识别出核心故障节点与其他节点之间的依赖关系。通过散点图呈现聚类分析的结果,直观展示节点间的依赖关系和聚类结果。结合领域知识进行聚类结果和依赖关系的细化验证和调整,若聚类结果与实际应用中的节点分类不符,调整特征或算法参数,重新进行聚类分析。根据网络拓扑结构更换聚类方法,若网络具有层次结构,使用层次聚类算法进行分类。

17、所述根据网络结构和流量路径识别潜在的故障传播路径和影响范围,具体包括:

18、获取节点的网络指标包括网络流量、延迟和丢包率。如果核心故障节点发生故障,影响范围节点的网络指标会立即或逐步恶化,根据节点的网络指标,获取核心故障节点故障的影响范围。获取路径的网络流量,如果核心故障节点发生故障,流量会被重定向到其他节点,根据流量的变化和流向,获取潜在的故障传播路径。检查网络拓扑结构,获取核心故障节点与其他节点之间的连接关系,如果核心故障节点与多个节点相连,节点会受到故障潜在影响。结合实际业务场景来分析潜在的故障传播路径和影响范围,故障节点影响包括使用节点服务的所有应用程序和用户。

19、在一种实施方式中,所述量化核心故障节点对服务的影响力,以确定哪些节点需要优先恢复,包括:

20、量化故障节点的当前状态,处理获取到的数据,得到故障节点的详细数据和影响范围;根据得到的数据,利用预先设置的阈值判定逻辑对服务影响严重程度进行判定;根据判定结果,用层次聚类算法处理受影响服务的数据,识别其具体特征和潜在恢复路径;应用日志分析工具elk,获取故障节点数据,根据故障节点影响范围、节点重要性和节点连接顺序判断恢复优先级和修复路径;每个故障节点执行恢复操作,在执行过程中,动态获取节点数据,优化修复策略,包括修改修复路径、增加额外的修复,减少恢复时间;修复后,使用自动化脚本来模拟用户访问应用程序的场景,并获取相关的性能指标数据,获取节点状态数据,进行服务质量验证,优化评估参数,提高评估精度;获取服务质量和评估精度数据,使用数据库或日志系统记录恢复过程和结果,并将数据存储起来以备将来查询和参考。

21、在一种实施方式中,所述针对核心故障节点和关联节点,设计隔离策略,阻断与健康节点的连接,以防止故障进一步扩散,包括:

22、根据节点的功能和角色选择不同的隔离方法,建立隔离策略,包括物理隔离,逻辑隔离,动态隔离;通过基于度中心性的节点重要性度量算法,获取核心故障节点,执行隔离策略,阻断核心故障节点与关联节点的连接;如果关联节点表现出异常行为,调整隔离策略的参数,增强与健康节点间的阻断效果;获取并分析实时数据流,通过数据流量判断数据流是否受到核心或关联故障节点的影响;识别并验证是否存在未被隔离的故障节点;如果存在,需要调整隔离策略参数并重新执行隔离策略,增强阻断效果;获取系统稳定性,判断隔离策略和节点设计的效果;如果系统稳定性未达标,调整节点设计和隔离策略参数;判断调整后的系统稳定性是否满足预定的稳定性标准;使用pid控制器继续监控系统稳定性,确保其满足预定标准,并进行实时调整。

23、在一种实施方式中,所述建立恢复策略并在模拟环境中进行验证,确保其可以有效地恢复故障节点而不影响其他与之有依赖关系的健康节点,包括:

24、根据故障节点的状态数据,选择相应的恢复方法包括重新启动服务、增加内存、清理磁盘空间、修复损坏的文件或更新软件包,建立恢复策略;通过系统监控和错误日志判断故障节点的具体问题和状态;根据故障节点信息,使用配置管理工具ansible来自动化部署和配置模拟环境;根据故障节点的状态数据,选择对应恢复策略,重点保护健康节点;将恢复策略应用于模拟环境,模拟环境来测试恢复策略的效果,并使用可视化工具plantuml来绘制和记录恢复策略的流程和结果和任何可能的健康节点影响;使用梯度下降算法优化恢复策略,调整恢复策略的参数,最小化对健康节点的影响并最大化故障节点的恢复速度;根据优化后的恢复策略,使用自动化修复工具patchmanagerplus,自动应用恢复策略并修复故障节点;在修复过程中,使用防火墙、入侵检测系统和入侵防御系统部署安全机制确保健康节点不受恶意攻击;在故障节点恢复期间,使用配置管理工具ansible动态调整其与健康节点的依赖关系。

25、在一种实施方式中,所述对故障节点进行实际恢复,确保故障节点快速返回到正常状态,分析系统日志确保系统恢复稳定,无新的异常模式出现,包括:

26、当系统中的故障节点被识别时,将自动触发并执行预定修复脚本,通过对比数据,修复节点数据和配置异常;修复完成后,使用日志管理工具elk获取节点的运行数据和状态信息,更新系统日志,记录修复后的状态信息;使用k-means对日志数据进行分类,对比异常和正常模式,判断系统当前状态;如果系统日志中出现不一致的数据模式,使用k-means继续对异常数据进行分类和分析,确定异常的具体类型和来源;根据分析的结果,自动触发相应的修复策略和协议,包括重新配置、重启服务或更新软件;修复和优化后,自动更新系统日志,重新对日志数据使用k-means进行分析,判断异常模式是否被彻底消除;如果修复成功且无新的异常模式,使用mysql对恢复后的节点和系统数据进行备份;备份完成后,通过网络监控工具zabbix实时获取和分析系统运行数据,监控网络设备的状态和系统的运行;若系统运行稳定,无新的异常模式出现,保持监控状态,同时自动整理和归档所有相关数据和日志,为未来故障预防和修复提供参考。

27、本发明实施例提供的技术方案可以包括以下有益效果:

28、本发明提出了一种从海量it运维事件日志中提取异常模式并标记可能的故障源点的方法。该方法通过深度学习训练,识别与故障相关的异常模式,构建智能过滤器以筛选出与故障相关的日志,帮助运维人员快速定位故障。引入图论方法将异常日志看作边,系统组件看作节点,构建故障传播图展示故障传播过程。分析核心故障节点与其他节点的依赖关系,得到故障网络,确定需要优先恢复的节点。设计隔离策略阻断故障节点的传播,恢复策略在模拟环境中验证后应用于实际恢复。该技术能够快速准确地提取异常模式、定位故障源点,提高系统的稳定性和可靠性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1