一种故障根因分析方法和分析设备的制造方法

文档序号:9711385阅读:399来源:国知局
一种故障根因分析方法和分析设备的制造方法
【技术领域】
[0001] 本发明涉及数据挖掘和网络管理领域,尤其涉及一种故障根因分析方法和分析设 备。
【背景技术】
[0002] 随着网络技术的发展,宽带路由器在网络中的应用变得越来越广泛,且在网络中 占据重要地位。然后,宽带路由器在运行过程中难免会出现故障,当宽带路由器出现故障 时,若不及时确定故障发生原因,排除故障,则会导致网络出现暂时性的中断,给企业带来 诸多不便及损失,因此,及时确定网络故障发生原因并排除宽带路由器的故障是很有必要 的。
[0003] 由于,宽带路由器产生的网络日志中包含了大部分和宽带路由器运行相关的信 息,因此,现有技术人员可以通过分析网络日志来定位宽带路由器故障发生的原因(即故障 根因)。但是,在实现本发明的过程中,技术人员发现:当前故障根因分析多采用人工分析日 志的方式,在分析过程中人为参与的部分较多,投入了大量的人力和时间,同时,又需要结 合大量的专业知识定位网络故障根因,故障根因分析效率较低,进而导致不能快速及时的 排除网络故障。

【发明内容】

[0004] 为解决上述问题,本发明实施例提供一种故障根因分析方法和分析设备,以解决 现有故障根因分析过程中,需要采用大量的人力和时间来分析网络日志,导致的故障根因 分析效率较低,不能及时排除网络故障的问题。
[0005] 为达到上述目可选的,本发明的实施例采用如下技术方案:
[0006] 第一方面,本发明实施例提供一种故障根因分析方法,由分析设备执行,所述方法 可以包括:
[0007] 确定网络设备的故障时间点;
[0008] 获取所述网络设备在第一时间段内产生的第一日志信息集;所述第一日志信息集 包含M类日志信息,所述M为大于或等于1的整数,所述第一时间段为:从所述故障时间点之 前的第一时刻到所述故障时间点之后的第二时刻之间的时间段;
[0009] 根据预设分析策略对所述M类日志信息中每类日志信息进行分析,获取所述M类日 志信息中的N类根因日志;所述N类根因日志为:所述网络设备发生故障时产生的日志信息, 所述M2 N2 1,所述预设分析策略为:预先确定的所述网络设备故障发生时日志发生的规 律;
[0010] 根据所述N类根因日志确定所述网络设备发生故障的原因。
[0011] 由于,网络设备在故障发生时可能会产生至少一类日志信息(即根因日志),且这 些类日志信息在故障时间点附近的出现呈现比较明显的特征规律,为此,本发明技术人员 结合大量的故障分析报告,预先对大量故障时间点附近产生的日志信息进行分析,挖掘出 故障根因日志出现的特征规律:(1)故障发生时产生的至少一类日志信息通常会组合在一 起在故障点附近重复且不间断的出现;(2)故障发生时产生的一类日志信息通常在比较长 的一时间段内频繁出现,且在故障时间点处呈突然增多的趋势。
[0012]因此,在第一方面的一种可实现方式中,所述根据预设分析策略对所述M类日志信 息中每类日志信息进行分析,获取所述M类日志信息中的N类根因日志可以包括:
[0013] 将所述M类日志信息对应的M个日志类型分为i个不同的日志组合;每个日志组合 包含所述M个日志类型中的至少一个日志类型,且所述每个日志组合包含的日志类型各不 相同,所述i为大于或等于1的整数;
[0014] 遍历所述i个日志组合,确定所述i个日志组合中的至少一个根因日志组合;所述 根因日志组合为:在所述第一时间段内频繁且持续出现的日志组合;
[0015] 对所述至少一个根因日志组合进行处理;
[0016] 将处理后的至少一个根因日志组合对应的至少一类日志信息确定为所述N类根因 日志。
[0017] 可以选,对于任一日志组合,确定所述日志组合为根因日志组合可以包括:
[0018] 将所述第一时间段划分为至少一个时间窗,将所述至少一个时间窗中的每个时间 窗划分为至少一个小时间窗;
[0019] 计算所述日志组合在任一时间窗内出现的第一频率;所述第一频率为:所述时间 窗内出现所述日志组合的小时间窗的个数与所述时间窗包含的小时间窗的个数的比值;
[0020] 若所述第一频率大于第一预设阈值,则确定所述日志组合为所述时间窗内的频繁 日志组合;
[0021 ]计算所述频繁日志组合在所述第一时间段内出现的第二频率;所述第二频率为: 所述第一时间段内出现所述频繁日志组合的时间窗的个数与所述第一时间段包含的时间 窗的个数的比值;
[0022]若所述第二频率大于第二预设阈值,则确定所述频繁日志组合为根因日志组合。 [0023] 可选的,对所述至少一个根因日志组合进行处理可以包括:
[0024] 若遍历所述i个日志组合确定出的至少一个根因日志组合中存在第一根因日志组 合和第二根因日志组合,且所述第一根因日志组合包含在所述第二根因日志组合中;则所 述对所述至少一个根因日志组合进行处理包括:
[0025] 当所述第一根因日志组合对应的第二频率大于所述第二根因日志组合对应的第 二频率时,不剔除所述第一根因日志组合;
[0026] 当所述第一根因日志组合对应的第二频率小于所述第二根因日志组合对应的第 二频率时,剔除所述第一根因日志组合。
[0027]或者,若遍历所述i个日志组合确定出的至少一个根因日志组合中存在第三根因 日志组合,且所述第三根因日志组合为所述故障时间点之前的根因日志组合,则所述对遍 历所述i个日志组合确定出的至少一个根因日志组合进行处理包括:
[0028]剔除所述第三根因日志组合。
[0029]需要说明的是,在本发明实施例中,所述日志组合为包含至少一个日志类型的组 合,所述时间窗为一个时间间隔,在对时间窗划分的过程中,每个时间窗的大小可以相等也 可以不相等,每个小时间窗的大小可以相等也可以不相等,所述日志组合在时间窗出现可 以指:所述日志组合包含的日志类型对应的日志信息发生在该时间窗对应的时间间隔内。
[0030] 第一预设阈值和第二预设阈值可以根据需要进行设置,本发明实施例对此不进行 限定,若一日志组合对应的第一频率大于第一预设阈值,则表示该日志组合集中在某一时 刻频繁出现,确定为频繁日志组合,若该日志组合对应的第一频率小于或等于第一预设阈 值,可以认为该日志组合对应的日志信息为网络设备正常时产生的一些日志信息;若频繁 日志组合的第二频率大于第二预设阈值,则表示在某一时刻频繁出现的日志在第一时间段 内持续频繁出现,即该频繁日志组合为第一时间段内重复且不间断出现的日志,符合故障 根因日志出现的规律,确定该频繁日志组合为根因日志组合,将该日志组合包含的日志类 型对应的日志信息确定为网络设备发生故障时产生的日志信息,若频繁日志组合的第二频 率小于或等于第二预设阈值,则表示在某一时刻频繁出现的日志在第一时间段内不会持续 性出现,可以认为该日志组合对应的日志信息为网络设备正常时产生的一些日志信息。
[0031] 此外,通过对大量故障相关日志和正常日志分析发现,正常日志往往呈现周期性 出现的规律,分布比较均匀,且在整个日志中出现的比较频繁。而故障根因日志在故障点处 呈突然增多趋势,且在非故障模式对应的日志中却几乎从未出现,这与信息论所述的出现 频率越高的内容信息含量越低一致,为此,在第一方面的又一种可实现方式中,所述根据预 设分析策略对所述M类日志信息中每类日志信息进行分析,获取所述M类日志信息中的N类 根因日志可以包括:
[0032] 确定与所述M类日志信息一一对应的M个异常值;所述异常值用于表示:一类日志 信息在第二时间段内发生的频繁程度和突变程度,所述第二时间段包含所述第一时间段;
[0033] 从所述M个异常值中获取前N个最大异常值,将所述第一日志信息集中与所述前N 个最大异常值对应的N类日志信息确定为所述N类根因日志。
[0034] 可选的,可以获获取所述网络设备在所述第二时间段内产生的第二日志信息集; 所述第二日志信息集包含至少一个日志信息,每个日志信息对应一个时间点;
[0035]对所述第二日志信息集进行预处理,获取第一日志行为矩阵;所述第一日志行为 矩阵包含:Q组日志行为向量,每组日志行为向量占用一个时间间隔,每组日志行为向量包 含R个元素,所述R为所述第二日志信息集对应的日志类型的组数,所述R 2所述M;所述日志 行为向量中的第j个元素表示:在所述日志行为向量的时间间隔内第j类日志信息的个数;
[0036] 根据公式
分别计算所述R类日志信息 的异常值,得到与所述R类日志信息一一对应的R个异常值;
[0037] 从所述R个异常值中获取与所述M类日志信息一一对应的M个异常值。
[0038] 其中,所述时间间隔比较大,通常为几十分钟,且每组日志行为向量的时间间隔可 以相等也可以不相等。
[0039] 所述
表示所述R类日志信息中第j类日志信息在所述第二日志信息集中出 现的频繁程度,所述
1表示所述R类日志信息中第j类日志信息在所述第 二日志信息集中的突变程度,所述为包含第j类日志信息的日志行为向量的组数,所述 ck+u表示第k+Ι个时间间隔内第j类日志信息的总数量,所述表示第k个时间间隔内第j 类日志信息的总数量。
[0040] 需要说明的是,上述两种方式获取所述M类日志信息中的N类根因日志可以单独执 行,也可以结合在一起执行,以更加准确的定位网络故障发生的确切原因。
[0041] 最后,由于日志信息为网络设备在一时间点的活动行为的记录信息,因此,可以直 接获取所述N类根因日志,将N类根因日志对应的记录信息作为网络设备发生故障的原因; 还可以采用现有分析方法结合N类根因日志进行分析,确定导致N类根因日志的最根本的故 障原因。
[0042] 还可以在第一种获取所述M类日志信息中的N类根因日志的方式的基础上,将合并 后的至少一个日志类型中每个日志类型与其在至少一个根因日志组合中出现的次数对应 记录,将次数最高的日志类型对应的日志信息直接作为网络设备故障发生的根本原因。
[0043] 第二方面,本发明实施例还提供一种分析设备,用于分析网络设备的故障根因,所 述分析设备可以包括:
[0044]确定单元,用于确定网络设备的故障时间点;
[0045] 获取单元,用于获取所述网络设备在第一时间段内产生的第一日志信息集;所述 第一日志信息集包含M类日志信息,所述M为大于或等于1的整数,所述第一时间段为:从所 述故障时间点之前的第一时刻到所述故障时间点之后的第二时刻之间的时间段;
[0046] 分析单元,用于根据预设分析策略对所述获取单元获取到的M类日志信息中每类 日志信息进行分析,获取所述M类日志信息中的N类根因日志;所述N类根因日志为:所述网 络设备发生故障时产生的日志信息,所述M 2 N 2 1,所述预设分析策略为:预先确定的所述 网络设备故障发生时日志发生的规律;
[0047] 所述确定单元,还用于根据所述N类根因日志确定所述网络设备发生故障的原因。
[0048] 由于,网络设备在故障发生时可能会产生至少一类日志信息(即根因日志),且这 些类日志信息在故障时间点附近的出现呈现比较明显的特征规律,为此,本发明技术人员 结合大量的故障分析报告,预先对大量故障时间点附近产生的日志信息进行分析,挖掘出 故障根因日志出现的特征规律:(1)故障发生时产生的至少一类日志信息通常会组合在一 起在故障点附近重复且不间断的出现;(2)故障发生时产生的一类日志信息通常在比较长 的一时间段内频繁出现,且在故障时间点处呈突然增多的趋势。
[0049] 因此,在第二方面的一种可实现方式中,所述分析单元可以用于:
[0050] 将所述M类日志信息对应的M个日志类型分为i个不同的日志组合;每个日志组合 包含所述M个日志类型中的至少一个日志类型,且所述每个日志组合包含的日志类型各不 相同,所述i为大于或等于1的整数;
[0051] 遍历所述i个日志组合,确定所述i个日志组合中的至少一个根因日志组合;所述 根因日志组合为:在所述第一时间段内频繁且持续出现的日志组合;
[0052] 对所述至少一个根因日志组合进行处理;
[0053] 将处理后的至少一个根因日志组合对应的至少一类日志信息确定为所述N类根因 日志。
[0054]其中,对于任一日志组合,所述分析单元可以用于:
[0055]将所述第一时间段划分为至少一个时间窗,将所述至少一个时间窗中的每个时间 窗划分为至少一个小时间窗;
[0056] 计算所述日志组合在任一时间窗内出现的第一频率;所述第一频率为:所述时间 窗内出现所述日志组合的小时间窗的个数与所述时间窗包含的小时间窗的个数的比值;
[0057] 若所述第一频率大于第一预设阈值,则确定所述日志组合为所述时间窗内的频繁 日志组合;
[0058]计算所述频繁日志组合在所述第一时间段内出现的第二频率;所述第二频率为: 所述第一时间段内出现所述频繁日志组合的时间窗的个数与所述第一时间段包含的时间 窗的个数的比值;
[0059] 若所述第二频率大于第二预设阈值,则确定所述频繁日志组合为根因日志组合。
[0060] 需要说明的是,在本发明实施例中,所述日志组合为包含至少一个日志类型的组 合,所述时间窗为一个时间间隔,在对时间窗划分的过程中,每个时间窗的大小可以相等也 可以不相等,每个小时间窗的大小可以相等也可以不相等,所述日志组合在时间窗出现可 以指:所述日志组合包含的日志类型对应的日志信息发生在该时间窗对应的时间间隔内。
[0061] 第一预设阈值和第二预设阈值可以根据需要进行设置,本发明实施例对此不进行 限定,若一日志组合对应的第一频率大于第一预设阈值,则表示该日志组合集中在某一时 刻频繁出现,确定为频繁日志组合,若该日志组合对应的第一频率小于或等于第一预设阈 值,可以认为该日志组合对应的日志信息为网络设备正常时产生的一些日志信息;若频繁 日志组合的第二频率大于第二预设阈值,则表示在某一时刻频繁出现的日志在第一时间段 内持续频繁出现,即该频繁日志组合为第一时间段内重复且不间断出现的日志,符合故障 根因日志出现的规律,确定该频繁日志组合为根因日志组合,将该日志组合包含的日志类 型对应的日志信息确定为网络设备发生故障时产生的日志信息,若频繁日志组合的第二频 率小于或等于第二预设阈值,则表示在某一时刻频繁出现的日志在第一时间段内不会持续 性出现,可以认为该日志组合对应的日志信息为网络设备正常时产生的一些日志信息。
[0062] 此外,通过对大量故障相关日志和正常日志分析发现,正常日志往往呈现周期性 出现的规律,分布比较均匀,且在整个日志中出现的比较频繁。而故障根因日志在故障点处 呈突然增多趋势,且在非故障模式对应的日志中却几乎从未出现,这与信息论所述的出现 频率越高的内容信息含量越低一致,为此,在第二方面的又一种可实现方式中,所述分析单 元可以用于:
[0063] 确定与所述M类日志信息一一对应的M个异常值;所述异常值用于表示:一类日志 信息在第二时间段内发生的频繁程度和突变程度,所述第二时间段包含所述第一时间段;
[0064] 所述分析单元用于:从所述M个异常值中获取前N个最大异常值,将所述第一日志 信息集中与所述前N个最大异常值对应的N类日志信息确定为所述N类根因日志。
[0065] 可选的,可以获取所述网络设备在所述第二时间段内产生的第二日志信息集;所 述第二日志信息集包含至少一个日志信息,每个日志信息对应一个时间点;
[0066]对所述第二日志信息集进行预处理,获取第一日志行为矩阵;所述第一日志行为 矩阵包含:Q组日志行为向量,每组日志行为向量占用一个时间间隔,每组日志行为向量包 含R个元素,所述R为所述第二日志信息集对应的日志类型的组数,所述R 2所述M;所述日志 行为向量中的第j个元素表示:在所述日志行为向量的时间间隔内第j类日志信息的个数;
[0067]根据公式
分别计算所述R类日志信息 的异常值,得到与所述R类日志信息一一对应的R个异常值;
[0068] 从所述R个异常值中获取与所述M类日志信息--对应的M个异常值。
[0069] 其中,所述时间间隔比较大,通常为几十分钟,且每组日志行为向量的时间间隔可 以相等也可以不相等。
[0070] 所述
表示所述R类日志信息中第j类日志信息在所述第二日志信息集中出 现的频繁程度,所述
1表示所述R类日志信息中第j类日志信息在所述第 二日志信息集中的突变程度,所述为包含第j类日志信息的日志行为向量的组数,所述 Ck+u表示第k+Ι个时间间隔内第j类日志信息的总数量,所述表示第k个时间间隔内第j 类日志信息的总数量。
[0071 ]需要说明的是,上述两种方式获取所述M类日志信息中的N类根因日志可以单独执 行,也可以结合在一起执行,以更加准确的定位网络故障发生的确切原因。
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1