网络故障分析方法、装置、设备及存储介质与流程

文档序号:31995023发布日期:2022-11-02 02:30阅读:47来源:国知局
1.本技术涉及网络
技术领域
:,特别涉及一种网络故障分析方法、装置、设备及存储介质。
背景技术
::2.网络故障是指由于硬件问题、软件问题、网络攻击等原因导致网络无法提供正常服务或降低服务质量的状态。出现网络故障时,网络设备会上报异常事件信息,例如告警、日志等。根据网络设备上报的异常事件信息进行网络故障分析,可以确定出故障原因。3.相关技术中,异常事件信息至少包括异常事件的标识。网络故障分析通常是先将具有相同的标识的异常事件归类为同一类异常事件,然后再分析不同类的异常事件之间的关联关系,进而得到故障原因。4.然而,具有同一标识的异常事件可能由不同的原因导致,因此,采用这种方式得到的网络故障分析结果的准确性较低。技术实现要素:5.本技术实施例提供了一种网络故障分析方法、装置、设备及存储介质,能够提高网络故障分析结果的准确度。6.第一方面,本技术提供了一种网络故障分析方法,所述方法包括:首先,获取第一异常事件的信息和第二异常事件的信息,第一异常事件的信息和第二异常事件的信息均包括事件标识和事件描述信息等。然后,根据所述第一异常事件确定第一故障原因描述信息以及根据第二异常事件确定第二故障描述信息。所述第一故障原因描述信息用于描述所述第一异常事件出现的原因;所述第二故障原因描述信息用于描述所述第二异常事件出现的原因。最后,基于所述第一异常事件的信息中的事件标识、所述第二异常事件的信息中的事件标识、所述第一故障原因描述信息和所述第二故障原因描述信息,确定所述第一故障原因描述信息对应的所述第一异常事件和所述第二故障原因描述信息对应的所述第二异常事件之间的故障传播方向。该故障传播方向用于指示所述第一故障原因描述信息对应的所述第一异常事件和所述第二故障原因描述信息对应的所述第二异常事件中的因事件和果事件。7.在本技术实施例中,根据第一异常事件的信息确定用于描述所述第一异常事件出现的原因的第一故障原因描述信息以及根据第二异常事件的信息确定用于描述所述第二异常事件出现的原因第二故障原因描述信息,在考虑第一异常事件和第二异常事件之间的故障传播关系时,不仅考虑第一异常事件的标识、第二异常事件的标识,还考虑了第一异常事件和第二异常事件的出现的原因,从而确定出所述第一故障原因描述信息对应的所述第一异常事件是导致所述第二故障原因描述信息对应的所述第二异常事件发生的因事件,使得故障传播关系的确定结果更加精细和准确,提高了网络故障分析的准确性。8.在一种可能的实施方式中,第一和第二故障原因描述信息均是采用发送对应的异常事件的信息的网络设备所对应的提取模板确定的。各网络设备对应的提取模板均包括事件标识、故障码关键词等内容。在一些示例中,提取模板还包括故障码关键词对应的候选故障码以及各所述候选故障码的故障码描述信息。候选故障码是指一个故障关键词可能对应的故障码,一个故障关键词通常对应多个候选故障码。9.在一些示例中,第一故障原因描述信息的确定过程如下。首先,获取第一网络设备的第一提取模板,所述第一网络设备为发送所述第一异常事件的信息的网络设备。然后,根据所述第一提取模板和所述第一异常事件的信息中相同的事件标识和故障码关键词,从所述第一异常事件的信息中提取故障码,得到第一提取结果。最后,根据所述第一提取结果,确定所述第一故障原因描述信息。10.在一些示例中,第二故障原因描述信息的确定过程如下。首先,获取第二网络设备的第二提取模板,所述第二网络设备为发送所述第二异常事件的信息的网络设备。然后,根据所述第二提取模板和所述第二异常事件的信息中相同的事件标识和故障码关键词,从所述第二异常事件的信息中提取故障码,得到第二提取结果。最后,根据所述第二提取结果,确定所述第二故障原因描述信息。11.这样,通过第一提取模板和第二提取模板可以自动提取出第一异常事件的信息和第二异常事件的信息中的故障码以及确定提取出的故障码对应的故障原因描述信息。12.在一种可能的实施方式中,所述第一提取结果和所述第二提取结果中的至少一个包括至少一个故障码。13.在一种可能的实施方式中,所述根据所述第一提取结果确定第一故障原因描述信息,包括:当第一提取结果中包括故障码时,将第一提取结果所包含的故障码与对应的故障码关键词组合,每个组合为一个第一故障原因描述信息,从而得到至少一个第一故障原因描述信息。当第一提取结果中不包括故障码时,将第一异常事件的事件标识作为第一故障原因描述信息,或者,确定第一故障原因描述信息为空。14.根据所述第二提取结果确定第二故障原因描述信息的方式与根据所述第一提取结果确定第一故障原因描述信息的方式相同。15.在一种可能的实施方式中,所述基于所述第一异常事件的信息中的事件标识、所述第二异常事件的信息中的事件标识、所述第一故障原因描述信息和所述第二故障原因描述信息,所述第一故障原因描述信息对应的所述第一异常事件和所述第二故障原因描述信息对应的所述第二异常事件之间的故障传播方向,包括:获取第一故障传播关系模型,所述第一故障传播关系模型包括多条第一故障传播关系,所述第一故障传播关系用于记录两个异常事件在对应的故障原因描述信息下的故障传播方向;响应于确定所述第一故障传播关系模型中存在第一目标故障传播关系,根据第一目标故障传播关系,所述第一故障原因描述信息对应的所述第一异常事件和所述第二故障原因描述信息对应的所述第二异常事件之间的故障传播方向,所述第一目标故障传播关系为包括所述第一异常事件的信息中的事件标识、所述第二异常事件的信息中的事件标识、所述第一故障原因描述信息和所述第二故障原因描述信息的第一故障传播关系。16.通过将第一异常事件的标识、第二异常事件的标识、第一故障原因描述信息以及第二故障原因描述信息与第一故障传播关系模型中的各第一故障传播关系进行比对,确定出包括所述第一异常事件的信息中的事件标识、所述第二异常事件的信息中的事件标识以及第一和第二故障原因描述信息的第一目标故障传播关系,从而确定出所述第一故障原因描述信息对应的所述第一异常事件和所述第二故障原因描述信息对应的所述第二异常事件之间的故障传播方向,实现方便简单。17.在另一种可能的实施方式中,所述第一故障传播关系模型中不存在第一目标故障传播关系,则所述基于所述第一异常事件的信息中的事件标识、所述第二异常事件的信息中的事件标识、所述第一故障原因描述信息和所述第二故障原因描述信息,确定所述第一故障原因描述信息对应的所述第一异常事件和所述第二故障原因描述信息对应的所述第二异常事件之间的故障传播方向,包括:获取第二故障传播关系模型,所述第二故障传播关系模型包括多条第二故障传播关系,所述第二故障传播关系用于记录两个异常事件在对应的故障原因描述信息下可能的故障传播方向,所述第二故障传播关系模型是根据所述第一故障传播关系模型生成的;响应于确定所述第二故障传播关系模型中存在第二目标故障传播关系,根据第二目标故障传播关系,所述第一故障原因描述信息对应的所述第一异常事件和所述第二故障原因描述信息对应的所述第二异常事件之间的故障传播方向,所述第二目标故障传播关系为包括所述第一异常事件的信息中的事件标识、所述第二异常事件的信息中的事件标识、所述第一故障原因描述信息和所述第二故障原因描述信息的第二故障传播关系。18.当根据第一故障传播关系模型不能确定出第一异常事件和第二异常事件之间基于对应的故障原因描述信息的故障传播关系时,通过第二故障传播关系模型确定出第一异常事件和第二异常事件之间基于对应的故障原因描述信息的可能的故障传播关系,以便于为故障原因的定位提供参考。19.在一种可能的实施方式中,所述方法还包括:在所述根据第二目标故障传播关系,确定所述第一故障原因描述信息对应的所述第一异常事件和所述第二故障原因描述信息对应的所述第二异常事件之间的故障传播方向之后,对所述第二目标故障传播关系进行校验;根据校验后的所述第二目标故障传播关系,更新所述第一故障传播关系模型和所述第二故障传播关系模型。20.在确定第一异常事件和第二异常事件的可能的故障传播关系通过校验之后,更新第一故障传播关系模型和所述第二故障传播关系模型,能够使得第一故障传播关系模型更加完善,同时提高第二故障传播关系模型中各第二故障传播关系的准确性,使得后续的传播关系的确定结果更为准确。21.在一些示例中,网管设备将第二目标故障传播关系发送给服务器,由云端设备对该第二目标故障传播关系进行校验,以及根据校验后的第二目标故障传播关系,更新所述第一故障传播关系模型和所述第二故障传播关系模型,然后将更新后的第一故障传播关系模型和所述第二故障传播关系模型发送给网管设备。22.可选地,所述第一故障传播关系模型中的第一故障传播关系采用以下方式生成:确定第一实体上的第三异常事件和用于描述所述第三异常事件出现的原因的第三故障原因描述信息、以及第二实体上的第四异常事件和用于描述所述第四异常事件出现的原因的第四故障原因描述信息,所述第一实体和所述第二实体相互关联;根据专家标注,确定所述第三故障原因描述信息对应的所述第三异常事件和所述第四故障原因描述信息对应的所述第四异常事件中的因事件和果事件,得到所述第一故障传播关系。23.可选地,所述第二故障传播关系模型中的第二故障传播关系采用以下方式生成:确定具有未知故障原因描述信息的第五异常事件,所述未知故障原因描述信息为对应的异常事件的除已知故障原因描述信息之外的故障原因描述信息,所述已知故障原因描述信息为对应的异常事件所关联的第一故障传播关系中的故障原因描述信息;分别计算所述第五异常事件的未知故障原因描述信息与所述第五异常事件的各个所述已知故障原因描述信息之间的第一相似度,得到第一相似度集合;根据所述第一相似度集合,确定所述第五异常事件在所述未知故障原因描述信息下对应的第二故障传播关系成立的概率。24.这里,第五异常事件是具有未知故障原因描述信息的任一异常事件。在一些示例中,第五异常事件具有存在于第一故障传播关系模型中的已知故障描述信息以及存在于对应的提取模板中但不存在于第一故障传播关系模型中的未知故障描述信息。25.可选地,所述第五异常事件在所述未知故障原因描述信息下对应的第二故障传播关系包括两种。第一种是第五异常事件和所述第六异常事件之间的、基于所述第五异常事件的未知故障原因描述信息和所述第六异常事件的未知故障原因描述信息的第二故障传播关系;第二种是第五异常事件和所述第六异常事件之间的、基于所述第五异常事件的未知故障原因描述信息和所述第六异常事件的已知故障原因描述信息的第二故障传播关系。26.对于第一种,当第一相似度集合中存在大于第一相似度阈值的第一相似度时,第二故障传播关系成立的概率根据所述第一相似度集合中大于第一相似度阈值的第一相似度和第二相似度集合中大于第二相似度阈值的第二相似度确定,所述第二相似度集合为所述第六异常事件的未知故障原因描述信息和所述第六异常事件的各个已知故障原因描述信息之间的第二相似度的集合。当所述第一相似度集合中的第一相似度均不大于第一相似度阈值,第二故障传播关系成立的概率根据所述第五异常事件和第六异常事件所关联的第一故障传播关系的数量确定。27.对于第二种,当第一相似度集合中存在大于第一相似度阈值的第一相似度时,第二故障传播关系成立的概率根据所述第一相似度集合中大于第一相似度阈值的第一相似度确定。当所述第一相似度集合中的第一相似度均不大于第一相似度阈值时,第二故障传播关系成立的概率根据所述第五异常事件和第六异常事件所关联的第一故障传播关系的数量确定。28.在本技术实施例中,当故障原因描述信息中的故障码为字符串格式时,未知故障原因描述信息和已知故障原因描述信息之间的相似度为字符串格式的故障码之间的相似度。当故障原因描述信息中的故障码为非字符串格式,例如长整型时,未知故障原因描述信息和已知故障原因描述信息之间的相似度为故障码对应的故障码描述信息之间的相似度。29.在一些示例中,第二故障传播关系成立的概率包括:第一概率和第二概率中的至少一个,所述第一概率为由第五异常事件导致第六异常事件的概率,所述第二概率为由第六异常事件导致第五异常事件的概率。30.在一些示例中,所述根据所述第一相似度集合中大于第一相似度阈值的第一相似度和所述第二相似度集合中大于第二相似度阈值的第二相似度,计算第一概率,包括:确定大于第一相似度阈值的第一相似度对应的已知故障原因描述信息所关联的第五异常事件和大于第二相似度阈值的第二相似度对应的已知故障原因描述信息所关联的第六异常事件之间的第一故障传播关系,得到第一关系集合;根据所述第一关系集合中各第一故障传播关系所对应的第一相似度和第二相似度,确定所述第一关系集合中各第一故障传播关系对应的第一权重;根据所述第一关系集合中,表示第五异常事件导致第六异常事件的第一故障传播关系所对应的第一相似度和第二相似度,确定所述第一关系集合中表示第五异常事件导致第六异常事件的第一故障传播关系对应的第二权重;根据所述第一关系集合中各第一故障传播关系对应的所述第一权重之和与所述第二权重之和,计算所述第一概率。31.在一些示例中,所述根据所述第一相似度集合中大于第一相似度阈值的第一相似度和所述第二相似度集合中大于第二相似度阈值的第二相似度,计算第二概率,包括:确定大于第一相似度阈值的第一相似度对应的已知故障原因描述信息所关联的第五异常事件和大于第二相似度阈值的第二相似度对应的已知故障原因描述信息所关联的第六异常事件之间的第一故障传播关系,得到第一关系集合;根据所述第一关系集合中各第一故障传播关系所对应的第一相似度和第二相似度,确定所述第一关系集合中各第一故障传播关系对应的第一权重;根据所述第一关系集合中,表示第五异常事件导致第六异常事件的第一故障传播关系所对应的第一相似度和第二相似度,确定所述第一关系集合中表示第六异常事件导致第五异常事件的第一故障传播关系对应的第五权重;根据所述第一关系集合中各第一故障传播关系对应的所述第一权重之和与所述第五权重之和,计算第二概率。32.在一些示例中,所述根据所述第一相似度集合中大于第一相似度阈值的第一相似度,确定所述第五异常事件和所述第六异常事件之间的、基于所述第五异常事件的未知故障原因描述信息和所述第六异常事件的已知故障原因描述信息的第二故障传播关系成立的概率,包括:确定大于第一相似度阈值的第一相似度对应的所述第五异常事件的已知故障原因描述信息以及所述第六异常事件的已知故障原因描述信息所关联的第一故障传播关系,得到第二关系集合;根据所述第二关系集合中各第一故障传播关系所对应的第一相似度,确定所述第二关系集合中各第一故障传播关系对应的第一权重;根据所述第二关系集合中,表示第五异常事件导致第六异常事件的第一故障传播关系所对应的第一相似度,确定所述第二关系集合中表示第五异常事件导致第六异常事件的第一故障传播关系对应的第二权重;根据所述第二关系集合中各第一故障传播关系对应的所述第一权重之和与所述第二权重之和,计算由所述第五异常事件导致所述第六异常事件的概率。33.在一些示例中,所述根据所述第一相似度集合中大于第一相似度阈值的第一相似度,确定所述第五异常事件和所述第六异常事件之间的、基于所述第五异常事件的未知故障原因描述信息和所述第六异常事件的已知故障原因描述信息的第二故障传播关系成立的概率,包括:确定大于第一相似度阈值的第一相似度对应的所述第五异常事件的已知故障原因描述信息以及所述第六异常事件的已知故障原因描述信息所关联的第一故障传播关系,得到第二关系集合;根据所述第二关系集合中各第一故障传播关系所对应的第一相似度,确定所述第二关系集合中各第一故障传播关系对应的第一权重;根据所述第二关系集合中,表示第六异常事件导致第五异常事件的第一故障传播关系所对应的第一相似度,确定所述第二关系集合中表示第六异常事件导致第五异常事件的第一故障传播关系对应的第五权重;根据所述第二关系集合中各第一故障传播关系对应的所述第一权重之和与所述第五权重之和,计算由所述第六异常事件导致所述第五异常事件的概率。34.可选地,所述方法还包括:确定目标网络设备的产品手册中的原因描述类关键词;基于所述原因描述类关键词,从所述目标网络设备的产品手册中提取模板内容;根据所述模板内容生成目标提取模板;其中,所述目标网络设备为所述第一网络设备,所述目标提取模板为所述第一提取模板;或者,所述目标网络设备为所述第二网络设备,所述目标提取模板为所述第二提取模板。35.第二方面,提供了一种网络故障分析方法。该方法包括:确定多个异常事件关联的实体,得到实体集合;采用第一方面所述的方法,确定第三实体关联的第七异常事件和第四实体关联的第八异常事件在对应的故障原因描述信息下的故障传播方向,其中,所述第三实体和所述第四实体为所述实体集合中的任意两个相互关联的实体,所述第七异常事件为所述第三实体关联的至少一个异常事件中的任意一个异常事件,所述第八异常事件为所述第四实体关联的至少一个异常事件中的任意一个异常事件;根据确定出的所述故障传播方向,确定所述多个异常事件中的根因事件。36.当一个网络故障发生时,将会出现多个异常事件,这多个异常事件与多个实体关联,且每个实体关联至少一个异常事件。在这种情况下,除了需要确定两个关联的实体上的任意两个异常事件之间的因果关系,还需要确定这多个异常事件中的根因事件,以便于技术人员排除故障。通过本技术实施例提供的网络故障方法能够准确确定出多个异常事件中的根因事件,实现网络故障定位。37.在一些示例中,根据确定出的所述故障传播方向,确定所述多个异常事件中的根因事件包括:根据确定出的所述故障传播方向,确定各个所述异常事件的参考值,所述参考值为以所属的异常事件为果事件的故障传播方向的权重之和,所述故障传播方向的权重用于指示对应的故障传播方向为真的概率;将所述参考值最小的异常事件确定为所述多个异常事件中的根因事件。38.可选地,当故障传播方向根据第一故障关系模型确定时,故障传播方向的权重为1。当故障传播方向根据第二故障传播关系模型确定时,故障传播方向的权重为对应的第二故障传播关系对应的概率。39.第三方面,提供了一种网络故障分析装置,该装置包括获取模块、第一确定模块和第二确定模块。其中,获取模块用于获取第一异常事件的信息和第二异常事件的信息。第一确定模块用于根据所述第一异常事件的信息确定第一故障原因描述信息,以及根据所述第二异常事件的信息确定第二故障原因描述信息,所述第一故障原因描述信息用于描述所述第一异常事件出现的原因,所述第二故障原因描述信息用于描述所述第二异常事件出现的原因。第二确定模块用于基于所述第一异常事件的信息中的事件标识、所述第二异常事件的信息中的事件标识、所述第一故障原因描述信息和所述第二故障原因描述信息,确定所述第一故障原因描述信息对应的所述第一异常事件和所述第二故障原因描述信息对应的所述第二异常事件之间的故障传播方向。40.在一种可能的实施方式中,所述第一确定模块包括:模板获取子模块、提取子模块和信息确定子模块。模板获取子模块用于获取第一网络设备的第一提取模板以及第二网络设备的第二提取模板,所述第一网络设备为发送所述第一异常事件的信息的网络设备,所述第二网络设备为发送所述第二异常事件的信息的网络设备,所述第一提取模板和所述第二提取模板均包括事件标识、故障码关键词。提取子模块用于根据所述第一提取模板和所述第一异常事件的信息中相同的事件标识和故障码关键词,从所述第一异常事件的信息中提取故障码,得到第一提取结果;以及根据所述第二提取模板和所述第二异常事件的信息中相同的事件标识和故障码关键词,从所述第二异常事件的信息中提取故障码,得到第二提取结果。信息确定子模块用于根据所述第一提取结果,确定所述第一故障原因描述信息,以及根据所述第二提取结果,确定所述第二故障原因描述信息。41.在一种可能的实施方式中,所述第二确定模块包括:第一模型获取子模块和第一关系确定子模块。第一模型获取子模块用于获取第一故障传播关系模型,所述第一故障传播关系模型包括多条第一故障传播关系,所述第一故障传播关系用于记录两个异常事件在对应的故障原因描述信息下的故障传播方向。第一关系确定子模块用于响应于确定所述第一故障传播关系模型中存在第一目标故障传播关系,根据第一目标故障传播关系,确定所述第一故障原因描述信息对应的所述第一异常事件和所述第二故障原因描述信息对应的所述第二异常事件之间的故障传播方向,所述第一目标故障传播关系为包括所述第一异常事件的信息中的事件标识、所述第二异常事件的信息中的事件标识、所述第一故障原因描述信息和所述第二故障原因描述信息的第一故障传播关系。42.在另一种可能的实施方式中,所述第二确定模块包括:第一模型获取子模块、第二模型获取子模块和第二关系确定子模块。第一模型获取子模块用于获取第一故障传播关系模型,所述第一故障传播关系模型包括多条第一故障传播关系,所述第一故障传播关系用于记录两个异常事件在对应的故障原因描述信息下的故障传播方向。第二模型获取子模块用于响应于确定所述第一故障传播关系模型中不存在第一目标故障传播关系,获取第二故障传播关系模型,所述第二故障传播关系模型包括多条第二故障传播关系,所述第二故障传播关系用于记录两个异常事件在对应的故障原因描述信息下可能的故障传播方向,所述第二故障传播关系模型是根据所述第一故障传播关系模型生成的。第二关系确定子模块用于响应于确定所述第二故障传播关系模型中存在第二目标故障传播关系,根据第二目标故障传播关系,确定所述第一故障原因描述信息对应的所述第一异常事件和所述第二故障原因描述信息对应的所述第二异常事件之间的故障传播方向,所述第二目标故障传播关系为包括所述第一异常事件的信息中的事件标识、所述第二异常事件的信息中的事件标识、所述第一故障原因描述信息和所述第二故障原因描述信息的第二故障传播关系。43.可选地,所述装置还包括:校验模块和更新模块。校验模块用于在所述第二关系确定子模块根据第二目标故障传播关系,确定所述第一故障原因描述信息对应的所述第一异常事件和所述第二故障原因描述信息对应的所述第二异常事件之间的故障传播方向之后,对所述第二目标故障传播关系进行校验。更新模块用于根据校验后的所述第二目标故障传播关系,更新所述第一故障传播关系模型和所述第二故障传播关系模型。44.可选地,所述装置还包括第一生成模块。第一生成模块用于采用以下方式生成所述第一故障传播关系模型中的第一故障传播关系:确定第一实体上的第三异常事件和用于描述所述第三异常事件出现的原因的第三故障原因描述信息、以及第二实体上的第四异常事件和用于描述所述第四异常事件出现的原因的第四故障原因描述信息,所述第一实体和所述第二实体相互关联;根据专家标注,确定所述第三故障原因描述信息对应的所述第三异常事件和所述第四故障原因描述信息对应的所述第四异常事件中的因事件和果事件,得到所述第一故障传播关系。45.可选地,所述装置还包括第二生成模块。第二生成模块用于采用以下方式生成所述第二故障传播关系模型中的第二故障传播关系:确定具有未知故障原因描述信息的第五异常事件,所述未知故障原因描述信息为对应的异常事件的除已知故障原因描述信息之外的故障原因描述信息,所述已知故障原因描述信息为对应的异常事件所关联的第一故障传播关系中的故障原因描述信息;分别计算所述第五异常事件的未知故障原因描述信息与所述第五异常事件的各个所述已知故障原因描述信息之间的第一相似度,得到第一相似度集合;根据所述第一相似度集合,确定所述第五异常事件在所述未知故障原因描述信息下对应的第二故障传播关系成立的概率。46.在一些示例中,所述第二生成模块,用于按照以下至少一种实现根据所述第一相似度集合,确定所述第五异常事件在所述未知故障原因描述信息下对应的第二故障传播关系成立的概率:47.根据所述第一相似度集合中大于第一相似度阈值的第一相似度和第二相似度集合中大于第二相似度阈值的第二相似度,确定所述第五异常事件和所述第六异常事件之间的、基于所述第五异常事件的未知故障原因描述信息和所述第六异常事件的未知故障原因描述信息的第二故障传播关系成立的概率,所述第二相似度集合为所述第六异常事件的未知故障原因描述信息和所述第六异常事件的各个已知故障原因描述信息之间的第二相似度的集合;48.根据所述第一相似度集合中大于第一相似度阈值的第一相似度,确定所述第五异常事件和所述第六异常事件之间的、基于所述第五异常事件的未知故障原因描述信息和所述第六异常事件的已知故障原因描述信息的第二故障传播关系成立的概率;49.响应于确定所述第一相似度集合中的第一相似度均不大于第一相似度阈值,根据所述第五异常事件和所述第六异常事件所关联的第一故障传播关系的数量,确定所述第五异常事件和所述第六异常事件之间的、基于所述第五异常事件的未知故障原因描述信息和所述第六异常事件的未知故障原因描述信息的第二故障传播关系成立的概率;50.响应于确定所述第一相似度集合中的第一相似度均不大于第一相似度阈值,根据所述第五异常事件和第六异常事件所关联的第一故障传播关系的数量,确定所述第五异常事件和所述第六异常事件之间的、基于所述第五异常事件的未知故障原因描述信息和所述第六异常事件的已知故障原因描述信息的第二故障传播关系成立的概率。51.在一些示例中,所述第二生成模块,用于确定大于第一相似度阈值的第一相似度对应的已知故障原因描述信息所关联的第五异常事件和大于第二相似度阈值的第二相似度对应的已知故障原因描述信息所关联的第六异常事件之间的第一故障传播关系,得到第一关系集合;根据所述第一关系集合中各第一故障传播关系所对应的第一相似度和第二相似度,确定所述第一关系集合中各第一故障传播关系对应的第一权重;根据所述第一关系集合中,表示第五异常事件导致第六异常事件的第一故障传播关系所对应的第一相似度和第二相似度,确定所述第一关系集合中表示第五异常事件导致第六异常事件的第一故障传播关系对应的第二权重;根据所述第一关系集合中各第一故障传播关系对应的所述第一权重之和与所述第二权重之和,计算由所述第五异常事件导致所述第六异常事件的概率。52.在一些示例中,所述第二生成模块,用于确定大于第一相似度阈值的第一相似度对应的已知故障原因描述信息所关联的第五异常事件和大于第二相似度阈值的第二相似度对应的已知故障原因描述信息所关联的第六异常事件之间的第一故障传播关系,得到第一关系集合;根据所述第一关系集合中各第一故障传播关系所对应的第一相似度和第二相似度,确定所述第一关系集合中各第一故障传播关系对应的第一权重;根据所述第一关系集合中,表示第五异常事件导致第六异常事件的第一故障传播关系所对应的第一相似度和第二相似度,确定所述第一关系集合中表示第六异常事件导致第五异常事件的第一故障传播关系对应的第五权重;根据所述第一关系集合中各第一故障传播关系对应的所述第一权重之和与所述第五权重之和,计算由所述第六异常事件导致所述第五异常事件的概率。53.在一些示例中,所述第二生成模块,用于确定大于第一相似度阈值的第一相似度对应的所述第五异常事件的已知故障原因描述信息以及所述第六异常事件的已知故障原因描述信息所关联的第一故障传播关系,得到第二关系集合;根据所述第二关系集合中各第一故障传播关系所对应的第一相似度,确定所述第二关系集合中各第一故障传播关系对应的第一权重;根据所述第二关系集合中,表示第五异常事件导致第六异常事件的第一故障传播关系所对应的第一相似度,确定所述第二关系集合中表示第五异常事件导致第六异常事件的第一故障传播关系对应的第二权重;根据所述第二关系集合中各第一故障传播关系对应的所述第一权重之和与所述第二权重之和,计算由所述第五异常事件导致所述第六异常事件的概率;或者,54.在一些示例中,所述第二生成模块,用于确定大于第一相似度阈值的第一相似度对应的所述第五异常事件的已知故障原因描述信息以及所述第六异常事件的已知故障原因描述信息所关联的第一故障传播关系,得到第二关系集合;根据所述第二关系集合中各第一故障传播关系所对应的第一相似度,确定所述第二关系集合中各第一故障传播关系对应的第一权重;根据所述第二关系集合中,表示第六异常事件导致第五异常事件的第一故障传播关系所对应的第一相似度,确定所述第二关系集合中表示第六异常事件导致第五异常事件的第一故障传播关系对应的第五权重;根据所述第二关系集合中各第一故障传播关系对应的所述第一权重之和与所述第五权重之和,计算由所述第六异常事件导致所述第五异常事件的概率。55.可选地,所述装置还包括:第三生成模块,用于确定目标网络设备的产品手册中的原因描述类关键词;基于所述原因描述类关键词,从所述目标网络设备的产品手册中提取模板内容;根据所述模板内容生成目标提取模板;其中,所述目标网络设备为所述第一网络设备,所述目标提取模板为所述第一提取模板;或者,所述目标网络设备为所述第二网络设备,所述目标提取模板为所述第二提取模板。56.第四方面,提供了一种网络故障分析装置,该装置包括实体确定模块、方向确定模块和根因事件确定模块。实体确定模块,用于确定多个异常事件关联的实体,得到实体集合。方向确定模块用于采用第一方面所述的方法,确定第三实体关联的第七异常事件和第四实体关联的第八异常事件在对应的故障原因描述信息下的故障传播方向,其中,所述第三实体和所述第四实体为所述实体集合中的任意两个相互关联的实体,所述第七异常事件为所述第三实体关联的至少一个异常事件中的任意一个异常事件,所述第八异常事件为所述第四实体关联的至少一个异常事件中的任意一个异常事件。根因事件确定模块用于根据确定出的所述故障传播方向,确定所述多个异常事件中的根因事件。57.在一些示例中,所述根因事件确定模块包括参考值确定子模块和根因事件确定子模块。参考值确定子模块用于根据确定出的所述故障传播方向,确定各个所述异常事件的参考值,所述参考值为以所属的异常事件为果事件的故障传播方向的权重之和,所述故障传播方向的权重用于指示对应的故障传播方向为真的概率。根因事件确定子模块用于将所述参考值最小的异常事件确定为所述多个异常事件中的根因事件。58.第五方面,提供了一种计算机设备,计算机设备包括处理器和存储器,其中:存储器中存储有计算机指令,处理器执行计算机指令,以实现第一方面及其可能的实现方式的方法。59.第六方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,当计算机可读存储介质中的计算机指令被计算机设备执行时,使得计算机设备执行第一方面及其可能的实现方式的方法。60.第七方面,提供了一种包含指令的计算机程序产品,当其在计算机设备上运行时,使得计算机设备执行上述第一方面及其可能的实现方式的方法。附图说明61.图1是本技术一个示例性实施例提供的应用场景的网络架构示意图;62.图2是本技术一个示例性实施例提供的园区网的网络结构示意图;63.图3是本技术一个示例性实施例提供的数据中心网的网络结构示意图;64.图4是本技术一个示例性实施例提供的一种网络故障分析方法的流程图;65.图5是第一故障传播关系模型的生成过程的示意图;66.图6是第二故障传播关系模型的生成过程的示意图;67.图7是本技术一个示例性实施例提供的另一种网络故障分析方法的流程图;68.图8是本技术一个示例性实施例提供的一种网络故障分析装置的结构示意图;69.图9是本技术一个示例性实施例提供的另一种网络故障分析装置的结构示意图;70.图10是本技术一个示例性实施例提供的一种计算机设备的结构示意图。具体实施方式71.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。72.图1是本技术一个示例性实施例提供的应用场景的网络架构示意图。如图1所示的网络中包括多个网络设备10和网管设备20。各网络设备10之间通信连接。73.网管设备20用于对各网络设备10进行管理和控制、解析和呈现网络设备10的相关数据、以及对网络设备10之间的流量进行分析、对网络进行智能维护等。在本技术实施例中,网管设备20是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。74.网络设备10包括但不限于路由器、交换机、接入点(accesspoint,ap)、防火墙(firewall,fw)和无线控制器(wirelessaccesspointcontrol,wac)等。网络设备10的种类根据实际需要设置。75.在本技术实施例中,网管设备20与网络设备10中的至少部分连接,以与所连接的网络设备10进行交互。当出现网络故障时,与网管设备20连接的网络设备10会向网管设备上报异常事件的信息,例如告警、日志等。网管设备20根据接收到的异常事件的信息,进行网络故障分析,以实现故障定位、故障排查等功能。76.如图1所示,该网络架构还包括云端设备30。云端设备30通常指网管设备20的上级设备,用于为网管设备20提供处理数据的模型等。示例性地,处理数据的模型包括提取模板、第一故障传播关系模型和第二故障传播关系模型等。在另一些示例中,网络处理数据的模型通过人工配置在网管设备20中。在本技术实施例中,云端设备30是一台服务器,或者是由若干台服务器组成的服务器集群,或者是一个云计算服务中心77.可选地,云端设备30与网管设备20也可以集成在一台设备中,本技术实施例对此不做限定。78.在本技术实施例中,网络的类型包括但不限于园区网、数据中心网(datacenternetwork,dcn)等。79.图2是本技术一个示例性实施例提供的园区网的网络结构示意图。如图2所示,园区网中的网络设备包括fw、wac、局域网交换机(局域网(localareanetwork,lan)switch,lsw)、ap等。lsw通过fw与外部网络(英特网(internet),广域网(wideareanetwork,wan))连接。80.图3是本技术一个示例性实施例提供的dcn的网络结构示意图。如图3所示,dcn中的网络设备包括fw、脊(spine)交换机、叶(leaf)交换机等。81.图4是本技术一个示例性实施例提供的网络故障分析方法。该方法由计算机设备执行,该计算机设备例如为前述网管设备。如图4所示,该方法包括如下几个过程。82.201:获取第一异常事件的信息和第二异常事件的信息。83.当网络设备检测到网络故障出现时,会向网管设备上报多个异常事件的信息。这多个异常事件的信息可以来自不同的网络设备。网管设备接收到多个异常事件的信息后将其保存在本地,以供后续进行网络故障分析。这里的第一异常事件的信息和第二异常事件的信息为网管设备接收到的多个异常事件的信息中的两个。84.在本技术实施例中,异常事件的信息至少包括设备信息、事件标识和事件描述信息。其中,设备信息用于指示发送对应的异常事件的信息的网络设备的相关信息。示例性地,设备信息包括设备型号和系统软件版本等。事件标识例如事件名称,用于标识不同的异常事件。事件描述信息包括异常事件所关联的实体的指示信息。实体的指示信息例如实体的名称等。示例性地,实体的类型包括但不限于接口、器件、协议和业务等,一个网络设备可以对应多个实体。85.在一些示例中,事件描述信息中还包括故障原因描述信息,故障原因描述信息用于描述对应的异常事件发生的原因。故障原因描述信息包括故障码关键词和故障码关键词对应的故障码。故障码关键词例如errorcode和reason等。一个异常事件的信息中包括一个事件标识和至少一个故障码关键词,每个故障码关键词对应一个故障码。也即是,一个异常事件的信息中包括至少一个故障码。当一个异常事件的信息中包括多个故障码时,多个故障码相同或者不同。86.在另一些示例中,事件描述信息中不包括故障码关键词和故障码,或者,异常事件的信息中包括故障码关键词,但故障码关键词对应的故障码为空。这种情况下,异常事件不对应故障原因描述信息。87.在本技术实施例中,第一异常事件的信息和第二异常事件的信息中的至少一个信息中包括故障原因描述信息。88.示例性地,异常事件的信息采用告警和/或日志的形式。89.在本技术实施例中,第一异常事件和第二异常事件是由同一个网络故障导致的两个异常事件。因此,第一异常事件和第二异常事件在空间和/或时间上存在关联关系。90.空间上的关联是指第一异常事件对应的第一实体和第二异常事件对应的第二实体之间存在关联关系,空间上的关联关系包括但不限于第一实体和第二实体的跳数在设定跳数以内(例如,在2跳以内)、第一实体和第二实体为对等实体等。91.在一种可能的实施方式中,第一实体和第二实体属于不同的网络设备。例如,第一实体属于第一网络设备,第二实体属于第二网络设备,相应地,第一异常事件的信息是由第一网络设备发送的,第二异常事件的信息是由第二网络设备发送的。92.在另一种可能的实施方式中,第一实体和第二实体属于同一网络设备,第一异常事件的信息和第二异常事件的信息是由同一网络设备发送的,即第一网络设备和第二网络设备是同一网络设备。93.在一些示例中,空间上的关联关系采用以下方式确定:根据异常事件的信息确定对应的实体;根据网络图谱,确定两个异常事件对应的两个实体之间是否存在关联关系,其中,网络图谱是网络中各实体之间的关联关系构成的关系网络,且该网络图谱中还包含各实体关联的异常事件的标识。若两个异常事件对应的两个实体之间存在关联关系,则可以作为第一异常事件的信息和第二异常事件的信息,采用后续步骤来确定第一异常事件和第二异常事件之间的关联关系。94.在本技术实施例中,网络图谱是基于网络中各网络设备的配置信息预先形成的,且网络设备上报的异常事件会被实时关联到网络图谱中对应的实体上去。95.时间上的关联是指第一异常事件对应的时间和第二异常事件对应的时间较为接近。96.在一些示例中,第一异常事件的发生时间和第二异常事件的发生时间之间的第一间隔小于第一间隔阈值。由于存在传播关系的两个异常事件发生的时间通常很接近,因此第一异常事件的发生时间和第二异常事件的发生时间之间的间隔是否小于第一间隔阈值可以用于指示第一异常事件和第二异常事件之间是否可能存在传播关系。97.这里,第一异常事件和第二异常事件的发生时间均由对应的网络设备确定,并携带在异常事件的信息中发送给网管设备,例如,通过时间戳的方式携带在异常事件的信息中。98.在另一些示例中,第一异常事件的信息的发送时间和第二异常事件的信息的发送时间之间的第二间隔小于第二间隔阈值;或者,第一异常事件的信息的接收时间和第二异常事件的信息的接收时间之间的第三间隔小于第三间隔阈值;或者,第一异常事件的信息的发送时间和第二异常事件的信息的发送时间之间的第二间隔小于第二间隔阈值,且第一异常事件的信息的接收时间和第二异常事件的信息的接收时间之间的第三间隔小于第三间隔阈值。99.这里,第一异常事件的信息和第二异常事件的信息的发送时间是指信息被对应的网络设备发送的时间,发送时间可以携带在异常事件的信息中发送给网管设备,例如,通过时间戳的方式携带在异常事件的信息中。第一异常事件的信息和第二异常事件的信息的接收时间是是指网管设备接收到对应的信息的时间。100.由于存在传播关系的两个异常事件发生的时间非常接近,而网络设备实时监控异常事件的发生,且在监控到异常事件发生时,会立即上报异常事件的信息,因此,第一异常事件的信息的发送时间和第二异常事件的信息的发送时间之间的第二间隔以及第一异常事件的信息的接收时间和第二异常事件的信息的接收时间之间的第三间隔是否小于对应的间隔阈值也可以用于指示第一异常事件和第二异常事件之间是否可能存在传播关系。101.其中,第一间隔阈值、第二间隔阈值和第三间隔阈值根据需要设置,本技术对此不做限制。102.在一些示例中,201包括:根据接收到的多个异常事件的信息确定任意两个异常事件在时间和空间上是否存在关联关系;将在时间和空间上存在关联关系的两个异常事件作为第一异常事件和第二异常事件,并获取第一异常事件的信息和第二异常事件的信息。103.在另一些示例中,通过聚类算法筛选出在时间和空间上存在关联的多个异常事件,例如k-means聚类方法、基于密度的聚类(density-basedspatialclusteringofapplicationswithnoise,dbscan)算法等。在时间和空间上存在关联的多个异常事件中的任意两个分别为第一异常事件和第二异常事件。104.202:根据第一异常事件的信息确定第一故障原因描述信息。105.第一故障原因描述信息用于描述第一异常事件出现的原因。106.203:根据第二异常事件的信息确定第二故障原因描述信息。107.第二故障原因描述信息用于描述第二异常事件出现的原因。108.204:基于第一异常事件的信息中的事件标识、第二异常事件的信息中的事件标识、第一故障原因描述信息和第二故障原因描述信息,确定第一故障原因描述信息对应的第一异常事件和第二故障原因描述信息对应的第二异常事件之间的故障传播方向。109.故障传播方向用于指示第一故障原因描述信息对应的第一异常事件和第二故障原因描述信息对应的第二异常事件中的因事件和果事件。110.在本技术实施例中,如果第一异常事件发生导致第二异常事件发生,则第一异常事件和第二异常事件之间的故障传播方向为由第一异常事件传播至第二异常事件。第一异常事件可以被称为第二异常事件的因事件,第二异常事件可以被称为第一异常事件的果事件。如果第二异常事件发生导致第一异常事件发生,则第一异常事件和第二异常事件之间的故障传播方向为由第二异常事件传播至第一异常事件。第二异常事件可以被称为第一异常事件的因事件,第一异常事件可以被称为第二异常事件的果事件。111.在一些示例中,第一异常事件的标识和第二异常事件的标识相同。通常,在第一异常事件的事件标识和第二异常事件的事件标识相同的情况下,第一异常事件为因事件时的第一故障原因描述信息和第二故障原因描述信息与第一异常事件为果事件时的第一故障原因描述信息和第二故障原因描述信息中至少存在一个不同的故障原因描述信息。112.例如,第一异常事件为因事件时的第一故障原因描述信息与第一异常事件为果事件时的第一故障原因描述信息完全不同或者部分不同,第一异常事件为因事件时的第二故障原因描述信息与第一异常事件为果事件时的第二故障原因描述信息相同。又例如,第一异常事件为因事件时的第一故障原因描述信息与第一异常事件为果事件时的第一故障原因描述信息相同,第一异常事件为因事件时的第二故障原因描述信息与第一异常事件为果事件时的第二故障原因描述信息完全不同或者部分不同。又例如,第一异常事件为因事件时的第一故障原因描述信息与第一异常事件为果事件时的第一故障原因描述信息完全不同或者部分不同,第一异常事件为因事件时的第二故障原因描述信息与第一异常事件为果事件时的第二故障原因描述信息完全不同或者部分不同。113.这样,可以通过第一异常事件对应的第一故障原因描述信息和第二异常事件对应的第二故障原因描述信息来区分第一异常事件和第二异常事件之间的传播关系。114.下面以第一异常事件为因事件时的第一故障原因描述信息与第一异常事件为果事件时的第一故障原因描述信息完全不同,第一异常事件为因事件时的第二故障原因描述信息与第一异常事件为果事件时的第二故障原因描述信息相同的情况为例,进行举例说明。115.第一异常事件的信息为园区网络中的交换机端口down引发的告警,第一异常事件的事件标识为if_linkdown,第二异常事件的信息为与该交换机端口连接的ap故障引发的告警,第二异常事件的事件标识为ap_normal_to_fault。交换机端口down会导致与该交换机端口连接的ap故障,ap故障也会导致ap所连接的交换机端口down。交换机端口down会导致与该交换机端口连接的ap故障的情况下,第一故障原因描述信息为“heartbeatpackettransmissionforthecapwapcontroltunnelbetweentheacandaptimesout”。ap故障导致ap所连接的交换机端口down的情况下,第一故障原因描述信息为“acommandisdeliveredtorebootanap”。116.如果按照相关技术中,根据异常事件的标识来确定异常事件的关联关系,则只能确定出第一异常事件和第二异常事件互为因果关系,无法进一步区分第一异常事件和第二异常事件之间的传播关系。而在本技术实施例中,可以根据第一故障原因描述信息来区分第一异常事件和第二异常事件中的因事件和果事件,使得故障定位更加准确和精细。117.在另一些示例中,第一异常事件的标识和第二异常事件的标识不同。118.需要说明的是,当第一故障原因描述信息和第二故障原因描述信息均为空时,根据第一异常事件的信息中的事件标识和第二异常事件的信息中的事件标识确定第一异常事件和第二异常事件之间的传播关系。对于根据第一异常事件的信息中的事件标识和第二异常事件的信息中的事件标识确定第一异常事件和第二异常事件之间的传播关系的方式,本技术不做限制。119.在一些示例中,202包括:120.第一步、获取第一网络设备的第一提取模板和第二网络设备的第二提取模板,第一提取模板和第二提取模板均包括事件标识、故障码关键词、故障码关键词对应的候选故障码以及各候选故障码的故障码描述信息。这里,候选故障码是指一个故障关键词可能对应的故障码,一个故障关键词通常对应多个候选故障码。121.第二步、根据第一提取模板和第一异常事件的信息中相同的事件标识和故障码关键词,从第一异常事件的信息中提取故障码,得到第一提取结果。122.第三步、根据第二提取模板和第二异常事件的信息中相同的事件标识和故障码关键词,从第二异常事件的信息中提取故障码,得到第二提取结果。123.第四步、根据第一提取结果确定第一故障原因描述信息,以及根据第二提取结果确定第二故障原因描述信息。124.需要说明的是,202中的第二步和第三步没有先后顺序,可以依次执行,也可以同步执行。125.在202和203中,第一异常事件的信息和第二异常事件的信息中的故障码均是采用对应的提取模板提取的。在本技术实施例中,提取模板主要用于在设备上报异常事件的信息时,快速提取异常事件的信息中的故障码,得到故障码对应的故障原因描述信息,用于精细根因定位。126.为了便于理解提取过程,下面先简单介绍提取模板的内容以及生成方式。127.示例性地,提取模板中的模板内容包括事件标识、故障码关键词、故障码变量类型、故障码关键词对应的候选故障码以及各候选故障码对应的故障码描述信息。其中,事件标识用于标识不同类型的异常事件,故障码关键词用于表示故障码名称。故障码变量类型用于表示故障码关键词对应的故障码的变量类型,包括但不限于无符号长整数(ulong)、字符串(string)等。候选故障码为故障码关键词对应的可能的变量取值。候选故障码对应的故障码描述信息用于描述候选故障码的含义。128.除了模板内容之外,提取模板还包括设备信息。设备信息包括但不限于设备型号和设备的系统软件版本。129.表一提取模板[0130][0131]如表一所示,该提取模板包括设备型号“s12700”和系统软件版本“v200r011c10”。该提取模板的模板内容包括多个异常事件对应的模板内容。[0132]该提取模板中,第一个异常事件对应的模板内容包括:事件标识“rpc_failed”,故障码关键词“errorcode”,故障码变量类型:“value”:“ulong”,候选故障码以及候选故障码对应的故障码描述信息包括“2:分配消息内存失败”;“3:同步ipc超时”;“4:消息等待队列溢出”。[0133]该提取模板中,第二个异常事件对应的模板内容包括:事件标识“ipallocfail”,故障码关键词“errorcode”,故障码变量类型:“value”:“string”,候选故障码以及候选故障码对应的故障码描述信息包括“noidleipaddress:地址池中没有可供分配的ip地址。”;“poolislocked:地址池被锁定”;“exceptionoccured:系统异常错误”。[0134]在本技术实施例中,生成提取模板的方式包括以下方式中的至少一种。[0135]方式一、获取目标网络设备的产品手册,基于产品手册生成提取模板。其中,目标网络设备为网络中的任一网络设备。[0136]在一种可能的实施方式中,基于目标网络设备的产品手册生成目标提取模板,包括:[0137]第一步、确定目标网络设备的产品手册中的原因描述类关键词;[0138]第二步、基于原因描述类关键词,从目标网络设备的产品手册中提取模板内容;[0139]第三步、根据模板内容生成目标提取模板。[0140]在一些示例中,确定目标网络设备的产品手册中的原因描述类关键词可以通过语义分析或者人工标注。可选地,原因描述类关键词包括单个词和由至少两个词组成的词组中的至少一种。示例性地,原因描述类关键词包括但不限于:reason,error,because,dueto,errorcode,becauseof等。[0141]示例性地,在第二步中,基于原因描述类关键词,从目标网络设备的产品手册中提取模板内容,包括:首先,采用字符串匹配的方式,从产品手册中查找各个原因描述类关键词;然后,基于查找到的原因描述类关键词所对应的正则表达式,从产品手册中提取模板内容。这里,正则表达式描述了一种字符串匹配的模式(pattern),用来从某个字符串中取出符合某个条件的子串。一个原因描述类关键词对应至少一个正则表达式。[0142]在本技术实施例中,正则表达式至少有两类。第一类正则表达式用于提取故障码关键词和故障码变量类型。第二类正则表达式用于提取故障码以及故障码对应的故障码描述信息。[0143]示例性地,第一类正则表达式包含原因描述类关键词。第二类正则表达式包含产品文档对应的文件格式中的标签。例如,对于超文本标记语言(hypertextmarkuplanguage,html)格式的产品文档,第二类正则表达式用于匹配产品文档中的分行标签等。[0144]除了正则表达式之外,其他能够提取所需要的模板内容的手段均可以用于从产品手册中提取模板内容,例如爬虫技术等,本技术对此不作限制。[0145]下面对提取模板内容的过程进行举例说明。[0146]以日志rpc_failed为例,该日志表示交换机同步ipc(inter-processcommunication进程间通信)调用失败,其在交换机产品文档中,日志信息中的“errorcode=[ulong]”字段包含了该日志的具体上报原因即故障原因描述信息,基于上述的errorcode关键词进行正则表达式匹配可以获得该日志故障码关键词为errorcode,故障码变量为ulong。[0147]故障码及故障码参数含义(即故障码描述信息)在产品手册中以表格的形式呈现。同样以日志rpc_failed为例,html格式产品文档源代码中,标签《table》与《/table》之间为表格部分的内容,每对标签《tr》与《/tr》之间对应表格一行的内容,标签《th》与《/th》之间为表头内容,也即“参数含义”,“参数名称”等。每行内容中《td》与《/td》之间为表格各个单元格的内容。而同一故障码的不同含义通常又以《p》《/p》或《ul》《li》《/li》《ul》等html特定标签分隔,基于此进行正则表达式匹配可获得故障码及故障码参数含义的信息。[0148]方式二、根据接收到的输入信息,生成提取模板。该输入信息包括模板内容。[0149]需要说明的是,这里,生成提取模板的方式包括以下方式中的至少一种是指,采用方式一生成提取模板;或者采用方式二生成提取模板;或者采用方式一生成一部分提取模板并且采用方式二生成一部分模板。[0150]在一些示例中,提取模板由云端设备生成后发送给网管设备,网管设备接收并存储由云端设备发送的提取模板。在这种情况下,该方法还包括:网管设备向云端设备发送模板获取请求,该模板获取请求包括网络设备的设备信息;云端设备根据接收到的模板获取请求,将模板获取请求中的设备信息对应的网络设备的提取模板发送给网管设备。[0151]在另一些示例中,提取模板也可以由网管设备生成并存储在网管设备中。这样,后续网管设备能够根据存储的提取模板从异常事件的信息中提取故障码。[0152]在本技术实施例中,第一提取结果和第二提取结果中的至少一个包括至少一个故障码。在一种可能的实施方式中,第一提取结果为空,即从第一异常事件的信息没有提取到故障码,第二提取结果包括至少一个故障码。在另一种可能的实施方式中,第一提取结果包括至少一个故障码,第二提取结果为空。在又一种可能的实施方式中,第一提取结果包括至少一个故障码,第二提取结果包括至少一个故障码。[0153]根据第一提取模板中的事件标识和故障码关键词,从第一异常事件的信息中提取故障码,得到第一提取结果,包括:[0154]首先确定第一提取模板中的目标事件标识和目标故障码关键词,即将第一提取模板中的事件标识分别与第一异常事件的信息中的事件标识进行匹配,第一提取模板中与第一异常事件的信息中的事件标识相同的事件标识即为目标事件标识,第一提取模板中与目标事件标识对应且与第一异常事件的信息中的故障码关键词相同的故障码关键词即为目标故障码关键词;然后,再将基于目标故障码关键词,对第一异常事件的信息中的故障码关键词进行正则表达式匹配,从第一异常事件的信息中提取故障码。[0155]例如,提取模板中,目标故障码关键词和对应的变量类型为“errorcode=[ulong]”,对应的正则表达式为errorcode=[*],异常事件的信息中故障码关键词和对应的故障码的记录形式为errorcode=[6],根据该正则表达式,提取出故障码关键词对应的故障码为6。[0156]第二提取结果的产生方式与第一提取结果的产生过程类似,本技术实施例在此省略详细描述。[0157]在前述第四步中,在确定第一提取结果之后,将第一提取结果包含的故障码和故障码关键词组合,得到第一故障原因描述信息。同样地,在确定第二提取结果之后,将第二提取结果包含的故障码和故障码关键词组合,得到第二故障原因描述信息。[0158]需要说明的是,当没有从第一异常事件的信息中提取到故障码时,第一提取结果为空,第一故障原因描述信息为空或者第一故障原因描述信息为第一异常事件的事件标识。当没有从第二异常事件的信息中提取到故障码时,第二提取结果为空,第二故障原因描述信息为空或者第二故障原因描述信息为第二异常事件的事件标识。[0159]在一些示例中,203包括:[0160]获取第一故障传播关系模型,其中,第一故障传播关系模型包括多条第一故障传播关系,每条第一故障传播关系用于记录两个异常事件在对应的故障原因描述信息下的故障传播方向;确定第一故障传播关系模型中是否存在第一目标故障传播关系。如果存在第一目标故障传播关系,则根据第一目标故障传播关系,确定第一故障原因描述信息对应的第一异常事件和第二故障原因描述信息对应的第二异常事件之间的故障传播方向,第一目标故障传播关系为包括第一异常事件的信息中的事件标识、第二异常事件的信息中的事件标识、第一故障原因描述信息和第二故障原因描述信息的第一故障传播关系。[0161]在本技术实施例中,通过将第一异常事件的信息中的事件标识、第二异常事件的信息中的事件标识、第一故障原因描述信息和第二故障原因描述信息分别与第一故障传播关系模型中的各条第一故障传播关系进行比对,包含第一异常事件的信息中的事件标识、第二异常事件的信息中的事件标识、第一故障原因描述信息和第二故障原因描述信息的第一故障传播关系即为第一目标故障传播关系。通过比对查找的方式确定第一故障传播关系模型中是否存在第一目标故障传播关系,实现方便简单。[0162]表二[0163][0164]如表二所示,第一故障传播关系模型中包括多条第一故障传播关系。[0165]第一条第一故障传播关系中,果事件对应的实体类型“src_label”为“ap”,因事件对应的实体类型“dst_label”为“ap”。果事件的事件标识“src_event”为“ap_fault”,表示ap下线通告。果事件对应的故障原因描述信息“src_err_code”为空,表示果事件没有故障原因描述信息。因事件的事件标识“dst_event”:“ap_normal_to_fault”,表示ap由正常变为异常状态。因事件对应的故障原因描述信息“dst_err_code”为故障码关键词@故障码“reason@acommandisdeliveredtorebootanap”,表示下发复位ap的命令。[0166]第二条第一故障传播关系中,果事件对应的实体类型“src_label”为“ap”,因事件对应的实体类型“dst_label”为“ap”。果事件的事件标识“src_event”为“ap_hot_boot”,表示ap热启动告警。果事件对应的故障原因描述信息“src_err_code”为空,表示果事件没有故障原因描述信息。因事件的事件标识“dst_event”:“ap_normal_to_fault”,表示ap由正常变为异常状态。因事件对应的故障原因描述信息“dst_err_code”为故障码关键词@故障码reason@acommandisdeliveredtorebootanap”,表示下发复位ap的命令。[0167]可选地,每条第一故障传播关系中还包括关联方式指示信息,关联方式指示信息用于指示两个实体之间的跳数。当跳数等于0时,第一异常事件和第二异常事件在同一实体上;当跳数等于1时,两个实体直接相连;当跳数等于2时,两个实体通过一个实体间接连接;以此类推。例如,在该第一条和第二条第一故障传播关系中,“num_hops”:0表示跳数为0,即两个异常事件位于同一实体上。[0168]在一些示例中,第一故障传播关系模型是根据历史故障案例得到的。[0169]示例性地,对于第一故障传播关系模型中的任意一条第一故障传播关系,采用以下方式生成:[0170]第一步,确定相互关联的第一实体和第二实体。这里,相互关联是指两个之间的跳数在设定跳数以内,例如1跳以内或者2跳以内。[0171]第二步、确定第一实体上的第三异常事件和用于描述第三异常事件出现的原因的第三故障原因描述信息、以及第二实体上的第四异常事件和用于描述第四异常事件出现的原因的第四故障原因描述信息;这里,第三异常事件的数量为一个或多个,第四异常事件的数量为一个或多个。[0172]第三步、根据专家标注,确定任一第三故障原因描述信息对应的第三异常事件和任一第四故障原因描述信息对应的第四异常事件中的因事件和果事件,得到第一故障传播关系。其中,专家标注用于指示第三异常事件对应的第三故障原因描述信息和第四异常事件对应的第四故障原因描述信息中的根本原因。[0173]示例性地,相互关联的第一实体和第二实体采用图搜索或者关联学习等算法确定。例如,首先基于历史故障案例生成网络图谱,网络图谱是网络中各实体之间的关联关系构成的关系网络,且该网络图谱中还包含各实体关联的异常事件的标识。基于该网络图谱即可确定出相互关联的第一实体和第二实体以及第一实体上的第三异常事件和第二实体上的第四异常事件。专家基于历史故障案例的实际情况,结合第三异常事件对应的第三故障原因描述信息和和第四异常事件对应的第四故障原因描述信息,确定第三异常事件和第四异常事件中的因事件并进行标注。基于该标注,学习第三故障原因描述信息对应的第三异常事件和第四故障原因描述信息对应的第四异常事件之间的传播关系,得到第一故障传播关系,并添加到第一故障传播关系模型中。[0174]下面结合图5对第一故障传播关系的生成过程进行示例性说明。如图5所示,以开放式最短路径优先(openshortestpathfirst,ospf)协议故障为例。两台网络设备之间的ospf协议发生异常。在网络图谱中表现为两个ospf协议实体上关联了一些异常事件。采用图搜索算法,获得两个实体上的异常事件。[0175]其中,左边的实体上的异常事件包括:事件1_1,邻居状态改变为down,事件标识为nbr_chg_down;事件1_2,邻居状态改变为down,事件标识为nbr_down_reason,故障原因描述信息为物理接口状态发生变化(physicalinterfacestatechange);事件1_3,ospf非虚连接接口状态发生变化,事件标识为ifchg,故障原因描述信息为物理接口状态发生变化(physicalinterfacestatechange);事件1_4,ospf邻居状态发生变化,事件标识为nbrchg,故障原因描述信息为物理接口状态发生变化(physicalinterfacestatechange)。[0176]其中,事件1_2、事件1_3、事件1_4的事件标识不同,但具有相同的故障原因描述信息,表示其由同一原因触发。对于不含有具体的故障原因描述信息的异常事件的信息,例如事件1_1,则其故障原因描述信息可以与事件标识相同。[0177]右边的实体上的异常事件包括:事件2_1,邻居状态改变为down,事件标识为nbr_down_reason,故障原因描述信息为收到1-way的hello报文(1-wayhelloreceived);事件2_2,ospf邻居状态发生变化,事件标识为nbrchg,故障原因描述信息为邻居交换机原因导致告警(peerrouterreason)。[0178]专家结合该故障案例的具体情形,标记物理接口状态发生变化的故障原因描述信息为该故障根因。算法结合该根因标记,学习到同一实体(即0阶关联的实体)上,物理接口状态发生变化会导致事件1_1、事件1_2、事件1_3、事件1_4发生的0阶传播关系;学习到1阶关联实体之间,一个实体上物理接口状态发生变化导致另一个实体上收到1-way的hello报文,进而上报事件2_1的1阶传播关系;学习到1阶关联实体之间,一个实体上物理接口状态发生变化导致另一个实体上产生邻居交换机原因导致告警,进而上报事件2_2的1阶传播关系。[0179]这些结合了具体故障原因描述信息的故障码传播关系,加入到故障传播关系库中,可用于实时根因的溯源。[0180]需要说明的是,该故障案例中的关联实体为1跳关系,多跳关系的故障码传播关系学习方法类似,此处不作赘述。[0181]在一种可能的实现方式中,当一个异常事件对应两个以上的故障原因描述信息时,可以通过专家标注等方式,确定出一个主要的故障原因描述信息。在进行网络故障分析时,仅根据主要的故障原因描述信息来确定两个异常事件之间的传播关系。[0182]由于历史故障案例是有限的,并不能包含各个异常事件的所有故障原因描述信息,因此,还可以根据第一故障传播关系模型,生成第二故障传播关系模型。第二故障传播关系模型包括至少一条第二故障传播关系,每条第二故障传播关系用于记录两个异常事件在对应的故障原因描述信息下可能的故障传播方向。[0183]表三[0184][0185][0186]如表三所示,第二故障传播关系模型中包括多条第二故障传播关系。下面以第一条和第二条第二故障传播关系为例进行示例性说明。[0187]第一条第二故障传播关系中,果事件对应的实体类型“src_label”为“interface”,因事件对应的实体类型“dst_label”为“ap”。果事件的事件标识“src_event”为“ap_fault”,表示ap下线通告。果事件对应的故障原因描述信息“src_err_code”为空“”,表示果事件没有故障原因描述信息。因事件的事件标识“dst_event”为“ap_normal_to_fault”,表示ap由正常变为异常状态。因事件对应的故障原因描述信息“dst_err_code”为故障码关键词@故障码“reason@theaprestartsduetoachipexception”,表示芯片异常导致ap重启。[0188]第二条第二故障传播关系中,果事件对应的实体类型“src_label”为“interface”,因事件对应的实体类型“dst_label”为“ap”。果事件的事件标识“src_event”为“ap_work_mode_change”,表示ap工作模式变化。果事件对应的故障原因描述信息“src_err_code”为空“”,表示果事件没有故障原因描述信息。因事件的事件标识“dst_event”为“ap_normal_to_fault”,表示ap由正常变为异常状态。因事件对应的故障原因描述信息“dst_err_code”为故障码关键词@故障码“reason@theaprestartsduetoachipexception”,表示芯片异常导致ap重启。[0189]可选地,第二故障传播关系中还包括用于表示两个异常事件之间的传播关系成立的可能性的概率信息,例如“probability”字段。例如,第一条第二故障传播关系中,因事件和果事件之间的传播关系成立的概率为0.8;第二条第二故障传播关系中,因事件和果事件之间的传播关系成立的概率为0.6。[0190]当根据第一故障传播模型无法确定出第一异常事件和第二异常事件之间的传播关系时,即第一故障传播关系模型中不存在第一目标故障传播关系时,s204包括:获取第二故障传播关系模型;响应于确定第二故障传播关系模型中存在第二目标故障传播关系,根据第二目标故障传播关系,确定第一异常事件和第二异常事件之间可能的故障传播方向,第二目标故障传播关系为包括第一异常事件的信息中的事件标识、第二异常事件的信息中的事件标识、第一故障原因描述信息和第二故障原因描述信息的第二故障传播关系。[0191]示例性地,第二故传播关系模型中的第二故障传播关系通过以下方式生成:[0192]对于提取模板中存在但第一故障传播关系模型中不存在的未知故障原因描述信息,根据第一故障传播关系模型,确定两个异常事件在对应的故障原因描述信息下可能的故障传播关系,以及计算该可能的故障传播关系成立的概率。[0193]第二故障传播关系分为三种情况,第一种是基于第五异常事件对应的未知故障原因描述信息和第六异常事件对应的未知故障原因描述信息的第二故障传播关系;第二种是基于第五异常事件对应的未知故障原因描述信息和第六异常事件对应的已知故障原因描述信息的第二故障传播关系;第三种是基于第五异常事件对应的已知故障原因描述信息和第六异常事件对应的未知故障原因描述信息的第二故障传播关系。[0194]针对第一种情况,第五异常事件和第六异常事件之间的可能的故障传播关系成立的概率通过以下方式计算:[0195]首先,分别计算第五异常事件对应的未知故障原因描述信息与第五异常事件的各个已知故障原因描述信息之间的第一相似度,得到第一相似度集合;并且,分别计算第六异常事件对应的未知故障原因描述信息与第六异常事件的各个已知故障原因描述信息之间的第二相似度,得到第二相似度集合;然后,根据第一相似度集合和第二相似度集合,确定第五异常事件和第六异常事件之间的第二故障传播关系成立的概率,该概率也被称为故障传播概率。[0196]第二故障传播关系成立的概率包括第一概率和第二概率中的至少一个,第一概率为由第五异常事件导致第六异常事件的概率,第二概率为由第六异常事件导致第五异常事件的概率。[0197]在一些示例中,第一相似度集合中存在大于第一相似度阈值的第一相似度,且第二相似度集合中存在大于第二相似度阈值的第二相似度。第一概率根据第一相似度集合中大于第一相似度阈值的第一相似度和第二相似度集合中大于第二相似度阈值的第二相似度计算。第一概率的计算过程如下:[0198]确定大于第一相似度阈值的第一相似度对应的已知故障原因描述信息所关联的第五异常事件和大于第二相似度阈值的第二相似度对应的已知故障原因描述信息所关联的第六异常事件之间的第一故障传播关系,得到第一关系集合;[0199]根据第一关系集合中的第一故障传播关系所对应的第一相似度和第二相似度,确定第一关系集合中各第一故障传播关系对应的第一权重,例如,将第一相似度和第二相似度的乘积作为对应的第一故障传播关系的第一权重;[0200]根据第一关系集合中,表示第五异常事件导致第六异常事件的第一故障传播关系所对应的第一相似度和第二相似度,确定第一关系集合中表示第五异常事件导致第六异常事件的第一故障传播关系对应的第二权重,例如,将第一相似度和第二相似度的乘积作为对应的第一故障传播关系的第二权重;[0201]根据第一关系集合中各第一故障传播关系对应的第一权重之和与第五权重之和,计算第一概率,例如,将第二权重之和与第一权重之和的比值作为第一概率。[0202]在一些示例中,第一相似度阈值和第二相似度阈值相等。在另一些示例中,第一相似度阈值和第二相似度阈值不相等。[0203]第二概率的计算方式与第一概率的计算方式相同,在此省略详细描述。[0204]示例性地,根据以下公式(1)计算第一概率:[0205][0206]公式(1)中,a表示第五异常事件,a?表示第五异常事件对应的未知故障原因描述信息,b表示第六异常事件,b?表示第六异常事件对应的未知故障原因描述信息,p(a|a?-》b|b?)基于第五异常事件对应的未知故障原因描述信息和第六异常事件对应的未知故障原因描述信息的、由第五异常事件导致第六异常事件的故障传播概率。wi表示第i个第一故障传播关系的第一权重,m表示第一故障传播关系的总数量,m1表示由第五异常事件导致第六异常事件的第一故障传播关系的数量。a-bj表示第j个表示由第五异常事件导致第六异常事件的第一故障传播关系。wa-bj表示第j个表示由第五异常事件导致第六异常事件的第一故障传播关系对应的第二权重。[0207]根据以下公式(2)计算第二概率:[0208][0209]公式(2)中,a表示第五异常事件,a?表示第五异常事件对应的未知故障原因描述信息,b表示第六异常事件,b?表示第六异常事件对应的未知故障原因描述信息,p(b|b?-》a|a?)基于第五异常事件对应的未知故障原因描述信息和第六异常事件对应的未知故障原因描述信息的、由第六异常事件导致第五异常事件的故障传播概率。wi表示第i个第一故障传播关系的第一权重,m表示第一故障传播关系的总数量,m2表示由第六异常事件导致第五异常事件的第一故障传播关系的数量。b-aj表示第j个表示由第六异常事件导致第五异常事件的第一故障传播关系。wb-aj表示第j个表示由第六异常事件导致第五异常事件的第一故障传播关系对应的第五权重。[0210]针对第二种情况,第五异常事件和第六异常事件之间的可能的故障传播关系成立的概率通过以下方式计算:[0211]首先,分别计算第五异常事件的未知故障原因描述信息与第五异常事件的各个已知故障原因描述信息之间的第一相似度,得到第一相似度集合;然后,根据第一相似度集合,确定第五异常事件和第六异常事件之间的、基于该第五异常事件的未知故障原因描述信息和第六异常事件的已知故障原因描述信息的第二故障传播关系成立的概率。[0212]在一些示例中,根据第一相似度集合,确定第五异常事件和第六异常事件之间的、基于该第五异常事件的未知故障原因描述信息和第六异常事件的已知故障原因描述信息的第二故障传播关系成立的概率,包括:根据第一相似度集合中大于第一相似度阈值的第一相似度,计算第一概率和第二概率中的至少一个。[0213]根据第一相似度集合中大于第一相似度阈值的第一相似度,计算第一概率,包括:[0214]确定大于第一相似度阈值的第一相似度对应的第五异常事件的已知故障原因描述信息以及第六异常事件的已知故障原因描述信息所关联的第一故障传播关系,得到第二关系集合;[0215]根据第二关系集合中的第一故障传播关系所对应的第一相似度,确定第二关系集合中每条第一故障传播关系对应的第一权重,例如,将第一相似度作为对应的第一故障传播关系的第一权重;[0216]根据第二关系集合中,表示第五异常事件导致第六异常事件的第一故障传播关系所对应的第一相似度,确定第二关系集合中表示第五异常事件导致第六异常事件的第一故障传播关系对应的第二权重,例如,将第一相似度作为对应的第二权重;[0217]根据第二关系集合中各第一故障传播关系对应的第一权重之和与第二权重之和,计算第一概率,例如,将第二权重之和与第一权重之和的比值作为第一概率。[0218]示例性地,根据以下公式(3)和(4)分别计算第一概率和第二概率:[0219]p(a->b)=w1/(w1+w2+w3)ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(3)[0220]其中,p(a->b)表示第一概率,w1表示第二关系集合中,表示第五异常事件导致第六异常事件发生的第一故障传播关系对应的第二权重,w1+w2+w3表示第二关系集合中各第一故障传播关系对应的第一权重之和。[0221]p(b->a)=(w2+w3)/(w1+w2+w3)ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(4)[0222]其中,p(b->a)表示第二概率w2+w3表示第二关系集合中,表示第六异常事件导致第五异常事件发生的第一故障传播关系对应的第二权重,w1+w2+w3表示第二关系集合中各第一故障传播关系对应的第一权重之和。[0223]针对第三种情况,第五异常事件和第六异常事件之间的可能的故障传播关系成立的概率通过以下方式计算:[0224]首先,分别计算第六异常事件对应的未知故障原因描述信息与第六异常事件的各个已知故障原因描述信息之间的相似度,得到第二相似度集合;然后,第二相似度集合,确定第五异常事件和第六异常事件之间的故障传播概率。[0225]相关过程参见前述第二种情况,在此省略详细描述。[0226]在另一些示例中,根据第一相似度集合,确定第五异常事件和第六异常事件之间的故障传播概率,包括:[0227]若第一相似度集合中的所有第一相似度均不大于相似度阈值,则根据第五异常事件和第六异常事件之间的第一故障传播关系的数量,计算第五异常事件和第六异常事件之间、基于第五异常事件对应的未知故障原因描述信息的和第六异常事件的已知故障原因描述信息(或者未知故障原因描述信息)的故障传播概率。[0228]同样地,第五异常事件和第六异常事件之间的故障传播概率包括第五异常事件导致第六异常事件的第一概率、以及第六异常事件导致第五异常事件的第二概率。[0229]示例性地,第一概率通过以下公式(5)计算,第二概率通过以下公式(6)计算。[0230]p(a->b)=p1/p0ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(5)[0231]其中,p(a->b)表示第一概率,p0表示第五异常事件和第六异常事件之间的第一故障传播关系的数量,p1表示第五异常事件和第六异常事件之间的第一故障传播关系中,表示第五异常事件导致第六异常事件发生的第一故障传播关系的数量。[0232]p(b->a)=p2/p0ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ(6)[0233]其中,p(b->a)表示第二概率,p0表示第五异常事件和第六异常事件之间的第一故障传播关系的数量,p2表示第五异常事件和第六异常事件之间的第一故障传播关系中,表示第六异常事件导致第五异常事件发生的第一故障传播关系的数量。[0234]在又一些示例中,根据第一相似度集合,确定第五异常事件和第六异常事件之间的故障传播概率,包括:若第一相似度集合中不存在大于第一相似度阈值的第一相似度,而第二相似度集合中存在大于第二相似度阈值的第二相似度,则根据与大于第二相似度阈值的第二相似度相关联的、第五异常事件和第六异常事件之间的第一故障传播关系的数量,计算第五异常事件和第六异常事件之间、基于第五异常事件对应的未知故障原因描述信息和第六异常事件的未知故障原因描述信息的故障传播概率。计算方式参见公式(5)和(6)的相关内容,在此省略详细描述。[0235]在本技术实施例中,当故障原因描述信息中的故障码为字符串格式时,未知故障原因描述信息和已知故障原因描述信息之间的相似度为字符串格式的故障码之间的相似度。当故障原因描述信息中的故障码为非字符串格式,例如长整型时,未知故障原因描述信息和已知故障原因描述信息之间的相似度为故障码对应的故障码描述信息之间的相似度。故障码对应的故障码描述信息可以通过前述提取模板确定。[0236]在本技术实施例中,相似度的计算方式不做限制,包括但不限于句相似度计算等自然语言处理方法。[0237]下面结合图6对第二故障传播关系的生成过程进行示例性说明。如图6所示,假设,第一故障传播关系模型中,异常事件a和异常事件b之间已存在四条第一故障传播关系。第一条至第三条第一故障传播关系中,异常事件a为果事件,异常事件b为因事件。第四条第一故障传播关系中,异常事件b为果事件,异常事件a为因事件。这四条第一故障传播关系中,异常事件a对应的故障原因描述信息分别为a1、a2和a3,异常事件b对应的故障原因描述信息为b1、b2和b3。[0238]异常事件a所对应的提取模板中,还存在故障原因描述信息a?,则分别计算a?与a1、a2和a3之间的相似度,计算得到的第一相似度分别为wa1、wa2和wa3。异常事件b所对应的提取模板中,还存在故障原因描述信息b?,则分别计算b?与b1、b2和b3之间的相似度,计算得到的第二相似度分别为wb1、wb2和wb3。[0239]将第一相似度和第二相似度分别与相似度阈值比较。如果第一相似度和第二相似度均不小于相似度阈值。那么,第一故障传播关系对应的第一相似度和第二相似度的乘积作为第一故障传播关系的第一权重。则,第一条第一故障传播关系对应的第一权重w1=wa1*wb1,第二条第一故障传播关系对应的第一权重w2=wa1*wb2,第三条第一故障传播关系对应的第一权重w3=wa2*wb2,第四条第一故障传播关系对应的第一权重w4=wa3*wb2。[0240]异常事件a为果事件,异常事件b为因事件所对应的第一故障传播关系所对应的第二权重分别为w1、w2和w3,第一概率等于(w1+w2+w3)/(w1+w2+w3+w4)。异常事件b为果事件,异常事件a为因事件所对应的第一故障传播关系所对应的第二权重为w4,第二概率等于w4/(w1+w2+w3+w4)。[0241]如果第一相似度和第二相似度中既存在不小于相似度阈值的相似度,又存在小于相似度阈值的相似度,则需要从公式中去除小于相似度阈值的相似度对应的权重。[0242]如果第一相似度中和第二相似度中不存在不小于相似度阈值的相似度,则根据异常事件a为果事件,异常事件b为因事件所对应的第一故障传播关系的数量和异常事件b为果事件,异常事件a为因事件所对应的第一故障传播关系的数量来计算第一概率和第二概率。[0243]可选地,在根据第二故障传播关系模型确定出第一异常事件和第二异常事件之间的可能的故障传播关系之后,还需要对该可能的故障传播关系进行校验,即对第二目标故障传播关系进行校验。[0244]在一些示例中,校验通过云端设备实现。网管设备将第二目标故障传播关系发送给云端设备,由云端设备提供给专家校验,得到校验后的第二目标故障传播关系。在一种可能的实施方式中,经过专家确认,该第二目标故障传播关系是正确的,则该第二目标故障传播关系即为校验后的第二目标故障传播关系。在另一种可能的实施方式中,该第二目标故障传播关系未能通过校验,根据专家的修正指令,对该第二目标故障传播关系进行修正,修正后的第二目标故障传播关系即为校验后的第二目标故障传播关系。[0245]表四[0246][0247]可选地,该方法还包括:根据校验后的第二目标故障传播关系更新第一故障传播关系模型和第二故障传播关系模型。[0248]其中,更新第一故障传播关系模型包括将该校验后的第二目标故障传播关系作为一条新的第一故障传播关系添加到第一故障传播关系模型中。[0249]更新第二故障传播关系模型包括:根据更新后的第一故障传播关系模型,重新计算第二故障传播关系模型中的第二故障传播关系。计算方式参见前述生成第二故障传播关系模型中第二故障传播关系的相关内容。在此省略详细描述。第一故障传播关系模型中的第一故障传播关系的数量越多,计算出来的第二故障传播关系的准确度越高,有利于后续利用第二故障传播关系模型确定出的可能的故障传播关系的准确性。[0250]在本技术实施例中,更新第一故障传播关系模型和第二故障传播关系模型由云端设备执行,在云端设备更新第一故障传播关系模型和第二故障传播关系模型之后,将更新后的第一故障传播关系模型和第二故障传播关系模型发送给网管设备,以便网管设备后续按照新的第一故障传播关系模型和第二故障传播关系模型确定异常事件之间的传播关系。[0251]网络中某个位置发生故障时,往往会导致别的位置也产生异常,进而会导致多个网络设备上报多个异常事件的信息。为此,本技术还提供了一种网络故障分析方法,用于确定多个异常事件中的根因事件,以及确定出根因事件对应的根因实体,从而可以对网络故障进行定位。图7是本技术一个示例性实施例提供的另一种网络故障分析方法的流程图。如图7所示,该方法包括以下几个过程。[0252]701:确定多个异常事件关联的实体,得到实体集合。[0253]当接收到多个异常事件的信息时,确定这多个异常事件关联的实体。多个异常事件的信息的相关内容以及异常事件关联的实体的确定方式参见前述201,在此省略详细描述。[0254]这多个异常事件关联多个实体,且每个实体关联至少一个异常事件。[0255]实体集合中的任一实体均存在属于该实体集合的至少一个关联实体。在本技术实施例中,关联实体是指与对应的实体之间的跳数在设定跳数以内的实体。例如,设定跳数为2跳,则该关联实体与对应的实体之间的跳数为0跳、1跳或2跳。[0256]在本技术实施例中,实体的类型包括但不限于接口、器件、协议和业务等,一个网络设备可以对应多个实体。[0257]702:确定第三实体关联的第七异常事件和第四实体关联的第八异常事件在对应的故障原因描述信息下的故障传播方向。[0258]其中,第三实体和第四实体为实体集合中的任意两个相互关联的实体。第七异常事件为第三实体关联的至少一个异常事件中的任意一个异常事件。第八异常事件为第四实体关联的至少一个异常事件中的任意一个异常事件。[0259]第七异常事件对应的故障原因描述信息为第七故障原因描述信息。第八异常事件对应的故障原因描述信息为第八故障原因描述信息。该故障传播方向用于指示第七故障原因描述信息对应的第七异常事件和第八故障原因描述信息对应的第八异常事件中的因事件和果事件。[0260]如前,每个异常事件对应一个事件标识和故障原因描述信息。在一些示例中,具有不同事件标识的异常事件对应的故障原因描述信息相同,例如第七异常事件和第八异常事件的事件标识不同,但是第七故障原因描述信息和第八故障原因描述信息相同。在另一些示例中,具有不同事件标识的异常事件对应的故障原因描述信息不同,例如第七异常事件和第八异常事件的事件标识不同,第七故障原因描述信息和第八故障原因描述信息也不同。在又一些示例中,具有相同事件标识的异常事件对应的故障原因描述信息不同,例如第七异常事件和第八异常事件的事件标识相同,第七故障原因描述信息和第八故障原因描述信息也不同。[0261]702中任意两个异常事件在对应的故障原因描述信息下的故障传播方向均采用图2相关实施例中,确定第一故障原因描述信息对应的第一异常事件和第二故障原因描述信息对应的第二异常事件之间的故障传播方向的方式。[0262]在一些示例中,所有故障传播方向均采用第一故障传播关系模型确定。在另一些示例中,一部分故障传播方向采用第一故障传播关系模型确定,另一部分故障传播方向采用第二故障传播关系模型确定。[0263]在一些示例中,按照关联实体对之间的跳数依次增大的顺序,确定关联实体对上关联的两个异常事件在对应的故障原因描述信息下的故障传播方向。例如,首先确定跳数为0的关联实体对(即同一实体)上的两个异常事件在对应的故障原因描述信息下的故障传播方向。然后再确定跳数为1的关联实体对上的两个异常事件在对应的故障原因描述信息下的故障传播方向。以此类推,直至确定出所有关联实体对上的异常事件在对应的故障描述信息下的故障传播方向。[0264]703:根据确定出的故障传播方向,确定多个异常事件中的根因事件。[0265]示例性地,703包括以下两个步骤。[0266]第一步、根据确定出的故障传播方向,确定每个异常事件的参考值。[0267]该参考值为以所属的异常事件为果事件的故障传播方向的权重之和。故障传播方向的权重用于指示对应的故障传播方向为真的概率。在本技术实施例中,当故障传播方向根据第一故障关系模型确定时,故障传播方向的权重为1。当故障传播方向根据第二故障传播关系模型确定时,故障传播方向的权重为对应的第二故障传播关系对应的概率。[0268]第二步、根据各个异常事件的参考值,确定多个异常事件中的根因事件。[0269]在本技术实施例中,将参考值最小的异常事件确定为多个异常事件中的根因事件。参考值最小表示基本没有其他异常事件导致该参考值最小的异常事件发生。[0270]在本技术实施例中,确定出的根因事件的数量为一个或多个。例如,同一原因触发网络设备上报与同一实体关联的多个异常事件(携带不同的故障原因描述信息),这多个异常事件均为根因事件。[0271]在本技术实施例中,根因事件关联的实体为根因实体。在确定出根因事件和根因实体之后,可以通过提示信息告知技术人员故障分析结果,以便于技术人员排除故障。[0272]图8是本技术实施例提供的网络故障分析装置的结构图。该装置可以通过软件、硬件或者两者的结合实现成为装置中的部分或者全部。本技术实施例提供的装置能够实现本技术实施例图2的流程,如图8所示,该装置包括:获取模块810、第一确定模块820和第二确定模块830。[0273]其中,获取模块810用于获取第一异常事件的信息和第二异常事件的信息。第一确定模块820用于根据获取模块810获取到的第一异常事件的信息确定第一故障原因描述信息以及根据获取模块810获取到的第二异常事件的信息确定第二故障原因描述信息,第一故障原因描述信息用于描述第一异常事件出现的原因,第二故障原因描述信息用于描述第二异常事件出现的原因。第二确定模块830用于基于第一异常事件的信息中的事件标识、第二异常事件的信息中的事件标识、第一故障原因描述信息和第二故障原因描述信息,确定第一故障原因描述信息对应的第一异常事件和第二故障原因描述信息对应的第二异常事件之间的故障传播方向。[0274]在一种可能的实施方式中,第一确定模块820包括:模板获取子模块8201、提取子模块8202和信息确定子模块8203。模板获取子模块8201用于获取第一网络设备的第一提取模板以及第二网络设备的第二提取模板,第一网络设备为发送第一异常事件的信息的网络设备,第二网络设备为发送第二异常事件的信息的网络设备,第一提取模板和第二提取模板均包括事件标识、故障码关键词。提取子模块8202用于根据第一提取模板和第一异常事件的信息中相同的事件标识和故障码关键词,从第一异常事件的信息中提取故障码,得到第一提取结果;以及根据第二提取模板和第二异常事件的信息中相同的事件标识和故障码关键词,从第二异常事件的信息中提取故障码,得到第二提取结果。信息确定子模块8203用于根据第一提取结果,确定第一故障原因描述信息,以及根据第二提取结果,确定第二故障原因描述信息。[0275]在一种可能的实施方式中,第一提取结果和第二提取结果中的至少一个包括至少一个故障码,信息确定子模块8204,用于将第一提取结果和第二提取结果中所包含的故障码和对应的故障码关键词组合,每个组合为一个故障原因描述信息,从而得到至少一个故障原因描述信息。[0276]在一种可能的实施方式中,第二确定模块830包括:第一模型获取子模块8301和第一关系确定子模块8302。第一模型获取子模块8301用于获取第一故障传播关系模型,第一故障传播关系模型包括多条第一故障传播关系,第一故障传播关系用于记录两个异常事件在对应的故障原因描述信息下的故障传播方向。第一关系确定子模块8302用于响应于确定第一故障传播关系模型中存在第一目标故障传播关系,根据第一目标故障传播关系,确定第一故障原因描述信息对应的第一异常事件和第二故障原因描述信息对应的第二异常事件之间的故障传播方向,第一目标故障传播关系为包括第一异常事件的信息中的事件标识、第二异常事件的信息中的事件标识、第一故障原因描述信息和第二故障原因描述信息的第一故障传播关系。[0277]在另一种可能的实施方式中,第二确定模块830包括:第一模型获取子模块8301、第二模型获取子模块8303和第二关系确定子模块8304。第一模型获取子模块8301用于获取第一故障传播关系模型,第一故障传播关系模型包括多条第一故障传播关系,第一故障传播关系用于记录两个异常事件在对应的故障原因描述信息下的故障传播方向。第二模型获取子模块8303用于响应于确定第一故障传播关系模型中不存在第一目标故障传播关系,获取第二故障传播关系模型,第一目标故障传播关系为包括第一异常事件的信息中的事件标识、第二异常事件的信息中的事件标识、第一故障原因描述信息和第二故障原因描述信息第一故障传播关系,第二故障传播关系模型包括多条第二故障传播关系,第二故障传播关系用于记录两个异常事件在对应的故障原因描述信息下可能的故障传播方向,第二故障传播关系模型是根据第一故障传播关系模型生成的。第二关系确定子模块8304用于响应于确定第二故障传播关系模型中存在第二目标故障传播关系,根据第二目标故障传播关系,确定第一故障原因描述信息对应的第一异常事件和第二故障原因描述信息对应的第二异常事件之间的故障传播方向,第二目标故障传播关系为包括第一异常事件的信息中的事件标识、第二异常事件的信息中的事件标识、第一故障原因描述信息和第二故障原因描述信息的第二故障传播关系。[0278]可选地,装置还包括:校验模块840和更新模块850。校验模块840用于在第二关系确定子模块8304根据第二目标故障传播关系,确定第一故障原因描述信息对应的第一异常事件和第二故障原因描述信息对应的第二异常事件之间的故障传播方向之后,对第二目标故障传播关系进行校验。更新模块850用于根据校验后的第二目标故障传播关系,更新第一故障传播关系模型和第二故障传播关系模型。[0279]可选地,装置还包括第一生成模块860。第一生成模块860用于采用以下方式生成第一故障传播关系模型中的第一故障传播关系:确定第一实体上的第三异常事件和用于描述第三异常事件出现的原因的第三故障原因描述信息、以及第二实体上的第四异常事件和用于描述第四异常事件出现的原因的第四故障原因描述信息,第一实体和第二实体相互关联;根据专家标注,确定第三故障原因描述信息对应的第三异常事件和第四故障原因描述信息对应的第四异常事件中的因事件和果事件,得到第一故障传播关系。[0280]可选地,装置还包括第二生成模块870。第二生成模块870用于根据以下方式生成第二故障传播关系模型中的第二故障传播关系:确定具有未知故障原因描述信息的第五异常事件,未知故障原因描述信息为对应的异常事件的除已知故障原因描述信息之外的故障原因描述信息,已知故障原因描述信息为对应的异常事件所关联的第一故障传播关系中的故障原因描述信息;分别计算第五异常事件的未知故障原因描述信息与第五异常事件的各memory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。[0287]需要说明的是:上述实施例提供的网络故障分析装置在进行网络故障分析时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的网络故障分析装置与网络故障分析方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。[0288]本技术实施例中还提供了一种计算机设备。图10示例性的提供了计算机设备1000的一种可能的架构图。[0289]计算机设备1000包括存储器1001、处理器1002、通信接口1003以及总线1004。其中,存储器1001、处理器1002、通信接口1003通过总线1004实现彼此之间的通信连接。[0290]存储器1001可以是只读存储器(readonlymemory,rom),静态存储设备,动态存储设备或者随机存取存储器(randomaccessmemory,ram)。存储器1001可以存储程序,当存储器1001中存储的程序被处理器1002执行时,处理器1002和通信接口1003用于执行网络故障分析方法。存储器1001还可以存储数据集合,例如:存储器1001中的一部分存储资源被划分成一个数据集存储模块,用于存储提取模板、第一故障传播关系模型以及第二故障传播关系模型。[0291]处理器1002可以采用通用的中央处理器(centralprocessingunit,cpu),微处理器,应用专用集成电路(applicationspecificintegratedcircuit,asic),图形处理器(graphicsprocessingunit,gpu)或者一个或多个集成电路。[0292]处理器1002还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本技术的网络故障分析装置的部分或全部功能可以通过处理器1002中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1002还可以是通用处理器、数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(asic)、现成可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术上述实施例中的公开的各方法。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1001,处理器1002读取存储器1001中的信息,结合其硬件完成本技术实施例的网络故障分析装置的部分功能。[0293]通信接口1003使用例如但不限于收发器一类的收发模块,来实现计算机设备1000与其他设备或通信网络之间的通信。例如,可以通过通信接口1003获取异常事件的信息、提取模板、第一故障传播关系模型以及第二故障传播关系模型等。[0294]总线1004可包括在计算机设备1000各个部件(例如,存储器1001、处理器1002、通信接口1003)之间传送信息的通路。[0295]上述各个附图对应的流程的描述各有侧重,某个流程中没有详述的部分,可以参见其他流程的相关描述。[0296]本技术实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,当计算机可读存储介质中存储的计算机指令被计算机设备执行时,使得计算机设备执行上述所提供的网络故障分析方法。[0297]本技术实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机设备上运行时,使得计算机设备执行上述所提供的网络故障分析方法。[0298]在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令,在服务器或终端上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴光缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是服务器或终端能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(如软盘、硬盘和磁带等),也可以是光介质(如数字视盘(digitalvideodisk,dvd)等),或者半导体介质(如固态硬盘等)。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1