一种故障定界方法及设备与流程

文档序号:16847828发布日期:2019-02-12 22:28阅读:711来源:国知局
一种故障定界方法及设备与流程

本发明涉及计算机领域,尤其涉及一种故障定界方法及设备。



背景技术:

随着网络视频产业的迅速发展,例如,网络协定电视(internetprotocoltelevision,iptv)业务和过顶(overthetop,ott)业务的出现,运营商的运营重点逐渐从网络覆盖及网络质量保障,到“以用户为中心的运营”,尤其聚焦在对用户体验的关注。用户体验的好坏直接关系到用户流失,提高视频用户体验可进一步推动业务增长。在iptv系统内,若网络设备或链路出现故障,如设备的端口、子卡、单板等出现问题,均会导致iptv用户受到直接影响,非常影响用户的体验。因此,在网络设备发生故障导致用户体验下降时,需要及时准确的定界到故障设备,及时对故障进行修复维护,以保障用户体验保持在良好水平。

目前在iptv领域内,通常采用用户投诉工单反映体验问题,触发维护部门手工排除故障的应急方式。但人工定位故障延迟性太强,用户受影响时间长且操作繁杂。

针对该缺陷,可以通过监控网络服务质量(qualityofservice,qos)指标(例如,丢包率、时延等),若各qos指标超出告警门限则进行告警,定界故障设备。但由于qos异常可能并没有引起最终的用户体验出现问题,且出现qos异常的设备可能不是引发异常的故障设备,因此故障定界的准确性低。



技术实现要素:

本发明实施例提供了一种故障定界方法及设备,故障定界的准确性高。

第一方面,提供了一种故障定界方法。获取视频业务的用户体验数据、网络拓扑数据和资管数据;所述网络拓扑数据用于表征网络设备之间的连接关系,所述资管数据用于表征用户设备与网络设备之间的连接关系;根据所述用户体验数据、所述网络拓扑数据和所述资管数据,确定网络设备的体验质量(qualityofexperience,qoe)体验指标,其中,所述网络设备的qoe体验指标根据所述网络设备服务的用户设备的用户体验数据确定;当所述网络设备的qoe体验指标所表征的体验质量低于设备筛选阈值所表征的体验质量时,将所述网络设备确定为疑似问题设备。

本发明实施例中,通过获取视频业务的用户体验数据、网络拓扑数据和资管数据,从而可以确定网络设备的qoe体验指标,由于网络设备的qoe体验指标根据该网络设备服务的用户设备的用户体验数据确定,而不是像网络设备的qos指标直接通过获取网络设备的参数确定,因此这种方法相较于监控qos指标来进行故障定界的方法,更能反映用户体验,准确性高。

在一种可能的实施方式中,所述用户体验数据包括视频平均意见打分(videomeanopinionscore,vmos)、卡顿时长、卡顿占比、卡顿频次、花屏时长占比、花屏次数、花屏面积占比、视频质量切换次数和视频质量质差占比中的至少一项。根据该实施方式,可以结合上述一项或多项来确定网络设备的qoe体验指标。

在一种可能的实施方式中,所述网络拓扑数据包括现网的拓扑连接关系或业务路径,所述业务路径用于表征业务流所流经的网络设备之间的连接关系。根据该实施方式,可以根据现网的拓扑连接关系或业务路径确定网络设备服务的用户设备,从而可以根据获取到的用户体验数据,确定该网络设备的qoe体验指标。

在一种可能的实施方式中,分析包括所述疑似问题设备在内的多个同层级网络设备的所述qoe体验指标的分布特征,当根据所述分布特征确定所述多个同层级网络设备的所述qoe体验指标是偏态分布时,将所述多个同层级网络设备中的所述qoe体验指标为离群值的网络设备确定为问题设备。根据该实施方式,通过对包括疑似问题设备在内的多个同层级网络设备的qoe体验指标的分布特征进行统计分析,从而确定问题设备,能够进一步提高故障定界的准确性。

在一种可能的实施方式中,确定包括所述疑似问题设备在内的多个同层级网络设备的所述qoe体验指标的第一分布特征值,所述第一分布特征值用于表征所述多个同层级网络设备的所述qoe体验指标是否为偏态分布;当所述第一分布特征值大于第一均衡偏态阈值时,确定所述多个同层级网络设备的所述qoe体验指标是偏态分布;将所述多个同层级网络设备中的所述qoe体验指标为离群值的网络设备确定为问题设备。根据该实施方式,通过所述第一分布特征值与第一均衡偏态阈值的大小关系,确定所述多个同层级网络设备的所述qoe体验指标为偏态分布,从而确定问题设备,这种方式准确性高。可选地,所述第一分布特征值为变异系数。

在一种可能的实施方式中,确定包括所述疑似问题设备在内的多个同层级网络设备的所述qoe体验指标的第一整体特征值,所述第一整体特征值用于表征所述多个同层级网络设备的所述qoe体验指标的平均水平;分析包括所述疑似问题设备在内的多个同层级网络设备的所述qoe体验指标的分布特征,当根据所述分布特征确定所述多个同层级网络设备的所述qoe体验指标是偏态分布时,将所述多个同层级网络设备中的所述qoe体验指标大于所述第一整体特征值的网络设备确定为问题设备。根据该实施方式,通过确定第一整体特征值,并将将所述多个同层级网络设备中的所述qoe体验指标与所述第一整体特征值进行比较,从而确定所述多个同层级网络设备中的所述qoe体验指标为离群值的网络设备,将该网络设备确定为问题设备,这种方式准确性高。可选地,所述第一整体特征值为均值或中位数或据经验设置的用于表征平均水平的值;上述均值可以为直接平均值或加权平均值,比如说,当网络设备服务的用户数多时则该网络设备的qoe体验指标的加权系数大。

可选地,在根据前述方式初步确定问题设备后,还可以通过如下方式进一步确定问题设备:确定所述多个同层级网络设备的在线用户数的置信下界;当所述问题设备的在线用户数小于所述置信下界时,排除所述问题设备。也就是说,将初步确定的问题设备中的在线用户数过少的网络设备不认为是问题设备。这种方式可以进一步提高故障定界的准确性。

在一种可能的实施方式中,当确定所述多个同层级网络设备的所述qoe体验指标不是偏态分布且所述第一整体特征值大于第一经验阈值时,确定所述多个同层级网络设备的上游的网络设备中存在疑似问题设备。根据该实施方式,可以先通过网络设备的qoe体验指标与设备筛选阈值的大小关系分析网络中某一层级的网络设备中存在的疑似问题设备,然后根据该层级网络设备的qoe体验指标的分布特征确定上游的网络设备中是否存在疑似问题设备,这种方式的运算量较低,能够节省处理资源。

在一种可能的实施方式中,确定所述问题设备的多个同层级的下层网络设备的所述qoe体验指标的第二整体特征值,所述第二整体特征值用于表征所述多个同层级的下层网络设备的所述qoe体验指标的平均水平;当确定所述问题设备的多个同层级的下层网络设备的所述qoe体验指标不是偏态分布且所述第二整体特征值大于第二经验阈值时,不排除所述问题设备。根据该实施方式,在初步确定问题设备之后,还可以分析所述问题设备的多个同层级的下层网络设备的所述qoe体验指标的分布特征,从而进一步确定问题设备或排除该问题设备,这种方式能够提高确定问题设备的准确性。可选地,所述第二整体特征值为均值或中位数或据经验设置的用于表征平均水平的值;上述均值可以为直接平均值或加权平均值,比如说,当网络设备服务的用户数多时则该网络设备的qoe体验指标的加权系数大。

在一种可能的实施方式中,所述问题设备包括至少一个层级的多个设备内部单元,分析所述问题设备的同层级的多个设备内部单元的所述qoe体验指标的分布特征,当根据所述分布特征确定所述同层级的多个设备内部单元的所述qoe体验指标是偏态分布时,将所述同层级的多个设备内部单元的所述qoe体验指标为离群值的设备内部单元确定为问题单元。根据该实施方式,在确定问题设备之后,可以进一步分析所述问题设备的同层级的多个设备内部单元的所述qoe体验指标的分布特征,从而确定问题单元,这种方式能够进一步提高故障定界的精确度。

在一种可能的实施方式中,确定所述问题设备的同层级的多个设备内部单元的所述qoe体验指标的第三整体特征值,所述第三整体特征值用于表征所述同层级的多个设备内部单元的所述qoe体验指标的平均水平;当确定所述同层级的多个设备内部单元的所述qoe体验指标不是偏态分布且所述第三整体特征值大于第三经验阈值时,确定所述同层级的多个设备内部单元的上层的设备内部单元中存在问题单元。根据该实施方式,在确定问题设备后,可以根据问题设备的同层级的多个设备内部单元的qoe体验指标的分布特征确定该同层级的上层的设备内部单元中是否存在问题单元,这种方式无需分析每一层的设备内部单元的qoe体验指标的分布特征,因此运算量较低,能够节省处理资源。可选地,所述第三整体特征值为均值或中位数或据经验设置的用于表征平均水平的值;上述均值可以为直接平均值或加权平均值,比如说,当设备内部单元服务的用户数多时则该设备内部单元的qoe体验指标的加权系数大。

可选地,确定所述同层级的多个设备内部单元的在线用户数的置信下界;当所述问题单元的在线用户数小于所述置信下界时,排除所述问题单元。也就是说,将初步确定的问题单元中的在线用户数过少的设备内部单元不认为是问题单元。这种方式可以进一步提高故障定界的准确性。

在一种可能的实施方式中,确定所述问题单元的多个同层级的下层设备内部单元的所述qoe体验指标的第四整体特征值;当确定所述多个同层级的下层设备内部单元的所述qoe体验指标不是偏态分布且所述第四整体特征值大于第四经验阈值时,不排除所述问题单元。根据该实施方式,通过分析所述问题单元的多个同层级的下层设备内部单元的所述qoe体验指标的分布特征,从而进一步确定所述问题单元,有利于提高故障定界的准确性。可选地,所述第四整体特征值为均值或中位数或据经验设置的用于表征平均水平的值;上述均值可以为直接平均值或加权平均值,比如说,当设备内部单元服务的用户数多时则该设备内部单元的qoe体验指标的加权系数大。

可选地,确定所述同层级的多个设备内部单元的所述qoe体验指标的第二分布特征值,所述第二分布特征值用于表征所述同层级的多个设备内部单元的所述qoe体验指标是否为偏态分布;当所述第二分布特征值大于第二均衡偏态阈值时,确定所述同层级的多个设备内部单元的所述qoe体验指标是偏态分布;将所述同层级的多个设备内部单元中的所述qoe体验指标为离群值的设备内部单元确定为问题单元。根据该实施方式,通过所述第二分布特征值与第二均衡偏态阈值的大小关系,确定所述同层级的多个设备内部单元的所述qoe体验指标为偏态分布,从而确定问题单元,这种方式准确性高。可选地,所述第二分布特征值为变异系数。

可选地,确定所述同层级的多个设备内部单元的所述qoe体验指标的第五整体特征值,所述第五整体特征值用于表征所述同层级的多个设备内部单元的所述qoe体验指标的平均水平;分析所述同层级的多个设备内部单元的所述qoe体验指标的分布特征,当根据所述分布特征确定所述同层级的多个设备内部单元的所述qoe体验指标是偏态分布时,将所述同层级的多个设备内部单元中的所述qoe体验指标大于所述第五整体特征值的设备内部单元确定为问题单元。根据该实施方式,通过确定第五整体特征值,并将将所述同层级的多个设备内部单元的所述qoe体验指标与所述第五整体特征值进行比较,从而确定所述同层级的多个设备内部单元的所述qoe体验指标为离群值的设备内部单元,将该设备内部单元确定为问题单元,这种方式准确性高。可选地,所述第五整体特征值为均值或中位数或据经验设置的用于表征平均水平的值;上述均值可以为直接平均值或加权平均值,比如说,当设备内部单元服务的用户数多时则该设备内部单元的qoe体验指标的加权系数大。

在一种可能的实施方式中,对所述问题设备的多个下层设备的qoe体验指标进行聚类,每类包含至少一项qoe体验指标;将包含项数最多的类在所述多个下层设备的qoe体验指标的总项数中的占比,确定为所述问题设备的多个下层设备的qoe体验指标的第一相似聚合度;当所述第一相似聚合度大于第一相似聚合度阈值时,确定所述问题设备为故障设备。根据该实施方式,通过确定问题设备的多个下层设备的qoe体验指标的相似聚合度,从而进一步确定问题设备是否为故障设备,进一步提高了故障定界的准确性。

在一种可能的实施方式中,对所述问题单元的多个下层单元的qoe体验指标进行聚类,每类包含至少一项qoe体验指标;将包含项数最多的类在所述多个下层单元的qoe体验指标的总项数中的占比,确定为所述问题单元的多个下层单元的qoe体验指标的第二相似聚合度;当所述第二相似聚合度大于第二相似聚合度阈值时,确定所述问题单元为故障单元。根据该实施方式,通过确定问题单元的多个下层单元的qoe体验指标的相似聚合度,从而进一步确定问题单元是否为故障单元,进一步提高了故障定界的准确性。

在一种可能的实施方式中,当存在同层级的多个问题单元时,确定多个所述问题单元的多个下层单元的qoe体验指标的第三相似聚合度;当所述第三相似聚合度大于第三相似聚合度阈值且所述第三相似聚合度对应的类中每个下层单元的qoe体验指标的项数在其所属的问题单元的qoe体验指标的总项数中的占比均大于预设占比时,确定多个所述问题单元均为故障单元。根据该实施方式,通过同层级的多个问题单元的下层单元进行联合分析,从而能够避免遗漏故障单元,这种方式能够发现跨单板等问题,故障定界的准确性高。

在一种可能的实施方式中,所述qoe体验指标为质差率;每个网络设备的所述质差率对应的指标算法为:网络设备的质差率=网络设备的质差用户总数/网络设备的总用户数;和/或,每个设备内部单元的所述质差率对应的指标算法为:

设备内部单元的质差率=设备内部单元的质差用户总数/设备内部单元的总用户数;其中,根据所述用户体验数据与体验阈值的大小关系,确定所述用户体验数据对应的用户是否为质差用户;所述所述网络设备的qoe体验指标所表征的体验质量低于设备筛选阈值所表征的体验质量具体包括,所述网络设备的质差率小于所述设备筛选阈值。可选地,当用户体验数据仅包括一项时,例如,仅包括vmos时,可以仅有一个体验阈值,该体验阈值为vmos对应的体验阈值;当用户体验数据包括多项时,例如,包括vmos和卡顿时长时,可以每项有一个体验阈值,根据每项用户体验数据与相应体验阈值的大小关系,综合确定所述用户体验数据对应的用户是否为质差用户。根据该实施方式,确定qoe体验指标的方式简单、容易实现,并能够准确反映网络设备服务的用户的体验状况。

可选地,所述qoe体验指标为vmos平均值或卡顿占比的平均值。当所述qoe体验指标为vmos平均值时,vmos平均值越小用户体验越差。

再一方面,本发明实施例提供了一种故障定界设备,该设备可以实现上述第一方面方法设计中所执行的功能,所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个上述功能相应的模块。

在一个可能的设计中,该设备的结构中包括处理器,该处理器被配置为支持该设备执行上述第一方面方法中相应的功能。该设备还可以包括存储器,该存储器用于与处理器耦合,其保存该设备必要的程序指令和数据。该设备还可以包括通信接口,该通信接口用于获取用户体验数据或发送告警信息等。

另一方面,本发明实施例提供了一种芯片,该芯片可以设置于设备中,该芯片包括处理器和接口。该处理器被配置为支持该芯片执行上述第一方面方法中相应的功能。该接口用于支持该芯片与其他芯片或其他网元之间的通信。该芯片还可以包括存储器,该存储器用于与处理器耦合,其保存该芯片必要的程序指令和数据。

再一方面,本发明实施例提供了一种计算机存储介质,用于储存为上述设备所用的计算机软件指令,其包含用于执行上述第一方面所设计的程序。

再一方面,本发明实施例提供了一种计算机程序产品,其包含指令,当所述程序被计算机所执行时,该指令使得计算机执行上述方法设计中设备所执行的功能。

附图说明

图1为本发明实施例提供的一种系统架构示意图;

图2为本发明实施例提供的一种故障定界方法流程图;

图3a为本发明实施例提供的另一种故障定界方法流程图;

图3b为本发明实施例提供的另一种故障定界方法流程图;

图3c为本发明实施例提供的另一种故障定界方法流程图;

图3d为本发明实施例提供的另一种故障定界方法流程图;

图4a为图3a至图3d中任一图中步骤204的一种方法流程图;

图4b为图3a至图3d中任一图中步骤204的另一种方法流程图;

图4c为图3a至图3d中任一图中步骤204的另一种方法流程图;

图5a为本发明实施例提供的另一种故障定界方法流程图;

图5b为本发明实施例提供的另一种故障定界方法流程图;

图5c为本发明实施例提供的另一种故障定界方法流程图;

图5d为本发明实施例提供的另一种故障定界方法流程图;

图6a为本发明实施例提供的另一种故障定界方法流程图;

图6b为本发明实施例提供的另一种故障定界方法流程图;

图6c为本发明实施例提供的另一种故障定界方法流程图;

图7为设备-单板-端口连接关系示意图;

图8为本发明实施例提供的一种olt质差率计算示意图;

图9为本发明实施例提供的一种通过质差率阈值筛选疑似问题olt示意图;

图10(a)为图9中疑似问题olt4的各pon板质差率分布示意图;

图10(b)为图9中疑似问题olt4的各pon板在线用户数分布示意图;

图11(a)为图10(a)中2号pon板为疑似偏态pon板时的连接关系示意图;

图11(b)为2号pon板的各pon口质差率分布图;

图11(c)为2号pon板的各pon口质差行为相关度矩阵示意图;

图12为本发明实施例提供的一种故障定界设备的结构示意图;

图13为本发明实施例提供的图12中包括的各模块的交互示意图;

图14为本发明实施例提供的另一种故障定界设备的结构示意图;

图15为本发明实施例提供的又一种故障定界设备的结构示意图。

具体实施方式

图1为本发明实施例提供的一种系统架构示意图。该系统包括:电视机101、机顶盒(settopbox,stb)102、光网络设备(opticalnetworkterminal,ont)103、光线路终端(opticallineterminal,olt)104、限位交换机(limitswitch,lsw)105、宽带远程接入服务器(broadbandremoteaccessserver,bras)106、核心路由器(corerouter,cr)107、省干网108、iptv服务器109、用户体验采集系统1010、拓扑资管采集系统1011和故障定界分析系统1012。其中,用户体验采集系统1010,与相关设备(例如,stb)连接,用于采集用户体验数据,其中,用户体验数据用于表征用户体验;拓扑资管采集系统1011,与相关设备(例如,olt、lsw、bras、cr等)连接,用于获取网络拓扑数据和资管数据,其中,网络拓扑数据用于表征网络设备之间的连接关系,资管数据用于表征用户设备与网络设备之间的连接关系。在一个示例中,通过探针采集用户体验数据,上报给用户体验采集系统1010,拓扑资管采集系统1011收集网络拓扑数据(例如,现网的拓扑连接关系或业务路径,其中,业务路径用于表征业务流所流经的网络设备之间的连接关系)和资管数据,然后用户体验采集系统1010与拓扑资管采集系统1011分别将用户体验数据、网络拓扑数据和资管数据上报到故障定界分析系统1012,由故障定界分析系统1012检测故障设备或在检测出故障设备的基础上进一步检测故障设备中的故障单元。其中,采集用户体验数据的探针可以但不限于部署在如下两个位置。位置1为机顶盒上,即探针部署在机顶盒上,位置2为bras与cr间,即探针部署在bras与cr间。本发明实施例的故障定界分析系统1012可与用户体验采集系统1010、拓扑资管采集系统1011分别部署在不同的设备中,也可集成在同一设备中。

上述系统架构中,作为示意,每种网络设备画出一个。可以理解的是,实际系统中可以包括图1中全部的网络设备,也可以仅包括图1中部分的网络设备,每种网络设备的数目可以为1个,也可以为多个。

本发明实施例提供的故障定界方法,可以根据网络拓扑数据和资管数据确定网络设备服务的用户设备,从而根据网络设备服务的用户设备的用户体验数据确定该网络设备的体验质量(qualityofexperience,qoe)体验指标,当该网络设备的qoe体验指标所表征的体验质量低于预设水平设备筛选阈值所表征的体验质量时,将该网络设备确定为疑似问题设备。

在一个示例中,可以先确定系统内的每个网络设备的qoe体验指标,然后根据每个网络设备的qoe体验指标筛选出疑似问题设备。这种方式准确性高,能够避免遗漏疑似问题设备。

在另一个示例中,可以先确定系统内的某一层级的网络设备的qoe体验指标,然后根据该层级的每个网络设备的qoe体验指标筛选出该层级的疑似问题设备。这种方式兼顾准确性和效率,能够节省处理资源。

如果网络设备a是网络设备b的上游网络设备,并且这两个网络设备相邻,则网络设备a称为网络设备b的上层网络设备,网络设备b称为网络设备a的下层网络设备。可以理解的是,具有共同上层网络设备的多个网络设备称为同层级的网络设备;类似地,当网络设备包括多个层级的设备内部单元时,将具有共同上层设备内部单元的多个设备内部单元称为同层级的设备内部单元。概括来说,具有共同上层节点的多个节点称为同层级的节点。

为了进一步提升故障定界的准确性,在一个示例中,可以在通过网络设备的qoe体验指标与设备筛选阈值的大小关系筛选出疑似问题设备的基础上,进一步分析包括疑似问题设备在内的多个同层级网络设备的qoe体验指标的分布特征,从而确定问题设备,再根据问题设备的下层设备的qoe体验指标的相似聚合度确定问题设备是否为故障设备。这种故障定界的方法,不仅考虑了一个网络设备的qoe体验指标,而且参照了网络中其他网络设备的qoe体验指标,综合分析确定故障设备,准确性高。

可选地,本发明实施例,在确定问题设备时,可以分为如下三个阶段:阶段一,分析包括疑似问题设备在内的多个同层级网络设备的qoe体验指标的分布特征,从而初步确定问题设备;阶段二,分析问题设备的多个同层级的下层网络设备的qoe体验指标的分布特征,从而进一步确定问题设备;阶段三,根据问题设备的在线用户数,再次确定问题设备。

可以理解的是,上述阶段一可以分别与阶段二或阶段三组合,也能达到较为准确地识别问题设备的效果。例如,先执行阶段一,再执行阶段二;或,先执行阶段一,再执行阶段三。

在一个示例中,在确定问题设备后,可以进一步分析问题设备的设备内部单元的qoe体验指标,从而确定问题单元;以及根据问题单元的下层单元的qoe体验指标的相似聚合度确定问题单元是否为故障单元。

本发明实施例中,故障定界方法具有多种实现方式,为了便于理解,下面通过方法流程进行说明。

图2为本发明实施例提供的一种故障定界方法流程图,该方法可以基于图1所示的系统架构,执行主体可以为图1中的故障定界分析系统,该方法包括:

步骤201,获取视频业务的用户体验数据、网络拓扑数据和资管数据。

其中,所述用户体验数据用于表征用户体验,所述网络拓扑数据用于表征网络设备之间的连接关系,所述资管数据用于表征用户设备与网络设备之间的连接关系。

在一个示例中,所述用户体验数据包括视频平均意见打分(videomeanopinionscore,vmos)、卡顿时长、卡顿占比、卡顿频次、花屏时长占比、花屏次数、花屏面积占比、视频质量切换次数和视频质量质差占比中的至少一项。其中,视频质量切换指用户进行视频质量的切换,例如,由标清切换到高清。

在一个示例中,所述网络拓扑数据包括现网的拓扑连接关系或业务路径,所述业务路径用于表征业务流所流经的网络设备之间的连接关系。

步骤202,根据所述用户体验数据、所述网络拓扑数据和所述资管数据,确定网络设备的qoe体验指标。

其中,网络设备的qoe体验指标根据该网络设备服务的用户设备的用户体验数据确定。

在一个示例中,可以先根据所述网络拓扑数据和所述资管数据确定网络设备服务的用户设备,然后再根据该网络设备服务的用户设备的用户体验数据确定该网络设备的qoe体验指标。

可以理解的是,可以确定出系统中每个网络设备的qoe体验指标,也可以仅确定出系统中同一层级的每个网络设备的qoe体验指标。本发明实施例中,以首先确定出系统中同一层级的每个网络设备的qoe体验指标为例进行说明,当然不排除后续根据需要再确定出其他层级的每个网络设备的qoe体验指标。

其中,可以先配置qoe体验指标及qoe体验指标对应的指标算法,然后根据qoe体验指标及qoe体验指标对应的指标算法,确定各层级下的qoe体验指标。

在一个示例中,所述qoe体验指标为质差率;

每个网络设备的所述质差率对应的指标算法为:网络设备的质差率=网络设备的质差用户总数/网络设备的总用户数。例如,网络设备的总用户数为10,网络设备的质差用户总数为2,则该网络设备的质差率为20%。

其中,可以根据所述用户体验数据与体验阈值的大小关系,确定所述用户体验数据对应的用户是否为质差用户。

如,一个用户的用户体验数据包括一项时,如果该项的数值所表征的用户体验低于该项对应的体验阈值所表征的体验水平,则确定该用户为质差用户,否则确定该用户为非质差用户。例1,该用户的用户体验数据包括vmos,如果vmos的值小于vmos对应的体验阈值,则确定该用户为质差用户。例2,该用户的用户体验数据包括卡顿时长,如果卡顿时长的值大于卡顿时长对应的体验阈值,则确定该用户为质差用户。

又如,一个用户的用户体验数据包括多项时,如果每项的数值所表征的用户体验都小于该项对应的体验阈值所表征的体验水平,则确定该用户为质差用户,否则确定该用户为非质差用户。

又如,一个用户的用户体验数据包括多项时,可以对每项的数值进行加权求和,如果求和后的数值小于体验阈值,则确定该用户为质差用户,否则确定该用户为非质差用户。

可选地,所述qoe体验指标还可以为用户体验数据中某一项的平均值,比如vmos平均值、卡顿占比的平均值等。其中,如果所述qoe体验指标为vmos平均值,则所述qoe体验指标越小体验质量越差。

步骤203,当所述网络设备的qoe体验指标所表征的体验质量低于设备筛选阈值所表征的体验质量时,将所述网络设备确定为疑似问题设备。

所述设备筛选阈值可以是预先设置的,也可以是根据与所述网络设备同类型的多个网络设备(如多个olt)的qoe体验指标的分布情况确定的。

如果所述qoe体验指标越大体验质量越低,如,所述qoe体验指标为质差率的平均值或卡顿占比的平均值,则步骤203的具体实现方式可以是,当所述网络设备的qoe体验指标大于设备筛选阈值时,将所述网络设备确定为疑似问题设备。

如果所述qoe体验指标越大体验质量越高,如,所述qoe体验指标为vmos平均值,则步骤203的具体实现方式可以是,当所述网络设备的qoe体验指标小于设备筛选阈值时,将所述网络设备确定为疑似问题设备。

本发明实施例中,通过获取视频业务的用户体验数据、网络拓扑数据和资管数据,从而可以确定网络设备的qoe体验指标,由于网络设备的qoe体验指标根据该网络设备服务的用户设备的用户体验数据确定,而不是像网络设备的qos指标直接通过获取网络设备的参数确定,因此这种方法相较于监控qos指标来进行故障定界的方法,更能反映用户体验,准确性高。

图2所示的实施例中,在确定出为疑似问题设备的网络设备后,即可结束流程,后续可由人工排查该疑似问题设备。为了进一步提高故障定界的准确性,在本发明的另一个实施例中,根据确定出的疑似问题设备,进一步确定问题设备,问题设备比疑似问题设备发生故障的可能性更高。

图3a为本发明实施例提供的另一种故障定界方法流程图,在图2所示方法流程的基础上进一步通过均衡偏态分析定界问题设备,该方法除了包括前述步骤201至203,该方法还包括:

步骤204,分析包括所述疑似问题设备在内的多个同层级网络设备的所述qoe体验指标的分布特征,当根据所述分布特征确定所述多个同层级网络设备的所述qoe体验指标是偏态分布时,将所述多个同层级网络设备中的所述qoe体验指标为离群值的网络设备确定为问题设备。

可以理解的是,当系统中存在多个属于同一层级的疑似问题设备时,可以仅对多个属于同一层级的疑似问题设备中的一个疑似问题设备执行步骤204;当系统中存在多个属于不同层级的疑似问题设备时,可以对多个属于不同层级的疑似问题设备分别执行步骤204。例如,系统中存在同层级的四个疑似问题设备分别为疑似问题设备a、疑似问题设备b、疑似问题设备c和疑似问题设备d,则可只针对疑似问题设备a执行步骤204。其中,有较大可能,将多个疑似问题设备中的至少一个疑似问题设备确定为问题设备。

如图4a所示,在一个示例中,步骤204包括:

步骤2041,确定包括所述疑似问题设备在内的多个同层级网络设备的所述qoe体验指标的第一分布特征值,所述第一分布特征值用于表征所述多个同层级网络设备的所述qoe体验指标是否为偏态分布。

其中,同层级网络设备可以理解为具有同一上层网络设备的网络设备,具有同一上层网络设备的网络设备通常为类型相同的网络设备,例如,均为olt。

在一个示例中,所述第一分布特征值为变异系数。

步骤2042,当所述第一分布特征值大于第一均衡偏态阈值时,确定所述多个同层级网络设备的所述qoe体验指标是偏态分布。

步骤2043,将所述多个同层级网络设备中的所述qoe体验指标为离群值的网络设备确定为问题设备。

根据该实施方式,通过所述第一分布特征值与第一均衡偏态阈值的大小关系,确定所述多个同层级网络设备的所述qoe体验指标为偏态分布,从而确定问题设备,这种方式准确性高。

如图4b所示,在另一个示例中,步骤204包括:

步骤2044,确定包括所述疑似问题设备在内的多个同层级网络设备的所述qoe体验指标的第一整体特征值,所述第一整体特征值用于表征所述多个同层级网络设备的所述qoe体验指标的平均水平。

可选地,所述第一整体特征值为均值或中位数或据经验设置的用于表征平均水平的值;上述均值可以为直接平均值或加权平均值,比如说,当网络设备服务的用户数多时则该网络设备的qoe体验指标的加权系数大。

步骤2045,分析包括所述疑似问题设备在内的多个同层级网络设备的所述qoe体验指标的分布特征,当根据所述分布特征确定所述多个同层级网络设备的所述qoe体验指标是偏态分布时,将所述多个同层级网络设备中的所述qoe体验指标大于所述第一整体特征值的网络设备确定为问题设备。

根据该实施方式,通过确定第一整体特征值,并将将所述多个同层级网络设备中的所述qoe体验指标与所述第一整体特征值进行比较,从而确定所述多个同层级网络设备中的所述qoe体验指标为离群值的网络设备,将该网络设备确定为问题设备,这种方式准确性高。

如图4c所示,在另一个示例中,基于图4b所示的方法流程,步骤204除了包括步骤2044和步骤2045,还包括:

步骤2046,当确定所述多个同层级网络设备的所述qoe体验指标不是偏态分布且所述第一整体特征值大于第一经验阈值时,确定所述多个同层级网络设备的上游的网络设备中存在疑似问题设备。

根据该实施方式,当所述多个同层级网络设备中的所述qoe体验指标呈均匀分布且所述第一整体特征值异常时,确定所述多个同层级网络设备的上游的网络设备中存在疑似问题设备。其中,对上游的网络设备中的疑似问题设备可以采取本发明实施例图3a包括的各种方法通过均衡偏态分析进一步定界问题设备,在此不做赘述。

可以理解的是,图4a、图4b、图4c对应的实施例可以相互结合以形成新的实施例,例如,在一个实施例中,先通过所述第一分布特征值与第一均衡偏态阈值的大小关系,确定所述多个同层级网络设备的所述qoe体验指标是否为偏态分布,当所述多个同层级网络设备的所述qoe体验指标为偏态分布时,再通过确定第一整体特征值,并将将所述多个同层级网络设备中的所述qoe体验指标与所述第一整体特征值进行比较,从而确定所述多个同层级网络设备中的所述qoe体验指标为离群值的网络设备,将该网络设备确定为问题设备,以及,当所述多个同层级网络设备中的所述qoe体验指标不为偏态分布且所述第一整体特征值大于第一经验阈值时,确定所述多个同层级网络设备的上游的网络设备中存在疑似问题设备。在确定所述多个同层级网络设备的上游的网络设备中存在疑似问题设备时,可以将所述多个同层级网络设备共同的上层网络设备作为疑似问题设备执行步骤204。

在一个示例中,如图3b,在步骤204确定问题设备之后,还可以根据网络设备的在线用户数,进一步确认问题设备或排除问题设备,该方法还包括步骤205和206:

步骤205,确定包括所述问题设备在内的多个同层级网络设备的在线用户数的置信下界。

步骤206,当所述问题设备的在线用户数小于所述置信下界时,排除所述问题设备。

可以理解的是,排除所述问题设备,即将所述问题设备确认为正常设备。

根据该实施方式,可以将在线用户数过少的问题设备重新确认为正常设备。

在一个示例中,如图3c,在步骤204定界问题设备之后,还可以结合下层网络设备的qoe体验指标的分布特征,进一步确认问题设备或排除问题设备,该方法还包括步骤207和208:

步骤207,确定问题设备的多个同层级的下层网络设备的qoe体验指标的第二整体特征值,所述第二整体特征值用于表征所述多个同层级的下层网络设备的所述qoe体验指标的平均水平。

步骤208,当确定所述问题设备的多个同层级的下层网络设备的所述qoe体验指标不是偏态分布且所述第二整体特征值大于第二经验阈值时,不排除所述问题设备。

其中,可以但不限于采取通过所述第一分布特征值与第一均衡偏态阈值相比较的方式,确定所述问题设备的多个同层级的下层网络设备的所述qoe体验指标是否为偏态分布。

可以理解的是,不排除所述问题设备,即进一步确定该问题设备。

此外,该方法还可以包括:当确定所述问题设备的多个同层级的下层网络设备的所述qoe体验指标为偏态分布时,排除所述问题设备;或,当确定所述问题设备的多个同层级的下层网络设备的所述qoe体验指标不是偏态分布且所述第二整体特征值小于或等于第二经验阈值时,排除所述问题设备。其中,排除所述问题设备,即将该问题设备重新确认为正常的网络设备。另外,当确定所述问题设备的多个同层级的下层网络设备的所述qoe体验指标为偏态分布时,还可以将所述多个同层级的下层网络设备中的所述qoe体验指标为离群值的网络设备确定为问题设备,并针对该确定的问题设备执行步骤205-206和/或步骤207-208。

根据该实施方式,在初步确定问题设备后,通过分析所述问题设备的多个同层级的下层网络设备的所述qoe体验指标的分布特征,可以进一步确定所述问题设备,或排除所述问题设备,从而提升确定问题设备的准确性。

本领域技术人员可以了解,前述步骤可以组合构成多种可能的实施例。例如,一种方案包括步骤201至204,即图3a所示的方案;另一种方案包括步骤201至206,即图3b所示的方案;再一种方案包括步骤201至204、207和208,即图3c所示的方案;又一种方案包括步骤201至208,即图3d所示的方案。

通常地,网络设备内部包括至少一个层级的设备内部单元,例如,单板-子卡-端口-链路等各层级。

在一个示例中,所述问题设备包括至少一个层级的多个设备内部单元;图5a为本发明实施例提供的又一种故障定界方法流程图,在定界问题设备的基础上进一步通过均衡偏态分析定界问题设备内部单元(简称:问题单元),该方法可以基于图3a或图3b或图3c或图3d,图5a中仅以基于图3a为例进行说明,该方法除了包括前述步骤201至204,该方法还包括:

步骤209,分析所述问题设备的同层级的多个设备内部单元的所述qoe体验指标的分布特征,当根据所述分布特征确定所述同层级的多个设备内部单元的所述qoe体验指标是偏态分布时,将所述同层级的多个设备内部单元的所述qoe体验指标为离群值的设备内部单元确定为问题单元。

在一个示例中,所述问题设备包括多个层级的设备内部单元,步骤209可以仅对其中某一层级的设备内部单元的所述qoe体验指标进行分析,例如,问题设备包括三个层级的设备内部单元,由下至上分别为第一层级、第二层级和第三层级,可以仅对第二层级的设备内部单元的所述qoe体验指标进行分析,在后续必要时,再对第二层级的上层或下层的设备内部单元的所述qoe体验指标进行分析,其中,第一层级称为第二层级的下层,第三层级称为第二层级的上层。

其中,根据所述分布特征确定所述同层级的多个设备内部单元的所述qoe体验指标是否为偏态分布的方式,与根据分布特征确定同层级的多个网络设备的所述qoe体验指标是否为偏态分布的方式,可采用类似的方法,在此不做赘述。

类似地,寻找所述同层级的多个设备内部单元的所述qoe体验指标为离群值的设备内部单元的方式,与寻找同层级的多个网络设备的所述qoe体验指标为离群值的网络设备的方式,可采用类似的方法,在此不做赘述。

可选地,如图5b所示,该方法还包括:

步骤2010,确定所述问题设备的同层级的多个设备内部单元的所述qoe体验指标的第三整体特征值,所述第三整体特征值用于表征所述同层级的多个设备内部单元的所述qoe体验指标的平均水平。

步骤2011,当确定所述同层级的多个设备内部单元的所述qoe体验指标不是偏态分布且所述第三整体特征值大于第三经验阈值时,确定所述同层级的多个设备内部单元的上层的设备内部单元中存在问题单元。

可以理解的是,在步骤2011确定所述同层级的多个设备内部单元的上层的设备内部单元中存在问题单元之后,还可以采取图5a-5b包括的任一种方式对所述同层级的多个设备内部单元的上层的设备内部单元的qoe体验指标进行分析,从而确定该上层的设备内部单元中的问题单元。如,可以将所述同层级的多个设备内部单元共同的相邻上层设备内部单元作为问题单元执行步骤209和/或2010-2011。

在一个示例中,步骤209之后,还可以结合在线用户数排除或确认问题单元,如图5c,该方法还包括:

步骤2012,确定包括所述问题单元的多个同层级的设备内部单元的在线用户数的置信下界;

步骤2013,当所述问题单元的在线用户数小于所述置信下界时,排除所述问题单元。

其中,排除所述问题单元,即将所述问题单元重新确认为正常单元。

根据该实施方式,可以排除在线用户数过少的问题单元,提升确定的问题单元的准确性。

在一个示例中,步骤209之后,还可以结合问题单元的多个同层级的下层设备内部单元的所述qoe体验指标的分布特征进一步排除或确认问题单元,如图5d,该方法还包括:

步骤2014,确定所述问题单元的多个同层级的下层设备内部单元的所述qoe体验指标的第四整体特征值。

步骤2015,当确定所述多个同层级的下层设备内部单元的所述qoe体验指标不是偏态分布且所述第四整体特征值大于第四经验阈值时,不排除所述问题单元。

根据该实施方式,在初步确定问题单元之后,还可以根据所述问题单元的多个同层级的下层设备内部单元的所述qoe体验指标的分布特征,进一步确定该问题单元或排除该问题单元,从而进一步提升确定问题单元的准确性。

此外,该方法还可以包括:当确定所述问题单元的多个同层级的下层设备内部单元的所述qoe体验指标为偏态分布时,排除所述问题单元;或,当确定所述问题单元的多个同层级的下层设备内部单元的所述qoe体验指标不是偏态分布且所述第四整体特征值小于或等于第四经验阈值时,排除所述问题单元。其中,排除所述问题单元,即将该问题单元重新确认为正常的设备内部单元。另外,当确定所述问题单元的多个同层级的下层设备内部单元的所述qoe体验指标为偏态分布时,还可以将所述多个同层级的下层设备内部单元中的所述qoe体验指标为离群值的设备内部单元确定为问题单元,并针对确定为问题单元所述同层级的多个设备内部单元的设备内部单元执行步骤2012-2013和/或步骤2014-2015。

本领域技术人员可以了解,前述步骤可以组合构成多种可能的实施例。例如,一种方案包括步骤201至204,209,即图5a所示的方案;另一种方案包括步骤201至204,209至2011,即图5b所示的方案;再一种方案包括步骤201至204,209,2012和2013,即图5c所示的方案;又一种方案包括步骤201至204,209,2014和2015,即图5d所示的方案。

在一个示例中,在确定问题设备之后,还可以分析问题设备的多个下层设备的qoe体验指标的相似聚合度,从而进一步确定该问题设备是否发生故障,如图6a所示,该方法除了包括步骤201至204,所述方法还包括:

步骤2016,对所述问题设备的多个下层设备的qoe体验指标进行聚类,每类包含至少一项qoe体验指标。

例如,olt的下层设备包括ont1、ont2、ont3和ont4。

下层设备的qoe体验指标的总项数为四项,对ont1的qoe体验指标、ont2的qoe体验指标、ont3的qoe体验指标和ont4的qoe体验指标进行聚类后,得到两类:第一类包括一项,为ont1的qoe体验指标;第二类包括三项,为ont2的qoe体验指标、ont3的qoe体验指标和ont4的qoe体验指标。

步骤2017,将包含项数最多的类在所述多个下层设备的qoe体验指标的总项数中的占比,确定为所述问题设备的多个下层设备的qoe体验指标的第一相似聚合度。

前述第二类包括项数最多,其在下层设备的qoe体验指标的总项数中的占比为即75%,所以第一相似聚合度为75%。

步骤2018,当所述第一相似聚合度大于第一相似聚合度阈值时,确定所述问题设备为故障设备。

若第一相似聚合度阈值为70%,则第一相似聚合度大于第一相似聚合度阈值,确定所述问题设备为故障设备。

根据该实施方式,通过确定问题设备的多个下层设备的qoe体验指标的相似聚合度,从而进一步确定问题设备是否为故障设备,进一步提高了故障定界的准确性。

可选地,前述确定问题单元的处理过程,可以在确定问题设备后,对问题设备的设备内部单元的qoe体验指标进行分析从而确定问题单元;或者,还可以在将问题设备确定为故障设备后,对故障设备的设备内部单元的qoe体验指标进行分析从而确定问题单元,其中,确定问题单元的方式可以采取图5a-5d包括的任一种方式对故障设备的设备内部单元的qoe体验指标进行分析,从而确定设备内部单元中的问题单元。

在一个示例中,在确定问题单元之后,还可以分析问题单元的多个下层单元的相似聚合度,从而进一步确定问题单元是否为故障单元,如图6b所示,该方法除了包括步骤201至204,209,所述方法还包括:

步骤2019,对所述问题单元的多个下层单元的qoe体验指标进行聚类,每类包含至少一项qoe体验指标;

步骤2020,将包含项数最多的类在所述多个下层单元的qoe体验指标的总项数中的占比,确定为所述问题单元的多个下层单元的qoe体验指标的第二相似聚合度;

步骤2021,当所述第二相似聚合度大于第二相似聚合度阈值时,确定所述问题单元为故障单元。

确定问题单元为故障单元的方式,与确定问题设备为故障设备的方式类似,在此不做赘述。

在一个示例中,在确定问题单元之后,还可以分析多个问题单元的多个下层单元的相似聚合度,从而进一步确定这多个问题单元是否为故障单元,如图6c所示,该方法除了包括步骤201至204,209,所述方法还包括:

步骤2022,当存在同层级的多个问题单元时,确定多个所述问题单元的多个下层单元的qoe体验指标的第三相似聚合度。

步骤2023,当所述第三相似聚合度大于第三相似聚合度阈值且所述第三相似聚合度对应的类中每个下层单元的qoe体验指标的项数在其所属的问题单元的qoe体验指标的总项数中的占比均大于预设占比时,确定多个所述问题单元均为故障单元。

根据该实施方式,在将问题单元确定为故障单元时,可对多个问题单元的下层单元的qoe体验指标进行联合分析,例如,问题单元1具有下层单元11、下层单元12和下层单元13,问题单元2具有下层单元21、下层单元22和下层单元23,可以分析下层单元11的qoe体验指标、下层单元12的qoe体验指标、下层单元13的qoe体验指标、下层单元21的qoe体验指标、下层单元22的qoe体验指标和下层单元23的qoe体验指标的相似聚合度,若相似聚合度大于相似聚合度阈值且相似聚合度对应的类中包括下层单元11的qoe体验指标、下层单元12的qoe体验指标、下层单元21的qoe体验指标、下层单元22的qoe体验指标和下层单元23的qoe体验指标,其中,下层单元11和下层单元12属于问题单元1,其占比为下层单元21、下层单元22和下层单元23属于问题单元2,其占比为100%,若预设占比为50%,则和100%均大于50%,确定问题单元1和问题单元2均为故障单元。

本领域技术人员可以了解,前述步骤可以组合构成多种可能的实施例。例如,一种方案包括步骤201至204,2016至2018,即图6a所示的方案;另一种方案包括步骤201至204,209至2011,该方案未示出;另一种方案包括步骤201至204,209,2019至2021,即图6b所示的方案;再一种方案包括步骤201至204,209,2022和2023,即图6c所示的方案。

需要说明的是,本发明实施例中的第一、第二仅是区分作用,例如,第一相似聚合度阈值和第二相似聚合度阈值,二者可能相同,也可能不同。

本发明实施例中,通过获取视频业务的用户体验数据、网络拓扑数据和资管数据,从而可以确定网络设备的qoe体验指标,当网络设备的qoe体验指标与设备筛选阈值的大小关系满足预设条件时,将网络设备确定为疑似问题设备,这种方法相较于监测qos指标来进行故障定界的方法,更能反映用户体验,准确性高。可选地,还可以结合疑似问题设备同层级的网络设备的分布特征进一步确定问题设备,和/或,对疑似问题设备或问题设备的下游同层级网络设备的qoe体验指标进行相似聚合度分析,从而进一步确定疑似问题设备或问题设备是否发生故障,进一步的提高了故障定界的准确性。可选地,本发明实施例中,可以仅定界到发生故障的网络设备,还可以进一步定界到该网络设备中发生故障的设备内部单元,故障定界的准确性高。

下面对本发明实施例提供的故障定界方法的处理流程进行详细说明。

步骤1),获取用户体验数据、网络拓扑数据和资管数据,以及配置qoe体验指标,并定义qoe体验指标的指标算法。

其中,用户体验数据可以包括vmos、卡顿时长、卡顿占比、卡顿频次、花屏时长占比、花屏次数、花屏面积占比、视频质量切换次数和视频质量质差占比中的至少一项。网络拓扑数据用于表征网络设备之间的连接关系,包括现网的拓扑连接关系或业务路径,业务路径用于表征业务流所流经的网络设备之间的连接关系。资管数据用于表征用户设备与网络设备(例如olt等)之间的连接关系,可选地,资管数据还包含用户设备与网络设备的各端口之间的连接关系。

在一个示例中,由管理人员根据需求配置qoe体验指标,并定义qoe体验指标的指标算法。例如,配置qoe体验指标为质差率,以质差率算法定义为例,通过用户体验数据中每项数据对应的阈值可判断用户是否为质差用户,进而可统计出质差用户数,质差率=质差用户总数/总用户数。其中,qoe体验指标可以但不限于为质差率,本发明实施例中以质差率为例进行描述。

在另一个示例中,预先设置用户体验数据包括的项与qoe体验指标及qoe体验指标的指标算法之间的对应关系,根据获取的用户体验数据包括的项确定qoe体验指标及qoe体验指标的指标算法,例如,上述对应关系可以但不限于如表一所示。

表一

表一仅为举例说明,实际的表格可以包含更多的对应关系。由表一可见,当用户体验数据仅包含vmos这一项时,可以确定qoe体验指标为vmos平均值,相应的qoe体验指标的指标算法为vmos平均值=用户的vmos之和除以用户数;当用户体验数据包含卡顿时长、卡顿占比、卡顿频次这三项时,可以确定qoe体验指标为质差率,相应的qoe体验指标的指标算法为质差率=质差用户总数/总用户数。

步骤2),参照图7所示的各设备-单板-端口连接关系示意图,根据用户体验数据,按现网的拓扑连接关系或业务路径,按设备-单板-子卡-端口-链路级计算各层的质差率,通过质差率反映各层下的总体用户体验水平。质差率=设备或设备内部单元连接的下游所有质差用户数/连接的下游所有用户数。如图8所示为olt质差率计算示意图,参照图8,olt下面共有10个用户设备,即olt的下游共有10个用户设备的业务路径经过该olt,第一步,先统计用户设备服务的用户是否为质差用户,用1代表质差用户,用0代表非质差用户,统计结果为有4个质差用户;第二步,计算质差率为40%。

步骤3),通过同类设备质差率等阈值学习确定阈值,即确定设备筛选阈值,根据设备筛选阈值筛选出疑似问题设备,以便进一步定界分析。可选地,每一种类型的网络设备有一个设备筛选阈值,例如,ont有一个设备筛选阈值,olt有另一个设备筛选阈值。图9为通过质差率阈值筛选疑似问题olt示意图,参照图9,以olt设备为例,四个olt按照前述质差率计算公式计算出的质差率如图9中表格所示,假定质差率阈值为1%,即设备筛选阈值为1%,其中,olt4的质差率超出质差率阈值,初步判断olt4为疑似问题olt,需进一步对其进行均衡偏态分析和相似性分析。其余连接同一bras的olt质差率均偏低,可排除上游bras的问题,故障定界到olt4。可以理解的是,olt4为疑似问题设备,出于故障定界的准确性,不排除疑似问题设备的设备内部单元和olt4的下游设备发生故障的可能性。

步骤4),对于筛选出的疑似问题设备,对包括该疑似问题设备在内的同层级的网络设备的质差率、在线用户数等分布特征进行统计分析,确定问题设备。可选地,还可以对该疑似问题设备的拓扑上游的同层级的网络设备的质差率的分布特征进行统计分析;或对该疑似问题设备的拓扑下游的网络设备的质差率的分布特征进行统计分析;或对问题设备的设备内部单元各层级的质差率的分布特征进行统计分析;或对问题设备的同层级的网络设备的在线用户数的分布特征进行统计分析。根据其均衡偏态的分布形态,初步定界问题设备或问题单元。均衡偏态分析的可以包括如下处理流程:

步骤a,统计质差率、在线用户数等数据的值,质差率、在线用户数等数据的值均可以取为一段时间内的均值。其中,均值的计算可以是平均值或加权均值等。本例中一小时周期内的加权均值计算方式如下:

其中,i代表1小时内的第i次采样,上述公式中以每小时采样12次为例,i=1代表第1次采样;yi代表第i次采样时的在线用户数;xi代表第i次采样时的质差用户数;wi代表第i次采样时的权重。可以理解的是,步骤a统计的质差率为一段时间内同一网络设备或同一设备内部单元的质差率的时间均值,为了与后面提到的多个网络设备的质差率均值区分开来,步骤a中统计的质差率的时间均值简称为质差率。

步骤b,分析同层级网络设备的质差率的分布形态,根据需求配置相应的阈值(如变异系数阈值、质差率阈值),统计质差率的相关分布特征如质差率的变异系数(cv)、质差率的均值等,定界疑似问题设备。其中,变异系数=标准差/平均数,即同层级网络设备的质差率的变异系数=同层级网络设备的质差率的标准差/同层级网络设备的质差率的平均数。

若变异系数>变异系数阈值(例如,0.4),认为偏态分布;找出偏态设备,偏态设备为多个同层级网络设备中的质差率为离群值的网络设备(例如,质差率>质差率均值时,该质差率称为离群值),上述偏态设备即问题设备。

若变异系数<=变异系数阈值,认为均匀分布(非偏态分布);若质差率均值偏高(例如,质差率均值大于网络设备的质差率阈值),则确定上游网络设备中存在疑似问题设备。

可选地,可以采取与分析网络设备的质差率的分布形态相同的方式,分析同层级设备内部单元的质差率的分布形态,从而确定问题单元。

如图10(a)中所示为图9中疑似问题olt4的各pon板质差率分布示意图,经计算,质差率的变异系数超出变异系数阈值(例如0.4),确认疑似问题olt4的各pon板质差率为偏态分布。且2号pon板(gpon0/2)的质差率(87%)远远超出质差率均值(12.1%),2号pon板(gpon0/2)为偏态pon板。下一步中进一步分析2号pon板的在线用户数。

步骤c,分析问题设备的在线用户数,将问题设备的在线用户数,与所有同层网络设备的在线用户数比较,比如,计算所有同层网络设备的在线用户数分布的置信下界,进一步定界问题设备。置信下界的计算方式如下:

其中,mean是同层网络设备的在线用户数的平均数,confidence是置信区间对应的关键值(即当检验统计量为标准正态分布时对应的关键值)。例如,示例中,80%置信区间对应的confidence值为1.28。

若网络设备的在线用户数不低于置信下界,则认为在线用户数处于正常水平。

否则,在线用户数太少,排除问题设备,即步骤b中定界的问题设备,步骤c中可以根据在线用户数重新确认这些问题设备为正常设备。

可选地,还可以分析问题单元的在线用户数,将问题单元的在线用户数,与所有同层设备内部单元的在线用户数比较,比如,计算所有同层设备内部单元的在线用户数分布的置信下界,进一步定界问题单元。置信下界的计算方式如下:

其中,mean是同层设备内部单元的平均数,confidence是置信区间对应的关键值(即当检验统计量为标准正态分布时对应的关键值)。例如,示例中,80%置信区间对应的confidence值为1.28。

若其在线用户数不低于置信下界,则认为在线用户数处于正常水平。

否则,在线用户数太少,排除问题单元,即步骤b中定界的问题单元,步骤c中可以根据在线用户数重新确认这些问题单元为正常单元。

如图10(b)中所示为图9中疑似问题olt4的各pon板在线用户数分布示意图,上一步中发现2号pon板为偏态pon板,即问题单元,进一步分析其在线用户数(33),高于同层级pon板在线用户数的置信下界(80%置信度所对应的置信下界为21.71),确认2号pon板在线用户数正常,为偏态pon板,即为问题单元。

步骤d,分析步骤c确认的问题设备的下层设备的质差率的分布形态,若均匀分布且偏高,则进一步确认该问题设备,可进一步分析其下层设备的质差行为相似性。或分析步骤c确认的问题单元的质差率的分布形态,若均匀分布且偏高,则进一步确认该问题单元,可进一步分析其下层单元的质差行为相似性。

本发明实施例中,偏态设备可以理解为问题设备,偏态单元可以理解为问题单元。

图11(a)示例图10(a)中2号pon板为偏态pon板;图11(b)为2号pon板的各pon口质差率分布图;图11(c)为2号pon板的各pon口质差行为相关度矩阵示例(颜色越深,数值越大,相似性越高)。

如图11(b)所示,示例中进一步分析2号pon板的各pon口质差率,计算其变异系数为0.07,未超出变异系数阈值(例如0.4),确认各pon口质差率分布均匀。各pon口整体的质差率均值(92.7%)远远超出质差率阈值(10%),确定各pon口的质差率均匀分布且偏高,2号pon板为偏态pon板。需进一步分析各pon口质差行为相似性,若各pon口质差行为相似,则可以确定2号pon板有问题,引起各pon口都有问题,2号pon板为故障pon板,即问题单元的下层单元的质差行为相似,可进一步确定该问题单元为故障单元。

步骤5),对偏态设备的子节点(下层设备或下层用户设备)进行相似聚合度分析,进一步确认故障设备。可选地,还可以对偏态单元的子节点(下层单元或下层用户设备)进行相似聚合度分析,进一步确认故障单元。相似性定界分析能实现两种功能:i)对单个偏态设备或偏态单元的子节点,通过数据挖掘等算法进行相似聚合度分析,用于进一步确认故障设备或故障单元:若相似聚合度较高(例如大于一定阈值),则表示其所连子节点的质差行为基本都相似,则确认识别出的问题设备为故障设备或问题单元为故障单元;ii)对多个偏态设备或偏态单元的子节点进行相似聚合度分析,分析相似质差行为的占比,若相似聚合度较高(例如大于一定阈值)的类中,各偏态设备或偏态单元中的相似子节点占比均较高(例如大于50%),则可定界网元局部故障导致的部分单元或用户质差。例如跨单板问题、跨单板局部端口问题。具体分析可结合相关系数、数据挖掘聚类算法(例如dbscan聚类算法)等,计算偏态设备或偏态单元下各对象的相似聚合度。本示例中所分析的步骤如下:

步骤a,计算各对象间,质差率的相关系数,得到相关度矩阵。相关系数计算公式:其中,cov(x,y)为协方差,var(x)、var(y)分别为x和y的方差。

步骤b,对相关度矩阵,基于相关系数>=一定值(例如0.3:中度或高度相关),结合dbscan等数据挖掘聚类算法,得到分别含有相似对象的各类。

步骤c,计算各类的占比=类中的对象总数/总对象数。

例如,总对象数为10,步骤b通过聚类算法得到2个类。一个类中的对象总数为6,则该类的占比为60%;另一个类中的对象总数为4,则该类的占比为40%。将各类中最大的占比确定为相似聚合度。

步骤d,判断相似聚合度是否大于一定阈值,如80%。

如图11(c)所示,为2号pon板各pon口质差行为相关度矩阵,各pon口质差行为两两相关,结合聚类等算法,计算相似聚合度为100%,超出相似聚合度阈值(80%),确认2号pon板有问题,最终故障定界到2号pon板。

步骤6),实时结合均衡偏态与相似性定界模块的结果,确定是否存在异常,若存在,如设备异常,或设备局部可维护单元如单板-子卡-端口-链路级异常,则进行告警。本示例中,2号pon板确认异常,进行告警。

本发明实施例中,利用用户的体验数据,通过拓扑维度层层计算qoe体验指标,能反映整体的用户体验水平,提高故障定界的准确性;通过分布特征、相似聚合度等多种智能方法,自动定界故障,可以无需人工配置阈值,准确度高;可实时监测汇聚后的体验分布情况,定界故障;可用于设备级的故障定界,也可用于设备局部单板-子卡-端口-链路级的故障定界。

图12为本发明实施例提供的一种故障定界设备的结构示意图,该设备用于执行本发明实施例提供的智能群障定界方法,相应的特征和描述可参见上述方法相关的内容,此实施例不再赘述。该设备包括:

数据监控获取模块1201,用于监测iptv的用户体验数据、网络拓扑数据和资管数据;

数据汇聚生成模块1202,用于根据所述数据监控获取模块1201监测的所述用户体验数据、所述网络拓扑数据和所述资管数据,按照设备-单板-子卡-端口-链路层级,根据qoe体验指标及所述qoe体验指标对应的指标算法,确定各层级下的所述qoe体验指标;

疑似问题设备监测筛选模块1203,用于根据所述数据汇聚生成模块1202确定的设备层级下的所述qoe体验指标和设备筛选阈值,筛选出至少一个疑似问题设备;

均衡偏态定界模块1204,用于确定所述疑似问题设备监测筛选模块1203筛选出的每个所述疑似问题设备的拓扑下游和/或同层级的设备的设备层级下的所述qoe体验指标的第一分布特征值,根据所述第一分布特征值与均衡偏态阈值的大小关系,初步确定所述疑似问题设备为问题设备或初步确定所述疑似问题设备的上游设备为问题设备;以及确定每个所述问题设备的设备内部单元各层级的所述qoe体验指标的第二分布特征值,根据所述第二分布特征值与所述均衡偏态阈值的大小关系,定界每个所述问题设备的至少一个问题设备内部单元。

可选地,该设备还包括:

相似性定界模块1205,在所述均衡偏态定界模块1204定界问题设备或问题设备内部单元之后,分析每个所述问题设备的多个下层设备的第一相似聚合度,以及每个所述问题设备内部单元的多个下层单元的第二相似聚合度,最终确定所述问题设备和所述问题设备内部单元是否发生故障;和/或,分析多个所述问题设备内部单元的多个下层单元的第三相似聚合度,最终确定多个所述问题设备内部单元是否发生故障。

可以理解的是,在故障定界完成后,还可以进行设备或设备内部单元异常告警。

在一个示例中,所述均衡偏态定界模块1204,具体用于确定每个所述疑似问题设备的同层级的设备的设备层级下的所述qoe体验指标的第一分布特征值,当所述第一分布特征值大于所述均衡偏态阈值时,初步确定所述疑似问题设备的同层级的设备中的偏态设备为问题设备;当所述第一分布特征值小于或等于所述均衡偏态阈值时,初步确定所述疑似问题设备的同层级的设备中不存在问题设备;以及确定每个所述问题设备的设备内部单元各层级的所述qoe体验指标的第二分布特征值,当所述第二分布特征值大于所述均衡偏态阈值时,初步确定所述问题设备的设备内部单元各层级中的偏态设备内部单元为问题设备内部单元;当所述第二分布特征值小于或等于所述均衡偏态阈值时,初步确定所述问题设备的设备内部单元各层级中不存在问题设备内部单元。

在一个示例中,所述相似性定界模块1205,具体用于确定每个所述问题设备的多个下层设备的第一相似聚合度,若所述第一相似聚合度大于相似聚合度阈值的类的占比大于预设占比,则最终确定所述问题设备发生故障;以及确定每个所述问题设备内部单元的多个下层单元的第二相似聚合度,若所述第二相似聚合度大于所述相似聚合度阈值的类的占比大于预设占比,则最终确定所述问题设备内部单元发生故障;和/或,确定多个所述问题设备内部单元的多个下层单元的第三相似聚合度,若所述第三相似聚合度大于所述相似聚合度阈值的类的占比大于预设占比,则最终确定多个所述问题设备内部单元发生故障。

在一个示例中,所述用户体验数据包括用户观看视频主观体验的客观评价vmos、卡顿时长、卡顿占比、卡顿频次、花屏时长占比、花屏次数、花屏面积占比、视频质量切换次数和视频质量质差占比中的至少一项;所述网络拓扑数据包括现网的拓扑连接关系或业务路径;所述资管数据包括用户设备与各网络设备及各端口的连接关系;所述qoe体验指标为质差率;

所述质差率对应的指标算法为质差率=质差用户总数/总用户数,其中,根据所述用户体验数据与体验阈值的大小关系,确定所述用户体验数据对应的用户是否为质差用户。

在一个示例中,数据监控获取模块1201、疑似问题设备监测筛选模块1203、均衡偏态定界模块1204和相似性定界模块1205均可以提供输入接口,用于配置算法、参数等信息。

数据监控获取模块1201:提供输入接口,包括用户体验指标和网络拓扑、资管数据收集,以及配置的qoe体验指标(例如vmos,卡顿时长占比等一种或多种表征用户体验的指标),和对应的指标算法,如质差率,并将配置信息保存到数据库或配置文件中。

数据汇聚生成模块1202:根据体验数据,按拓扑或业务路径,将质差率按设备-单板-子卡-端口-链路级层层汇聚,计算各层下的总体用户体验水平。

疑似问题设备监测筛选模块1203:通过同类设备质差率等阈值学习,筛选出疑似问题设备,以便进一步对其定界分析。

均衡偏态定界模块1204:对于筛选出的疑似问题设备,对其拓扑上下游以及设备内部单元各层级的质差率、在线用户数等分布特征进行统计分析,根据其均衡偏态的分布形态,初步定界问题设备或问题单元。

相似性定界模块1205:对均衡偏态定界出的疑似故障网元或局部故障单元的子节点(下层设备或单元或用户)进行相似聚合度分析,进一步确认故障,并定界网元局部故障导致的部分单元或用户质差。相似性定界模块能实现两种功能:i)对单个偏态设备或偏态单元的子节点,通过数据挖掘等算法进行相似聚合度分析,用于进一步故障确认:若相似聚合度较高(例如大于一定阈值),则表示其所连子节点的质差行为基本都相似,则确认均衡偏态定界模块识别出的问题设备为故障设备或问题单元为故障单元;ii)对多个偏态设备或偏态单元的子节点进行相似聚合度分析,分析相似质差行为的占比,若相似聚合度较高(例如大于一定阈值)的类中,各偏态设备或单元中的相似子节点占比均较高(例如大于50%),则可定界网元局部故障导致的部分单元或用户质差。例如跨单板问题、跨单板局部端口问题。

设备或设备内部单元异常告警:质差定界系统实时结合均衡偏态与相似性定界模块的结果,确定是否存在异常,若存在,如设备异常,或设备局部可维护单元如单板-子卡-端口-链路级异常,则进行告警。

基于图12所示的设备结构,图13为本发明实施例提供的各模块的交互示意图。参照图13,其中,标*的为可以进行配置的操作,标数字序号的为各模块完成的操作。各模块完成的操作描述如下:

步骤1301,根据监测的用户体验数据,以及网络拓扑数据、资管数据,配置qoe体验指标,及对应的指标算法,例如,质差率。

本发明实施例中,可以先配置qoe体验指标,及对应的指标算法,再进行监测用户体验数据,以及网络拓扑数据、资管数据;或者,先进行监测用户体验数据,以及网络拓扑数据、资管数据,再根据监测的用户体验数据以及网络拓扑数据、资管数据,配置qoe体验指标,及对应的指标算法。

步骤1302,根据用户体验数据,按拓扑路径、设备-板-口级层层计算质差率,确定各层下的总体用户体验水平。

步骤1303,配置设备筛选阈值(例如质差率阈值等),通过同类设备质差率等阈值学习,筛选出疑似问题设备,以便进一步定界分析。

步骤1304,配置均衡偏态阈值(例如变异系数阈值、质差率阈值等),对疑似问题设备拓扑上下游以及设备内部单元各层级的质差率等分布特征进行分析,定界问题设备或问题单元。

步骤1305,配置相似性定界模块阈值(例如相似聚合度算法相关参数、阈值等),通过分析相似聚合度,进一步定界网元局部故障导致的部分单元或用户质差。

可以理解的是,故障定界设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

本发明实施例可以根据上述方法示例对设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本发明实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

在采用集成的模块的情况下,图14示出了上述实施例中所涉及的故障定界设备的一种可能的结构示意图。故障定界设备1400包括:处理模块1402和通信模块1403。处理模块1402用于对设备的动作进行控制管理,例如,处理模块1402用于支持设备执行图2、图3a至图3d、图4a至图4c、图5a至图5d、图6a至图6c,和/或用于本文所描述的技术的其它过程。通信模块1403用于支持设备与其他网络实体的通信,例如与网络设备之间的通信。故障定界设备还可以包括存储模块1401,用于存储设备的程序代码和数据。

与图12相对应,处理模块1402可以用于实现数据监控获取模块1201、数据汇聚生成模块1202、疑似问题设备监测筛选模块1203、均衡偏态定界模块1204和相似性定界模块1205中一项或多项模块的功能。

其中,处理模块1402可以是处理器或控制器,例如可以是中央处理器(centralprocessingunit,cpu),通用处理器,数字信号处理器(digitalsignalprocessor,dsp),专用集成电路(application-specificintegratedcircuit,asic),现场可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等等。通信模块1403可以是通信接口、收发器、收发电路等,其中,通信接口是统称,可以包括一个或多个接口。存储模块1401可以是存储器。

本发明实施例中,通过处理模块1402控制通信模块1403获取视频业务的用户体验数据、网络拓扑数据和资管数据,从而可以确定网络设备的qoe体验指标,由于网络设备的qoe体验指标根据该网络设备服务的用户设备的用户体验数据确定,而不是像网络设备的qos指标直接通过获取网络设备的参数确定,因此这种方法相较于监控qos指标来进行故障定界的方法,更能反映用户体验,准确性高。

当处理模块1402为处理器,通信模块1403为通信接口,存储模块1401为存储器时,本发明实施例所涉及的故障定界设备可以为图15所示的设备。

参阅图15所示,该故障定界设备1500包括:处理器1502、通信接口1503、存储器1501。其中,通信接口1503、处理器1502以及存储器1501可以通过通信连接相互连接。

结合本发明公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于随机存取存储器(randomaccessmemory,ram)、闪存、只读存储器(readonlymemory,rom)、可擦除可编程只读存储器(erasableprogrammablerom,eprom)、电可擦可编程只读存储器(electricallyeprom,eeprom)、寄存器、硬盘、移动硬盘、只读光盘(cd-rom)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于asic中。另外,该asic可以位于核心网接口设备中。当然,处理器和存储介质也可以作为分立组件存在于核心网接口设备中。

本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1