基于SLA实现5G设备CPE故障告警实时上报的方法与流程

文档序号:27133558发布日期:2021-10-29 22:26阅读:521来源:国知局
基于SLA实现5G设备CPE故障告警实时上报的方法与流程
基于sla实现5g设备cpe故障告警实时上报的方法
技术领域
1.本发明涉及一种基于sla实现5g设备cpe故障告警实时上报的方法。


背景技术:

2.由于5g无线网络技术刚起步,运营商管理5g无线网络设备cpe时通常采用下列方式:1)依赖人工监控端到端5g无线网络设备:运营商可以看到cpe模式、ar模式设备网络状态以及设备参数,可直观进行基本的在线离线监控,但设备关键运行指标信息需依靠人工触发检测测试后获知;2)投诉处理中被动发现故障问题:对于5g无线网络设备而言,设备故障是客观存在,随机发生的,5g网络运维和投诉处理中,收到用户投诉工单后逐一对5g无线网络设备问题分析定位,传统的故障定位主要依赖于人工处理。
3.现有技术存在以下缺点:1)缺乏可衡量手段:当客户设备出现故障并出现争议的时候,需要有相对客观的衡量方法,同时能够让运营商自证清白。于是产生sla指标衡量体系,sla指标体系是一种合同契约的要求,sla指标泛指(速率、时延、丢包、可用性等),对于接入的5g无线网络设备cpe目前没有通用手段可以实时监控周期行指标运行数据;2)缺乏实时上报故障告警功能,自动化程度低:当前5g无线网络终端通过人工触发检测测试获知每个无线网络设备的关键运行指标信息,人工对比指标参照值判断设备运行状态如何,当设备出现故障问题时,相关受影响的关键运行指标信息不能及时获知,导致维护时间长,效率低,客户满意度差。


技术实现要素:

4.针对现有技术中存在的问题,本发明的目的在于提供一种基于sla实现5g设备cpe故障告警实时上报的方法的技术方案。
5.所述的基于sla实现5g设备cpe故障告警实时上报的方法,其特征在于包括sla指标体系选择和告警实时上报监控过程,(1)sla指标体系包括:1)服务可用性服务可用性指cpe无线网络设备在面对异常时能够提供正常网络服务的能力,即服务的效果、效能和效率,体系中故障告警标识为丢包率检测值大于服务可用性丢包率阈值即服务可用性中断告警,测量对象包括cpe模式和ar模式;2)时延和丢包率时延指cpe无线网络设备在访问网络另一端的ip地址得到响应的所需要的时间,体系中故障告警标识分为各个目的方向ip上的时延大于阈值告警即时延告警;丢包率指cpe无线网络设备在访问网络另一端的ip地址得到响应时,一个或多个数据包的数据无法透过网上到达目的地的占比,体系中故障告警标识为各个目的方向ip上的丢包率大于阈值告警即丢包率告警,测量对象包括cpe模式和ar模式;3)测速速率
测速速率指cpe无线网络设备在收到测速指令进行上传和下载文件时技术上所能达到的最大理论速率值,速率越高,上传和下载的越快,体系中故障告警标识按闲忙时时间段分为上行速率小于阈值告警和下行速率小于阈值告警即上行速率告警、下行速率告警,测量对象不区分cpe模式和ar模式;(2)告警实时上报监控过程包括:1)数据解析,包括cpe模式数据解析和ar模式数据解析;2)告警上报,包括cpe模式告警上报和ar模式告警上报;3)告警监控,包括周期性指标监控和告警监控。
6.所述的基于sla实现5g设备cpe故障告警实时上报的方法,其特征在于:服务可用性中断告警上报监控过程如下:步骤一:数据解析cpe模式:(1)cep模块接收用户表中所有属于cpe模式的用户号码所对应的用户面xdr单据探针数据,获取时间、用户号码、上行流量、下行流量这些数据信息;(2)cep模块内保存每个用户号码对应提取的数据信息,若超过5分钟cep模块再没收到这个用户的流量数据信息,此用户数据就会输出加载到pt数据库的疑似故障用户列表内;(3)seq的web模块定时间隔5分钟会扫描疑似故障用户列表,获取到所有入表的用户号码多线程并行判断检测条件;(4)对所有通过检测条件的用户号码去重后关联用户表获取对应的cpe设备号码、随机获取一个目的方向ip;(5)用每个cpe设备号码和目的方向ip向dsi发送所属的ipping检测指令请求;(6)dsi接收到请求后立即转发请求到ltm;(7)ltm识别请求的cpe设备号码,触发cpe设备提交ipping检测测试;(8)web模块30秒后会再次用cpe设备号码向dsi发送所属的ipping result检测指令请求,通过dsi转发到ltm,ltm触发cpe设备提交ipping result检测测试;(9)cpe设备会将ipping检测测试结果反馈给ltm;(10)ltm再将反馈信息立即返回给dsi;(11)dsi接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到seq的web模块,一份输出到cep模块,一份输出到spark模块;(12)web模块接收后会记录相关日志并更新此设备对应用户的疑似故障用户列表中的检测时间,cep模块接收后进行告警上报步骤,spark模块接收后进行告警监控步骤;ar模式:(1)cep模块接收用户表中所有属于ar模式的用户号码对应的7张用户面xdr单据探针数据,获取时间、用户号码、上行流量、下行流量这些数据信息;(2)cep模块内保存每个用户号码对应提取的数据信息,若超过5分钟cep模块再没收到这个用户的流量数据信息,则进行ar模式下告警上报步骤;步骤二:告警上报cpe模式:
(1)cep模块实时解析流入的合规格式数据,获取5g设备参数信息、主要包括企业名称、用户号码、cpe设备号码、丢包率检测值、服务可用性丢包率阈值、目的方向ip、服务小区电平值、服务小区质量值这些数据信息;(2)用数据中的丢包率检测值与服务可用性丢包率阈值字段作对比,若存在同一用户号码的不同目的方向ip数据,则以30秒内所有目的方向ip数据中最小丢包率检测值为准;(3)若丢包率检测值大于服务可用性丢包率阈值,则说明此cpe设备链路异常,同时记录链路异常起始时间点为time1;(4)cep模块保存此设备链路异常信息,并同时向pt数据库加载一条告警标识信息供告警监控使用;(5)cep模块此后若再一次收到同一cpe设备号码的合规格式数据,并且丢包率检测值小于等于服务可用性丢包率阈值,则说明此cpe设备链路异常已经恢复;(6)因为cep模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为time2并用用户号码关联为一条链路异常恢复信息;(7)cep模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向pt数据库加载一条告警恢复标识信息供告警监控使用;(8)此cpe设备往复继续执行上述告警上报过程;ar模式:(1)cep模块实时解析流入的用户流量数据信息,关联用户表获取5g设备参数信息、主要包括企业名称、用户号码、cpe设备号码这些数据信息;(2)同时记录链路异常起始时间点为time1;(3)cep模块保存此设备链路异常信息,并同时向pt数据库加载一条服务可用性中断告警标识信息供告警监控使用;(4)cep模块此后若再一次收到同一用户号码的流量数据信息,则说明此用户号码对应的cpe设备链路异常已经恢复;(5)因为cep模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为time2并用用户号码关联为一条链路异常恢复信息;(6)cep模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向pt数据库加载一条服务可用性中断告警恢复标识信息供告警监控使用;(7)由于流量数据信息不包含服务小区电平值、服务小区质量值,seq的web模块定时间隔3分钟扫描pt数据库中的属于服务可用性指标、ar模式的cpe设备告警信息,用这些告警信息所属的cpe设备号码请求无线数据接口获取服务小区电平值、服务小区质量值,用此更新cpe设备告警信息填入服务小区电平值、服务小区质量值;同时对有time2告警恢复时间的告警恢复数据用对应告警数据信息的服务小区电平值、服务小区质量值反填更新到告警恢复数据中;(8)此cpe设备往复继续执行上述告警上报过程;步骤三:告警监控周期性指标监控:(1)seq的web模块定时间隔3分钟重新查询pt数据库获取此cpe设备服务可用性中
断的时间总和;(2)按照可选月粒度、年粒度计算出服务可用性中断占比;(3)获取最新计算后的结果数据实现实时监控;告警监控:(1)seq的web模块定时间隔3分钟重新查询pt数据库最新服务可用性中断告警数据及服务可用性中断告警恢复数据;(2)对查询到标识的服务可用性中断告警数据以红色高亮字体优先表格展示;(3)对查询到标识的服务可用性中断告警恢复数据按历史告警存储;(4)维护人员可以通过服务可用性中断告警信息或者服务可用性中断告警恢复信息的定界按钮进入到故障树系统查询具体故障根因。
7.所述的基于sla实现5g设备cpe故障告警实时上报的方法,其特征在于所述检测条件如下:a、先获取此用户在疑似故障用户列表中的检测时间,若检测时间为空就视为通过检测条件;若不为空继续b,其中新入表用户检测时间为空,之前检测过但非成功的用户检测时间不为空;b、从用户工作时间表里获取此用户对应星期的当天工作时间分段,若用户工作时间段不为空,那么当前时间在工作时间分段范围内就视为通过检测条件;若不在工作时间分段范围内,用当前时间减去检测时间如果大于1小时就视为通过检测条件,否则就视为没有通过检测条件;若用户工作时间表里没有此用户或者此用户对应星期的当天工作时间段为空,则用当前时间减去检测时间如果大于1小时就视为通过检测条件,否则就视为没有通过检测条件。
8.所述的基于sla实现5g设备cpe故障告警实时上报的方法,其特征在于:时延和丢包率故障告警上报监控过程如下:步骤一:数据解析cpe模式:(1)seq的web模块定时间隔1小时获取用户表中所有属于cpe模式的cpe设备号码、目的方向ip;(2)用每个cpe设备号码多线程并行向dsi发送每个cpe设备所属的ipping检测指令请求,若一个cpe设备号码配置了多个目的方向ip,则多个目的方向ipping检测指令请求依次同步执行;(3)dsi接收到请求后立即转发请求到ltm;(4)ltm识别请求的cpe设备号码,触发cpe设备提交ipping检测测试;(5)web模块30秒后会再次用cpe设备号码向dsi发送所属的ipping result检测指令请求,通过dsi转发到ltm,ltm触发cpe设备提交ipping result检测测试;(6)cpe设备会将ipping检测测试结果反馈给ltm;(7)ltm将反馈信息立即返回给dsi;(8)dsi接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到seq的web模块,一份输出到cep模块,一份输出到spark模块;(9)web模块接收后会记录相关日志,cep模块接收后进行告警上报步骤,spark模
块接收后进行告警监控步骤;ar模式:(1)利用ar的nqa特性定时间隔5分钟对用户表中所有属于ar模式的cpe设备号码触发ipping检测测试;(2)cpe设备完成ipping检测测试后反馈给ar;(3)ar将ipping结果信息通过sftp协议上传到dsi;(4)dsi接收到结果信息后解析为合规格式数据复制为二份,一份输出到cep模块,一份输出到spark模块;(5)cep模块接收后进行ar模式告警上报步骤,spark模块接收后进行告警监控步骤;步骤二:告警上报cpe模式:(1)cep模块实时解析流入的合规格式数据,获取5g设备参数信息、主要包括企业名称、用户号码、cpe设备号码、时延检测值、时延阈值、丢包率检测值、丢包率阈值、目的方向ip、服务小区电平值、服务小区质量值这些数据信息;(2)用数据中的时延检测值、丢包率检测值与时延阈值、丢包率阈值字段作对比,若存在同一用户号码的不同目的方向ip数据,则以30秒内所有目的方向ip数据中最小时延检测值或最小丢包率检测值为准;(3)若时延检测值大于时延阈值或者丢包率检测值大于丢包率阈值,则说明此cpe设备链路异常,同时记录链路异常起始时间点为time1;(4)cep模块保存此设备链路异常信息,并同时向pt数据库加载一条时延或丢包率告警标识信息供告警监控使用;(5)cep模块此后若再一次收到同一用户号码的合规格式数据,并且时延检测值小于等于时延阈值或者丢包率检测值小于等于丢包率阈值,则说明此cpe设备链路异常已经恢复;(6)因为cep模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为time2并用用户号码和目的方向ip关联为一条链路异常恢复信息,包含time1告警时间,time2告警恢复时间;(7)cep模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向pt数据库加载一条时延或丢包率告警恢复标识信息供告警监控使用;(8)此cpe设备往复继续执行上述告警上报过程;ar模式:ar模式过程与cpe模式一致;步骤三:告警监控周期性指标监控:(1)spark模块定时间隔1小时对流入的合规格式数据进行解析获取5g设备参数信息、主要包括企业名称、用户号码、cpe设备号码、时延检测值、时延阈值、丢包率检测值、丢包率阈值这些数据信息;(2)将同一用户号码的时延检测值、丢包率检测值按平均数公式计算汇聚为时延
平均值、丢包率平均值;(3)将计算后的结果采集加载到iq数据库;(4)seq的web模块定时间隔3分钟重新读取iq数据库最近1小时时延或丢包率数据实现实时监控;告警监控:(1)seq的web模块定时间隔3分钟重新查询pt数据库最新时延或丢包率告警数据及时延或丢包率告警恢复数据;(2)对查询到标识的时延或丢包率告警数据以红色高亮字体表格展示;(3)对查询到标识的时延或丢包率告警恢复数据按历史告警存储;(4)维护人员可以通过时延或丢包率告警信息或者时延或丢包率告警恢复信息进入到故障树系统查询具体故障根因。
9.所述的基于sla实现5g设备cpe故障告警实时上报的方法,其特征在于:速率上行和下行告警上报监控过程如下:步骤一:数据解析(1)seq的web模块定时间隔1小时按照用户工作时间表中闲时和忙时时间段获取用户表中所有待测速的cpe设备号码;(2)用每个cpe设备号码多线程并行向dsi发送每个cpe所属的upload上行速率检测指令和download下行速率检测指令请求,一个cpe设备上行和下行速率检测指令请求依次同步执行;(3)dsi接收到请求后立即转发请求到ltm;(4)ltm识别请求的cpe设备,触发cpe提交速率检测测试;(5)web模块30秒后会再次用cpe设备号码向dsi发送所属的result检测指令请求,通过dsi转发到ltm,ltm触发cpe设备提交result检测测试;(6)cpe设备会将速率检测测试结果反馈给ltm;(7)ltm将反馈信息立即返回给dsi;(8)dsi接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到seq的web模块,一份输出到cep模块,一份输出到spark模块;(9)web模块接收后会记录相关日志,cep模块接收后进行告警上报步骤,spark模块接收后进行告警监控步骤;步骤二:告警上报(1)cep模块实时解析流入的合规格式数据,获取5g设备参数信息、主要包括企业名称、用户号码、设备号码、上行速率检测值、下行速率检测值、上行速率阈值、下行速率阈值、服务小区电平值、服务小区质量值这些数据信息;(2)用数据中的上下行速率检测值与上下行速率阈值分别作对比;(3)若上行速率检测值小于上行速率阈值,则说明此cpe设备链路上行速率异常,同时记录链路异常起始时间点为time1;若下行速率检测值小于下行速率阈值,则说明此cpe设备链路下行速率异常,同时记录链路异常起始时间点为time1;(4)cep模块保存此设备链路异常信息,并同时向pt数据库加载一条速率告警信息供告警监控使用;
(5)cep模块此后若再一次收到同一cpe设备的合规格式数据,并且上行速率检测值大于等于上行速率阈值或者下行速率检测值大于等于下行速率阈值,则说明此cpe设备链路异常已经恢复;(6)因为cep模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为time2并用用户号码和上下行关联为一条链路异常恢复信息,包含time1告警时间,time2告警恢复时间;(7)cep模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向pt数据库加载一条速率告警恢复标识信息供告警监控使用;(8)此cpe设备往复继续执行上述告警上报过程;步骤三:告警监控周期性指标监控:(1)spark模块定时间隔1小时对流入的合规格式数据进行解析获取5g设备参数信息、主要包括企业名称、用户号码、设备号码、上行速率检测值、下行速率检测值、上行速率阈值、下行速率阈值这些数据信息;(2)将同一用户号码的上行速率检测值、下行速率检测值指标按平均数公式计算汇聚为上行速率检测平均值、下行速率检测平均值;(3)将计算后的结果采集加载到iq数据库;(4)seq的web模块定时间隔3分钟重新读取iq数据库最近1小时速率数据实现实时监控;告警监控:(1)seq的web模块定时间隔3分钟重新查询pt数据库最新速率告警数据及速率告警恢复数据;(2)对查询到标识的速率告警数据以红色高亮字体表格展示;(3)对查询到标识的速率告警恢复数据按历史告警存储;(4)维护人员可以通过点击速率告警信息或者速率告警恢复信息进入到故障树系统查询具体故障根因。
10.本发明为客户提供了一个可衡量的sla指标考核体系测量方法,sla指标体系从端侧(cpe、ar)到业务侧(服务器),基本覆盖全业务路径,可以灵活设置针对不同业务目的方向ip(海湾国家,欧美,远东等)的时延,丢包率指标阈值进行监控,通过端侧测速统计,同时在忙时和闲时两个时段测量,获取真实的管道最大带宽速率,实现多设备多层次实时监控;其次通过串联衔接seq、dsi、ltm、cpe等服务模块实现sla指标故障告警实时上报,配合使用故障树定界主动发现故障问题根因,从而提高故障定位的及时性、准确性和系统可靠性,提高产品竞争力,提升客户满意度。
具体实施方式
11.针对背景技术的现状,经过我司长期对一线的无线网络检测业务进行汇总分类研究,本发明为解决上述技术缺陷引起的问题,提出串联衔接服务模块,基于sla指标体系实现5g无线网络设备cpe故障告警实时上报的方案。
12.本发明的基于sla指标体系实现5g无线网络设备cpe故障告警实时上报的方法,包
括sla指标体系选择和告警实时上报监控过程。
13.本方案基于客户实际业务诉求,为此构建一套可供考核的sla指标考核体系,该sla指标体系包括三大指标类:1.服务可用性:这里服务可用性指cpe无线网络设备在面对异常时可以提供正常网络服务的能力,即服务的效果、效能和效率,本体系中故障告警标识为丢包率检测值大于服务可用性丢包率阈值即服务可用性中断告警;测量对象包括cpe模式和ar模式。
14.2.时延和丢包率(可配置多个目的方向ip):这里时延指cpe无线网络设备在访问网络另一端的ip地址得到响应的所需要的时间,本体系中故障告警标识分为各个目的方向ip上的时延大于阈值告警即时延告警;这里丢包率特指cpe无线网络设备在访问网络另一端的ip地址得到响应时,一个或多个数据包的数据无法透过网上到达目的地的占比,本体系中故障告警标识为各个目的方向ip上的丢包率大于阈值告警即丢包率告警;测量对象包括cpe模式和ar模式。
15.3.测速速率(上行和下行):这里测速速率指cpe无线网络设备在收到测速指令进行上传和下载文件时技术上所能达到的最大理论速率值,速率越高,上传和下载的越快,本体系中故障告警标识按闲忙时时间段分为上行速率小于阈值告警和下行速率小于阈值告警即上行速率告警、下行速率告警;测量对象不区分cpe模式和ar模式。
16.本发明定义一个cpe设备对应一个用户号码,通过串联衔接seq、dsi、ltm、cpe等服务模块实现sla指标故障告警实时上报,其中告警上报监控过程主要分为三大步骤,每个步骤分为俩个小类,具体如下:1.数据解析:cpe模式数据解析,ar模式数据解析2.告警上报:cpe模式告警上报,ar模式告警上报3.告警监控:周期性指标监控,告警监控服务可用性中断告警上报监控过程如下:步骤一:数据解析cpe模式:(1)cep模块接收用户表中所有属于cpe模式的用户号码所对应的7张用户面xdr单据探针数据,获取时间、用户号码、上行流量、下行流量等数据信息,7张用户面xdr单据探针数据包括:detail_ufdr_otherdetail_ufdr_http_browsingdetail_ufdr_emaildetail_ufdr_mmsdetail_ufdr_dnsdetail_ufdr_ftpdetail_ufdr_streaming(2)cep模块内保存每个用户号码对应提取的数据信息,若超过5分钟cep模块再没收到这个用户的流量数据信息(上行流量+下行流量= 0),此用户数据就会输出加载到pt数
据库的疑似故障用户列表内;(3)seq的web模块定时间隔5分钟会扫描疑似故障用户列表,获取到所有入表的用户号码多线程并行判断检测条件;检测条件为:a、先获取此用户在疑似故障用户列表中的检测时间,若检测时间为空就视为通过检测条件;若不为空进入步骤b,(新入表用户检测时间为空,之前检测过但非成功的用户检测时间不为空);b、从用户工作时间表里获取此用户对应星期的当天工作时间分段(如9点

12点,14点

18点),若用户工作时间段不为空,那么当前时间在工作时间分段范围内就视为通过检测条件;若不在工作时间分段范围内,用当前时间减去检测时间如果大于1小时就视为通过检测条件,否则就视为没有通过检测条件;若用户工作时间表里没有此用户或者此用户对应星期的当天工作时间段为空,则用当前时间减去检测时间如果大于1小时就视为通过检测条件,否则就视为没有通过检测条件;(4)对所有通过检测条件的用户号码去重后关联用户表获取对应的cpe设备号码、随机获取一个目的方向ip;(5)用每个cpe设备号码和目的方向ip向dsi发送所属的ipping检测指令请求;(6)dsi接收到请求后立即转发请求到ltm;(7)ltm识别请求的cpe设备号码,触发cpe设备提交ipping检测测试;(8)web模块30秒后会再次用cpe设备号码向dsi发送所属的ipping result检测指令请求,通过dsi转发到ltm,ltm触发cpe设备提交ipping result检测测试;(9)cpe设备会将ipping检测测试结果反馈给ltm;(10)ltm再将反馈信息立即返回给dsi;(11)dsi接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到seq的web模块,一份输出到cep模块,一份输出到spark模块;(12)web模块接收后会记录相关日志并更新此设备对应用户的疑似故障用户列表中的检测时间,cep模块接收后进行告警上报步骤,spark模块接收后进行告警监控步骤;备注:cpe设备的ipping检测测试最长时间为2分钟,若(11)接收到非完成检测状态的结果信息,则web模块会定时间隔30秒重复上述(8)

(11)过程,直到接收到完成检测状态的结果信息后为止,完成检测状态的结果信息内容包括成功、失败、超时。
17.ar模式:(1)cep模块接收用户表中所有属于ar模式的用户号码对应的7张用户面xdr单据探针数据,获取时间、用户号码、上行流量、下行流量等数据信息;7张用户面xdr单据探针数据包括:detail_ufdr_otherdetail_ufdr_http_browsingdetail_ufdr_emaildetail_ufdr_mmsdetail_ufdr_dnsdetail_ufdr_ftpdetail_ufdr_streaming
(2)cep模块内保存每个用户号码对应提取的数据信息,若超过5分钟cep模块再没收到这个用户的流量数据信息(上行流量+下行流量= 0),则进行ar模式下告警上报步骤。
18.步骤二:告警上报cpe模式:(1)cep模块实时解析流入的合规格式数据,获取5g设备参数信息、主要包括企业名称、用户号码、cpe设备号码、丢包率检测值、服务可用性丢包率阈值、目的方向ip、服务小区电平值、服务小区质量值等数据信息;(2)用数据中的丢包率检测值与服务可用性丢包率阈值字段作对比,若存在同一用户号码的不同目的方向ip数据,则以30秒内所有目的方向ip数据中最小丢包率检测值为准;(3)若丢包率检测值大于服务可用性丢包率阈值,则说明此cpe设备链路异常,同时记录链路异常起始时间点为time1;(4)cep模块保存此设备链路异常信息,并同时向pt数据库加载一条告警标识信息供告警监控使用;(5)cep模块此后若再一次收到同一cpe设备号码的合规格式数据,并且丢包率检测值小于等于服务可用性丢包率阈值,则说明此cpe设备链路异常已经恢复;(6)因为cep模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为time2并用用户号码关联为一条链路异常恢复信息(包含time1告警时间,time2告警恢复时间);(7)cep模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向pt数据库加载一条告警恢复标识信息供告警监控使用;(8)此cpe设备往复继续执行上述告警上报过程。
19.ar模式:(1)cep模块实时解析流入的用户流量数据信息,关联用户表获取5g设备参数信息、主要包括企业名称、用户号码、cpe设备号码等数据信息;(2)同时记录链路异常起始时间点为time1;(3)cep模块保存此设备链路异常信息,并同时向pt数据库加载一条服务可用性中断告警标识信息供告警监控使用;(4)cep模块此后若再一次收到同一用户号码的流量数据信息,则说明此用户号码对应的cpe设备链路异常已经恢复;(5)因为cep模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为time2并用用户号码关联为一条链路异常恢复信息(包含time1告警时间,time2告警恢复时间);(6)cep模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向pt数据库加载一条服务可用性中断告警恢复标识信息供告警监控使用;(7)由于流量数据信息(非合规格式数据)不包含服务小区电平值、服务小区质量值,seq的web模块定时间隔3分钟扫描pt数据库中的属于服务可用性指标、ar模式的cpe设备告警信息(time1告警时间在当前时间15分钟内的),用这些告警信息所属的cpe设备号码请求无线数据接口获取服务小区电平值、服务小区质量值等,用此更新cpe设备告警信息填
入服务小区电平值、服务小区质量值;同时对有time2告警恢复时间的告警恢复数据用对应告警数据信息的服务小区电平值、服务小区质量值反填更新到告警恢复数据中;(8)此cpe设备往复继续执行上述告警上报过程。
20.步骤三:告警监控周期性指标监控:(1)seq的web模块定时间隔3分钟重新查询pt数据库获取此cpe设备服务可用性中断的时间总和(包含处于告警未恢复到当前的时间);(2)按照可选月粒度((全月总时长
ꢀ‑ꢀ
当前服务可用性中断时间总和)/全月总时长),年粒度((全年总时长
ꢀ‑ꢀ
当前服务可用性中断时间总和)/全年总时长)计算出服务可用性中断占比;(3)获取最新计算后的结果数据实现实时监控;告警监控:(1)seq的web模块定时间隔3分钟重新查询pt数据库最新服务可用性中断告警数据及服务可用性中断告警恢复数据;(2)对查询到标识的服务可用性中断告警数据以红色高亮字体优先表格展示;(3)对查询到标识的服务可用性中断告警恢复数据按历史告警存储;(4)维护人员可以通过服务可用性中断告警信息或者服务可用性中断告警恢复信息的定界按钮进入到故障树系统查询具体故障根因。
21.时延和丢包率故障告警上报监控过程如下:步骤一:数据解析cpe模式:(1)seq的web模块定时间隔1小时获取用户表中所有属于cpe模式的cpe设备号码、目的方向ip;(2)用每个cpe设备号码多线程并行向dsi发送每个cpe设备所属的ipping检测指令请求(若一个cpe设备号码配置了多个目的方向ip,则多个目的方向ipping检测指令请求依次同步执行);(3)dsi接收到请求后立即转发请求到ltm;(4)ltm识别请求的cpe设备号码,触发cpe设备提交ipping检测测试;(5)web模块30秒后会再次用cpe设备号码向dsi发送所属的ipping result检测指令请求,通过dsi转发到ltm,ltm触发cpe设备提交ipping result检测测试;(6)cpe设备会将ipping检测测试结果反馈给ltm;(7)ltm将反馈信息立即返回给dsi;(8)dsi接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到seq的web模块,一份输出到cep模块,一份输出到spark模块;(9)web模块接收后会记录相关日志,cep模块接收后进行告警上报步骤,spark模块接收后进行告警监控步骤;备注:cpe设备的ipping检测测试最长时间为2分钟,若(8)接收到非完成检测状态的结果信息,则web模块会定时间隔30秒重复上述(5)

(8)过程,直到接收到完成检测状态的结果信息后为止,完成检测状态的结果信息内容包括成功、失败、超时。
22.ar模式:(1)利用ar的nqa特性定时间隔5分钟对用户表中所有属于ar模式的cpe设备号码触发ipping检测测试;(2)cpe设备完成ipping检测测试后反馈给ar;(3)ar将ipping结果信息通过sftp协议上传到dsi;(4)dsi接收到结果信息后解析为合规格式数据复制为二份,一份输出到cep模块,一份输出到spark模块;(5)cep模块接收后进行ar模式告警上报步骤,spark模块接收后进行告警监控步骤。
23.步骤二:告警上报cpe模式:(1)cep模块实时解析流入的合规格式数据,获取5g设备参数信息、主要包括企业名称、用户号码、cpe设备号码、时延检测值、时延阈值、丢包率检测值、丢包率阈值、目的方向ip、服务小区电平值、服务小区质量值等数据信息;(2)用数据中的时延检测值、丢包率检测值与时延阈值、丢包率阈值字段作对比,若存在同一用户号码的不同目的方向ip数据,则以30秒内所有目的方向ip数据中最小时延检测值或最小丢包率检测值为准;(3)若时延检测值大于时延阈值或者丢包率检测值大于丢包率阈值,则说明此cpe设备链路异常,同时记录链路异常起始时间点为time1;(4)cep模块保存此设备链路异常信息,并同时向pt数据库加载一条时延或丢包率告警标识信息供告警监控使用;(5)cep模块此后若再一次收到同一用户号码的合规格式数据,并且时延检测值小于等于时延阈值或者丢包率检测值小于等于丢包率阈值,则说明此cpe设备链路异常已经恢复;(6)因为cep模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为time2并用用户号码和目的方向ip关联为一条链路异常恢复信息(包含time1告警时间,time2告警恢复时间);(7)cep模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向pt数据库加载一条时延或丢包率告警恢复标识信息供告警监控使用;(8)此cpe设备往复继续执行上述告警上报过程;ar模式:ar模式过程与cpe模式一致。
24.步骤三:告警监控周期性指标监控:(1)spark模块定时间隔1小时对流入的合规格式数据进行解析获取5g设备参数信息、主要包括企业名称、用户号码、cpe设备号码、时延检测值、时延阈值、丢包率检测值、丢包率阈值等数据信息;(2)将同一用户号码的时延检测值、丢包率检测值按平均数公式计算汇聚为时延平均值、丢包率平均值;
(3)将计算后的结果采集加载到iq数据库;(4)seq的web模块定时间隔3分钟重新读取iq数据库最近1小时时延或丢包率数据实现实时监控;告警监控:(1)seq的web模块定时间隔3分钟重新查询pt数据库最新时延或丢包率告警数据及时延或丢包率告警恢复数据;(2)对查询到标识的时延或丢包率告警数据以红色高亮字体表格展示;(3)对查询到标识的时延或丢包率告警恢复数据按历史告警存储;(4)维护人员可以通过时延或丢包率告警信息或者时延或丢包率告警恢复信息进入到故障树系统查询具体故障根因。
25.速率上行和下行告警上报监控过程如下:步骤一:数据解析(1)seq的web模块定时间隔1小时按照用户工作时间表中闲时和忙时时间段(如9

12,14

18)获取用户表中所有待测速的cpe设备号码;(2)用每个cpe设备号码多线程并行向dsi发送每个cpe所属的upload上行速率检测指令和download下行速率检测指令请求(一个cpe设备上行和下行速率检测指令请求依次同步执行);(3)dsi接收到请求后立即转发请求到ltm;(4)ltm识别请求的cpe设备,触发cpe提交速率检测测试;(5)web模块30秒后会再次用cpe设备号码向dsi发送所属的result检测指令请求,通过dsi转发到ltm,ltm触发cpe设备提交result检测测试;(6)cpe设备会将速率检测测试结果反馈给ltm;(7)ltm将反馈信息立即返回给dsi;(8)dsi接收到完成检测状态的结果信息后解析为合规格式数据复制为三份,一份输出到seq的web模块,一份输出到cep模块,一份输出到spark模块;(9)web模块接收后会记录相关日志,cep模块接收后进行告警上报步骤,spark模块接收后进行告警监控步骤;备注:cpe设备的速率检测测试最长时间上下行同为5分钟,若(8)接收到非完成检测状态的结果信息,则web模块会定时间隔30秒重复上述(5)

(8)过程,直到接收到完成检测状态的结果信息后为止。
26.步骤二:告警上报(1)cep模块实时解析流入的合规格式数据,获取5g设备参数信息、主要包括企业名称、用户号码、设备号码、上行速率检测值、下行速率检测值、上行速率阈值、下行速率阈值、服务小区电平值、服务小区质量值等数据信息;(2)用数据中的上下行速率检测值与上下行速率阈值分别作对比;(3)若上行速率检测值小于上行速率阈值,则说明此cpe设备链路上行速率异常,同时记录链路异常起始时间点为time1。若下行速率检测值小于下行速率阈值,则说明此cpe设备链路下行速率异常,同时记录链路异常起始时间点为time1;(4)cep模块保存此设备链路异常信息,并同时向pt数据库加载一条速率告警信息
供告警监控使用;(5)cep模块此后若再一次收到同一cpe设备的合规格式数据,并且上行速率检测值大于等于上行速率阈值或者下行速率检测值大于等于下行速率阈值,则说明此cpe设备链路异常已经恢复;(6)因为cep模块内之前已经保存了此设备链路异常信息,则现在记录链路异常恢复时间点为time2并用用户号码和上下行关联为一条链路异常恢复信息(包含time1告警时间,time2告警恢复时间);(7)cep模块内此时刷新此设备链路信息到初始状态,同时将链路异常恢复信息向pt数据库加载一条速率告警恢复标识信息供告警监控使用;(8)此cpe设备往复继续执行上述告警上报过程。
27.步骤三:告警监控周期性指标监控:(1)spark模块定时间隔1小时对流入的合规格式数据进行解析获取5g设备参数信息、主要包括企业名称、用户号码、设备号码、上行速率检测值、下行速率检测值、上行速率阈值、下行速率阈值等数据信息;(2)将同一用户号码的上行速率检测值、下行速率检测值指标按平均数公式计算汇聚为上行速率检测平均值、下行速率检测平均值;(3)将计算后的结果采集加载到iq数据库;(4)seq的web模块定时间隔3分钟重新读取iq数据库最近1小时速率数据实现实时监控;告警监控:(1)seq的web模块定时间隔3分钟重新查询pt数据库最新速率告警数据及速率告警恢复数据;(2)对查询到标识的速率告警数据以红色高亮字体表格展示;(3)对查询到标识的速率告警恢复数据按历史告警存储;(4)维护人员可以通过点击速率告警信息或者速率告警恢复信息进入到故障树系统查询具体故障根因。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1