基于随机森林分析VoLTE网络故障原因的方法及装置与流程

文档序号:19182770发布日期:2019-11-20 01:11阅读:170来源:国知局
基于随机森林分析VoLTE网络故障原因的方法及装置与流程
本发明实施例涉及计算机
技术领域
,具体涉及一种基于随机森林分析volte网络故障原因的方法及装置。
背景技术
:volte(voiceoverlte)是一种基于ims(ipmultimediasubsystem,ip多媒体系统)的语音业务的ip(internetprotocol,互联网协议)数据传输技术。目前对于volte网络故障问题分析主要有以下两种方案:1)主要根据现场测试人员进行volte拨测进行问题分析和查找。2)通过网管指标分析,进行一些kpi(keyperformanceindicator,关键绩效指标)分析,来判断volte故障问题。然而,在实现发明创造的过程中,发明人发现,目前的volte网络故障问题分析存在以下问题:1)现场测试法:工作量巨大,问题分析难度较高,问题复现难度大。2)网管指标分析:基于网管数据,依靠现场优化工程师进行问题判定,判定的准确度完全依赖于工程师的能力,因此问题判定的准确度也无法得到保证。技术实现要素:本发明实施例提供一种用于基于随机森林分析volte网络故障原因的方法及装置。第一方面,本发明实施例提供一种基于随机森林分析volte网络故障原因的方法,包括:根据volte网络的网络特征建立样本数据,所述网络特征包括volte网络的关键绩效指标kpi(keyperformanceindicators)以及关键质量指标kqi(keyqualityindicators);根据所述样本数据中每个网络特征的信息增益,对所述样本数据中的网络特征进行选择,得到特征选择结果;基于随机森林算法对所述特征选择结果进行训练,得到volte网络故障分析模型;在接收到新输入的网络特征时,利用所述volte网络故障分析模型对新输入的网络特征进行分析,输出对应的网络故障类型。第二方面,本发明实施例提供一种基于随机森林分析volte网络故障原因的装置,包括:样本建立单元,用于根据volte网络的网络特征建立样本数据,所述网络特征包括volte网络的关键绩效指标kpi以及关键质量指标kqi;特征选择单元,用于根据所述样本数据中每个网络特征的信息增益,对所述样本数据中的网络特征进行选择,得到特征选择结果;处理单元,用于基于随机森林算法对所述特征选择结果进行训练,得到volte网络故障分析模型;所述处理单元,还用于在接收到新输入的网络特征时,利用所述volte网络故障分析模型对新输入的网络特征进行分析,输出对应的网络故障类型。第三方面,本发明的又一实施例提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述方法的步骤。第四方面,本发明的又一实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述方法的步骤。本发明实施例提供了一种基于随机森林分析volte网络故障原因的方法及装置,该方法基于volte网络的多个kpi和kqi指标建立数据样本,并基于随机森林方法对样本数据进行训练得到分类模型,通过该分类模型对新输入的网络特征进行分析,输出该特征所对应的无线故障分类。从而能够实现基于已知网络特征对未知网络特征对应的故障分类进行智能识别,有效节约大量的人力物力。此外,由于随机森林通过在每个节点处随机选择特征进行分支,因此可以最小化各棵决策树之间的相关性,从而能有效提高分类精确度。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1是本发明实施例提供的一种基于随机森林分析volte网络故障原因的方法流程图;图2是本发明实施例提供的随机森林算法示意图;图3是本发明提供的一种基于随机森林分析volte网络故障原因的装置实施例结构示意图;图4是本发明提供的一种计算机设备实施例结构框图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。第一方面,本发明实施例提供了一种基于随机森林分析volte网络故障原因的方法,如图1所示,包括:s101、根据volte网络的网络特征建立样本数据,所述网络特征包括volte网络的关键绩效指标kpi以及关键质量指标kqi;s102、根据所述样本数据中每个网络特征的信息增益,对所述样本数据中的网络特征进行选择,得到特征选择结果;s103、基于随机森林算法对所述特征选择结果进行训练,得到volte网络故障分析模型;s104、在接收到新输入的网络特征时,利用所述volte网络故障分析模型对新输入的网络特征进行分析,输出对应的网络故障类型。本发明实施例提供了一种随机森林分析volte网络故障原因的方法,该方法基于volte网络的多个kpi和kqi指标建立数据样本,并基于随机森林方法对样本数据进行训练得到分类模型,通过该分类模型对新输入的网络特征进行分析,输出该特征所对应的无线故障分类。从而能够实现基于已知网络特征对未知网络特征对应的故障分类进行智能识别,有效节约大量的人力物力。此外,由于随机森林通过在每个节点处随机选择特征进行分支,因此可以最小化各棵决策树之间的相关性,从而能有效提高分类精确度。其中,这里网络特征为volte的部分kpi和kqi,具体可以包括:参考信号接收功率rsrp(referencesignalreceivingpower)、参考信号接收质量rsrq(referencesignalreceivingquality)、无线资源控制rrc(radioresourcecontrol)、演进的无线接入承载erab(evolvedradioaccessbearer)、建立成功率、掉话率、切换成功率、时延、分组丢失率以及抖动。当然还可以包括其他网络特征,本发明实施例对此不作具体限定。此外,获取网络特征的数据源可以为:s1接口信令xdr(xdr是sunsoft的开放网络计算环境的一种功能)数据、mro(maintenance,repair&operations,维护,维修,运行)数据、工参(工程参数)、软采uu数据等,同样的还可以通过其他数据源获得网络特征,本发明实施例对此也不作具体限定。在一些实施方式中,这里的步骤s101中根据volte网络的网络特征建立样本数据可以有多种实施方式,其中一种可选的实施方式为:首先从前文所述的数据源中获取大量的网络特征,接着通过人工分析数据源部分数据,根据特征值选定范围输出无线故障问题。最后基于样本数据越全面越好的原则,整理若干个(例如1000个)无线故障问题作为样本数据。举例来说,整理之后的样本数据可以如表1所示。当然表1仅示出一种样本数据的示例,在实际情况中也可以采用其他的方式进行表示。表1样本数据表特征1特征2……特征i……特征n输出样本x1样本x2……样本xm其中,这里特征的选择以及输出的故障分类是可以根据实际情况自己来定义的。这里的特征可以在volte的部分kpi和kqi中选择,具体可以定义如下,包括:rsrp、rsrq、rrc、erab建立成功率、掉话率、切换成功率,时延、分组丢失率、抖动等。输出的无线故障分类主要以无线侧的问题为主,可以定义如下,包括:高干扰、弱覆盖、过覆盖、切换故障、参数错配等问题。得到表1所示的样本数据后,可以对样本数据进行特征选择,特征选择的方式可以有很多种,其中一种可选的方式可以包括:s1021、获取包含所有样本数据的样本数据集的经验熵,以及样本数据中每个网络特征的条件熵;s1022、根据所述经验熵以及所述条件熵,计算各个网络特征的信息增益;s1023、选择信息增益高于预设值的网络特征,得到特征选择结果。具体来说,整理后的样本数据组成样本数据集d。在数据集d中,根据某个特征a的信息增益进行特征选择,信息增益选择算法如式(1)所示:g(d,a)=h(d)-h(d|a)(1)其中,g(d,a)为特征a的信息增益,h(d)为数据集d的经验熵,h(d|a)为特征a的条件熵。数据集d的经验熵为:其中,式(2)中的ck代表输出的无线故障分类,式(2)中所用的对数为自然对数。设有k个类ck,k=1,2…k,|ck|为属于类ck的样本个数,则有:∑|ck|=|d|(3)对于条件熵,如果h(d|a)为变量d在变量a取特定值ai条件下的熵,那么h(d|a)就是h(d|a=ai)在a取值可能为ai后取平均的结果。给定随机变量d与a,在给定条件a下d的条件熵如式(4)所示:其中,式(4)中的p(ai)表示变量a取特定值ai的概率,p(dk|ai)表示在ai的情况下dk发生的概率。根据上述特征选择方法,进行信息增益计算,然后对各个特征的信息增益进行排序,选择信息增益高于预设增益值的特征,再进入后续流程。在对特征进行了选择之后,就可以执行步骤s103将样本数据输入到随机森林算法中进行训练,训练的步骤可以包括如下几步:s1031、以采样放回的方式随机选择样本数据集中的样本数据,建立多棵决策树;s1032、对于每一颗决策树,根据该决策树上的样本数据进行分类计算,得到网络故障类型对应的权重;s1033、根据所述权重对多棵决策树的分类结果进行投票,得到最终本次训练的最终结果。下面对于这里涉及到的决策树建立的过程以及基于决策树建立随机森林的步骤进行简单介绍。决策树建立决策树方法有id3/c4.5/cart(classificationandregressiontree,分类回归树)等方法,仅目标函数不同,过程类似,以下以c4.5方法建立决策树为例:输入:训练样本数据集t;输出:一颗决策树。1)创建一个根节点n;2)如果t中的所有数据都属于同一个类,那么设置该节点为叶节点,否则continue;3)计算t中所有属性的信息增益比率;4)选择信息增益比率最大的属性作为c4.5算法的分裂属性;5)在父节点n下,根据分裂属性的值,建立新的子节点n1,n2...nm等;6)将每个子节点ni表示为现在的新节点n,如果该子节点ni为叶节点,则该节点用t中出现最多的类表示,否则返回第2)步;7)计算每个节点上的分类错误比率,然后对决策树进行剪枝。也即通过上述决策树建立的步骤,输入的是建立好的样本数据,输出的是单颗决策树按照样本数据计算的输出故障分类数据权重。随机森林建立如图2所示,随机森林是基于决策树的,多决策树的输出进行投票选择后输出最终结果,功能相当于多个弱分类器进行组合。具体可以包括:1)建立t棵决策树2)每棵树选择的样本数为m,具体样本选择随机,采取采样放回的方式。3)每棵树选择的特征可以用n表示,具体特征可以根据实际情况随机设置。4)根据每棵决策树输出的故障分类的权重,对多棵树的分类结果进行投票选择,输出最终结果。不难理解的是,通过上述方式即可对样本数据进行训练。训练之后即可得到volte网络故障分析模型。在得到模型后,即可使用已经训练完成的模型完成volte网络故障原因分析。整个网络故障原因的过程可以如下所示:输入数据源:基于s1接口信令xdr数据、mro数据、工参、软采uu数据等源数据,整理特征数据rsrp、rsrq、rrc建立成功率、erab建立成功率、掉话率、切换成功率,时延、分组丢失率、抖动等中间处理层:基于训练完成的数学模型,按照随机森林算法,对特征数据进行分析。输出结果集:完成volte网络故障原因输出,主要包括高干扰、弱覆盖、过覆盖、切换故障、参数错配等无线侧故障原因输出。本发明实施例提供的方法能够根据多个kpi和kqi(keyqualityindicators,关键质量指标)指标建立样本数据,并利用随机森林算法建立模型最后输出无线故障分类。随机森林通过在每个节点处随机选择特征进行分支,从而能够最小化各棵分类树之间的相关性,有效提高分类精确度。此外,因为每棵树的生长很快,因此随机森林的分类速度较快,且容易实现并行化,从而能够提高分类的速度。第二方面,本发明实施例提供了又一种基于随机森林分析volte网络故障原因的装置,如图3所示,包括:样本建立单元301,用于根据volte网络的网络特征建立样本数据,所述网络特征包括volte网络的关键绩效指标kpi以及关键质量指标kqi;特征选择单元302,用于根据所述样本数据中每个网络特征的信息增益,对所述样本数据中的网络特征进行选择,得到特征选择结果;处理单元303,用于基于随机森林算法对所述特征选择结果进行训练,得到volte网络故障分析模型;所述处理单元303,还用于在接收到新输入的网络特征时,利用所述volte网络故障分析模型对新输入的网络特征进行分析,输出对应的网络故障类型。在一些实施方式中,所述样本建立单元301根据volte网络的网络特征建立样本数据,包括:从若干个第一数据中筛选出预设个数个数据作为样本数据;其中,所述第一数据是通过人工分析volte网络的网络特征得到的数据。在一些实施方式中,所述特征选择单元302根据所述样本数据中每个网络特征的信息增益,对所述样本数据中的网络特征进行选择,包括:获取包含所有样本数据的样本数据集的经验熵,以及样本数据中每个网络特征的条件熵;根据所述经验熵以及所述条件熵,计算各个网络特征的信息增益;选择信息增益高于预设值的网络特征,得到特征选择结果。在一些实施方式中,所述处理单元303基于随机森林算法对所述特征选择结果进行训练,包括:以采样放回的方式随机选择样本数据集中的样本数据,建立多棵决策树;对于每一颗决策树,根据该决策树上的样本数据进行分类计算,得到网络故障类型对应的权重;根据所述权重对多棵决策树的分类结果进行投票得到最终本次训练的最终结果。在一些实施方式中,所述网络特征包括:参考信号接收功率rsrp、参考信号接收质量rsrq、无线资源控制rrc、演进的无线接入承载erab、建立成功率、掉话率、切换成功率、时延、分组丢失率以及抖动。由于第二方面所介绍的基于随机森林分析volte网络故障原因的装置为可以执行本发明实施例中的基于随机森林分析volte网络故障原因的方法的装置,故而基于本发明实施例中所介绍的基于随机森林分析volte网络故障原因的方法,本领域所属技术人员能够了解本实施例的基于随机森林分析volte网络故障原因的装置的具体实施方式以及其各种变化形式,所以在此对于该基于随机森林分析volte网络故障原因的装置如何实现本发明实施例中的基于随机森林分析volte网络故障原因的方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中基于随机森林分析volte网络故障原因的方法所采用的装置,都属于本申请所欲保护的范围。图4示出本发明实施例提供的计算机设备的结构框图。参照图4,该计算机设备,包括:处理器(processor)401、存储器(memory)402以及总线403;其中,所述处理器401以及存储器402通过所述总线403完成相互间的通信。所述处理器401用于调用所述存储器402中的程序指令,以执行第一方面实施例所提供的方法。本发明实施例还公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述第一方面实施例所提供的方法。本发明实施例还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述第一方面实施例所提供的方法。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。本发明的某些部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的网关、代理服务器、系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1