用于分组数据网络中的管理服务恢复的方法和系统与流程

文档序号:16514324发布日期:2019-01-05 09:32阅读:229来源:国知局
用于分组数据网络中的管理服务恢复的方法和系统与流程

本公开要求2016年3月30日提交的美国申请号15/085,933的优先权,其要求2015年3月30日提交的美国临时申请号62/140,195的优先权,其中的每个通过引用出于所有目的并入本文。

本公开的实施例针对用于从离线状态有序地复原网络元件的系统和方法。



背景技术:

现代分组数据接入网络通常在广泛的城域或区域服务区域中向数千或数百万终端用户提供服务。尽管分组数据网络通常是稳定的,但是偶尔发生将用户与核心网络元件断开的情况。例如,自然灾害和人为灾害以及一般基础设施故障可能导致特定地理区域的电力损失。

在中断之后恢复对网络元件的服务可能导致许多问题。在重大中断事件之后恢复网络元件时,初始大量的网络重新进入事务可能使稳态事务速率过小。这种初始业务激增会对网络资源造成压力,并可能导致请求的深度排队或丢弃以及随之发生的超时/重试周期。随着诸如毫微微小区之类的小小区的数量增加,网络资源上的应变的量值成比例地增加。同时复原许多网络节点的效果类似于分布式拒绝服务(ddos)事件,其中来自网络元件的大量数据可能导致各种网络元件故障。

在一些网络中,同时复原大量节点导致死锁状态,其中复原只能通过手动禁用用户设备群的部分以便允许其他部分首先重新加入从而将总重新进入业务量限制到可管理水平来实现。需要手动干预的目前实践是缓慢、昂贵、易出错和次优的。在某些管辖区中,当尝试从重大中断复原时,网络元件已经离线数周。



技术实现要素:

本公开的实施例涉及一种自动化过程和系统,其用于从大规模服务中断快速有序地复原,同时不会使重新进入过程中涉及的关键网络资源超负荷。

在实施例中,一种用于分组数据网络中的管理服务恢复的方法包括:检测网络中的大规模服务中断;控制受大规模服务中断影响的多个网络元件以保持在离线状态;以及顺序地允许多个网络元件向网络注册。

检测大规模服务中断可以包括关联多个警报和度量或者确定在网络的地理区域中发生了断电。在实施例中,检测大规模服务中断包括确定在预定时间段内丢失服务的用户设备的数量,并将所述数量与阈值进行比较。阈值可以是至少10,000。

在实施例中,控制多个网络元件包括将控制信号从网络资源控制器发送到多个网络元件中的每个相应网络元件,其中控制信号控制相应网络元件以保持在离线状态。多个网络元件可以是蜂窝电信网络中的基站。

在实施例中,多个网络元件是多个用户设备,并且通过从与多个用户设备通信的基站广播无线消息来控制多个用户设备以保持在离线状态。该方法还可以包括监视与允许多个网络元件向网络注册的速率相关联的系统负载;以及基于系统负载来适配速率。在实施例中,顺序地允许多个网络元件向网络注册根据网络元件的列表上的次序来执行。

附图说明

图1图示了根据实施例的无线通信系统。

图2图示了根据实施例的网络资源控制器。

图3图示了根据实施例的分组数据网络。

图4图示了用于管理服务恢复的过程。

具体实施方式

下面结合附图提供实施例的详细描述。本公开的范围仅由权利要求限制并且包含许多替代方案、修改和等同物。尽管以特定次序呈现了各种过程的步骤,但是实施例不必限于以列出的次序执行。在一些实施例中,某些操作可以同时执行,以不同于所描述次序的次序执行,或者根本不执行。

在以下描述中阐述了许多具体细节以便提供透彻理解。提供这些细节是出于示例的目的,并且可以在没有这些具体细节中的一些或全部的情况下根据权利要求来实践实施例。出于清楚性的目的,没有详细描述与本公开相关的技术领域中已知的技术材料,使得不会不必要地模糊本公开。

图1图示了根据本公开的实施例的联网通信系统100。系统100可以包括一个或多个基站102,每个基站102配备有一个或多个天线104。每个天线104可以为一个或多个小区106中的用户设备(ue)108提供无线通信。基站102具有天线104,其是可以称为接收器的接收天线和可以称为发送器的发送天线。如本文所使用的,术语“基站”指的是在某一位置中提供的无线通信站,并且用作无线网络的中枢。例如,在lte中,基站可以是enodeb。基站可以为宏小区、微小区、微微小区或毫微微小区提供服务。在其他实施例中,基站可以是wi-fi网络中的接入点。

一个或多个ue108可以包括小区电话设备、膝上型计算机、手持游戏单元、电子书设备和平板pc以及可以由基站102提供无线通信服务的任何其他类型的常见便携式无线计算设备。在实施例中,ue108中的任何一个可以与常见移动计算设备(例如,膝上型计算机、平板计算机、蜂窝电话、手持游戏单元、电子书设备、个人音乐播放器、视频记录器等)的任何组合相关联,其具有采用任何常见无线数据通信技术的无线通信能力,包括但不限于:gsm、umts、3gpplte、lteadvanced、wimax等。

系统100可以包括回程部分116,其可以促进回程设备或网络控制器设备110、112和114和一个或多个基站102之间的分布式网络通信。如本领域技术人员将理解的,在大多数数字通信网络中,网络的回程部分可以包括在网络的主干(其通常是有线线路)和位于网络的外围处的子网络或基站之间的中间链路118。例如,与一个或多个基站102通信的蜂窝移动设备(例如,ue108)可以构成本地子网络。任何基站102与世界其他地方之间的网络连接可以通过到提供者的通信网络的回程部分的链路来发起(例如,经由存在点)。

在实施例中,图1的系统100的回程部分116可以采用以下常见通信技术中的任何一种:光纤、同轴电缆、双绞线电缆、以太网电缆和电力线电缆以及本领域中已知的任何其他无线通信技术。在各种实施例的上下文中,应当理解,与各种数据通信技术相关联的无线通信覆盖(例如,基站102)通常基于网络的类型和在网络的特定区域内部署的系统基础设施(例如,gsm、umts、lte、lteadvanced和基于wimax的网络之间的差异以及在每种网络类型中部署的技术)而在不同的服务提供者网络之间变化。

网络控制器设备110、112和114中的任何一个可以是专用网络资源控制器(nrc),其从基站远程地提供或在基站处提供。网络控制器设备110、112和114中的任何一个可以是提供nrc功能的非专用设备。在另一实施例中,nrc是自组织网络(son)服务器。在实施例中,网络控制器设备110、112和114中的任何一个和/或一个或多个基站102可以独立地或协同地起作用以实现与本公开的各种实施例相关联的过程。

根据标准gsm网络,网络控制器设备110、112和114中的任何一个(其可以是nrc设备或可选地具有nrc功能的其他设备)可以与基站控制器(bsc)、移动交换中心(msc)、数据调度器、或本领域中已知的任何其他常见服务提供者控制设备(诸如无线电资源管理器(rrm))相关联。根据标准umts网络,网络控制器设备110、112和114中的任何一个(可选地具有nrc功能)可以与nrc、服务gprs支持节点(sgsn)、或本领域中已知的任何其他常见网络控制器设备(诸如rrm)相关联。根据标准lte网络,网络控制器设备110、112和114中的任何一个(可选地具有nrc功能)可以与enodeb基站、移动性管理实体(mme)、或本领域中已知的任何其他常见网络控制器设备(诸如rrm)相关联。

在实施例中,网络控制器设备110、112和114中的任何一个、基站102、以及ue108中的任何一个可以被配置成运行任何公知的操作系统。网络控制器设备110、112和114中的任何一个或基站102中的任何一个可以采用任何数量的常见服务器、台式机、膝上型电脑和个人计算设备。

图2图示了可以代表网络控制器设备110、112和114中的任何一个的nrc200的框图。因此,nrc200可以代表网络管理服务器(nms)、元件管理服务器(ems)、移动性管理实体(mme)、son服务器等。nrc200具有包括cpu204的一个或多个处理器设备。

cpu204负责执行存储在易失性存储器(ram)和非易失性存储器(rom)202和存储设备212(例如,hdd或ssd)上的计算机程序。在一些实施例中,存储设备212可以存储程序指令作为诸如asic或fpga的逻辑硬件。存储设备212可以存储例如警报214、度量216和网络资源列表218。

nrc200还可以包括用户接口206,其允许管理员与nrc的软件和硬件资源交互并显示系统100的性能和操作。此外,nrc200可以包括用于与联网计算机系统中的其他组件通信的网络接口208和促进nrc200的硬件资源之间的数据通信的系统总线210。

除了网络控制器设备110、112和114之外,nrc200可以用于实现其他类型的计算机设备,诸如天线控制器、rf规划引擎、核心网络元件、数据库系统等。基于由nrc200提供的功能,这样的计算机的存储设备用作用于软件的存储库和到其的数据库。

本公开的实施例针对一种系统和方法,其中一个或多个网络资源控制器编排在影响阈值数量的网络元件的重大中断之后何时允许关键网络元件重新加入网络的定时。在实施例中,网络资源控制器以有序的方式使离线网络元件返回在线,从而减少网络上的即时负载。控制器可以遵循关于允许元件重新加入的序列的预定脚本以及遵循序列的速率。结果是,否则将是自由模式的大量网络重新进入请求的范围被限制到可管理水平。

本公开的另一个元素涉及动态地调整重新进入的速率的节奏(pacing)。在实施例中,这是通过基于某些网络资源被加载得多重或多轻来节流重新进入脚本执行速率来实现的。负载测量被反馈给网络元件控制器,以用于确定最优节奏,例如,当存在高负载时较慢节奏,以及当存在低负载时较快节奏。以这种方式,网络复原的速率可以在网络可以允许的范围内尽快进行,而不必利用预先配置的最坏情况猜测和内置安全裕度来减慢整个过程。

本公开的第三元素涉及有意地迫使分布式网络元件进入离线或非操作状态,使得它们可以以受控方式被系统地重新引入到网络,从而避免与大规模网络注册相关联的问题。

图3示出了根据实施例的无线蜂窝电信网络300的实施例。网络包括多个基站302,其向各个覆盖区域304提供无线电信服务。尽管图3的覆盖区域304表示为基站302周围的圆圈,但是宏小区基站通常具有三个或六个发送天线,其向多个小区提供服务,诸如图1中的基站104。

本公开不限于特定类型的基站,因此基站302可以具有服务于单个小区的全向天线或服务于多个小区的扇区化天线。基站302可以是诸如enodeb的宏小区基站或诸如毫微微小区或微微小区的小小区基站。在lte系统中,ue和基站包括演进umts陆地无线电接入网络(e-utran)310。

基站302通过回程连接308耦合到回程网络设备。lte网络中的回程网络设备的一部分被称为演进分组核心(epc),如图3中的元件320描绘的。epc320包括耦合到归属订户服务器(hss)324和son服务器326的mme322。此外,基站连接到服务网关(s-gw)328,其将信号路由到分组数据网络网关(p-gw)330,其继而连接到外部分组数据网络332。

当在服务中断之后将服务恢复到网络300时,ue306尝试同时向网络注册。作为在使网络元件成为在线时发生的一些过程的示例,在lte网络中,每个ue向基站302发送附接请求,基站302将附接请求传送到mme322。mme322通过服务网关328向pdn网关330发送请求以创建用于ue306的会话。pdn网关330将创建会话,并通过mme322和基站302将响应发送回ue。如关于图1所解释的,epc320的各个元件可以称为网络资源控制器。

用于向分组网络注册移动设备的过程的名称根据不同的分组接入网络技术而变化。此外,多个注册过程可以在单个接入技术网络内进行。本公开使用术语“寄存器”来概括地指代在发起服务时被执行以在移动设备和接入网络之间建立通信的一个或多个过程。

本领域技术人员将理解的是,lteue注册过程具有本公开中未描述的附加复杂性。诸如3g和2g之类的其他技术具有在针对电信系统注册ue时执行的类似协议。这样的网络以及lte网络可以具有附加的回程组件,诸如认证、授权和计费(aaa)服务器、数据库服务器、策略和计费服务器、ip服务服务器和集中网关。

此外,一些ue可能在第一次尝试之后的预定时间之后重复地尝试向网络注册,这对网络施加了进一步的压力。

在大多数电信系统中,处理、接收和发送活动单独地针对每个ue执行。因此,当蜂窝服务同时恢复到大量ue时,施加在epc320的各种组件上的负载的量值可能导致其组件中的一个或多个中的错误。在一些情况下,可能需要手动干预网络设备以便解决这些错误。在其他情况下,可以通过重启网络设备来解决错误中的一些,但问题可能简单地再发生。因此,必须手动停用基站302以减少epc320的组件上的即时负载,以便使正常服务恢复到无线通信网络。

图4图示了用于分组数据网络中的管理服务恢复的过程400的实施例。过程400可以通过在s402处检测网络中的大规模服务中断的存在来发起。在实施例中,过程400的元素可以由网络资源控制器200执行,网络资源控制器200可以是例如son服务器326。

当服务针对大量网络元件终止时,存在大规模服务中断。存在大规模服务中断的许多可能原因,包括诸如洪水或地震之类的自然灾害、电网中的故障组件、对基础设施的故意攻击、以及一个或多个核心网络组件的故障。

无论原因如何,大规模服务中断的特征在于服务的丢失。因此,可以通过监视通信系统来执行检测大规模服务中断的存在。例如,一个或多个网络元件可以通过周期性地查询或接收来自网络基础设施元件的关于其健康和状态的报告来监视网络。被监视的元件可以包括但不限于网关、基站控制器、基站、业务集中节点和用户设备终端。

当相关组的警报和性能度量倾向指示网络的区域正在经历服务中断时,可以检测到大规模服务中断的存在。例如,当大量网络元件受中断影响时,包括吞吐量和连接性度量的网络性能度量可能表现出显著改变。同时,可以在网络内触发警报,其反映网络设备的状态的改变。可以组合使用警报的存在以及性能度量的大量改变来检测大规模服务中断。

与大规模服务中断相关联的警报的示例是由地震、风暴、洪水、火灾和区域电力故障或欠电警报触发的灾害警报。与大规模用户服务中断相关联的蜂窝度量的示例是突然的大规模用户终端断开或切换尝试以及诸如切换和数据传输之类的网络活动的突然下降。本领域技术人员将认识到,各种分组数据网络监视可以用于确定大规模用户服务中断的存在的多个事件和特性。

在实施例中,可以通过将阈值应用于已经由网络收集的度量(诸如网络活动度量)来执行检测服务中断。在这样的实施例中,可以使用网络活动的突然和大量下降来指示大规模服务中断的存在。

在一些实施例中,可以通过外部系统检测中断。例如,来自地震和海啸预警系统(etws)的数据可以用于确定大规模中断的存在。自然灾害的发生可以自动或手动输入到通信系统并与性能或警报数据关联以检测大规模服务中断。

在实施例中,网络人员可以提供确认或建立大规模服务中断的存在的手动输入。例如,当涉及收集和发送度量和警报的关键网络设备离线时,这可能是有用的。

定义中断的标准可以包括所有共享将在使网络连接性恢复到用户中涉及的共同瓶颈资源的受影响终端用户的最小数量。因此,在s402处检测大规模服务中断的存在可以包括确定针对阈值的在预定时间段内被离线的ue的数量。预定时间段可以是例如小于一分钟、十分钟或一小时。

ue的数量的阈值可以是当服务同时恢复到所有ue时将成为问题的值。该数量可以在网络之间变化,但可以是例如1,000、10,000、50,000、100,000或更多。

在其他实施例中,可以将ue之外的网络设备的数量与预定值进行比较,以确定大规模服务中断的存在。例如,阈值可以针对基站的数量,诸如100或1000个基站。

此外,检测大规模服务中断的存在s402可以包括标识离线网络元件所共同的瓶颈。瓶颈可以是例如集中网关。过载的瓶颈可能导致网络故障,并且瓶颈也可能有效地指示离线网络元件在有限的地理区域内。

管理恢复过程可以在s404处确定条件是否适于服务恢复。至少,s404可以包括确定电力是否可用于网络设备,包括向ue提供服务所必需的所有网络设备。此外,可以使用与设备相关的警报或性能度量来进行该确定。s404可以自动或手动执行。

在实施例中,在s406处将网络元件控制为离线。尽管服务恢复是过程400的最终目标,但是电力一可用于设备就恢复服务可能导致网络中的问题。除了由于上面讨论的大规模同时注册尝试所造成的过载问题之外,在其他网络组件未处于操作状态时使一些网络组件成为在线可能导致附加的问题。因此,在s406处将网络设备控制为离线促进网络的管理和有序的恢复。

可以以多于一种方式控制网络元件的离线状态。在一个实施例中,epc320中的网络资源控制器向基站302发送控制消息,该控制消息命令基站维持离线状态。在这种场景中,基站302的覆盖区域304内的ue306可以尝试通过基站向无线网络注册,但是这样的注册尝试将是不成功的,直到基站本身成为在线为止。此外,可以将促进网络进入请求的网络元件控制为离线。

在另一个实施例中,基站302可以被允许成为在线,但是可以被指令成防止ue306通过基站注册。这可以通过选择性地禁用基站302的组件或者通过向暂停注册的ue广播开销消息来实现。在其他实施例中,可以选择性地禁用回程网络设备的一个或多个组件,以防止否则将路由通过该组件的ue的注册。

离线网络元件的分阶段恢复可以通过在s408处选择当前离线的一个或多个网络元件来发起。可以从所有离线网络元件的列表或网络中的所有元件的列表中选择一个或多个网络元件。

在s408处选择的网络元件的身份和数量可以取决于网络变量的数量。例如,当网络设备能够同时恢复对三个基站的服务而不会导致任何网络错误时,则可以在s408处选择三个基站。在其他实施例中,可以选择单个基站。在其中回程设备被控制为离线以便防止相关联的ue的注册的实施例中,则在s408处选择一个或多个回程设备。

选择网络设备的特定次序可以是根据网络元件的列表的预定次序。可以在大规模用户服务中断发生之前或之后建立这样的列表。当在大规模用户服务中断之后建立列表时,其可以通过将被控制为离线的每个网络元件添加到列表来创建。列表的次序可以是任意的、根据特定的地理或使用条件分配的等等。

在s410处,启用所选择的网络元件和相关联的用户设备终端,以允许ue网络进入请求(注册请求)流到核心网络。在实施例中,这可以通过重启所选择的网络元件或以其他方式使网络元件成为在线来完成。

当加载度量可用于控制元件时,该过程可以在s412处监视系统负载。可以将一个或多个负载或活动度量与预定阈值进行比较,以确定负载是否可管理。例如,aaa服务器可以具有50%利用率的cpu使用阈值。

一些实施例可以使用来自多个关键网络元件的多个度量。在这种情况下,可以使用所有阈值条件之间的逻辑and操作来确定加载度量是否在可接受的限度内。

如果过程400在s412处确定系统负载超过阈值,则可以在s414处增加系统在使网络元件成为在线之间等待的时间间隔。增加时间间隔可以防止在复原过程期间发生错误,但延长网络复原的总时间。

除了增加使网络元件成为在线之间的时间间隔之外,可以在s414处减少时间间隔。当大量资源可用但未以当前复原速率使用时,可以减少时间间隔。在实施例中,作为时间间隔的代替或附加,调整在s410处在给定时间成为在线的元件的数量。在一些实施例中,时间间隔可以被配置成与在s408处选择的网络元件所覆盖的用户设备终端的数量成比例。

系统在s416处在选择要成为在线的下一个网络元件之前等待预定的时间间隔。最后,在所有离线网络元件已成功回到在线之后,网络可以恢复到正常操作状态,并且网络可以重新开始在s402处监视大规模服务中断的存在。

为了更全面描述本公开的实施例,下面提供了若干场景。这些场景被呈现为特定实施例的操作的示例,并且不旨在是局限性的或限制性的。

在第一场景中,区域接入网络服务于遭受电力中断的城域区域。当电力恢复时,用户终端和接入网络基础设施(例如无线基站)否则将都同时尝试再加入网络。然而,在该场景中,网络控制器协调网络重新进入尝试,使得在不会过度加重否则将过载的关键资源的情况下恢复整个网络服务。服务在定义的时间间隔内快速恢复到整个网络。

在第一场景中,根据本公开中所描述的过程,受控的重新进入协调迫使无线基站进入非操作状态,从而迫使所有下属用户设备进入类似的空闲状态,以待每个基站的系统且受控的重新启动。

接入网络运营商能够监视否则为自主过程的进度并且如果需要则手动干预。否则,网络服务在不需要手动运营商干预的情况下恢复,从而最小化运营商上的负担并限制针对客户的服务中断不便。

附加益处是网络重新进入的关键瓶颈资源可以针对较低的峰值负载来确定大小,因为管理重新进入过程将峰值负载限制到比否则将是没有受控重新进入的情况更低的有界值。

在第二场景中,区域接入网络使用控制大量用户设备终端的网络连接性的关键网络元件来服务城域区域。在许多情况下,软件或硬件故障或关键核心网络元件(诸如服务网关或移动性管理节点)的重置导致动态用户设备许可和重要注册会话上下文数据的丢失。然而,通常,各个用户设备元件将在没有关键核心网络的知识的情况下继续接收具有足够质量的无线信号。

这创建了其中用户终端被迫丢弃并重新建立其网络连接状态的情况。为了避免潜在不受控的用户设备重新注册和重新关联数据消息传送,根据本公开中所描述的过程,本公开的实施例可以迫使无线基站进入非操作状态,从而迫使所有下属用户设备进入类似的空闲状态,以待每个接入节点的系统的重新启动。

在第三场景中,大规模用户服务中断以与第一和第二场景类似的方式存在。然而,附加的网络探测器适当地监视与网络进入过程相关联的关键资源负载水平。来自探测器的信息被网络控制器用于加速和减慢协调网络重新进入排序的节奏,这将整个网络恢复时间改善到最优短间隔,从而最小化终端用户服务中断时间。

与前两种场景一样,接入网络运营商能够监视否则为自主过程的进度并且如果需要则手动干预。否则,网络服务在不需要手动运营商干预的情况下以最优速率恢复。

总之,本公开的实施例通过调整在大规模服务中断之后允许关键网络元件重新加入网络的有序序列的节奏来管理服务恢复。网络控制器维护网络的部分的顺序列表,以如由管理它们的网络元件(例如无线网络中的接入点或基站)指定的那样成为在线。列表可以包括网络元件名称、网络地址和连接信息以及用于使元件成为在线的命令脚本。

在检测到大量中断时,网络控制器可以尝试将最后一英里覆盖元件置于待机状态,使得检测到网络附接请求但不处理。当导致服务中断的故障被清除时,ue终端否则将都开始大规模尝试再加入网络。由于覆盖网络元件维持在离线状态,所以检测到尝试但最初被忽略并且不会更深地传递到网络核心中。

网络控制器选择性地重新启用网络的离线段。重新启用命令之间的预先配置的等待间隔节流网络重新进入尝试的总数,并且避免使在用户设备终端的重新进入过程中使用的关键瓶颈网络资源过载。

根据预先配置的脚本序列将服务递增地恢复到受影响网络的部分中的ue终端,该脚本序列限制了每次尝试重新加入网络的ue终端的数量。在恢复每个网络部分之后,选择下一部分并继续该过程,直到复原整个网络中断受影响区域。

本公开的具体示例的许多变化是可能的。例如,虽然已经关于lte网络的元件描述了实施例,但是其他实施例将相同的教导应用于诸如2g、3g和5g蜂窝电信网络的其他技术。本公开的元素可以应用于分组接入网络技术,其受益于大规模中断之后的分阶段恢复。

本公开的实施例为分组接入网络技术提供了许多优点。当从大规模用户服务中断复原时,常规网络易于出现许多错误,而本公开的实施例可以防止这些问题发生,从而导致时间和努力方面的大量节省。手动复原可能花费数周才能实现,因此本公开的实现为受影响的网络提供数周的附加正常运行时间。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1