一种环境感知的用于网络测量的节点重要性度量方法

文档序号:25991544发布日期:2021-07-23 21:03阅读:139来源:国知局
一种环境感知的用于网络测量的节点重要性度量方法

本发明涉及一种节点重要性度量方法,特别涉及一种基于加权集聚系数和传染病动力学的节点重要性度量方法,该方法将考虑环境感知。



背景技术:

随着移动通信,物联网,云计算,人工智能等技术的协调发展,人们的生活与互联网技术已逐渐密不可分。此外,随着互联网的发展,其业务量也急剧增加,与之对应的网络复杂度也日益增大。其中,协议、拓扑、流量是互联网的重要组成部分,对它们进行深入研究与更好的理解对互联网的运维与发展具有重大而深远的意义。例如,对网络拓扑与流量变动的灵敏感知,可以更有利于专业人员在与数据层相比更高的层面上实时分析网络,并诊断与排查网络故障。

当前,网络状态参数的测量和分析是监视网络异常的主要方法之一。通过观察网络状态,可以有效地发现异常行为。网络测量技术可按照测量节点的选取分为外部测量与内部测量两种,其中,内部测量可直接利用网络内路由器自带的软件对网络的各项性能参数进行监控,但这显然面临路由器间无法协作,数据汇总较为困难等问题。与之相比,外部测量以网络边缘节点作为测量节点,不需要路由器协作,对网络本身的依赖较小,是较为常用的一种方法。

层析成像技术是一种起源于医学工程的技术,该技术正逐渐应用于其他领域。其中,网络层析成像是一种端到端的网络测量方法,它使用单播或多播技术将探测数据包从源节点发送到指定的目标节点。该技术可用于测量某条链路的时间延迟或数据包丢失率。最后,通过对收集到的数据进行统计和分析,即可获得网络的特征参数。网络层析测量层析成像技术不需要网络内部节点的合作,只需要选择一组接收节点即可完成对网络内部特性的推断,是分析网络状态的重要技术。

层析成像技术中的链路级测量方法包括主动测量与被动测量两种,其中,主动测量需要主动向被测网络发送特定的探测数据,该方法可根据不同的测量需求采取不同的测量策略,比较灵活。被动测量是以网络中已有的流量数据作为依据,可以降低测量成本,但通常无法估计出链路性能参数的准确值。

在日趋复杂的网络环境中,对整个网络进行链路级主动测量存在以下已知问题:大量探测数据包将消耗过多的带宽资源,这将对需要及时响应的设备造成干扰,以至于网络的实际行为可能会受到干扰,导致测量数据不能反映网络的真实状态;此外,在逐渐扩大的网络规模下,显然无法测量每一条链路的性能参数。虽然可以通过被动测量来解决探测数据包对网络的影响问题,但该方法无法满足对链路的精确、灵活测量的需求,且第二个问题也需要加入考虑。

基于存在的问题,显然需要一种较好的应对策略。已知网络层析成像中的节点是一个逻辑概念,并不是仅仅物理层面的单个设备,可能是若干个设备或者一个系统。因此,赋予节点重要性属性,并将重要性较低的节点与重要性较高的节点进行打包,通过整合节点来简化拓扑以减少需要发送的探测包和测量工作量,是一种较为合理且可行的方法。

在已有的节点重要性度量方法中,较为常见的一类是按照某种属性,例如节点剩余cpu容量,或者节点的资源价格,通过正序或倒叙对节点进行排序。然而,这种方法显然并未考虑节点的拓扑属性。此外,由于网络层析成像中对网络进行测量的核心目的是实时监控网络状态,快速有效的发现网络异常,以进一步提升网络安全性。因此,使用节点的资源属性对节点进行排序显然是不适合的,且较为片面。

此外,与其它问题,例如供应链网络,或社交网络不同,物理网络中节点的位置通常不会有频繁的变动,并且,每个节点在安全问题中的重要性与其所处的环境也是有所关联的。因此,在度量节点重要性时考虑对环境的感知是十分有必要的,这在已有的重要性度量方法中考虑较少。

综上所示,已有的节点重要性度量方法存在以下问题:

(1)传统的按照某种属性对节点进行排序的评估方法比较片面;

(2)仅考虑节点结构属性的度量方法无法满足网络问题的需求;

(3)大多数度量方法并未考虑对环境的感知。



技术实现要素:

为了解决现有方法的缺点,本发明提出了一种环境感知的用于网络测量的节点重要性度量方法,本发明基于加权集聚系数和传染病动力学,首先对网络节点所处的环境按照实际情况划分区域,然后对接入网络的设备,按照传染动力学模型中的状态类型进行分类,再基于分类后的设备计算区域信息熵以及节点的局部集聚系数,最终可整理得出节点的重要性。

本发明所采用的技术方案如下:

一种环境感知的用于网络测量的节点重要性度量方法,包括以下部分:

a、通过传染病动力学模型sirs对不同类型的终端设备进行分类;

b、通过局部集聚系数来评估网络中节点在结构层面的重要性;

c、利用区域信息熵进一步量化网络中节点在信息含量层面的重要性。

部分a中,所述的传染病动力学模型是指:传染病的基本数学模型,通常被用来研究传染病的传播速度、空间范围、传播途径、动力学机理等问题。由于病毒文件在物理网络中的传播与传染病在社交网络中的传播具有一定的相似之处。因此,本发明使用该模型来对网络中的终端设备进行分类,并作为依据,在后续用于评估节点所处环境的风险值。

本发明采用已有的sirs模型来对不同类型的终端设备进行分类。该模型包括三个类别:s(易感),i(染病)和r(康复)。其中,在终端设备中,s类可以对应于未安装防御软件的易染病设备,i类可以指具有症状的受感染设备,r类可以指具有相应防御手段的较安全设备。另外,安装防御软件或安全补丁后,设备仅在一定时间内具有免疫功能,如果防御措施长时间未更新,它将恢复为易感者。

部分b中,所述的集聚系数是指:在图论中,集聚系数是用来描述一个图中的顶点之间结集成团的程度的系数。具体来说,是一个点的邻接点之间相互连接的程度。集聚系数分为整体与局部两种。整体集聚系数可以给出一个图中整体的集聚程度的评估,而局部集聚系数则可以测量图中每一个结点附近的集聚程度。已有研究表明,在大多数网络中,包括互联网,节点都倾向于聚集。

可以通过如下方式定义无向非加权图中的局部聚类系数:

其中ejk表示节点vi的相邻节点之间的链接数,而ki表示vi的相邻节点数。可见,一个结点的局部集聚系数是它的相邻结点之间的连接数与它们所有可能存在的连接的数量的比值。该公式可以度量网络中每个节点的集聚程度,链接密集的区域的集聚系数将明显大于链接稀疏的区域的集聚系数。鉴于密集区域中的节点有更大的可能受到入侵的损害,例如,病毒文件将具有更多的途径传播到更广的区域。因此,密集区域的节点显然需要受到较多的关注,且重要性应当较大。因此,本发明通过引入局部聚集系数以描述网络中每个节点附近的聚集程度,并在此基础上评估拓扑级别上节点的重要性。

另外,由于网络中不同的终端设备具有不同的安全级别。例如,具有完整安全防御解决方案的设备不太可能被入侵。因此,信息熵的引入可以进一步评估网络中节点的重要性。

部分c中,所述的信息熵是指:信息熵常被用来作为一个系统的信息含量的量化指标,并可以用来量化系统的有序性。信息熵的定义可以公式化的表示为:

其中p(xi)表示随机事件xi的发生概率。当随机变量x服从二项式分布且p(x=1)=p时,可以按以下方式转换表达式:

h(p)=-plog2p-(1-p)log2(1-p),

其中,p是事件x=1在二项分布中发生的概率。该公式表示,把各种可能表示出的信息量乘以其发生的概率之后求和,就表示了整个系统所有信息量的一种期望值。通过查阅在不同概率p下的熵函数h的变化趋势图可知,信息熵随变量x的不稳定性的增加而增加。即,当p=0.5时,信息熵最大。此时事件x发生或不发生的概率均为0.5,处于最不稳定的情况。也就是说,系统越有序,信息熵越小。系统越混乱,信息熵就越大。

因此,信息熵还可以作为一个系统复杂程度的度量,如果系统越复杂,出现不同情况的种类越多,那么他的信息熵是比较大的。如果一个系统越简单,出现情况种类很少此时的信息熵也较小。基于上述分析,利用部分a中对终端设备的分类,可以计算一个区域内信息熵的大小,并利用该值来评估系统的有序性与稳定性。若信息熵较大,则代表该区域内系统较不稳定,应该受到较多的关注。

在网络环境中,处于高度危险状态的终端设备的比例通常不超过其他设备。因此,当信息熵处于最小值h=0时,这意味着在该系统中无需密切关注的设备。相反,当信息熵逐渐增加时,意味着系统中需要较多关注的重要设备逐渐增加。将符号p(xi)定义为重要性不同的终端设备xi与设备总数的比率,则一个网络中局部区域的信息熵计算公式可表达为如下:

其中ei代表区域i的信息熵,xij代表区域i中类型为j的设备的数量,而xi代表区域i中设备的总数。另外,区域信息熵将作为权重被引入到集聚系数计算公式中,以在信息量层面上衡量区域中一个节点的重要性。

引入区域信息熵的加权集聚系数可以表示为如下:

其中表示节点i与区域a中相邻节点之间的集聚系数,ki表示节点i的相邻节点数,e表示邻居节点之间的链接数。

此外,聚集范围内的节点包括集聚系数不为零或与集聚系数不为零的节点直接连接的节点。在图论中,集聚系数是用于描述图中顶点之间的聚集程度的系数因此,我们认为具有较高集聚系数的点和该点的相邻点应一起属于密集区域。除此之外的稀疏区域中的节点可以适当忽略,链路也可以进行合并来生成逻辑上的新链路。

本发明提供的技术方案带来的有益效果是:

本发明的设计用于在测量网络性能参数时简化拓扑,可以有效降低在外部测量时发送的测量数据包数量,并减少测量工作量。在复杂的拓扑中,通过加权集聚系数来度量节点的重要性,并通过将集聚系数较低的节点进行省略来简化拓扑,可以省略不需要过度关注的网络片段。在进行网络测量时,可以将某些稀疏区域中的链接合并为一个链接,而无需详细测量每个链接的性能,这将大大减少工作量。此外,仅公开拓扑的一部分也可以起到保护基础设施供应商个人利益的作用。

附图说明

为了更清楚地说明本发明的技术方案,下面将对发明内容中所需要使用的附图作简要地介绍。

图1是通过传染病动力学模型中的sirs模型对终端设备进行分类后的包含两个区域的网络拓扑图。其中各个图标所代表的的设备类型已在图中标出。此外,各个区域中类型为s,i与r的设备的数量也已标出。

图2是本发明采用的技术方案中部分c中所述的随机变量x在服从二项分布时的信息熵函数的变化趋势图。其中p是事件x=1在二项分布中发生的概率。

图3是对图1中每个节点计算加权集聚系数后的拓扑图。计算所需的数据已在图中标出或显示,包括各个区域中不同类型的设备的数量,节点与链接数等。

图4是将图3中稀疏区域的节点进行化简后的拓扑图,简化的依据为加权集聚系数较低的节点。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将对本发明实施方式作进一步地详细描述。

实施例一

本实例的基础在于,选定待测量的网络,并确定各项数据,包括区域数,节点数,链路数,以及按照sirs模型进行分类的各类型终端设备的数量。之后抽象出该网络的拓扑图,该图将作为需要简化的原始拓扑。需要注意的是,应尽可能选取包含较多类型拓扑的网络,并至少包括一个较为密集的区域。经检验,网络符合要求,具有一定代表性后,开始为每个节点计算加权集聚系数,并对拓扑图进行简化。

对比实验1是为每个节点计算由环境信息熵加权的局部集聚系数,将加权集聚系数较低的节点进行省略,并合并稀疏区域的链接。

对比实验2是对每个节点剩余的cpu容量与cpu资源单价计算综合得分,并按照从小到大的顺序进行排序,对得分较低的节点进行省略,以及合并省略节点后的剩余链接。

对比实验3是对每个节点计算不加权的局部集聚系数,并将集聚系数较低的节点进行省略,以及合并链接。

经过三个实验,三种方案的对比,可以看出,仅考虑拓扑的话,处于有序性较差的环境,但结构上处在稀疏区域的节点将被忽略,而仅考虑剩余资源的话,处于密集区域但剩余资源较少的节点将被忽略。与之相比,采用本发明设计的方法进行拓扑简化,可以同时保留集聚系数较高的密集区域节点和区域信息熵较高的高风险环境下的节点。显然,本发明的方法可以在更为周到的情况下减少测量工作量,且具有感知环境的能力。并且,合适的节点重要性度量对后续研究也具有一定的指导意义。例如,重要性较高的节点可以给予更高的关注,安装防御系统等。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1