一种基于最大频繁模式非相似性的异常网络流量检测方法与流程

文档序号:30328399发布日期:2022-06-08 04:57阅读:96来源:国知局
一种基于最大频繁模式非相似性的异常网络流量检测方法与流程

1.本发明属于异常网络流量检测领域,涉及一种基于最大频繁模式非相似性的异常网络流量检测方法。


背景技术:

2.随着互联网技术的快速发展,网络流量的规模呈现出爆发式增长的趋势,如何对采集到的网络流量进行准确分类引起了学术界的广泛关注,也是一个亟待解决的关键问题。对网络流量进行准确分类的前提是所收集的网络流量数据集是安全可靠的,即所收集的网络流量数据集不包含任何异常的流量数据。因此,在进行网络流量分类操作之前,对网络流量数据进行异常检测以消除异常流量是非常必要的。另一方面,对网络流量数据的日益重视也使得人们对网络流量的安全问题更加关注,因此,如何使采集到的网络流量数据更加安全也成为研究热点。
3.与普通数据相比,网络流量数据是由多个具有不同属性的数据元素组成,而不同属性的数据元素通常具有一定的关联性,这就需要对网络流量数据中的属性进行关联分析。同样,在对网络流量数据进行异常检测的过程中,也需要充分考虑网络流量数据属性之间的关联,才能更准确地检测出隐藏在网络流量数据中的异常流量。作为保证网络流量数据安全的重要方法,异常检测是这些年的研究热点,它被广泛应用于信用卡欺诈检测、网络入侵检测、社交网络检测、轨迹检测等领域。
4.近年来,学者们提出了大量的异常检测方法,包括:基于聚类的方法、基于距离的方法、基于密度的方法、基于模型的方法、基于分布的方法、基于深度学习的方法以及基于关联关系的方法。在这些异常检测方法中,大多数只考虑数据实例与周围其他数据的偏离程度。与其他类型的异常检测方法不同,基于关联关系的离群点检测方法通过频繁(或不频繁)模式挖掘阶段和异常检测阶段进行异常流量的检测操作。其中,模式挖掘阶段的主要任务是挖掘网络流量数据集中具有强关联或弱关联的项集,而异常检测阶段的主要任务是设计更完整的偏差指数,全面衡量网络流量数据的异常程度,从而提高检测精度。由于基于关联关系的异常检测方法在充分考虑了网络流量属性之间的关联,因此可以有效地发现潜在的异常流量。
5.对于基于关联关系的异常检测方法,虽然设计的偏差指数是检测精度的保证,但归根结底,异常检测的基础是分析挖掘出的网络流量中的频繁模式与被检测网络流量之间的(非)相似度。其中,与频繁模式相似度较高的网络流量不太可能是异常流量,与非频繁项集相似度较高的网络流量更可能是异常流量。虽然设计多个偏差指数可以有效提高异常检测的准确性,但是多个偏差指数的设计需要多次扫描网络流量才能有效计算出异常程度,这就导致异常检测的时间消耗非常长。此外,当最小支持度阈值(记录为min_sup,用于判断网络流量中的属性是否为频繁模式)设置得比较大时,可以挖掘的频繁模式(或其压缩形式,如封闭频繁模式、最大频繁模式)的数量会比较少,这会导致基于关联关系的异常检测方法的检测精度较差。
6.基于此,本发明提出了一种基于最大频繁模式非相似性的异常网络流量检测方法。在模式挖掘阶段,通过挖掘网络流量中的最大频繁模式(一种具有关联关系的属性压缩形式,最大频繁模式中的任意属性组合都是频繁出现的)来减少异常检测阶段使用的模式数量,从而减少该阶段消耗的时间;在异常检测阶段,通过考虑网络流量与最大频繁模式的非相似性,构造了基于最大频繁模式的非相似性指数,有效地解决了当min_sup设置得较大时由于挖掘得到的频繁模式较少而导致的异常检测精度低的问题,从而提高异常网络流量的检测准确率。大量的对比实验证明本发明提出的异常网络流量检测方法能够获得更高的检测准确性,且时间消耗也更少。


技术实现要素:

7.现有技术中的基于关联关系的异常网络流量检测方法是基于频繁模式的挖掘进行异常流量的检测,这就导致时间消耗比较长;并且当最小支持度阈值设置得较大时,由于频繁模式数量过少,容易引起的检测准确率出现明显下降的问题。基于此,本发明提出了一种基于最大频繁模式非相似性的异常网络流量检测方法用以解决上述存在的问题。
8.本发明提供了一种基于最大频繁模式非相似性的异常网络流量检测方法,包括:
9.步骤1,利用模式增长法挖掘网络流量中的最大频繁模式,有效发现网络流量中属性的关联关系;
10.步骤2,利用挖掘得到的具有强关联关系的网络流量的属性,构建基于最大频繁模式的非相似性指数,用于衡量各条网络流量的异常程度;
11.步骤3,根据步骤2所构建的最大频繁模式的非相似性指数,计算每条网络流量的异常程度;
12.步骤4,将网络流量按照异常度的降序顺序排列,得到异常网络流量检测报告。
13.第一方面,上述步骤1的具体步骤如下:
14.步骤1.1,扫描搜集的网络流量,将每一个属性进行标准化处理以消除属性度量不一致带来的影响,计算标准化后网络流量中每个属性的支持度,从而删除支持度小于预设的最小支持度阈值min_sup的非频繁属性,并将频繁的属性(即支持度不小于min_sup的属性)按照其支持度降序的顺序进行排列;
15.步骤1.2,将网络流量中所有长度为1的频繁的属性(简称为:频繁1-模式)按照步骤1.1排列好的顺序依次插入一课以null为根节点的频繁模式树(frequent pattern tree,简称为:fp-tree)中;
16.步骤1.3,从fp-tree中依次取出支持度等于min_sup的频繁1-模型,利用模式增长法(fp-growth)分别递归fp-tree的路径以将其与其它的频繁1-模式进行“模式扩展”(即扩展的过程从2-模式至更长的模式),通过计算所扩展得到的模式的支持度并将其支持度与min_sup进行比较,以挖掘最大频繁模式;
17.步骤1.4,从fp-tree中取出支持度大于最小支持度阈值的频繁1-模式,利用模式增长法(fp-growth)分别递归fp-tree的路径以将其首先扩展为k-模式(k为可扩展模式的最长长度);
18.步骤1.5,计算由步骤1.4扩展得到的k-模式的支持度,若k-模式的支持度不小于min_sup则输出此k-模式,否则回溯fp-tree树以扩展得到(k-1)-模式并计算(k-1)-模式的
支持度,依此类推直至发现支持度不小于min_sup的模式为止。
19.第二方面,上述步骤2具体包括:
20.步骤2.1,统计网络流量中所有属性的个数(记为:n(ti),其中ti表示第i条网络流量)、网络流量中挖掘得到的最大频繁模式的长度(记为:len(ij),其中ij表示最大频繁模式)以及最大频繁模式与网络流量的非相似部分的长度(记为:len(t
i-ti∩ij),其中(t
i-ti∩ij)表示最大频繁模式与网络流量的非相似部分);
21.步骤2.2,基于步骤2.1统计得到的内容,构建基于最大频繁模式的非相似性指数,用于衡量各条网络流量的异常程度,其中构建的基于最大频繁模式的非相似性指数如下:
[0022][0023]
第三方面,上述步骤3具体包括:
[0024]
步骤3.1,采用步骤1挖掘网络流量中具有关联关系的最大频繁模式,并基于所挖掘的最大频繁模式采用步骤2构建非相似性指数;
[0025]
步骤3.2,针对每一条网络流量,基于构建的非相似性指数计算其异常程度。
[0026]
第四方面,上述步骤4具体包括:
[0027]
步骤4.1,基于步骤3.2所得到的每条网络流量的异常程度,利用冒泡排序方法将网络流量按照其降序的异常程度进行排序;
[0028]
步骤4.2,将具有最高异常程度的前n条网络流量输出为异常流量。
[0029]
与现有技术相比,本发明有益的效果:
[0030]
1、通过挖掘网络流量中的具有关联关系的属性压缩形式(即:最大频繁模式)的方式,减少对网络流量进行异常检测所使用的模式数量,从而减少该阶段消耗的时间。
[0031]
2、在挖掘网络流量中最大频繁模式的过程中,设计了两个挖掘策略,即:对于支持度等于设定的最小支持度阈值的频繁1-模型,其“模式扩展”过程从2-模式至k-模式;对于支持度大于最小支持度阈值的频繁1-模式,其“模式扩展”过程从k-模式至2-模式,从而减少最大频繁模式挖掘的时间消耗。
[0032]
3、针对当最小支持度阈值设置得较大时由于所挖掘得到的频繁模式较少而引起异常检测准确性降低的问题,本发明通过考虑网络流量与其所包含的最大频繁模式的非相似性,构造基于最大频繁模式的非相似性指数,从而有效提高异常网络流量的检测准确率。
附图说明
[0033]
图1是一种基于最大频繁模式非相似性的异常网络流量检测方法的总体流程图。
[0034]
图2是一种基于最大频繁模式非相似性的异常网络流量检测方法的详细流程图。
[0035]
图3是本发明实验环节所用的网络流量数据样本集信息。
[0036]
图4是本发明提出的dismfi方法与基于关联关系的异常检测方法(包括:findfpof、fim-udsod、fci-outlier和mfpm-ad)在不同的最小支持度阈值min_sup下的precision对比图。
[0037]
图5是本发明提出的dismfi方法与基于关联关系的异常检测方法(包括:findfpof、fim-udsod、fci-outlier和mfpm-ad)在不同的最小支持度阈值min_sup下的
recall对比图。
[0038]
图6是本发明提出的dismfi方法与基于关联关系的异常检测方法(包括:findfpof、fim-udsod、fci-outlier和mfpm-ad)在不同的最小支持度阈值min_sup下的f1-measure对比图。
[0039]
图7是本发明提出的dismfi方法与基于关联关系的异常检测方法(包括:findfpof、fim-udsod、fci-outlier和mfpm-ad)在不同的最小支持度阈值min_sup下的时间消耗对比图。
具体实施方式
[0040]
下面结合附图和实施案例对本发明作进一步说明,应指出的是,所描述的实施案例仅旨在便于对本发明的理解,而对其不起任何限定作用。
[0041]
本发明旨在针对网络流量中的异常流量,提出一种基于最大频繁模式非相似性的异常网络流量检测方法,以有效对网络流量进行特征关联分析,提供了完善的网络流量属性关联提取模型和异常流量检测框架,并且进行了充分的实验,证明了方法的可行性和有效性。
[0042]
如图1所示,本发明的一种基于最大频繁模式非相似性的异常网络流量检测方法,包括:
[0043]
步骤201对网络流量中的各条流量数据,利用模式增长法挖掘包含的最大频繁模式,从而发现网络流量中属性的关联关系;
[0044]
本发明实施最大频繁模式挖掘的目的在于,对于一条网络流量而言,根据异常的定义,如果其包含的绝大多数属性是经常出现的(即是频繁模式)则其成为异常流量的可能性会有所降低,反之该条网络流量更容易成为异常流量,因此通过对网络流量中最大频繁模式的挖掘可以对异常流量的判定带来积极的促进作用,也为后续的异常检测操作提供必要的模式基础。
[0045]
步骤2011扫描网络流量,计算网络流量中每个属性的支持度,从而删除支持度小于最小支持度阈值min_sup的非频繁属性,并将频繁的属性按照其支持度降序的顺序进行排列;
[0046]
步骤2012将网络流量中所有长度为1的频繁的属性(简称为:频繁1-模式)按照步骤2011排列好的顺序依次插入一课以null为根节点的频繁模式树(frequent pattern tree,简称为:fp-tree)中;
[0047]
步骤2013从fp-tree中依次取出支持度等于设定的最小支持度阈值的频繁1-模型,将其按照模式增长法分别与其它的频繁1-模式进行“模式扩展”(即扩展的过程从2-模式至更长的模式),通过计算所扩展得到的模式的支持度并将其支持度与最小支持度阈值进行比较,以挖掘最大频繁模式;
[0048]
步骤2014从fp-tree中取出支持度大于最小支持度阈值的频繁1-模式,将其按照fp-tree结构进行模式的遍历以将其首先扩展为k-模式(k为可扩展模式的最长长度);
[0049]
步骤2015计算由步骤2014扩展得到的k-模式的支持度,若k-模式的支持度不小于最小支持度阈值则输出此k-模式,否则回溯fp-tree树以扩展得到(k-1)-模式并计算(k-1)-模式的支持度,依此类推直至发现支持度不小于最小支持度阈值的模式为止。
[0050]
步骤202利用挖掘得到的具有强关联关系的网络流量的属性,构建基于最大频繁模式的非相似性指数,用于衡量各条网络流量的异常程度;
[0051]
构建非相似性指数的目的在于,对于基于关联关系的异常网络流量检测不能简单地靠一条流量中包含最大频繁模式的数量直接判定该网络流量是否是异常流量,需要通过全面地考虑多个因素进行综合的判定,因此通过考虑包括流量中的最大频繁模式的数量以及其它多个因素,如:网络流量中属性的个数、网络流量中挖掘得到的最大频繁模式的长度以及最大频繁模式与网络流量的非相似部分的长度,从而提升异常网络流量判定的准确性。
[0052]
步骤2021统计网络流量属性的个数(记为:n(ti),其中ti表示第i条网络流量)、网络流量中挖掘得到的最大频繁模式的长度(记为:len(ij),其中ij表示最大频繁模式)以及最大频繁模式与网络流量的非相似部分的长度(记为:len(t
i-ti∩ij),其中(t
i-ti∩ij)表示最大频繁模式与网络流量的非相似部分);
[0053]
步骤2022基于步骤2021统计得到的内容,构建基于最大频繁模式的非相似性指数,用于衡量各条网络流量的异常程度,其中构建的基于最大频繁模式的非相似性指数如下:
[0054][0055]
步骤203根据步骤202所构建的最大频繁模式的非相似性指数,计算每条网络流量的异常程度。
[0056]
步骤204将网络流量按照异常度的降序顺序排列,得到异常网络流量检测报告;
[0057]
对网络流量按照其异常程度降序的顺序进行排列的目的在于,对于网络流量而言,判断其是否是异常流量的标准是该流量的异常程度是否高于其它的网络流量,因此根据其异常程序的降序顺序进行排序有助于异常网络流量的有序输出,从而便于发现异常网络流量。
[0058]
步骤2041基于步骤203所得到的每条网络流量的异常程度,利用冒泡排序方法将网络流量按照其降序的异常程度进行排序;
[0059]
步骤2042将具有最高异常程度的前n条网络流量输出为异常流量。
[0060]
为使基于最大频繁模式非相似性的异常网络流量检测方法能快速、准确地发现异常的网络流量,本发明提出了许多解决方法。由于本发明是一种基于关联关系的异常网络流量检测方法,因此将本发明提出的基于最大频繁模式非相似性的异常网络流量检测方法(简称为dismfi)与其它四种基于关联关系的异常网络流量检测方法(包括:findfpof、fim-udsod、fci-outlier和mfpm-ad)进行实验对比,实验是在forestcover数据集上进行的,其中forestcover数据集的属性如图3所示。图4-6分别展示了在不同的最小支持度阈值min_sup下五种对比方法的检测准确性,包括:precision、recall和f1-measure,图7展示了在不同的最小支持度阈值min_sup下五种对比方法的时间效率。
[0061]
通过观察图4-6可以很直观地看出,在数据集forestcover上,本发明提出的dismfi方法的precision、recall和f1-measure在不同的最小支持度阈值min_sup下都是最高的,并且随着min_sup的不断变大其precision、recall和f1-measure三个指标呈现出变
高的趋势,有效地解决了其它四种对比方法存在的劣势。同时,从图7也能很直观地发现本发明所提出的dismfi方法的时间消耗也要少于所对比的四种方法。由此可见,本发明提出的基于最大频繁模式非相似性的异常网络流量检测方法能够更加快速、准确地发现网络流量中潜在的异常流量。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1