一种基于关联规则分类的网络入侵检测方法_4

文档序号：9551317阅读：来源：国知局

{(3,smtp)，（4,SF)，（40, 0) (41，0)} -normal; {(2,tcp)，（3,smtp)，（4,SF)，（40, 0)，（41，0)} -normal;
[0085] 分别计算这些规则对应的三种连接类型的权值：
[0086] Weight(back) = 2*(l*log2l+l) + (2*log22+2) = 6 ;
[0087] Weight(ipsweep) = 3* (l*log2l+l)+3* (2*log22+2) +(3*log23+3) = 22. 7549 ;
[0088] Weight(normal) = 5* (l*log2l+l)+10* (2*log22+2)+10* (3*log23+3)
[0089]+5*(4*log24+4) + (log25+5) = 199. 1585 '
[0090]
[0091] 权值最高的是Weight(normal)，则这条网络连接数据根据关联规则分类得到的结果是normal，这条数据的最后一列也证明了分类的正确性。
[0092] 第4步、保存第3步中分类结果，将分类过程和分类结果展示出来，同时为保证该方法良好的自适应性和自学习特性，测试集的数据根据关联规则得到分类结果后，训练集数据连同对应的分类结果重新加入到训练集数据中，为后续关联规则提取提供训练数据源，保证关联规则的实时更新。
[0093] 第4. 1步、测试数据展示。为将每条测试数据从读取直至分类完成过程展示出来，将每条测试数据用运动的图形代表，图形运动的轨迹和颜色变化代表测试数据的分类过程。每条网络连接对应一个动态Ellipse模型，而每个Ellipse动画模型对应一个测试线程。每读取一条测试数据，该方法通过规则匹配获取对该连接的分类结果。展示界面中的每个动态Ellipse模型，该方法利用其颜色、位置和运动轨迹的变化直观地显示具体分类过程和分类结果。
[0094] 第4. 2步、将测试过的网络连接数据与对应的分类结果添加到训练集中，保证方法良好的自适应性和字学习特性。考虑到实际网络状况的动态的属性，一次训练所得规则不能一直代表网络当前的网络状况，该方法将每条分类后的测试数据连同其分类结果添加到训练集中并再次训练，实时训练产生的新规则并更新到关联规则库中。
[0095] 为了验证Apriori-index算法相比原始的Apriori算法应用于网络入侵检测系统的优越性，我们进行以下对比验证实验。实验环境：一台PC机。CPU型号为 InterCorei7-4770 3.4GHz，内存 8G，1T硬盘，具备VisualStudio2013 的软件环境。实验数据：按照10%KDDCup99数据集中网络连接类型的不同比例，从中随机选取，保证每种连接类型的所取数据量最多不超过4000条，共选取36854条，然后使用交叉检验的方法，选取其中的60%作为训练集数据，另外40%作为测试集数据。利用改进前后的Apriroi算法进行5次实验。实验结果如表3所示：
[0096] 表3利用国际标准数据集10%KDDCup99对改进前后Apriori算法验证结果对比
[0097]
[0098] 实验结果表明：本发明的入侵检测方法相比原始的Apriori算法在执行结果的准确度上有了很大的提升，在执行时间方面有了极大的改善。
【主权项】
1. 一种基于关联规则分类的网络入侵检测方法包括以下步骤：第1步、对国际标准数据集10% KDDCUP99预处理，并将预处理后的数据集分成训练集和测试集两部分数据；第2步、采用改进的Apriori算法（Apriori-index)对选取的训练集中的网络连接数据进行训练，提取到关联规则，将关联规则存放到关联规则库中，同时将关联规则库中的关联规则展示出来；第3步、测试集中的每条网络连接数据逐条匹配关联规则库中关联规则，根据不同关联规则的条件长度和网络连接类型分别计算权值，找出最大权值所对应的网络连接类型即为最终分类得到的结果；第4步、保存第3步中分类结果，将上述分类过程和分类得到的结果展示出来；同时为保证该方法良好的自学习特性，测试集的数据在根据关联规则分类得到具体的网络连接类型后，训练集数据连同对应的网络连接类型重新加入到训练集数据中，为后续关联规则提取提供新的训练集数据源，保证关联规则的动态更新。2. 根据权利要求1所述的基于关联规则分类的网络入侵检测方法，其特征在于：第1 步中数据集预处理的方法是：第1. 1步、为每列数据添加位置参数；因为10%KDDCup99数据集中有大量相同的数据，数据集中处于不同列的数据有不同的含义，而原始的Apriori算法在处理数据集中不同列的相同数据项时将他们视为同样的数据，因此直接使用原始的Apriori算法处理数据集会影响提取规则速度和分类结果的准确度；为避免出现以上问题，需要在数据预处理阶段为每条网络连接数据的每个数据项添加位置参数；第1. 2步、采用交叉验证的方法选取经过第1. 1步预处理后的10%KDDCup99数据集中 60%的连接数据作为训练集，剩余的40%的连接数据作为测试集；由于改进的Apriori算法能够处理字符类型数据，同时数值类型的数据也能够视为字符类型数据，所以无需对网络连接数据中的字符类型数据进行数值化和归一化处理。3. 根据权利要求1所述的基于关联规则分类的网络入侵检测方法，其特征在于：第2 步所述采用Apriori-index算法提取关联规则的方法是：第2. 1步、初始化最小支持度阈值Min_Support，最小置信度阈值Min_Confidence; 通过查阅文献资料和实验验证，最小支持度阈值和最小置信度阈值分别设定为25 %和 78. 5%能够获得较高的分类准确度；初始化最小支持度阈值Min_Support= 25%，最小置信度阈值Min_Confidence= 78. 5% ; 第2. 2步、找出所有的频繁项集；遍历训练集中的所有的网络连接数据，统计每个属性值对应的连接类型及其出现的频度，形成候选项集合C1;在此基础上，根据支持度公式计算支持度；其中〇ccur(X)表示训练集中所有网络连接数据中包含频繁项{X}的数量，Count(D)表示训练集{D}中所有网络连接的数量；在候选项集合q中删除支持度低于最小支持度阈值Min_Support的候选项，剩余的候选项形成频繁1-项集L1;然后对于每种网络连接类型，连接Q中的不同元素构成候选项集合C2，再次遍历训练集数据，根据支持度公式计算C2中的每个候选项的支持度，删除候选项集合C2中支持度低于最小支持度阈值Min_Support的候选项，剩余候选项形成频繁2-项集L2;按照网络连接类型，再连接L2中的不同元素构成候选项集合C3，再次遍历训练集数据，计算C3中的每个候选项的支持度，删除支持度低于最小支持度阈值Min_Support的候选项，剩余的候选项形成频繁3-项集 L3;重复进行以上的遍历、删除和连接的步骤，直到没有新的候选项产生，所有的频繁项集 (Q山，...，Ln)都已搜寻得到；其中，连接步骤和删除步骤分别严格满足连接定理和频繁子集定理，即：若两个（k-l)_项集的前（k-2)个项相同，而最后一个项不同，则证明它们可连接得到k-项集；若k-项集任意一个子集不是频繁项集，则该k-项集也不是频繁项集；第2. 3步、由频繁项集产生关联规则；对于第2. 2步中得到的频繁项集（Q，L2,. . .，Ln)，假设频繁项集Q中每个频繁项1i的网络连接类型用t,表示；如果（1ft,) - \的置信度大于最小置信度阈值Min_Confidence，则输出（li-tj) -tj;置信度的计算根据置信度计算公式：其中Support(AUB)和Support(A)分别表示频繁项{AUB}和{A}的支持度；SP置信度公式可化为：找到的所有满足要求的（lft,) -t,，即为关联规则；第2. 4步、将第2. 3步中得到的关联规则添加到关联规则库中，作为对测试集中未知类型的网络连接数据测试分类的判断依据；第2. 5步、将关联规则库中的关联规则展示出来；10%KDDCup99数据集的数据量较大，经过Apriori-index算法训练得到的关联规则非常多，关联规则在页面内显示会比较混乱，所以关联规则展示页面进行适当的缩放，使关联规则清晰展示。4.根据权利要求1所述的基于关联规则分类的网络入侵检测方法，其特征在于：第3 步所述的确定最终网络连接类型的方法是：第3. 1步、读取测试集数据，对测试集中的每条网络连接数据按照关联规则分类，统计分类结果；10%KDDCup99数据集中每条网络连接数据有41个属性数据项和1个连接类型数据项，第2步中提取到的关联规则的条件部分包含有多个属性数据项，测试集中的每条未知类型的网络连接数据按照提取的关联规则分类时，会有多条关联规则与之对应，所以按关联规则分类需经过以下过程：第3. 1. 1步、对读取到的测试集中的一条连接数据，遍历整个关联规则库，统计并记录匹配的关联规则民（例如：（Vt,) -t,)中条件部分（Vt,)的长度，即统计关联规则民条件部分（lftj)包含的属性数据项的数量Length1; 第3. 1. 2步、分别计算匹配的η条规则中对应的网络连接类型部分\的权值；按照Apriori-index算法权值计算公式：计算该条未知网络连接类型的测试数据在经过关联规则库中所有关联规则比对后匹配的第j种网络连接类型\的权值；这主要是由于关联规则条件部分（1i-t,)的长度 Length越大，分类准确度越高，这样做能够同其他关联规则加以区分，提高分类结果的准确度；第3. 2步、输出分类结果：网络连接类型t;比较所有的权值，从中找出权值最高的Weight(t)，将分类结果即网络连接类型t输出。5.根据权利要求1所述的基于关联规则分类的网络入侵检测方法，其特征在于：第4 步所述的展示分类过程和分类后的网络连接类型以及向训练集中添加分类后的测试数据方法是：第4. 1步、测试数据展示；为将每条测试数据从读取直至分类完成过程展示出来，将每条测试数据用运动的图形代表，图形的运动轨迹和颜色变化代表测试数据的分类过程和分类得到的连接类型；第4. 2步、将测试过的网络连接数据与对应的网络连接类型添加到训练集中，保证该方法能够自学习；考虑到实际网络状况的动态特性，一次训练所得的关联规则不能始终代表网络的当前状况，在本方法中将每条分类后的测试数据连同其网络连接类型加入到训练集中并再次训练，实时训练产生新规则并更新到关联规则库中。
【专利摘要】一种基于关联规则分类的网络入侵检测方法，包括网络数据预处理，关联规则提取，网络连接数据分类和分类结果展示。本发明以改进的Apriori算法(Apriori-index)为基础，以国际标准数据集KDDCup99网络连接数据集为例，首先对选自其中的网络连接数据提取关联规则，然后根据关联规则实现对测试网络连接数据的分类，从而判断出当前网络连接是否为攻击连接以及具体攻击类型，并将相关统计数据展示出来。Apriori-index算法更适用于KDDCup99数据集，大大提高了关联规则提取和网络连接分类的速度，检测结果的准确度也有提升，一定程度上改善了传统入侵检测系统分类慢，误报率高的缺陷。
【IPC分类】H04L29/06
【公开号】CN105306475
【申请号】CN201510753693
【发明人】王劲松, 莫敬涛, 黄玮, 杨传印
【申请人】天津理工大学
【公开日】2016年2月3日
【申请日】2015年11月5日

完整全部详细技术资料下载

当前第4页1 2 3 4