一种FCBF特征选择方法及其在网络入侵检测中的应用与流程

文档序号:21366705发布日期:2020-07-04 04:42阅读:704来源:国知局
一种FCBF特征选择方法及其在网络入侵检测中的应用与流程

本发明涉及网络安全技术领域,特别是一种fcbf特征选择方法及其在网络入侵检测中的应用。



背景技术:

随着大数据和云计算的迅速发展,网络入侵手段呈现隐蔽性、静默性的特点,人们对于网络安全的需求日益增加。但随着数据量的增加,主流的网络入侵模型进行入侵识别的效率越来越低。因为这些数据不仅规模庞大,而且维度较高,存在着大量的冗余信息,这些无关的信息会极大降低入侵检测效果。特征选择是解决这一问题的有效手段,良好的特征选择算法可以有效剔除分类数据中存在的冗余特征或噪声数据,提升入侵检测的速度和准确度。因此性能稳健的特征选择算法对入侵检测的识别是非常重要的。

fcbf为特征选择算法中的典型算法,该方法主要包括两个步骤:去除不相干的特征以及采用顺序前向搜索算法去除冗余特征。fcbf算法通过设置阈值将特征与类的相关性小于等于δ的特征所在位置的相关性认定为不相干的特征,因此去除不相干的特征可以极大降低数据的维度,剩下的相关特征采用顺序前向搜索的算法剔除特征子集中的冗余特征,从而得到最终的特征子集。

但采用上述fcbf算法存在两个主要问题:

1.阈值的设定,没有考虑数据集的特性,直接设定为对数据集的特性分布较均匀或计算的特征集合不够完备的数据集会把相关特征当做不相干的特征删除,对特征分布集中的数据集会把不相关性的特征保留,这两种情况对选择有效特征子集的过程均会造成影响,从而导致分类正确率降低。

2.fcbf算法在剔除冗余特征时,判断冗余的条件是:对两个特征fi、fj,fi与类别c之间的相关性大于fj与类别c之间的相关性,且fi与fj之间的相关性大于fj与类别c之间的相关性。但fi与fj之间的相关性与fj与类别c之间的相关性是没有直接关系的。此时,相关性的特征有可能被当做冗余特征删除,从而导致分类正确率降低。



技术实现要素:

本发明的目的是提供一种fcbf特征选择方法及其在网络入侵检测中的应用,旨在解决现有技术中现有fcbf算法分类正确率低的问题,实现提升分类的准确率,提高入侵检测的准确性,有效捕获网络攻击行为,保障网络环境的安全。

为达到上述技术目的,本发明提供了一种优化fcbf特征选择方法,所述方法包括以下步骤:

对提取的每个特征计算其与类别的相关联程度,根据相关联程度将选择的特征进行降序排序;

计算梯度下降频率,以首次梯度下降δ为0的特征所在位置为阈值移除不相关特征,得到特征集合;

对于特征集合中的每个特征fi,选择fi后的每个特征fj,计算两者之间的相关联程度suij以及剩余信息rci,j,若suij≥sujc且rci,j<0.3,则剔除冗余特征fj,得到有效特征子集。

优选地,所述以首次梯度下降δ为0的特征所在位置为阈值移除不相关特征具体为:

将首次梯度下降为0的特征所在位置之前的特征保留,首次梯度下降为0的特征所在位置之后的特征删除。

优选地,所述相关联程度suij的计算公式如下:

其中,ig(i|j)为两个特征之间的互信息量;h(i)、h(j)为特征的信息熵。

优选地,所述剩余信息rci,j的计算公式如下:

其中,cci,j为特征fi、fj两个特征与类别之间共同的信息

优选地,所述梯度下降δ的计算公式如下:

δ=suic-sujc。

本发明还提供了一种优化fcbf特征选择方法在网络入侵中的应用,包含以下步骤:

获取网络中的数据集,并提取数据集中数据的完整特征,利用等宽离散化对特征进行预处理;

利用所述优化fcbf特征选择算法对离散化后的数据进行特征选择,得到有效特征子集;

对所述特征子集进行分类验证,得到根据特征子集进行训练的分类模型,根据分类判断该数据是否属于入侵检测数据。

优选地,所述分类验证采用十字交叉验证方式进行。

本发明还提供了一种基于优化fcbf特征选择算法的网络入侵检测系统,包括:

特征集获取模块,用于获取网络中的数据集,并提取数据集中数据的完整特征,利用等宽离散化对特征进行预处理;

特征选择模块,用于利用所述优化fcbf特征选择算法对离散化后的数据进行特征选择,得到有效特征子集;

入侵检测模块,用于对所述特征子集进行分类验证,得到根据特征子集进行训练的分类模型,根据分类判断该数据是否属于入侵检测数据。

本发明还提供了一种优化fcbf特征选择设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序,以实现所述的优化fcbf特征选择方法。

本发明还提供了一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现所述的优化fcbf特征选择方法。

发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:

与现有技术相比,本发明通过对fcbf特征选择算法进行改进,采用梯度下降的方式获取相关特征,并引入剩余信息的概念,将剩余信息应用在去除冗余特征的过程中,从而实现在较高运算速度下选择相关性较强的有效特征子集,用该子集进行分类识别能够提升分类的准确率,并将其应用在入侵检测中,提高入侵检测的准确性,有效捕获网络攻击行为,保障网络环境的安全。

附图说明

图1为本发明实施例中所提供的一种优化fcbf特征选择方法流程图;

图2为本发明实施例中所提供的一种优化fcbf特征选择方法在网络入侵检测中的应用方法流程图;

图3为本发明实施例中所提供的一种基于优化fcbf特征选择算法的网络入侵检测系统框图。

具体实施方式

为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

下面结合附图对本发明实施例所提供的一种优化fcbf特征选择方法及其在网络入侵检测中的应用进行详细说明。

如图1所示,本发明公开了一种优化fcbf特征选择方法,所述方法包括以下步骤:

对提取的每个特征计算其与类别的关联程度,根据相关联程度将选择的特征进行降序排序;

计算梯度下降频率,以首次梯度下降为0的特征所在位置为阈值移除不相关特征,得到特征集合;

对于特征集合中的每个特征fi,选择fi后的每个特征fj,计算两者之间的相关联程度suij以及剩余信息rci,j,若suij≥sujc且rci,j<0.3,则剔除冗余特征fj,得到有效特征子集。

fcbf算法采用对称不确定性的评估准则,用于衡量特征与类或特征与特征之间相关联程度,即对于变量x、y,其对称不确定性为:

其中,ig(x|y)为两个变量之间的互信息量;h(x)、h(y)为变量的信息熵。

其中,sc为集合与类相关性,n为特征个数,avg(suic)为所有特征与类之间的相关性的平均值,avg(suij)为特征与特征之间的相关性的平均值。对于特征fi、fj两个特征与类别之间共同的信息为:

在本发明实施例中提出剩余信息rci,j的概念,用来评估特征fj在特征fi上额外提供的信息比例,即:

对提取的每个特征计算与类别的关联程度,根据关联程度将选择出来的特征进行降序排序,并根据梯度下降的频率,对第一个下降频率为0的特征所在位置的特征,对该位置之前的特征保留,该位置之后的特征删除,得到特征个数为n1的集合s1,从而移除不相关的特征。

对于排序的特征与类别之间关系的集合{su1c,su2c,...,suic,sujc,...},其中suic到sujc之间的梯度下降为δ=suic-sujc,当δ的值为0时的特征所在位置,即为停止位置。该特征之前的特征为相关特征,该特征之后的特征则认定为不相关特征并被删除。

对排序集合中的每个特征fi,选择fi后的每个特征fj,计算suij和rci,j,若suij≥sujc且rci,j<0.3,则说明fj这个特征与fi特征的关联性更强,且与类别之间的相关性不大,是可以被特征fi替换的,所以fj是冗余特征,应该被删除。

重复上述过程,直到最后一个特征,即可得到有效的特征子集。

基于上述过程,在去除冗余特征时加入剩余信息判定的概念,可从技术层面上增加选择有效特征子集的概率。对于删除冗余特征的算法,其时间复杂度为o(n12),但由于执行过程中冗余特征会被删除,因此时间复杂度是远远低于o(n12)的。根据该方法最终得到与分类相关的有效特征子集,在搜索时优先选择特征与特征相关性小的特征计算,保证选择的特征子集是稳定有效的。

如图2所示,本发明实施例还公开了一种优化fcbf特征选择方法在网络入侵检测中的应用,其包含以下步骤:

获取网络中的数据集,并提取数据集中数据的完整特征,利用等宽离散化对特征进行预处理;

利用所述优化fcbf特征选择算法对离散化后的数据进行特征选择,得到有效特征子集;

对所述特征子集进行分类验证,得到根据特征子集进行训练的分类模型,根据分类判断该数据是否属于入侵检测数据。

获取数据并对数据进行预处理。监视并获取网络中的数据集,包括正常的访问数据和携带入侵攻击的数据。提取数据集中数据的完整特征,包括间隔时间以及资源消耗等能够表达这些数据的特征,这些特征中存在较多的冗余信息,因此需要对其进行选择。由于对连续性的特征计算熵值较为困难,因此对提取的完整特征采用等宽离散化的方法进行离散化,不仅不能够降低异常数据的影响,而且可以提高运行的速度。

利用前文所述的优化fcbf特征选择方法对离散化后的数据进行特征选择。

对提取的每个特征计算与类别的关联程度,根据关联程度将选择出来的特征进行降序排序,并根据梯度下降的频率,对第一个下降频率为0的特征所在位置的特征,对该位置之前的特征保留,该位置之后的特征删除,得到特征个数为n1的集合s1,从而移除不相关的特征。

对于排序的特征与类别之间关系的集合{su1csu2c,...,suic,sujc,...},其中suic到sujc之间的梯度下降为δ=suic-sujc,当δ的值为0时的特征所在位置,即为停止位置。该特征之前的特征为相关特征,该特征之后的特征则认定为不相关特征并被删除。

对排序集合中的每个特征fi,选择fi后的每个特征fj,计算suij和rci,j,若suij≥sujc且rci,j<0.3,则说明fj这个特征与fi特征的关联性更强,且与类别之间的相关性不大,是可以被特征fi替换的,所以fj是冗余特征,应该被删除。

重复上述过程,直到最后一个特征,即可得到最终的特征子集。

对该特征子集进行分类验证,建立用于入侵检测的分类模型。为了得到较为稳定的分类结果,保证特征选择算法选择特征的稳定性,本发明实施例采用十字交叉验证方式进行学习和分类预测。

将样本数据随机分为10份,轮流将其中的9份作为训练数据,1份作为测试数据。每次测试都会得到相应的正确率,10次测试结果的平均值为最终特征选择的分类正确率,可以用来衡量特征选择算法的性能。并利用支持向量机分类算法进行分类,有效解决二分类问题,通过分类验证的过程,得到根据特征子集进行训练的分类模型。根据分类判断该数据是否属于入侵检测数据,从而有效识别网络中的入侵攻击行为,保证网络中的安全。

如图3所示,本发明实施例还公开了一种基于优化fcbf特征选择算法的网络入侵检测系统,包括:

特征集获取模块,用于获取网络中的数据集,并提取数据集中数据的完整特征,利用等宽离散化对特征进行预处理;

特征选择模块,用于利用所述优化fcbf特征选择算法对离散化后的数据进行特征选择,得到有效特征子集;

入侵检测模块,用于对所述特征子集进行分类验证,得到根据特征子集进行训练的分类模型,根据分类判断该数据是否属于入侵检测数据。

获取数据并对数据进行预处理。监视并获取网络中的数据集,包括正常的访问数据和携带入侵攻击的数据。提取数据集中数据的完整特征,包括间隔时间以及资源消耗等能够表达这些数据的特征,这些特征中存在较多的冗余信息,因此需要对其进行选择。由于对连续性的特征计算熵值较为困难,因此对提取的完整特征采用等宽离散化的方法进行离散化,不仅不能够降低异常数据的影响,而且可以提高运行的速度。

利用前文所述的优化fcbf特征选择方法对离散化后的数据进行特征选择,得到最终的特征子集。

对该特征子集进行分类验证,建立用于入侵检测的分类模型。为了得到较为稳定的分类结果,保证特征选择算法选择特征的稳定性,本发明实施例采用十字交叉验证方式进行学习和分类预测。

将样本数据随机分为10份,轮流将其中的9份作为训练数据,1份作为测试数据。每次测试都会得到相应的正确率,10次测试结果的平均值为最终特征选择的分类正确率,可以用来衡量特征选择算法的性能。并利用支持向量机分类算法进行分类,有效解决二分类问题,通过分类验证的过程,得到根据特征子集进行训练的分类模型。根据分类判断该数据是否属于入侵检测数据,从而有效识别网络中的入侵攻击行为,保证网络中的安全。

本发明实施例还公开了一种优化fcbf特征选择设备,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序,以实现所述的优化fcbf特征选择方法。

本发明实施例还公开了一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现所述的优化fcbf特征选择方法。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1