一种基于改进密度聚类的入侵检测方法及装置制造方法

文档序号:6634733阅读:204来源:国知局
一种基于改进密度聚类的入侵检测方法及装置制造方法
【专利摘要】本发明适用于信息安全【技术领域】,提供了一种基于改进密度聚类的入侵检测方法及装置,所述方法包括:对原始数据集进行预处理;对预处理后的数据进行距离度量;基于所述距离度量,计算局部点的密度指标;基于所述距离度量和局部点的密度指标,计算局部点的距离指标;根据所述密度指标和距离指标,获得决策图;对所述决策图进行分析,获得簇的中心点以及簇的类数,并将剩余的点分配到离其距离最近且密度指标比其高的点所属的簇中;将分配后的簇按照其包含的数据的个数进行排序,将簇中数据的个数最大的簇判定为正常簇,其余的簇判定为异常簇。通过本发明,可有效解决现有技术存在的运算开销大,初始值的设定影响聚类结果的问题。
【专利说明】一种基于改进密度聚类的入侵检测方法及装置

【技术领域】
[0001] 本发明属于信息安全【技术领域】,尤其涉及一种基于改进密度聚类的入侵检测方法 及装置。

【背景技术】
[0002] 现有应用到入侵检测中的聚类算法大致分为两种:一种是基于划分的的聚类算 法,一种是基于密度的的聚类算法。
[0003] 基于划分的聚类算法,如K-means,由于簇的个数K与初始聚类中心点是事先人为 选定的,一旦选择不好,可能无法获得有效的聚类结果;其次,基于划分的聚类算法不能处 理非球形簇、不同尺寸和不同密度的簇。
[0004] 基于密度的聚类算法,如经典的DBSCAN(Density-BasedSpatialClusteringof ApplicationswithNoise),对于高维度且数据量较大的入侵数据,运算开销会比较大,而 且预先定义的密度阈值会对后面的聚类结果有明显的影响。


【发明内容】

[0005] 鉴于此,本发明实施例提供一种基于改进密度聚类的入侵检测方法及装置,以解 决现有技术存在的运算开销大,初始值的设定影响聚类结果的问题。
[0006] 一方面,本发明实施例提供一种基于改进密度聚类的入侵检测方法,所述方法包 括:
[0007] 对原始数据集进行预处理,所述原始数据集包含多个数据记录,每个数据记录包 含连续型数据和/或非数值型数据;
[0008] 对预处理后的数据进行距离度量;
[0009] 基于所述距离度量,计算局部点的密度指标;
[0010] 基于所述距离度量和局部点的密度指标,计算局部点的距离指标;
[0011] 根据计算得到的所述局部点的密度指标和所述局部点的距离指标,获得决策图;
[0012] 对所述决策图进行分析,获得簇的中心点以及簇的类数,并将剩余的点分配到离 其距离最近且密度指标比其高的点所属的簇中,其中所述中心点为密度指标大于第一阈 值,距离指标大于第二阈值的点;
[0013] 将分配后的簇按照其包含的数据的个数进行排序,将簇中数据的个数最大的簇判 定为正常簇,其余的簇判定为异常簇。
[0014] 另一方面,本发明实施例提供一种基于改进密度聚类的入侵检测装置,所述装置 包括:
[0015] 预处理单元,用于对原始数据集进行预处理,所述原始数据集包含多个数据记录, 每个数据记录包含连续型数据和/或非数值型数据;
[0016] 距离度量单元,用于对预处理后的数据进行距离度量;
[0017] 密度指标计算单元,用于基于所述距离度量,计算局部点的密度指标;
[0018] 距离指标计算单元,用于基于所述距离度量和局部点的密度指标,计算局部点的 距离指标;
[0019] 获取决策图单元,用于根据计算得到的所述局部点的密度指标和所述局部点的距 离指标,获得决策图;
[0020] 簇中心确定单元,用于对所述决策图进行分析,获得簇的中心点以及簇的类数,并 将剩余的点分配到离其距离最近且密度指标比其高的点所属的簇中,其中所述中心点为密 度指标大于第一阈值,距离指标大于第二阈值的点;
[0021] 结果确定单元,用于将分配后的簇按照其包含的数据的个数进行排序,将簇中数 据的个数最大的簇判定为正常簇,其余的簇判定为异常簇。
[0022] 本发明实施例与现有技术相比存在的有益效果是:本发明实施例预先定义两个指 标,即密度指标和距离指标,在聚类过程中计算出每个点的密度指标和距离指标,根据计算 得到的密度指标和距离指标自动获得簇的中心以及簇的类数,解决了现有技术人为设定初 始值(如簇的中心、簇的类数、密度阈值等)影响聚类结果的问题。而且,对于高维度且数 据量较大的入侵数据,相比于现有的聚类方法,无需迭代最优目标函数,明显减少了计算开 销。另外,由于是基于密度的聚类算法,对于非球形簇,也有很好的聚类效果,并能自动检测 出异常簇,具有较强的易用性和实用性。

【专利附图】

【附图说明】
[0023] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述 中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些 实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些 附图获得其他的附图。
[0024] 图1是本发明实施例一提供的基于改进密度聚类的入侵检测方法的实现流程图;
[0025] 图2是本发明实施例二提供的基于改进密度聚类的入侵检测装置的组成结构图。

【具体实施方式】
[0026] 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。
[0027] 为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
[0028] 实施例一:
[0029] 图1示出了本发明实施例一提供的基于改进密度聚类的入侵检测方法的实现流 程,该方法过程详述如下:
[0030] 在步骤SlOl中,对原始数据集进行预处理,所述原始数据集包含多个数据记录, 每个数据记录包含连续型数据和/或非数值型数据。
[0031] 在本发明实施例中,所述原始数据集中可能既包含连续型数据又包含非数值型数 据,需要对二者分别进行数据规范化预处理,具体可以是:
[0032] 对原始数据集中的连续型数据,将其数据取值从[min,max]映射到范围小于预设 值的区间;
[0033] 对原始数据集中的非数值型数据,将其离散化后,通过编码映射成数值,或者直接 在所述距离度量中进行比较。
[0034] 所述原始数据集经过上述数据规范化预处理后变成高维向量组。其中,所述原始 数据集可以为KDDCUP99数据集。
[0035] 需要说明的是,对原始数据集的规范化处理对涉及距离度量的聚类算法,将有助 于加快学习阶段的速度,并且可以帮助防止具有较大初始值域的属性与具有较小初始值域 的属性相比权重过大,进而影响距离度量的准确性。
[0036] 在步骤S102中,对预处理后的数据进行距离度量。
[0037] 由于在密度聚类算法中,数据量较大、特征维数较多的数据在运算方面一般开销 较大。因此,本实施例基于欧几里德公式对预处理后的数据进行距离度量,采用欧几里德 公式的突出优点是计算简单,运行速度快,且可以支持多维空间索引,欧几里德公式具体如 下:
[0038]

【权利要求】
1. 一种基于改进密度聚类的入侵检测方法,其特征在于,所述方法包括: 对原始数据集进行预处理,所述原始数据集包含多个数据记录,每个数据记录包含连 续型数据和/或非数值型数据; 对预处理后的数据进行距离度量; 基于所述距离度量,计算局部点的密度指标; 基于所述距离度量和局部点的密度指标,计算局部点的距离指标; 根据计算得到的所述局部点的密度指标和所述局部点的距离指标,获得决策图; 对所述决策图进行分析,获得簇的中心点以及簇的类数,并将剩余的点分配到离其距 离最近且密度指标比其高的点所属的簇中,其中所述中心点为密度指标大于第一阈值,距 离指标大于第二阈值的点; 将分配后的簇按照其包含的数据的个数进行排序,将簇中数据的个数最大的簇判定为 正常簇,其余的簇判定为异常簇。
2. 如权利要求1所述的方法,其特征在于,所述对原始数据集进行预处理包括: 对原始数据集中的连续型数据,将其数据取值从[min,max]映射到范围小于预设值的 区间; 对原始数据集中的非数值型数据,将其离散化后,通过编码映射成数值,或者直接在所 述距离度量中进行比较。
3. 如权利要求1或2所述的方法,其特征在于,所述对预处理后的数据进行距离度量包 括: 基于加权的欧几里德公式对预处理后的数据进行距离度量。
4. 如权利要求1所述的方法,其特征在于,所述根据所述距离度量,计算局部点的密度 指标包括: 计算某个点i与其周围点的距离,将距离小于或等于预定截断距离的周围点的个数作 为所述i的密度指标。
5. 如权利要求1或4所述的方法,其特征在于,所述根据所述距离度量和局部点的密度 指标,计算局部点的距离指标包括: 针对某个点i,获取密度指标比i密度指标大的点%,并计算i与Mj的距离,将计算得 到的最小距离作为所述i的距离指标,其中j大于或等于1。
6. -种基于改进密度聚类的入侵检测装置,其特征在于,所述装置包括: 预处理单元,用于对原始数据集进行预处理,所述原始数据集包含多个数据记录,每个 数据记录包含连续型数据和/或非数值型数据; 距离度量单元,用于对预处理后的数据进行距离度量; 密度指标计算单元,用于基于所述距离度量,计算局部点的密度指标; 距离指标计算单元,用于基于所述距离度量和局部点的密度指标,计算局部点的距离 指标; 获取决策图单元,用于根据计算得到的所述局部点的密度指标和所述局部点的距离指 标,获得决策图; 簇中心确定单元,用于对所述决策图进行分析,获得簇的中心点以及簇的类数,并将剩 余的点分配到离其距离最近且密度指标比其高的点所属的簇中,其中所述中心点为密度指 标大于第一阈值,距离指标大于第二阈值的点; 结果确定单元,用于将分配后的簇按照其包含的数据的个数进行排序,将簇中数据的 个数最大的簇判定为正常簇,其余的簇判定为异常簇。
7. 如权利要求6所述的装置,其特征在于,所述预处理单元具体用于: 对原始数据集中的连续型数据,将其数据取值从[min,max]映射到范围小于预设值的 区间; 对原始数据集中的非数值型数据,将其离散化后,通过编码映射成数值,或者直接在所 述距离度量中进行比较。
8. 如权利要求6或7所述的装置,其特征在于,所述距离度量单元具体用于: 基于加权的欧几里德公式对预处理后的数据进行距离度量。
9. 如权利要求6所述的装置,其特征在于,所述密度指标计算单元具体用于: 计算某个点i与其周围点的距离,将距离小于或等于预定截断距离的周围点的个数作 为所述i的密度指标。
10. 如权利要求6或9所述的装置,其特征在于,所述距离指标计算单元具体用于: 针对某个点i,获取密度指标比i密度指标大的点%,并计算i与Mj的距离,将计算得 到的最小距离作为所述i的距离指标,其中j大于或等于1。
【文档编号】G06F21/55GK104484600SQ201410660116
【公开日】2015年4月1日 申请日期:2014年11月18日 优先权日:2014年11月18日
【发明者】张爽, 张涌, 宁立 申请人:中国科学院深圳先进技术研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1