一种基于改进密度聚类的入侵检测方法及装置制造方法

文档序号：6634733阅读：204来源：国知局

一种基于改进密度聚类的入侵检测方法及装置制造方法
【专利摘要】本发明适用于信息安全【技术领域】，提供了一种基于改进密度聚类的入侵检测方法及装置，所述方法包括：对原始数据集进行预处理；对预处理后的数据进行距离度量；基于所述距离度量，计算局部点的密度指标；基于所述距离度量和局部点的密度指标，计算局部点的距离指标；根据所述密度指标和距离指标，获得决策图；对所述决策图进行分析，获得簇的中心点以及簇的类数，并将剩余的点分配到离其距离最近且密度指标比其高的点所属的簇中；将分配后的簇按照其包含的数据的个数进行排序，将簇中数据的个数最大的簇判定为正常簇，其余的簇判定为异常簇。通过本发明，可有效解决现有技术存在的运算开销大，初始值的设定影响聚类结果的问题。
【专利说明】一种基于改进密度聚类的入侵检测方法及装置

【技术领域】
[0001] 本发明属于信息安全【技术领域】，尤其涉及一种基于改进密度聚类的入侵检测方法及装置。

【背景技术】
[0002] 现有应用到入侵检测中的聚类算法大致分为两种：一种是基于划分的的聚类算法，一种是基于密度的的聚类算法。
[0003] 基于划分的聚类算法，如K-means，由于簇的个数K与初始聚类中心点是事先人为选定的，一旦选择不好，可能无法获得有效的聚类结果；其次，基于划分的聚类算法不能处理非球形簇、不同尺寸和不同密度的簇。
[0004] 基于密度的聚类算法，如经典的DBSCAN(Density-BasedSpatialClusteringof ApplicationswithNoise)，对于高维度且数据量较大的入侵数据，运算开销会比较大，而且预先定义的密度阈值会对后面的聚类结果有明显的影响。

【发明内容】

[0005] 鉴于此，本发明实施例提供一种基于改进密度聚类的入侵检测方法及装置，以解决现有技术存在的运算开销大，初始值的设定影响聚类结果的问题。
[0006] 一方面，本发明实施例提供一种基于改进密度聚类的入侵检测方法，所述方法包括：
[0007] 对原始数据集进行预处理，所述原始数据集包含多个数据记录，每个数据记录包含连续型数据和/或非数值型数据；
[0008] 对预处理后的数据进行距离度量；
[0009] 基于所述距离度量，计算局部点的密度指标；
[0010] 基于所述距离度量和局部点的密度指标，计算局部点的距离指标；
[0011] 根据计算得到的所述局部点的密度指标和所述局部点的距离指标，获得决策图；
[0012] 对所述决策图进行分析，获得簇的中心点以及簇的类数，并将剩余的点分配到离其距离最近且密度指标比其高的点所属的簇中，其中所述中心点为密度指标大于第一阈值，距离指标大于第二阈值的点；
[0013] 将分配后的簇按照其包含的数据的个数进行排序，将簇中数据的个数最大的簇判定为正常簇，其余的簇判定为异常簇。
[0014] 另一方面，本发明实施例提供一种基于改进密度聚类的入侵检测装置，所述装置包括：
[0015] 预处理单元，用于对原始数据集进行预处理，所述原始数据集包含多个数据记录，每个数据记录包含连续型数据和/或非数值型数据；
[0016] 距离度量单元，用于对预处理后的数据进行距离度量；
[0017] 密度指标计算单元，用于基于所述距离度量，计算局部点的密度指标；
[0018] 距离指标计算单元，用于基于所述距离度量和局部点的密度指标，计算局部点的距离指标；
[0019] 获取决策图单元，用于根据计算得到的所述局部点的密度指标和所述局部点的距离指标，获得决策图；
[0020] 簇中心确定单元，用于对所述决策图进行分析，获得簇的中心点以及簇的类数，并将剩余的点分配到离其距离最近且密度指标比其高的点所属的簇中，其中所述中心点为密度指标大于第一阈值，距离指标大于第二阈值的点；
[0021] 结果确定单元，用于将分配后的簇按照其包含的数据的个数进行排序，将簇中数据的个数最大的簇判定为正常簇，其余的簇判定为异常簇。
[0022] 本发明实施例与现有技术相比存在的有益效果是：本发明实施例预先定义两个指标，即密度指标和距离指标，在聚类过程中计算出每个点的密度指标和距离指标，根据计算得到的密度指标和距离指标自动获得簇的中心以及簇的类数，解决了现有技术人为设定初始值（如簇的中心、簇的类数、密度阈值等）影响聚类结果的问题。而且，对于高维度且数据量较大的入侵数据，相比于现有的聚类方法，无需迭代最优目标函数，明显减少了计算开销。另外，由于是基于密度的聚类算法，对于非球形簇，也有很好的聚类效果，并能自动检测出异常簇，具有较强的易用性和实用性。

【专利附图】

【附图说明】
[0023] 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0024] 图1是本发明实施例一提供的基于改进密度聚类的入侵检测方法的实现流程图；
[0025] 图2是本发明实施例二提供的基于改进密度聚类的入侵检测装置的组成结构图。

【具体实施方式】
[0026] 为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0027] 为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。
[0028] 实施例一:
[0029] 图1示出了本发明实施例一提供的基于改进密度聚类的入侵检测方法的实现流程，该方法过程详述如下：
[0030] 在步骤SlOl中，对原始数据集进行预处理，所述原始数据集包含多个数据记录，每个数据记录包含连续型数据和/或非数值型数据。
[0031] 在本发明实施例中，所述原始数据集中可能既包含连续型数据又包含非数值型数据，需要对二者分别进行数据规范化预处理，具体可以是：
[0032] 对原始数据集中的连续型数据，将其数据取值从[min，max]映射到范围小于预设值的区间；
[0033] 对原始数据集中的非数值型数据，将其离散化后，通过编码映射成数值，或者直接在所述距离度量中进行比较。
[0034] 所述原始数据集经过上述数据规范化预处理后变成高维向量组。其中，所述原始数据集可以为KDDCUP99数据集。
[0035] 需要说明的是，对原始数据集的规范化处理对涉及距离度量的聚类算法，将有助于加快学习阶段的速度，并且可以帮助防止具有较大初始值域的属性与具有较小初始值域的属性相比权重过大，进而影响距离度量的准确性。
[0036] 在步骤S102中，对预处理后的数据进行距离度量。
[0037] 由于在密度聚类算法中，数据量较大、特征维数较多的数据在运算方面一般开销较大。因此，本实施例基于欧几里德公式对预处理后的数据进行距离度量，采用欧几里德公式的突出优点是计算简单，运行速度快，且可以支持多维空间索引，欧几里德公式具体如下：
[0038]

【权利要求】
1. 一种基于改进密度聚类的入侵检测方法，其特征在于，所述方法包括：对原始数据集进行预处理，所述原始数据集包含多个数据记录，每个数据记录包含连续型数据和/或非数值型数据；对预处理后的数据进行距离度量；基于所述距离度量，计算局部点的密度指标；基于所述距离度量和局部点的密度指标，计算局部点的距离指标；根据计算得到的所述局部点的密度指标和所述局部点的距离指标，获得决策图；对所述决策图进行分析，获得簇的中心点以及簇的类数，并将剩余的点分配到离其距离最近且密度指标比其高的点所属的簇中，其中所述中心点为密度指标大于第一阈值，距离指标大于第二阈值的点；将分配后的簇按照其包含的数据的个数进行排序，将簇中数据的个数最大的簇判定为正常簇，其余的簇判定为异常簇。
2. 如权利要求1所述的方法，其特征在于，所述对原始数据集进行预处理包括：对原始数据集中的连续型数据，将其数据取值从[min，max]映射到范围小于预设值的区间；对原始数据集中的非数值型数据，将其离散化后，通过编码映射成数值，或者直接在所述距离度量中进行比较。
3. 如权利要求1或2所述的方法，其特征在于，所述对预处理后的数据进行距离度量包括：基于加权的欧几里德公式对预处理后的数据进行距离度量。
4. 如权利要求1所述的方法，其特征在于，所述根据所述距离度量，计算局部点的密度指标包括：计算某个点i与其周围点的距离，将距离小于或等于预定截断距离的周围点的个数作为所述i的密度指标。
5. 如权利要求1或4所述的方法，其特征在于，所述根据所述距离度量和局部点的密度指标，计算局部点的距离指标包括：针对某个点i，获取密度指标比i密度指标大的点％，并计算i与Mj的距离，将计算得到的最小距离作为所述i的距离指标，其中j大于或等于1。
6. -种基于改进密度聚类的入侵检测装置，其特征在于，所述装置包括：预处理单元，用于对原始数据集进行预处理，所述原始数据集包含多个数据记录，每个数据记录包含连续型数据和/或非数值型数据；距离度量单元，用于对预处理后的数据进行距离度量；密度指标计算单元，用于基于所述距离度量，计算局部点的密度指标；距离指标计算单元，用于基于所述距离度量和局部点的密度指标，计算局部点的距离指标；获取决策图单元，用于根据计算得到的所述局部点的密度指标和所述局部点的距离指标，获得决策图；簇中心确定单元，用于对所述决策图进行分析，获得簇的中心点以及簇的类数，并将剩余的点分配到离其距离最近且密度指标比其高的点所属的簇中，其中所述中心点为密度指标大于第一阈值，距离指标大于第二阈值的点；结果确定单元，用于将分配后的簇按照其包含的数据的个数进行排序，将簇中数据的个数最大的簇判定为正常簇，其余的簇判定为异常簇。
7. 如权利要求6所述的装置，其特征在于，所述预处理单元具体用于：对原始数据集中的连续型数据，将其数据取值从[min，max]映射到范围小于预设值的区间；对原始数据集中的非数值型数据，将其离散化后，通过编码映射成数值，或者直接在所述距离度量中进行比较。
8. 如权利要求6或7所述的装置，其特征在于，所述距离度量单元具体用于：基于加权的欧几里德公式对预处理后的数据进行距离度量。
9. 如权利要求6所述的装置，其特征在于，所述密度指标计算单元具体用于：计算某个点i与其周围点的距离，将距离小于或等于预定截断距离的周围点的个数作为所述i的密度指标。
10. 如权利要求6或9所述的装置，其特征在于，所述距离指标计算单元具体用于：针对某个点i，获取密度指标比i密度指标大的点％，并计算i与Mj的距离，将计算得到的最小距离作为所述i的距离指标，其中j大于或等于1。
【文档编号】G06F21/55GK104484600SQ201410660116
【公开日】2015年4月1日申请日期:2014年11月18日优先权日:2014年11月18日
【发明者】张爽, 张涌, 宁立申请人:中国科学院深圳先进技术研究院

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张爽;张涌;宁立;
技术所有人：中国科学院深圳先进技术研究院;
我是此专利的发明人

上一篇：一种用于手机模组的二维码扫描机构的制作方法
上一篇：自电容触摸面板及其导电层结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。