一种邻域形态空间人工免疫检测器多源生成算法的制作方法

文档序号:17327562发布日期:2019-04-05 21:53阅读:171来源:国知局
一种邻域形态空间人工免疫检测器多源生成算法的制作方法

本发明涉及一种邻域形态空间人工免疫检测器多源生成算法,属于人工智能免疫系统技术领域。



背景技术:

异常检测建立正常行为的模式轮廓,若当前活动违反其规则则被视为异常。人工免疫系统是人工智能技术的重要分支之一,它是一种模仿生物免疫系统功能的一种智能方法,被广泛应用于异常检测、数据挖掘、机器学习等多个领域。检测器是其核心集合,其生成、优化和检测操作决定了应用效果。

目前,人工免疫系统通常把问题域转换到实值形态空间下,然而传统的基于实值形态空间的检测器各个算法存在着很多问题。其中,以检测器的数量或者统计推断作为算法结束条件会造成检测器的冗余、检测器覆盖率低造成的“黑洞”问题。同时,实值形态空间下的样本匹配策略主要是依据euclidean距离或manhattan距离,而映射复杂环境特征的实值检测器维数较高,会造成“维数灾难”问题,检测器各个算法的时空代价急剧增长,从而使系统检测性能急剧下降。



技术实现要素:

本发明为了解决现有技术中“黑洞”问题和“维度灾难”问题,提出了一种邻域形态空间人工免疫检测器多源生成算法,所采取的技术方案如下:

一种邻域形态空间人工免疫检测器多源生成算法,所述生成方法包括:

步骤一、将样本进行标准化预处理;

步骤二、设定参数,所述参数包括:成熟检测器最大规模nd,训练阈值ρ,邻域划分步长step、算法结束条件的空间覆盖率p和遗传算法最大进化代数t;

步骤三、根据所述邻域划分步长step划分领域形态空间,将自体样本映射到邻域形态空间,并确定样本中每维属性的边界和样本在每维属性下的步长;

步骤四:利用系统随机函数n;然后,根据所述随机数确定候选检测器生成源;所述候选检测器生成源包括随机、混沌映射和遗传算法;

步骤五、利用所述候选检测器生成源生成候选检测器;

步骤六:进行亲和力计算,获得亲和力计算结果,结合所述亲和力计算结果通过邻域形态空间下的否定选择对候选检测器进行亲和力耐受训练,通过亲和力计算结果进行亲和力耐受训练,如果亲和力小于训练阈值ρ,则说明候选检测器通过了亲和力耐受训练,并将所述候选检测器加入到成熟检测器集合,并计算所述候选检测器的空间覆盖率p;否则,则说明候选检测器没有通过亲和力耐受训练,然后返回到步骤二,重复步骤二至步骤五的执行内容,直至和力小于训练阈值ρ,所述候选检测器通过亲和力耐受训练;

步骤七:使用montecarlo方法估计检测器覆盖率,如果没有达到空间覆盖率p或者生成检测器数量小于成熟检测器最大规模nd,则重复步骤二至步骤六的执行内容直至检测器覆盖率达到空间覆盖率p或者生成检测器数量不小于成熟检测器最大规模nd;否则算法结束。

进一步地,步骤一中根据预处理模型对样本进行标准化预处理,所述预处理模型为:

其中,x为样本,x*为预处理后样本max(x)为所在维度取值的最大值;min(x)为所在维度取值的最小值。

进一步地,步骤三所述邻域形态空间是集合[0,1]n的离散拓扑空间的一个子集,将[0,1]n划分成多个互不相交的邻域;在邻域形态空间上的样本表示为

s=[s1,s2,…,sn]t(2)

其中,n为空间维度,si(i=1,2,…,n)为所述样本在第i维上的划分编码值,si=(si(j-1),sij),si(j-1))和sij为所述样本在第i维上的上下界,且满足j∈[0,mi],si0=0,mi为第i维划分的邻域个数;在邻域形态空间中每一个邻域都是一个超立方体,人工免疫自体和检测器的表示均为邻域超立方体形式。

进一步地,步骤四中利用混沌映射产生的混沌序列如下:

其中,n=1,2,…,n。

进一步地,步骤四所述根据所述随机数确定候选检测器生成源的规则为:

当随机数n=0时,采用随机的方式作为生成源生成候选检测器;

当随机数n=1时,采用混沌映射的方式作为生成源生成候选检测器;

当随机数n=2时,采用遗传算法的方式作为生成源生成候选检测器。

进一步地,步骤六所述亲和力计算的过程包括:

第一步、通过manhattan距离进行单维亲和力计算,获得单维亲和力;

第二步、利用邻域匹配hamming距离统计单维匹配个数;

第三步、将统计获得的单维匹配结果与设定的训练阈值进行比较,判定单维匹配结果与设定的训练阈值是否匹配。

进一步地,步骤六所述亲和力计算规则如下:

将基于minkowski距离的匹配方法与基于hamming距离的匹配方法进行结合,设x[x1,x2,…,xn]t和y[y1,y2,…,yn]t为待匹配样本,其邻域匹配度nns(x,y)为:

进一步地,利用步骤四所述遗传算法作为生成源生成候选检测器的过程包括:

第1步、对初始群体n进行初始化,设定初始进化代数t=0;

第2步、计算群体n中每个个体的适应度,获得每个个体的适应度值;

第3步、选择适应度最高的个体按交叉概率方式进行交叉处理,获得交叉结果;

第4步、将第3步获得的交叉结果按照变异概率方式进行变异,获得变异结果;

第5步、判断所述变异结果是否满足终止条件,其中,所述终止条件是当前进化代数t等于设定的最大进化代数t;如果变异结果满足终止条件,则完成候选检测器的生成;如果变异结果不满足终止条件,则t=t+1,重复第2步至第4步的执行内容,对所述群体n重新开始遗传算法操作,直至变异结果满足终止条件。

本发明有益效果:

本发明提出的邻域形态空间人工免疫检测器多源生成算法通过将属性相似的数据映射到同一块邻域形态空间可使样本规模大幅度减少,从而大幅度减少计算量,同时采用设计的邻域形态空间匹配规则进行亲和力计算和判定,不仅进一步减少计算量,而且可以有效避免“维数灾难”问题。然后,基于此改进邻域形态空间下检测器生成机制,使用三种数据源使候选检测器的构造更快、更具有靶向性、更全面,从而使生成的检测器具有更好的分布性,提高检测器的生成效率和检测性能,从而解决实值形态空间下存在的各种问题。改进后的算法在检测性能、效率和稳定性等方面表现出了很好的水平。

附图说明

图1为本发明所述邻域形态空间人工免疫检测器多源生成算法流程图;

图2为本发明所述遗传算法流程图;

图3为本发明所述所述邻域形态空间人工免疫检测器多源生成算法的性能检测试验结果数据图。

具体实施方式

下面结合具体实施例对本发明做进一步说明,但本发明不受实施例的限制。

实施例1:

一种邻域形态空间人工免疫检测器多源生成算法,所述生成方法包括:

步骤一、将样本进行标准化预处理;

步骤二、设定参数,所述参数包括:成熟检测器最大规模nd,训练阈值ρ,邻域划分步长step和算法结束条件的空间覆盖率p,遗传算法最大进化代数t;

步骤三、根据所述邻域划分步长step划分领域形态空间,将自体样本映射到邻域形态空间,并确定样本中每维属性的边界和样本在每维属性下的步长;其中,邻域形态空间是本算法的数学基础,其数学模型基于离散拓扑空间理论形成的。

步骤四:利用系统随机函数生成随机数n;然后,根据所述随机数确定候选检测器生成源;所述候选检测器生成源包括随机、混沌映射和遗传算法;

步骤五、利用所述候选检测器生成源生成候选检测器;

步骤六:进行亲和力计算,获得亲和力计算结果,结合所述亲和力计算结果通过邻域形态空间下的否定选择对候选检测器进行亲和力耐受训练,通过亲和力计算结果进行亲和力耐受训练,如果亲和力小于训练阈值ρ,则说明候选检测器通过了亲和力耐受训练,并将所述候选检测器加入到成熟检测器集合,并计算所述候选检测器的空间覆盖率p;否则,则说明候选检测器没有通过亲和力耐受训练,然后返回到步骤二,重复步骤二至步骤五的执行内容,直至和力小于训练阈值ρ,所述候选检测器通过亲和力耐受训练;

步骤七:使用montecarlo方法估计检测器覆盖率,如果没有达到空间覆盖率p或者生成检测器数量小于成熟检测器最大规模nd,则重复步骤二至步骤六的执行内容直至检测器覆盖率达到空间覆盖率p或者生成检测器数量不小于成熟检测器最大规模nd;否则算法结束。

其中,步骤一中根据预处理模型对样本进行标准化预处理,所述预处理模型为:

其中,x为样本,x*为预处理后样本max(x)为所在维度取值的最大值;min(x)为所在维度取值的最小值。

步骤三所述邻域形态空间是集合[0,1]n的离散拓扑空间的一个子集,将[0,1]n划分成多个互不相交的邻域;在邻域形态空间上的样本表示为

s=[s1,s2,…,sn]t(2)

其中,n为空间维度,si(i=1,2,…,n)为所述样本在第i维上的划分编码值,si=(si(j-1),sij),si(j-1))和sij为所述样本在第i维上的上下界,且满足j∈[0,mi],si0=0,mi为第i维划分的邻域个数;在邻域形态空间中每一个邻域都是一个超立方体,人工免疫自体和检测器的表示均为邻域超立方体形式。

步骤四中利用混沌映射产生的混沌序列如下:

其中,n=1,2,…,n。

步骤四所述根据所述随机数确定候选检测器生成源的规则为:

当随机数n=0时,采用随机的方式作为生成源生成候选检测器;

当随机数n=1时,采用混沌映射的方式作为生成源生成候选检测器;

当随机数n=2时,采用遗传算法的方式作为生成源生成候选检测器。

步骤六中,亲和力计算规则如下:邻域形态空间检测器的各个算法的核心是亲和力计算,是建立在邻域否定选择算法的基础上的。否定选择算法是通过对生物免疫细胞的成熟过程进行模拟,并用来区分自体与非自体,去除对自体产生应答的免疫细胞,实现自体耐受。亲和力计算的匹配规则设计最为关键。本算法是将基于minkowski距离的匹配方法与基于hamming距离的匹配方法进行结合来设计:设x[x1,x2,…,xn]t和y[y1,y2,…,yn]t为待匹配样本,其邻域匹配度nns(x,y)为:

利用步骤四所述遗传算法作为生成源生成候选检测器的过程包括:

第1步、对初始群体n进行初始化,设定初始进化代数t=0;

第2步、计算群体n中每个个体的适应度,获得每个个体的适应度值;

第3步、选择适应度最高的个体按交叉概率方式进行交叉处理,获得交叉结果;

第4步、将第3步获得的交叉结果按照变异概率方式进行变异,获得变异结果;

第5步、判断所述变异结果是否满足终止条件,其中,所述终止条件是指当前进化代数t等于设定的最大进化代数t;如果变异结果满足终止条件,则完成候选检测器的生成;如果变异结果不满足终止条件,则t=t+1,重复第2步至第4步的执行内容,对所述所述群体n重新开始遗传算法操作,直至变异结果满足终止条件。

本实施例所述邻域形态空间人工免疫检测器多源生成算法的工作原理为:在生成候选检测器时,利用随机、混沌映射、遗传变异三种数据源联合生成候选检测器。其中,随机生成检测器的优点是实现简单、速度快,但是检测器生成的效率低,容易陷入局部最优解。采用遗传变异生成的检测器具有靶向性,能够加速算法的收敛,但是不能保证找到全局最优解。而混沌映射由于其具有的遍历性可以使数据均匀地分布在解空间,从而可以提高检测器的分布能力,能够搜寻到全局最优解,从而解决算法容易陷入局部最优解的问题。而且,在高维形态空间下,由于变量较多,变量的搜索范围较大,使用原始的实值形态空间则很难较快地搜索到最优解空间,从而使算法的搜索效率降低,收敛速度下降。利用本算法邻域形态空间的特点,可以有效减少检测器规模,避免“维数灾难”的问题,减少计算量;再利用三种候选检测器源的互补性,亦可加快算法的收敛速度,保证算法可以进行全局寻优。

本实施例所述邻域形态空间人工免疫检测器多源生成算法是使用邻域形态空间,并改进邻域否定选择算法,引入混沌理论和遗传算法而形成的一种检测器多源生成算法,从而解决实值形态空间下检测器各个算法存在的问题。本实施例所述邻域形态空间人工免疫检测器多源生成算法通过随机选择随机、混沌映射、遗传三种数据源来生成检测器直到非自体空间的覆盖率达到期望值或者检测器数量达到预设阈值结束,然后用生成的检测器进行异常检测等各项应用。

实施例2

结合附图1、2、3和本实施例对一种邻域形态空间人工免疫检测器多源生成算法进行进一步详细描述。

选择kdd1999数据集作为本发明的实验数据集,并对数据集作预处理。将数据集中的离散型属性转换成连续型属性,例如其中的协议属性,实验设定的变换规则为:tcp→1,udp→2,icmp→3等。将样本按公式(1)进行标准化处理。然后,将样本集映射到邻域形态空间下,其中参数取值为nd=3000,ρ=16,step=0.15,p=99%。再次,按算法过程生成足够的成熟检测器集合,最后,利用测试数据集对成熟检测器集合进行检测,检测方法同生成方法,按照公式(4)将检测样本逐一进行与检测器进行亲和力计算并进行匹配判定,如果匹配结果大于阈值,则说明该样本异常并向系统报警。在此过程中,记录检测结果,检测率的计算公式为:

为了进一步证实本发明算法的优势,本实施例方法将本算法与实值形态空间检测器生成算法(rns)和其改进方法——v-detector在同等条件下进行对比实验,选用5组测试集进行检测,验证三个算法的异常检测性能,结果如图3所示。从中可以看出,在相同的条件下,本发明算法的检测率都要高于实值形态空间检测器生成算法,虽然v-detector算法的性能有由于本发明算法的情况,但其波动性较大,不如本发明算法稳定性好。由此可以看出,本发明算法在检测率、稳定性等方面都要优于其他两种算法,从而证明本发明算法相比其他方法。

虽然本发明已以较佳的实施例公开如上,但其并非用以限定本发明,任何熟悉此技术的人,在不脱离本发明的精神和范围内,都可以做各种改动和修饰,因此本发明的保护范围应该以权利要求书所界定的为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1