一种基于模糊时序关联模式的异常用户检测方法

文档序号:9508536阅读:256来源:国知局
一种基于模糊时序关联模式的异常用户检测方法
【技术领域】
[0001] 本发明涉及一种基于模糊时序关联模式的异常用户检测方法,属于网络安全技术 领域。
【背景技术】
[0002] 用户是网络行为的行为主体,用户的身份和习惯导致其在网络行为上存在某种规 律性。基于用户行为的这种规律性,可以对用户行为进行建模,得到用户行为模式,检测和 发现在某段时间内与之不相匹配的异常行为,判定异常用户,为网络安全的维护进一步提 供依据。网络用户行为分析根据分析的对象不同可分为两种,分别是基于网络的网络用户 行为分析和基于主机的网络用户行为分析,前者主要针对网络通信流量对用户行为进行建 模,而后者则主要侧重从主机或服务器采集的日志、操作命令等数据对用户行为建模。
[0003] 目前我国针对网络用户行为的研究尚处于起步阶段,多基于主机进行行为分析, 主要针对网络服务器的日志分析挖掘用户在检索、查询、浏览等行为上的特征,从而为网络 行为审计以及入侵检测等提供参考。
[0004] 中国科学院的连一峰和肖喜等人提出一种基于主机审计的shell命令的异常检 测方法,通过shell命令对用户行为建模并发现违反正常行为模式的用户行为。
[0005] 基于网络流的用户行为分析主要通过是用户所产生流量内部特征的关联关系来 对该用户行为进行建模,如李昆仑等提出一种基于流量关联关系的用户行为建模方法,使 用时间、访问的网站、使用的网络服务和产生的流量四种特征属性及其关联关系来描述用 户行为,并发现异常;杨铮等则通过〈编号,时间段,模式,支持度,置信度,产生时间,流量, 置信区间〉来对用户行为进行建模。这种建模方式只考虑了用户单次行为的模式,而忽略 了用户的多次访问或操作之间的时序关联关系,这种对于用户行为的描述方法不能完整 的描述用户行为模式。
[0006] 上述基于网络的用户行为分析主要是基于用户的网络流量,由于很多异常应用行 为在底层流量的反映上与正常流量并无明显差别,故这类方法往往较难检测出应用行为异 常的用户;上述基于主机的网络行为分析技术大多缺乏实时的用户事件采集和处理机制, 导致其不能准确实时的检测用户异常。同时由于目前关联规则的局限性,一般的行为建模 方法较难准确地描述和反映出频繁发生的用户行为。

【发明内容】

[0007] 本发明的目的是提供一种基于模糊时序关联模式的异常用户检测方法,以解决现 有技术中用户行为异常难以检测以及检测不准的问题。
[0008] 本发明为解决上述技术问题而提供一种基于模糊时序关联模式的异常用户检测 方法,该检测方法包括以下步骤:
[0009] 1)采用事件模糊时序关联模式描述用户事件发生的时序关系或因果关系;
[0010] 2)将采用上述描述的既成知识、通用的用户事件序列模式和随机选取的会话项序 列作为初始种群,利用遗传算法对初始种群进行训练,将得到频繁项集作为用户事件序列 模式集;
[0011] 3)将实时采集到用户事件序列与相应用户事件序列模式集进行匹配,若匹配不成 功,则说明用户异常。
[0012] 所述步骤1)中是通过将用户事件序列划分为时间相等的时间片来进行描述的。
[0013] 所述步骤2)中采用的遗传算法训练过程如下:
[0014] A)将采用事件模糊时序关联模式描述的用户事件序列设计成一条染色,染染色 体头部存储会话项个数,每个基因代表一个事件,会话项频度存储在染色体对应基因的尾 部;
[0015] B)选取既成知识、通用的用户事件序列模式和随机选取的会话项序列作为初始种 群;
[0016] C)根据事件序列的支持度和兴趣度,计算染色体的适应度Fit (C),
[0018] 其中sup (C)为染色体所对应事件序列的支持度,Interest (C)表示染色体对应事 件序列的兴趣度,》1与w 2为预先定义的权重,分别代表支持度和兴趣度的相对重要性程度, 两者之和为1 ;
[0019] D)根据个体的相似度调整个体的适应度,按照调整后适应度选择进入下一代的个 体;
[0020] E)对每代个体进行交叉、变异的遗传操作,生成新的子个体;
[0021] F)重复步骤C)-E),直至满足设定条件,输出种群中适应度最优的染色体对应的 频繁项集作为用户事件序列模式集。
[0022] 所述步骤C)中染色体对应事件序列的兴趣度的计算公式为:
[0026] 所述步骤D)中个体间的相似度为两染色体之间相同的基因数与两染色体上存在 的基因总数的比值,采用Jccard距离计算,
[0028] 其中similarity (C)为基因C的相似度,Μ为两染色体上的存在基因总数。
[0029] 所述步骤Ε)中交叉遗传操作采用的交叉概率为匕为:
[0030] Pc= 1-similarity (C 1; C2)
[0031] 其中(;,(:2为两父代个体。
[0032] 所述步骤E)中变异遗传操作包括基因的变异操作和会话频度的变异操作。
[0033] 所述步骤F)中的设定条件为进化代数达到设定的最大阈值,或者找到的频繁项 集数已达到估计数目。
[0034] 所述步骤3)中用户时间序列的构建是以滑动窗口为基础的。
[0035] 本发明的有益效果是:本发明采用事件模糊时序关联模式描述用户事件发生的时 序关系或因果关系;然后将采用上述描述的既成知识、通用的用户事件序列模式和随机选 取的会话项序列作为初始种群,利用遗传算法对初始种群进行训练,将得到频繁项集作为 用户事件序列模式集;最后将实时采集到用户事件序列与相应用户事件序列模式集进行匹 配,若匹配不成功,则说明用户异常,实现对异常用户的检测。本发明应用模糊逻辑代替布 尔逻辑,引入事件发生频度描述用户事件模糊时序关联模式,基于用户操作间的时序关系 反映其行为模式,该方法准确地描述和反映出频繁发生的用户行为,能够快速检测出违反 正常行为模式的用户,解决了现有技术中用户行为异常难以检测以及检测不准的问题。
【附图说明】
[0036] 图1是事件发生频度的隶属度函数示意图;
[0037] 图2是审计日志时间片划分示意图;
[0038] 图3是染色体编码不意图;
[0039] 图4是染色体杂交过程示意图;
[0040] 图5是染色体变异过程示意图。
【具体实施方式】
[0041] 下面结合附图对本发明的【具体实施方式】作进一步的说明。
[0042] 异常用户检测是局域网安全防护、内部数据安全保护的关键技术。当前的异常用 户检测技术大多基于主机或服务器上的系统日志或操作命令等进行分析,这些检测方式大 多是事后型的,很难实时检测用户异常。而在实际运行的系统中,用户操作的事件往往是频 繁发生的,在描述事件的时序关系是,事件不再是简单的发生或不发生,传统的布尔型关联 规则不能够完整描述出用户在会话时序关系上的规律。本发明首先应用模糊逻辑代替布尔 逻辑,引入事件发生频度F重新定义审计事件模糊时序关联模式,利用遗传算法进行模式 训练,在实时检测阶段,实时采集系统产生的审计日志,并设计一个时间较短的滑动窗口, 在滑动窗口内采用模式匹配的方法判定用户异常。该方法的具体实施过程如下:
[0043] 1.应用模糊逻辑确定审计事件的模糊时序关联模式。
[0044] 在一段特定时间内,会话发生频度F用于表示事件在滑动窗口 W内发生次数多少 的量值,其值域是{zero, few, many}。其中,zero表示事件在该段时间内未发生,few表示 事件少量发生,many表示事件多次发生。用户事件发生频度是一个模糊概念,本发明结合 模糊集理论给出事件发生次数对zero、few和many的隶属度函数进行定义,如图1所示。 图1中NUM为事件发生次数,Y = {zero, few, many}为NUM域上的模糊集,同时也是事件发 生频度F的值域,Y = {NUM}表示NUM对于概念的隶属度,当NUM = 2时,few(NUM) = 0. 9, many (NUM) = 0. 1,zero (NUM) = 0,标识当事件发生次数为2时,有0. 9的支持度相信事件 是少量发生,有〇. 1的支持度相信事件多次发生,事件不发生的支持度为〇,即F = few的支 持度为〇. 9, F = many的支持度为0. 1,F = zero的支持度为0。
[0045] 基于此,可将"事件发生"这一事件描述为(/,,./),),其中L为事件的唯一标识,./? 为用户事件L的事件发生频度取值。参考前文,当I i在一段事件内发生2次时,(I D zero) 的支持度为〇,(Id few)的支持度为0.9,many)的支持度为0.1。
[0046] 给定一个审计日志集合L,将审L按照一个较小的时间t分割成相等时间片,如图 2所示,下面对事件模糊时序关联模式的概念进行定义。
[0047] Ii和Ij分别是两种用户事件,如果
总是在同一时间片内先后出 现,则认为存在一个模糊时序关联模式
。例如
即表示事件A的少量发生和事件B的多次发生之间存在模糊时序关联模式。
[0048] 模糊时序关联模式
的支持度为
同时出现的 时间片数量占时间片总数的百分比,即 ,
_ /这两个项在时间片内同时出现的 概率,其数学表达式为:
[0049] 模糊时序关联模式
的置信度为时间片在包含项
的前提 下同时也包含项
的百分比。其置信度是条件概率,其数学表 达式为

[0050] 若
是频繁项集,同时其置信度不低于设定的最小置信度阈值, 则称
I为强t吴糊时序关联t吴式。
[0051] 事件模糊时序关联模式可完整准确地描述事件发生的时序关系或因果关系,例 如:(《, /&VV) Λ ( 3 (ii,即表示只有在b不发生的条件下,(a, few)才会和 (d, many)关联出现。
[0052] 2.利用遗传算法对模糊时序关联模式进行训练。
[0053] 1)染色体编码
[0054] 将一个事件序列设计成一条染色体,每个基因代表一个事件,同时在染色体头部 存储会话项的个数。对会话发生频度F用0、1、2编码,分别表示事件的不发生zero、少量发 生few和多次发生many,并将该会话发生频度编码存储在染色体的基因尾部,如图3所示。 [0055] 2)选取初始群体
[0056] 为了保证初始化种群的多样性,初代个体从两个方面获取:一是来自专家经验,主 要是将既成知识、通用的用户事件序列模式,将其所对应的项集置
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1