一种基于回归的信息安全异常检测的方法及系统的制作方法_2

文档序号:9891236阅读:来源:国知局
将可能妨碍安全异常检测。例如,通常情况下,一种告警类型产生了大量的告警,贝U 可能掩盖了其它类型的告警。
[002引所述①预处理和分组的输出,就是N个告警分组,即無為、…、輪。例如,考虑某企 业IT网络5个月来所产生的告警,可W根据先前定义的准则来分类告警: 告警源:有线设备的告警、wifi的告警、外部的告警; 告警类型:木马,等。
[0029] 之所W要分别监控有线告警和wifi告警,是因为大多数内部员工的PC客户端与所 有服务器都采用有线通讯方式连接,而绝大多数使用笔记本电脑和智能手机的内部员工 (包括客人),均采用无线通讯方式连接。另外,大多数网络,wifi设备受策略限制的缘故使 得某些PC(或笔记本)只能访问Web和邮件应用程序。由于运些原因,安全告警分析系统期望 能够从有线告警和无线主机所产生的告警中获得不同的历史行为。
[0030] 告警类型的抽取与每一种类型的告警数量有关。在图2中,给出了所产生的不同类 型告警的百分比(小于1%的告警,忽略不计)。从图2看到,产生了 80%的告警是木马告警类 型。运个结果是可信的,因为所述企业没有直接监控大多数主机设备。图1适用于独立于所 有告警分组,并与告警数量无关。然而,对于包含海量告警分组的自动分析是非常有用的。 因此,下一步主要考虑Ξ个最活跃的告警分组:有线木马、无线木马、外部木马。
[0031] 进一步地,所述②基于时间的分割,其输入是、As、…、Αν ;并且,提取描述性统计 的Ξ个操作步骤:告警时间序列计算,有效/无效的告警序列标记,W及基于时间的分割。
[0032] 对每一个告警分组4,告警时间序列&统计需要输入两个参数: 时间窗W,决定了需要分析的告警数量; (2)时间粒度g,评估告警的最小时间单位(例如,每天、每小时、每分钟的告警时间序 列)。
[0033] 上述参数由安全分析师输入,依据场景和分析目标。例如,如果分析目标要发现哪 一天异常或告警的态势感知,则时间粒度可能等于一天(驗为每天的告警数量),并且时间 窗W为6个月或W上。另一方面,如果分析目标是评估白天和晚上是否具有不同的告警分布, 则时间粒度可能等于一小时或更少,并且时间窗W为1个月或W上。在安全分析的场景中,粒 度g过细(例如,秒)应该避免的。
[0034] 那么,所述②基于时间的分割,评估觀在时间窗W中是否活跃的。运一步的目的主 要是去掉不活跃的的时间序列操,运是因为为了进一步的分析。作为检查告警时间序列是 否活跃的准则,如果在该时间区间内产生了 50%或W上的告警数量,则该类告警是活跃的, 良Pmedian(綾)〉0。其它的诸如过滤非活跃告警序列的准则和口限,取决于安全分析目标和 企业口系统的情况而定。
[0035] 在计算告警时间序列鷄之后,如果它是活跃的,则在输入时间组合参数Si的基础上 进一步地分割,其中,奪被定义为一些时间区间(例如,白天、晚上),告警时间序列鶴被分割 为Μ个子序列畴5;,j e {1,2,…,M}。另一方面,如果安全分析师对于告警的时序行为没有特别 的期待,则可W为所有告警分组年定义一种细粒度时间黎.(例如,一般按照每小时分割)。 运是出于一个事实,所述⑤可能的重新组合,能够自动建议可能的粗粒度时间重新组合,w 分析在所述③描述性统计所提取的描述性统计。
[0036] 所述②基于时间的分割的输出就是Μ个子序列t'Sg,W及序列鞍,即对于每一个告警 分组餐,输出M+1个告警序列。
[0037] 现在,再来考察前面的例子,主要关注3个最活跃的告警分组:有线木马、wifi木 马、外部木马。考察的时间窗W为5个月,时间粒度g为1小时。运个时间粒度可W考察不同时 间区间的时间行为。图5为有关每小时的有线木马、wifi木马、外部木马告警的时间序列。X 轴表示时间(小时),而Y轴为上报的告警数量(0~800个告警/小时)。因为所W运Ξ个告警 序列的中位数大于零(median(綾)〉0,i=l,2,3),所W它们是活跃的。从图3可W看出,wifi 木马最为活跃,有线木马次之,而外部木马告警序列最弱。
[0038] 进一步地,所述③描述性统计,其输入为鶴和Μ个子序列務1。本模块抽取了 3组相 关的描述性统计,设及到随机分布、时序依赖和稳定性。
[0039] 所述随机分布,其分布特征具有2个主要属性:集中趋势和离散。对于高度动态的 应用场景,考察下面的统计,并可W通过盒图直观地表示。
[0040] (1仲位数m(即median (m)),表示数据的集中趋势; 间四分位数iqr,表示围绕集中趋势的离散度。
[0041] 为了表示离群值对数据离散度的影响,考察方差系数y = £,其中,I和S分别是告 警序列所属分布的均值和方差。Y 为较高之值时,则表示该告警序列是离散的,并 且/或存在异常值;然而,Υ Q~3)为较小之值时,则表示为收敛的分布。
[0042] 再者,对于最活跃的告警序列:有线木马、WIFI木马、外部木马,考虑时间组合發={ 工作时间(白天),工作时间(晚上),节假日(白天),节假日(晚上)},图4给出了时间组合犧 的盒图;其中,X轴表示时间分割(白天、晚上),而巧由表示每时间单元的告警数量(例如,每 小时上报的告警的数量)。每一个盒图给出了如下的统计属性:下四分位数(ql)、中位数 (median)、上四分位数(q3)、四分位距(iqr=q3-ql)、下触须(、、、-=:;-I 5 ' q;)和上触须毅江:= 餐2弁款聚斜類。所有在W。之上和壤S之下的值,可W认为是异常值。
[0043] 图5给出了不同的时间组合蠻的方差系数縱系数的值。运个统计对于捕获到数据 的变异性是有用的。
[0044] 从图4看出,在工作日的白天,大部分的告警是wifi木马产生。另一方面,在节假日 的白天,wifi木马告警减少,在节假日的夜间几乎是没有告警。从图7看出,在工作日的白 天,wifi木马告警的变量系数是低的,而其它组合比运个高,运就说明该告警序列存在噪 声,并且/或存在某些异常值。
[0045] 在图4(a)和(d)的所有四个时间组合,有线木马告警呈现了类似的告警的集中趋 势(m)和离散度(iqr),而在工作日的白天稍微有点高。然而,在工作日,无论是白天,还是晚 上,存在较高的异常值。运些异常值几乎是高于集中趋势的一个数量级;并且,从图5可W看 出,其方差系数也为较高的值。
[0046] 另一方面,外部木马无论在白天还是晚上几乎是等分布的,工作日的白天稍微有 点低,运可能与来自不同时区的攻击有关。外部木马告警的离散度是低的,并且,在所有时 间组合中,方差系数接近1.5。运就提示外部木马告警序列独立于检测时间,可W合并成为 一个时间组合(工作时间/节假日、白天/晚上均没有差别)。
[0047] 所述时间依赖,与时序依赖相关的描述性统计,对于基于回归的异常检测来说,是 有用的。如果一个告警序列存在趋势、周期性和季节性的话,则它展示为时间依赖性。趋势 是一个一般的系统性的组件,对于充分长的时间范围,一个时间序列可能显示周期性或季 节性的模式。
[0048] 为了抽取时序依赖的描述性统计,采用滤波和自动关联的时间序列分析技术。滤 波能够减少时间序列的噪声。运种噪音可能隐藏了用于模型异常检测是有用的趋势和时间 模式。在运种情况下,采用简单的过滤技术;重要的是要考虑,因为采用更先进的滤波技术, 可W改变数据的性质。基于运样的原因,本发明采用基于半径为r小时中屯、窗口的SMA滤波。 为了清晰起见,假设蔡作为一个告警时间序列,而是在t时刻的告警数量(例如,如果时间 粒度g等于1天,则%隶示第t天的告警数量)dSMA滤波生成了新的序列SMA(t),其中,告警序 列台;的每一个值被扳的化个邻居的平均值所替代,即:
其中,祭是在第t时刻的告警数量,2r+l是移动平均窗口的大小。本发明建议半径r取值 为1的平滑滤波,或半径r取值为5渐进式滤波。
[0049] 在滤波之后,计算如下自动关联函数(ACF):
其中,r是自动关联的时间间隔,輪是告警时间序列,E是数学期望运算符J和牺是鞍 的均值和方差。当自关联为较高的值和慢衰减时,它意味着将来值与历史值相关;反之也 真,即当两个值之间的自动关联趋于零时。如果它的錢縷雜i杂嚇,则一个时间序列被认为 是可预测的,且在第k个窗口具有足够的预测精度。因此,上述条件满足,基于回归的异常检 测算法可W有效使用。
[0050] 与随机分布的描述性统计不同,时序依赖性统计仅从整个告警时间序列潑中抽 取,运是因为由于自动关联函数需要告警时间的连续性,用于鉴别可预测性、趋势和周期 性。
[0051] 特别是,关于时序依赖性,本发明提取了下面的描述性统计: (1)作为可预测间隔的觀值; 时间序列%的主周期馬(如果有的话)。
[0化2]其中,可W有多个周期(例如,24小时、7天),也可W没有周期(在运种情况下,裝= 0)。再者,注意到,不管是否对告警序列吗实施了滤波,都可W抽取每一个统计。也就是说, 存在巧巾配置(无 SMA滤波、弱SMA滤波、强SMA滤波),相应地提取3对值(k;,Τ〇。
[0化3] 图6给出了有线木马、WIFI木马、外部木马的ACF之值。X轴表示时间间隔t (小时),Υ 轴ACF之值。垂直虚线表示W24小时
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1