一种基于回归的信息安全异常检测的方法及系统的制作方法_2

文档序号：9891236阅读：来源：国知局

将可能妨碍安全异常检测。例如，通常情况下，一种告警类型产生了大量的告警，贝U 可能掩盖了其它类型的告警。
[002引所述①预处理和分组的输出，就是N个告警分组，即無為、…、輪。例如，考虑某企业IT网络5个月来所产生的告警，可W根据先前定义的准则来分类告警：告警源:有线设备的告警、wifi的告警、外部的告警；告警类型:木马，等。
[0029] 之所W要分别监控有线告警和wifi告警，是因为大多数内部员工的PC客户端与所有服务器都采用有线通讯方式连接，而绝大多数使用笔记本电脑和智能手机的内部员工 (包括客人），均采用无线通讯方式连接。另外，大多数网络，wifi设备受策略限制的缘故使得某些PC(或笔记本）只能访问Web和邮件应用程序。由于运些原因，安全告警分析系统期望能够从有线告警和无线主机所产生的告警中获得不同的历史行为。
[0030] 告警类型的抽取与每一种类型的告警数量有关。在图2中，给出了所产生的不同类型告警的百分比（小于1%的告警，忽略不计）。从图2看到，产生了 80%的告警是木马告警类型。运个结果是可信的，因为所述企业没有直接监控大多数主机设备。图1适用于独立于所有告警分组，并与告警数量无关。然而，对于包含海量告警分组的自动分析是非常有用的。因此，下一步主要考虑Ξ个最活跃的告警分组:有线木马、无线木马、外部木马。
[0031] 进一步地，所述②基于时间的分割，其输入是、As、…、Αν ;并且，提取描述性统计的Ξ个操作步骤:告警时间序列计算，有效/无效的告警序列标记，W及基于时间的分割。
[0032] 对每一个告警分组4，告警时间序列&统计需要输入两个参数：时间窗W，决定了需要分析的告警数量； (2)时间粒度g，评估告警的最小时间单位（例如，每天、每小时、每分钟的告警时间序列）。
[0033] 上述参数由安全分析师输入，依据场景和分析目标。例如，如果分析目标要发现哪一天异常或告警的态势感知，则时间粒度可能等于一天(驗为每天的告警数量），并且时间窗W为6个月或W上。另一方面，如果分析目标是评估白天和晚上是否具有不同的告警分布，则时间粒度可能等于一小时或更少，并且时间窗W为1个月或W上。在安全分析的场景中，粒度g过细(例如，秒)应该避免的。
[0034] 那么，所述②基于时间的分割，评估觀在时间窗W中是否活跃的。运一步的目的主要是去掉不活跃的的时间序列操，运是因为为了进一步的分析。作为检查告警时间序列是否活跃的准则，如果在该时间区间内产生了 50%或W上的告警数量，则该类告警是活跃的，良Pmedian(綾)〉0。其它的诸如过滤非活跃告警序列的准则和口限，取决于安全分析目标和企业口系统的情况而定。
[0035] 在计算告警时间序列鷄之后，如果它是活跃的，则在输入时间组合参数Si的基础上进一步地分割，其中，奪被定义为一些时间区间（例如，白天、晚上），告警时间序列鶴被分割为Μ个子序列畴5;，j e {1，2，…，M}。另一方面，如果安全分析师对于告警的时序行为没有特别的期待，则可W为所有告警分组年定义一种细粒度时间黎.（例如，一般按照每小时分割）。运是出于一个事实，所述⑤可能的重新组合，能够自动建议可能的粗粒度时间重新组合，w 分析在所述③描述性统计所提取的描述性统计。
[0036] 所述②基于时间的分割的输出就是Μ个子序列t'Sg，W及序列鞍，即对于每一个告警分组餐，输出M+1个告警序列。
[0037] 现在，再来考察前面的例子，主要关注3个最活跃的告警分组:有线木马、wifi木马、外部木马。考察的时间窗W为5个月，时间粒度g为1小时。运个时间粒度可W考察不同时间区间的时间行为。图5为有关每小时的有线木马、wifi木马、外部木马告警的时间序列。X 轴表示时间（小时），而Y轴为上报的告警数量(0~800个告警/小时）。因为所W运Ξ个告警序列的中位数大于零(median(綾)〉0，i=l，2,3)，所W它们是活跃的。从图3可W看出，wifi 木马最为活跃，有线木马次之，而外部木马告警序列最弱。
[0038] 进一步地，所述③描述性统计，其输入为鶴和Μ个子序列務1。本模块抽取了 3组相关的描述性统计，设及到随机分布、时序依赖和稳定性。
[0039] 所述随机分布，其分布特征具有2个主要属性:集中趋势和离散。对于高度动态的应用场景，考察下面的统计，并可W通过盒图直观地表示。
[0040] (1仲位数m(即median (m))，表示数据的集中趋势；间四分位数iqr，表示围绕集中趋势的离散度。
[0041] 为了表示离群值对数据离散度的影响，考察方差系数y = ￡，其中，I和S分别是告警序列所属分布的均值和方差。Y 为较高之值时，则表示该告警序列是离散的，并且/或存在异常值;然而，Υ Q~3)为较小之值时，则表示为收敛的分布。
[0042] 再者，对于最活跃的告警序列:有线木马、WIFI木马、外部木马，考虑时间组合發={ 工作时间（白天），工作时间（晚上），节假日（白天），节假日（晚上）}，图4给出了时间组合犧的盒图；其中，X轴表示时间分割（白天、晚上），而巧由表示每时间单元的告警数量(例如，每小时上报的告警的数量）。每一个盒图给出了如下的统计属性：下四分位数（ql)、中位数 (median)、上四分位数（q3)、四分位距（iqr=q3-ql)、下触须（、、、-=:;-I 5 ' q;)和上触须毅江:= 餐2弁款聚斜類。所有在W。之上和壤S之下的值，可W认为是异常值。
[0043] 图5给出了不同的时间组合蠻的方差系数縱系数的值。运个统计对于捕获到数据的变异性是有用的。
[0044] 从图4看出，在工作日的白天，大部分的告警是wifi木马产生。另一方面，在节假日的白天，wifi木马告警减少，在节假日的夜间几乎是没有告警。从图7看出，在工作日的白天，wifi木马告警的变量系数是低的，而其它组合比运个高，运就说明该告警序列存在噪声，并且/或存在某些异常值。
[0045] 在图4(a)和(d)的所有四个时间组合，有线木马告警呈现了类似的告警的集中趋势(m)和离散度(iqr)，而在工作日的白天稍微有点高。然而，在工作日，无论是白天，还是晚上，存在较高的异常值。运些异常值几乎是高于集中趋势的一个数量级;并且，从图5可W看出，其方差系数也为较高的值。
[0046] 另一方面，外部木马无论在白天还是晚上几乎是等分布的，工作日的白天稍微有点低，运可能与来自不同时区的攻击有关。外部木马告警的离散度是低的，并且，在所有时间组合中，方差系数接近1.5。运就提示外部木马告警序列独立于检测时间，可W合并成为一个时间组合(工作时间/节假日、白天/晚上均没有差别）。
[0047] 所述时间依赖，与时序依赖相关的描述性统计，对于基于回归的异常检测来说，是有用的。如果一个告警序列存在趋势、周期性和季节性的话，则它展示为时间依赖性。趋势是一个一般的系统性的组件，对于充分长的时间范围，一个时间序列可能显示周期性或季节性的模式。
[0048] 为了抽取时序依赖的描述性统计，采用滤波和自动关联的时间序列分析技术。滤波能够减少时间序列的噪声。运种噪音可能隐藏了用于模型异常检测是有用的趋势和时间模式。在运种情况下，采用简单的过滤技术;重要的是要考虑，因为采用更先进的滤波技术，可W改变数据的性质。基于运样的原因，本发明采用基于半径为r小时中屯、窗口的SMA滤波。为了清晰起见，假设蔡作为一个告警时间序列，而是在t时刻的告警数量(例如，如果时间粒度g等于1天，则％隶示第t天的告警数量）dSMA滤波生成了新的序列SMA(t)，其中，告警序列台;的每一个值被扳的化个邻居的平均值所替代，即：
其中，祭是在第t时刻的告警数量，2r+l是移动平均窗口的大小。本发明建议半径r取值为1的平滑滤波，或半径r取值为5渐进式滤波。
[0049] 在滤波之后，计算如下自动关联函数(ACF):
其中，r是自动关联的时间间隔，輪是告警时间序列，E是数学期望运算符J和牺是鞍的均值和方差。当自关联为较高的值和慢衰减时，它意味着将来值与历史值相关;反之也真，即当两个值之间的自动关联趋于零时。如果它的錢縷雜i杂嚇，则一个时间序列被认为是可预测的，且在第k个窗口具有足够的预测精度。因此，上述条件满足，基于回归的异常检测算法可W有效使用。
[0050] 与随机分布的描述性统计不同，时序依赖性统计仅从整个告警时间序列潑中抽取，运是因为由于自动关联函数需要告警时间的连续性，用于鉴别可预测性、趋势和周期性。
[0051] 特别是，关于时序依赖性，本发明提取了下面的描述性统计： (1)作为可预测间隔的觀值；时间序列％的主周期馬(如果有的话）。
[0化2]其中，可W有多个周期（例如，24小时、7天），也可W没有周期(在运种情况下，裝= 0)。再者，注意到，不管是否对告警序列吗实施了滤波，都可W抽取每一个统计。也就是说，存在巧巾配置(无 SMA滤波、弱SMA滤波、强SMA滤波），相应地提取3对值(k;，Τ〇。
[0化3] 图6给出了有线木马、WIFI木马、外部木马的ACF之值。X轴表示时间间隔t (小时），Υ 轴ACF之值。垂直虚线表示W24小时

完整全部详细技术资料下载

当前第2页1 2 3