分布式模式发现的制作方法

文档序号:9732067阅读:412来源:国知局
分布式模式发现的制作方法
【专利说明】分布式模式发现
【背景技术】
[0001] 安全信息和事件管理(SIEM)技术提供对网络硬件和应用所生成的安全警报的实 时分析。SKM技术可检测对计算网络的可能威胁。运些可能威胁可根据对安全事件的分析 来确定。
【附图说明】
[0002] 下面的详细描述参照附图,其中:
[0003] 图1和图2是根据各种示例的能够分布式模式发现的系统的框图;
[0004] 图3是根据一个示例的用于基于分布式模式发现的规则来生成单项项集 (itemset)的方法的流程图;
[0005] 图4是根据一个示例的用于确定分布式模式发现的新候选项集的方法的流程图;
[0006] 图5是根据一个示例的用于输出包括频繁项集的元组的方法的流程图;
[0007] 图6是根据一个示例的用于从包括频繁项集的元组确定所发现的模式的方法的流 程图;W及
[000引图7是根据一个示例的能够建立新候选项集的计算设备的框图。
【具体实施方式】
[0009] 模式发现是基于数据挖掘的先发制人的方法,用于解决安全信息和事件管理 (SIEM)系统面临的许多挑战。随着大安全数据和专业的信息攻击者采用的先进的协作技术 的涌现,SffiM系统正面临各种挑战,例如,零日漏桐探索、慢攻击、从一个系统到另一个系统 的长期渗透、W及信息泄露。此外,黑客正在其仓库中增加之前从未见过的新武器。
[0010] 先发制人的方法可用于不通过匹配已知的签名来检测系统异常,而是通过关联安 全信息并发现系统中未知模式的痕迹来检测系统异常。SIEM中的模式发现是确定运些漏桐 的有用方法。
[0011] 在某些示例中,网络的安全信息/事件管理可包括从网络和网络设备收集反映网 络活动和/或设备的操作的数据、W及分析数据W提高安全性。网络设备的示例可包括防火 墙、入侵检测系统、服务器、工作站、个人计算机,等。可分析数据W检测模式,该模式可指示 网络或网络设备上的攻击或异常。所检测的模式可用于例如定位数据中的那些模式。例如, 模式可指示尝试访问网络中的计算机并安装恶意软件的蠕虫或其他类型的计算机病毒的 活动。
[0012] 从网络和网络设备收集的数据用于事件。事件可W为可被监控和分析的任意活 动。针对事件采集的数据称作事件数据。可实施所采集的事件数据的分析,W确定事件是否 与威胁或一些其他情况关联。与事件关联的活动的示例可包括登录、退出、通过网络发送数 据、发电子邮件、访问应用、读或写数据、端口扫描、安装软件等。事件数据可从网络设备所 生成的消息、日志文件条目来收集,或从其他源收集。安全系统还可生成事件数据,例如,相 关事件和审计事件。
[0013] 在一些示例中,还可通过建立已在线下学习的系统的正常模式的基线来实现异常 检测。发生任何异常时,系统可检测新的模式并警告系统管理。SIEM的单个节点上的模式发 现可限制于系统资源(例如,存储器、具有数据库(DB)的IO带宽,等),使得其缺少处理大数 据的能力,运在现代先进的企业安全体系中是常见的。此外,如果W批处理模式实现模式发 现,则实时发现新模式是有挑战性的。
[0014] 因此,本文描述的各种实施例设及一种实时的能够扩展传统模式发现的分布式模 式发现引擎。此外,各种实施例可用于在关联的数据流式传入时,实时响应新的模式。模式 发现程序可分流并分成多个级。此外,多个节点可用于多个级。
[0015] 如图1中进一步描述的,运些节点可包括事务项节点、单项计数节点、事务项集生 成器(builder)节点、项集计数器节点、W及模式输出节点。一个或多个节点可分配于模式 发现的每个级。在一些示例中,映射/归约、Storm(风暴)、或其他方法可用于平衡工作负载。 因此,本文描述的方法可避免数据集中的I/O瓶颈W及计算集中的瓶颈。有利地,本文描述 的方法可改善发现实时模式的性能。可在流处理框架上实现映射/归约和/或Storm方法,W 提供在多级上流模式发现处理的机制,W及在一个或多个节点上并行化每级中的任务,W 避免瓶颈。运允许实时处理持续流动的安全信息和事件数据。
[0016] 节点可检查事件组成,并将相关事件组识别为事务。随后可确定频繁项集。在某些 示例中,频繁项集是一起频繁地出现在不同事务中的相关事件组。因此,一个或多个安全事 件可包括在事务中。可被定制W例如满足消费者指定的标准的运些频繁项集中的一些是恶 意攻击的痕迹,且可用作未来分析的签名。
[0017] 运可能是关联项集挖掘的情况,其可在形式上被描述如下:令I= {日1,日2,日3…,am} 是项集,且事务数据库DB是I的子集的集合,由DB ={ Tl,T2,T3…,Tn}表示,其中Ti (1 y如) 称为事务。可能模式A的由SUPP(A)表示的支集是DB中包含A的事务的数量,且可能模式A的 由length(A)表示的长度是A中项的数量。在一个示例中,当且仅当SUPP(A) > Cl且length (A) >卽寸,A被认为是频繁模式,其中Cl是模式支集的预定义阔值,且C2是模式长度的预定 义阔值。项的示例可包括用于模式发现的字段和参数。模式长度可认为是活动的数量。
[0018] 根据示例,针对模式发现选择字段和参数。事件数据中的事件可具有大量的属性。 事件数据可根据与事件数据中的事件的属性关联的字段来存储。例如,字段是描述事件数 据中的事件的属性。字段的示例包括事件的日期/时间、事件名称、事件类别、事件ID、源地 址、源MAC地址、目的地址、目的MAC地址、用户ID、用户权限、设备客户字符串等等。事件数据 可存储在由字段组成的表中。在一些情况下,反映不同事件属性的数W百计的字段可用于 存储事件数据。
[0019] 针对模式发现,选择字段中的一些。例如,所选择的字段可包括来自表的字段的集 合。集合中的多个字段可包括来自表的字段中的一个或多个。集合的所选择的字段可基于 各种统计来选择,且可存储在模式发现分布(profile)中。模式发现分布是用于发现事件数 据中的模式的任何数据。模式发现分布可包括字段的集合、用于模式发现的参数和其他信 息。
[0020] 除了包括字段之外,参数可用于模式发现。参数可包括在模式发现分布中,W供模 式发现。参数可规定模式发现分布中的字段与事件数据匹配的条件,W检测模式。此外,参 数可用于调整所检测的模式的数量。参数的一个示例是模式长度,模式长度是活动数。模式 长度参数可表示为了将被认为是模式的活动所执行的不同活动的最小数量。参数的另一个 示例是可重复性参数,可重复性参数可表示为了使其被认为是模式而重复不同活动的最小 次数。在一个示例中,重复性与两个字段关联。例如,重复性可被表示为其上活动被重复的 源和目标字段的不同组合。源和目标IP地址的不同组合的最小数是重复性参数的示例。可 调整运些参数,直至预定量的匹配模式被识别。
[002
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1