一种TTP自动化提取与攻击团队聚类的方法与流程

文档序号:21844909发布日期:2020-08-14 16:56阅读:1079来源:国知局
一种TTP自动化提取与攻击团队聚类的方法与流程

本发明涉及网络安全领域,具体而言,涉及到一种ttp自动化提取与攻击团队聚类的方法,用于描述攻击者的行为特征,挖掘攻击背后潜在的攻击团队。



背景技术:

卡巴斯基的全球研究和分析团队(great)指出,自从黑客组织对关键基础设施发起有针对性的攻击并试图破坏中央网络以来,高级持续威胁(apt)活动变得越来越复杂和具有破坏性。与此同时,因为物联网设备本身存在风险,容易被利用,同时又大量暴露在互联网上,物联网已经成为对个人隐私、企业信息安全甚至关键基础设施的头号安全威胁。更糟糕的是,攻击者可以利用开源工具来快速组装恶意软件扫描,渗透和控制物联网设备。出色的黑客可以在短时间内拿下数百万个物联网设备。一旦物联网僵尸网络形成,攻击者就可以借此发起apt攻击,破坏互联网基础设施,导致网络断开。当前面临的挑战是如何观察和预测个人甚至攻击团队对物联网设备的攻击。

当前的攻击行为检测方法大多是基于ioc(md5、ip和域名),从基于规则的方法或传统的黑名单提取。但ioc不稳定,无法描述攻击过程等特征,使其无法描述复杂的网络安全环境。然而,技术,战术,过程(ttp)描述了对手完成任务所经历的所有过程,从最初的接触到影响,以及其间的每一步,这为全面分析个人或攻击团体的攻击行为提供了充足的支持。同时,防御也在从以漏洞为中心向以威胁为中心转变,合理高效的安全架构只能在充分理解关键资产威胁的基础上构建,这就需要依赖于对攻击策略、技术和行为模式的全面理解。然而,现阶段还没有成熟的方法来规范针对物联网攻击的描述并将其映射到分析模型中去。

与此同时,随着apt活动的快速增长,威胁场景从单个黑客演变为组织良好的攻击组织。如何在海量的攻击中发现和刻画攻击者的行为成为一个挑战。沙箱中的行为分析和二进制分析是不错的方法,它可以将攻击者使用的恶意样本与已知的或新的恶意家族进行匹配,并捕获它们的行为,观察这些攻击者之间的相似性。然而,恶意家族与攻击群体是一种多对多的关系,我们不能仅仅依靠分析恶意样本来找到攻击背后的群体。

本文基于上述挑战,提出了一种新的ttp自动化提取和攻击团队聚类的框架,解决了在物联网设备攻击中个人或团体的行为在观查和预测时出现的挑战。



技术实现要素:

攻击者行为的全面描述。本发明利用日志数据抽取的四个特征组(ttp,时间,ip和url)从不同维度来表征攻击者的不同行为,从而解决了在观察和预测iot攻击时,对于个人攻击行为描述的挑战。ttp描述了攻击者的技术,战术和过程。时间特征组提供基于攻击持续时间,攻击次数和攻击者时区的统计特征。ip特征组和url特征组都涉及ip/url的类型,地区和恶意指数,而url特征组还涵盖了对攻击者下载的文件名的分析。

攻击技术、战术和过程的自动化提取。考虑到蜜罐日志数据中收集了攻击者利用的有效负载(payload),我们构建了两个不同的知识库,它们存储了命令和ttp之间的映射。通过使用这些知识库,本发明将从有效负载提取出的命令序列映射到att&ck框架以生成攻击者的ttp,从而弥合了网络威胁情报(cti)与攻击者之间的鸿沟。

团队聚类与攻击树生成。本发明采用基于四个特征组的分层聚类算法,以挖掘出攻击背后的潜在组织,然后为每个团队创建攻击树,其中节点是命令,边代表命令序列,以具体化并更好地理解攻击行为。

附图说明

图1是本发明的框架示意图。

图2是本发明中的ttp自动化提取流程的示意图。

图3是本发明中抽象语法树提取命令示意图。

图4是本发明中层次聚类原理示意图。

图5是本对于给定团队生成的攻击树示意图。

具体实施方式

现结合附图和具体实施方式对本发明进行进一步说明。如图1所示为该发明的框架图。首先,该框架捕获来自internet的攻击,生成原始数据,并从特定字段(例如时间戳,有效负载和时区)提取特征。其次,它丰富了这些特征。例如生成ttp特征组时,它将负载分为命令,将这些命令映射到att&ck框架,然后生成命令的抽象语法树,以第二次映射到技术和战术。在生成所有特征组后,可使用编码和tf-idf对这些字符串类型的特征进行矢量化处理。然后,它结合了所有特征向量,并利用层次聚类算法将这些攻击者聚类。最后,该框架利用每个攻击团队所有的有效载荷为其创建攻击树,以将团队行为形象化。节点是命令而边是命令序列。

ttp的自动化提取模块:如图2所示,构建第一/第二知识库,它们分别包含整条命令(命令与其参数)与命令本身同att&ck框架中定义的战术、技术之间的映射。然后,提取物联网蜜罐的系统日志,利用正则匹配的方式抽取每次攻击中的有效载荷(payload),并将有效载荷分割为命令序列。接着,利用第一知识库对整个命令进行初次映射,获取给定攻击者相应的部分技术、战术。然后,对于每条命令来说,提取如图3所示抽象语法树,获得其命令本身,利用第二知识库对命令本身进行映射,获取指定攻击者其他的技术、战术。最后,合并上述两次映射产生的战术、技术为给定攻击者最终的ttp特征。

攻击者行为描述模块:该模块主要分为ip/url特征组生成与time特征组生成这两个部分。url/ip特征组中的相关特征有:国家,描述了该ip所在的地区;恶意指数,该ip/url为恶意的可能性;ip/url类型,ip类型可能为数据中心,专用出口,普通宽带,移动宽带,骨干节点,已知爬虫,中小型运营商中的一种;以及攻击者利用命令执行下载的文件名。本模块首先利用反病毒引擎来扫描未知ip/url的恶意性,将返回的结果作为该ip/url的恶意指数;然后,通过扫描特定服务相应的端口开放情况来获得ip类型的分类,7种分类分别是数据中心,专用出口,普通宽带,移动宽带,骨干节点,已知爬虫以及中小型运营商。接着,本发明通过ip地址定位来获取该ip所在国家。其中,url特征组中还有一个ip特征组中没有的特征:下载文件名。本方法将文件名进行tf-idf编码后作为特征。在获得这些特征组之后,将相应的字符串编码为一个数字型特征向量,并将所有向量转换为特征矩阵。time特征组的生成是首先计算每个ip的所有条目的时间戳的间隔,并生成时间间隔序列;随机选择一个数字作为初始阈值,计算每个ip攻击时段的总数;调整阈值直到大多数ip的攻击时段的数量几乎不变;如果多个阈值具有相同的结果,该方法总是倾向于选择中最小的数值作为最后的阈值。然后,整理每个ip所有攻击时段的开始时间、结束时间和攻击时段中包含的访问数量;计算每个ip所有的攻击时段持续时间。最后,最大值、最小值、序列长度、平均值、中位数、标准差、方差、总值这8个统计特征,并对该ip所在的时区进行编码,生成time特征组的最终向量。

团队聚类与攻击树生成模块:在团队聚类部分,该方法利用了如图4所示的层次聚类算法,输入预处理后的特征向量,通过计算数据点之间的相似性进行聚类,来挖掘海量攻击中的潜在攻击组织。在得到了攻击团伙之后,该发明将给定团伙中所有ip的有效载荷整理在一起,生成如图5所示攻击树。对所有的有效载荷抽取其相应的抽象语法树,然后以命令本身为节点,命令序列为边构成一幅有向图。其中,命令的出度作为节点大小的直接参考依据。当一个节点没有出度时,用入度来代替。边的宽度由命令序列出现的次数决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1