一种基于随机森林算法的社会工程学入侵攻击路径检测方法与流程

文档序号:14737260发布日期:2018-06-19 20:45阅读:474来源:国知局

本发明属于社会工程学网络安全及机器学习领域,尤其是涉及一种基于随机森林算法的社会工程学入侵攻击路径检测方法。



背景技术:

社会工程学典型的攻击方式为交互式攻击,即攻击者与被攻击者存在交互行为,攻击具有多样化、复杂化、隐蔽化、高威胁等特性。攻击者通过广泛的技术手段伪造可信身份来获取被攻击者的信任,使受害者听从攻击者的建议作出错误的行为。与传统网络攻击方式相比,社会工程学入侵攻击的路径更为复杂,更加难以检测。目前社会上广泛存在的电话诈骗和互联网诈骗均属于典型的社会工程学攻击。

社会工程学入侵攻击模型一般为:1设定目标、2收集信息、3设置陷阱、4建立信任关系、5心理弱点攻击、6取得目标、7攻击完成。其中步骤1和2不具备明显入侵攻击特征,于事前难以检测认定,步骤3至5是入侵攻击的关键步骤,攻击者一般采用电话、短信、邮件、钓鱼网站、即时通讯等多种手段与受害者进行反复沟通,在通讯过程中易于留下蛛丝马迹,也为防护提供了入侵前检测的可能。步骤6至7通常采用常规手段进行攻击,有多种方式可以进行检测,但难以对攻击进行溯源追踪和事前防范,也无法有效的检测到攻击事件的产生。



技术实现要素:

针对现有技术中存在的上述缺陷,本发明的目的是提供一种基于随机森林算法的社会工程学入侵攻击路径检测方法,通过机器学习方法,使用通信网的行为日志数据进行分析训练,实现对社会工程学入侵攻击事件和路径的有效检测和识别。

本发明采用的技术方案如下:

一种基于随机森林算法的社会工程学入侵攻击路径检测方法,所述方法包括:

步骤S1、利用通信网已有的信令采集系统、上网日志采集系统、僵木蠕检测系统获取通信日志数据,建立以用户为单位的社会关系网络模型;

步骤S2、从步骤S1中获取的通信日志数据中筛选出与社会工程学入侵攻击有关的疑似数据作为疑似样本,同时,获取已确认为社会工程学入侵攻击事件的通信日志数据作为正样本;

步骤S3、采用步骤S2获得的样本训练随机森林分类器;

步骤S4、将步骤S3生成的随机森林模型用于通信网日志数据进行新样本检测,通过检测识别出疑似社会工程学入侵攻击事件。

进一步地,在上述步骤S1中,还包括:对用户的社交圈及关系强度进行测度,根据用户标识对获取的通信日志数据进行关联,生成以用户为中心的社会关系网络模型,将安全事件与用户社会关系网络模型进行关联。

进一步地,获取的通信日志数据包括:电话通话日志、短信日志、邮件日志、病毒文件上传及下载日志、钓鱼网站访问日志,其中,所述日志中记载的内容包括:主被叫号码、被发送/被访问的钓鱼URL、邮件发件人/收件人、病毒文件特征码、时间戳。

进一步地,在上述步骤S2中,疑似样本筛选的原则包括:通信双方为社交关系弱连接、发起方与多个弱连接对象存在交互行为、通信双方的交互方式在一定时间周期内为多种。

进一步地,在上述步骤S3中,对随机森林分类器进行训练所使用的分类特征包括:社会关系强度、主动方社会关系网络特征、主动方行为特征、正常交互方式及时序特征、异常/恶意交互方式、时序特征、投送病毒行为特征、投送钓鱼网站URL行为特征。

进一步地,对确定的上述样本采用bootstrapping方法进行重置随机抽样。

与现有技术相比,本发明所述的一种基于随机森林算法的社会工程学入侵攻击路径检测方法,通过机器学习方法,使用通信网的行为日志数据进行分析训练,实现了对社会工程学入侵攻击事件和路径的有效检测和识别,可进行溯源追踪和事前防范。

附图说明

图1为本发明实施例所述的基于随机森林算法的社会工程学入侵攻击路径检测方法的流程示意图。

具体实施方式

以下结合附图对本发明作进一步详细说明,但不作为对本发明的限定。

本发明实施例所述的基于随机森林算法的社会工程学入侵攻击路径检测方法,包括如下步骤:

步骤S1、利用通信网已有的信令采集系统、上网日志采集系统(主要是针对宽带及移动互联网)、僵木蠕检测系统(主要是针对城域网)获取通信日志数据,建立以用户为单位的社会关系网络模型;

步骤S2、从步骤S1中获取的通信日志数据中筛选出与社会工程学入侵攻击有关的疑似数据作为疑似样本,同时,获取已确认为社会工程学入侵攻击事件的通信日志数据作为正样本;

步骤S3、采用步骤S2获得的样本训练随机森林分类器;

步骤S4、将步骤S3生成的随机森林模型用于通信网日志数据进行新样本检测,通过检测识别出疑似社会工程学入侵攻击事件。

本发明上述的检测方法适用的场景为:攻击者通过多种交互方式获取受害人信任并最终实施病毒投送或获取受害人敏感信息,进而控制受害人的电脑、手机、主机的行为,攻击成功的结果包括入侵渗透、账户窃取、网络敲诈、精神伤害。本发明主要是针对上述场景,进而提供一种检测方法。

具体来说,在上述步骤S1中,主要是建立用户的社会关系网络模型。用户的社会关系网络则是通过现有的移动通信网络中已建立的信令采集系统、上网日志采集系统、僵木蠕检测系统等来收集用户通信日志数据,并根据用户的通信日志数据建立社会关系网络,构建模型。更具体来说,这些通信日志数据包括:电话通话日志、短信日志、邮件日志、病毒文件上传及下载日志、钓鱼网站访问日志等等,与用户日常通信相关的日志,均可被系统采集到,而这些日志中一般均含有主被叫号码、被发送/被访问的钓鱼URL、邮件发件人/收件人、病毒文件特征码、时间戳等等。

作为本发明一个优选的实施方式,在上述步骤S1中,还包括:对用户的社交圈及关系强度进行测度,如此可识别用户的社交圈并根据社交关系强度发现社交圈中可能的攻击方,根据用户标识(如手机号、IP地址)对获取的通信日志数据进行关联,生成以用户为中心的社会关系网络模型,将安全事件(指与网络安全相关的事件,如发送或接收携带病毒的文件等)与用户社会关系网络模型进行关联。用户社会关系网络是由一群自然人通过网络行为如电话通话、邮件收发、短信收发等建立的关联关系,网络安全事件涉及到的相关方一般也是存在社会关系的相关方,本发明的目的即是将安全事件与社交关系进行组合分析和建模,从而对社会工程攻击进行检测发现。

例如,通过分析通信日志数据得到用户A、B、C三者之间存在联系,其中A与B之间仅有偶尔的邮件联系,A与C之间有经常性的通话、邮件、短信联系,即A与B之间为弱连接,A与C之间为强连接。当检测到B向A发送的邮件中附带病毒时,则对A而言,B为一个疑似的社会工程学攻击者,A为一个潜在的受害者。以上示例是最简单的一种情况,实际情况要复杂的多。

在上述步骤S2中,主要是样本的获取与筛选。从步骤S1获取的通信日志数据中筛选可能与社会工程学入侵攻击有关的疑似数据作为疑似样本。其中,对于疑似样本的筛选依据为:(1)通信双方为社交关系弱连接(弱连接是对社交关系双方关系强度的定性描述,如双方的交互方式较少、交互频次较低,或双方仅有间接交互,称之为弱连接);(2)发起方与多个弱连接对象存在交互行为;(3)通信双方的交互方式在一定时间周期内为多种类型,如存在邮件、电话、短信等交互类型;如果某样本同时满足上述三种情况,则基本能够判断该样本数据为与社会工程学入侵攻击有关的疑似样本。同时,还获取已确认为社会工程学入侵攻击事件的通信日志数据作为正样本,用于后面的算法训练。

在上述步骤S3中,主要是对算法分类器的训练,即采用步骤S2获得的样本训练随机森林分类器。将筛选后的疑似样本及已确认的社会工程学入侵攻击事件正样本输入到随机森林算法进行训练,得到具有特定分类特征的随机森林模型。其中,所述特定分类特征包括:社会关系强度、主动方社会关系网络特征、主动方行为特征、正常交互方式及时序特征、异常(恶意)交互方式及时序特征、投送病毒行为特征(例如,发起方向接收方发送包含病毒的邮件)、投送钓鱼网站URL行为特征(例如,发起方向接收方发送包含钓鱼URL的短信或邮件)。为增强随机森林模型的泛化性,降低过拟合风险,本发明还对上述样本采用bootstrapping方法进行重置随机抽样。随机森林分类器是专门针对决策树进行组合的一种组合分类器。随机选取训练样本集,随机选取分裂属性集,每颗树任其生长,不剪枝。

在上述步骤S4中,主要是完成算法检测及反馈。将步骤S3生成的随机森林模型用于通信网日志数据进行新样本检测。通过检测识别出疑似社会工程学入侵攻击事件,并通过客服回访方式确认入侵攻击的真实性。积累得到的真实入侵攻击事件数据用于算法的持续训练,以更进一步完善算法模型,提高检测的准确性。

与现有技术相比,本发明所公开的一种基于随机森林算法的社会工程学入侵攻击路径检测方法,通过机器学习方法,使用通信网的行为日志数据进行分析训练,实现了对社会工程学入侵攻击事件和路径的有效检测和识别,可进行溯源追踪和事前防范。

上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1