一种基于深度强化学习的风险评估方法

文档序号:37162817发布日期:2024-03-01 11:59阅读:21来源:国知局
一种基于深度强化学习的风险评估方法

本发明涉及网络安全领域,尤其涉及一种基于深度强化学习的风险评估方法。


背景技术:

1、随着信息技术的蓬勃发展,电子设备的数量飞速增长,尤其是物联网技术的发展,导致电子设备种类繁多,网络环境十分复杂。然而,信息技术的发展给生活带来便利的同时,也带来了不确定性和威胁。由于物联网技术仍然处于发展初期,设备厂商的水平参差不齐,追求设备功能上的迭代,网络安全的问题往往遭到忽视。由于物联网设备和生活息息相关,如果出现安全问题,很有可能会造成大量的隐私数据泄漏;如果造成设备功能使用障碍,则会给生活各方面都带来极大的困扰,例如新能源车充电桩无法使用、超市无法收银、摄像头失灵等。因此,当发现新的安全漏洞时,及时完成风险评估,确定影响范围是十分重要的。

2、安全风险评估通常是指对威胁、脆弱点、以及由此带来的风险大小的评估,用于确定计算机系统和网络中每一种资源缺失或遭到破坏,对整个系统造成的预计损失数量。对系统进行风险分析和评估的目的通常是了解系统目前与未来的风险所在,评估这些风险可能带来的安全威胁与影响程度,为安全策略的确定、信息系统的建立及安全运行提供依据。同时,如果通过第三方权威或者国际机构评估和认证,也给用户提供了信息技术产品和系统可靠性的信心,增强产品和单位的竞争力。

3、传统的安全风险评估过程通常分为以下几个步骤:首先是确定资产,确定信息系统中的资产,明确资产的价值,包括对机密性、完整性、可用性等三个方面的要求;然后是脆弱性和威胁分析,对资产进行细致周密的安全分析,发现脆弱点、以及由脆弱点可能引发的威胁,统计分析发生的概率、以及被利用后可能造成的损失;最后指定并评估控制措施,在分析各种威胁发生的可能性的基础上,研究消除、减轻、或转移威胁风险的手段,并制定出全面且有针对性的控制措施。

4、传统的安全风险评估方法大致可以分为三种类型:定量的风险评估方法、定性的风险评估方法、定性和定量相结合的风险评估方法。定量的风险评估方法虽然直观,但可能会曲解某些风险因素。定性的风险评估方法虽然可以避免定量的缺点,但主观性较强,非常依赖评估者的水平。定性和定量相结合的风险评估方法,虽然可以结合另外两种的优点,但仍然无法完全避免评估者的主观因素。同时,由于电子设备数量的快速增长,依靠评估者确定安全风险、发现潜在的攻击路径,是十分耗时且低效的。鉴于目前深度强化学习技术的不断成熟,如果将该技术运用于风险评估当中,将能改善这一现状。

5、目前,虽然存在一些使用深度强化学习算法寻找攻击路径的工作,但相关工作通常存在以下三个问题:第一,工作仅停留在寻找攻击路径和渗透测试的阶段,未结合风险评估指标完成风险评估;第二,先生成攻击图,然后再使用深度强化学习寻找最优攻击路径,造成结果强依赖攻击图生成工具,并非直接使用深度强化学习算法寻找攻击路径;第三,由于攻击图生成算法时间复杂度较高、无法作用于大规模网络的缺点,相关工作也存在网络规模受限的缺点,不符合如今设备数量增多的特点。

6、因此,本领域的技术人员致力于开发一种基于深度强化学习的风险评估方法。


技术实现思路

1、有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是传统的安全风险评估方法主要依靠专家的先验知识,来确定攻击路径和设备的风险等级,有较大的主观性。

2、为实现上述目的,本发明提供了一种基于深度强化学习的风险评估方法,其特征在于,所述风险评估方法使用深度强化学习算法寻找攻击路径,模拟攻击者的行为和思维方式,通过分析深度强化学习的训练过程,计算设备被攻击的概率,实现对所述设备的安全风险评估;所述风险评估方法包括本体建模层、机器学习层和风险评估层,其中,

3、所述本体建模层,使用本体对网络环境建模,将所述设备和所述设备中的漏洞定义为所述本体中的资产,将所述设备之间的连接关系和通信情况定义为对象属性,进而得到本体模型;

4、所述机器学习层,根据建立的所述本体模型,训练神经网络,寻找攻击路径;

5、所述风险评估层,根据机器学习的训练过程,建立评估指标,完成对所述设备的风险评估。

6、进一步地,所述风险评估方法包括如下步骤:

7、s101:使用本体对所述网络环境的拓扑结构建模,设置所述设备的漏洞和漏洞配置参数;

8、s103:使用deep q-network算法,通过训练神经网络,寻找所述本体模型中潜在的攻击路径;

9、s105:根据所述机器学习层中深度强化学习的训练日志,计算所述设备的风险值。

10、进一步地,所述步骤s101包括如下步骤:

11、s1011:使用本体对网络拓扑结构建模:针对待评估的网络环境和评估对象,使用本体对网络的拓扑结构建模,并记录设备间的连接情况;

12、s1012:设置所述设备的漏洞:从公共漏洞和暴露中寻找安全漏洞,将所述安全漏洞与待评估的网络环境中的设备绑定,并将所述安全漏洞添加到所述本体模型中对应设备上;

13、s1013:设置漏洞之间的利用关系:在所述本体模型中,设置所述漏洞之间的利用关系,形成可能的攻击路径;

14、s1014:设置所述漏洞对所述设备的危害程度:在所述本体模型中,设置所述漏洞对所述设备的危害程度,并将所述危害程度值作为深度强化学习智能体漏洞成功利用后的奖励值;

15、s1015:设置漏洞利用难易程度:在所述本体模型中,设置所述漏洞利用的难易程度,并将所述难易程度作为深度强化学习智能体漏洞利用的成功率;

16、s1016:设置攻击者可以直接利用的漏洞:在所述本体模型中,明确对外直接暴露的设备和所述攻击路径的起点。

17、进一步地,在设置漏洞对设备的危害程度时,使用综合计算得到的分数,所述分数考虑所述漏洞的影响度评分和所述设备本身重要程度,所述分数采用整数形式,所述漏洞的影响度评分参考通用评分系统中所述漏洞的影响度评分。

18、进一步地,在设置漏洞利用的难易程度时,参考通用评分系统中所述漏洞可利用度评分,将所述可利用度评分进行归一化处理,并将归一化处理后的所述可利用度评分作为漏洞利用的成功率。

19、进一步地,在所述步骤s103中,所述机器学习层包括状态空间和动作空间,所述状态空间是所述本体模型中建立的网络拓扑结构,所述状态空间由一个二维向量表示,所述二维向量中每一行代表一个设备,所述动作空间是攻击者可以利用的漏洞。

20、进一步地,所述设备参数包括设备状态、设备类型、设备位置和先前攻击结果,其中,

21、所述设备状态,指所述设备是否被攻击者成功攻击的状态;

22、所述设备类型为电子设备,包括路由器、电脑和无人机,相同的设备类型有相同的漏洞,所述设备类型变量指引深度强化学习智能体更好地找到攻击路径;

23、所述设备位置,为所述设备在网络拓扑结构中的位置,不同位置的设备有不同的重要程度,所述设备位置变量指引深度强化学习智能体更好地找到攻击路径;

24、所述先前攻击结果,设置为攻击者目前是否可以对所述设备发起攻击,包括暂时无法触及所述设备、已经成功攻击所述设备或已经攻击失败。

25、进一步地,将设备权限等级设置包括通信权限、普通用户权限和管理员权限,所述设备权限等级变量记录攻击者目前拥有的设备权限,攻击者拥有管理员权限后,才能通过所述设备跳转到其他设备,形成攻击路径。

26、进一步地,所述神经网络使用一维卷积处理原始的设备状态,将所述状态空间中的二维向量按设备维度合并成一维向量,通过全连接层进行处理后输出动作空间,所述动作空间中的一个动作对应于一个可以利用的漏洞。

27、进一步地,所述步骤s105包括如下步骤:

28、s1051:提取每次迭代的攻击路径:从所述机器学习层的训练日志中,获取每次迭代的攻击路径,并记录每一步在每次迭代中选择攻击的设备,统计每一步每个设备在所有迭代中被攻击的总次数;

29、s1052:根据总迭代次数,计算所述设备在每步被攻击的概率;

30、s1053:根据所述设备的重要程度和攻击者发动攻击所需步数,计算每一步所述设备的风险值,汇总后得到所述设备的整体风险值。

31、在本发明的较佳实施方式中,和现有技术相比,本发明具有如下有益的技术效果:

32、1、本发明通过使用深度强化学习算法来寻找攻击路径,模拟攻击者的行为和思维方式,通过分析深度强化学习的训练过程,可以得出各个设备被攻击的概率,从而实现设备的安全风险评估,由此可以减少安全风险评估过程中需要依靠专家经验的部分,减少评估过程中的主观性,增加客观性。

33、2、本发明使用深度强化学习代替人力,可以提升专家的工作效率,避免专家将工作的重心放在复杂的寻找攻击路径和计算概率的过程当中。

34、3、本发明使用本体建模来代替攻击图的生成,可以将渗透测试和风险评估方法用于更大的网络环境,有更广的适用面。同时,本体是一种通用且常见的建模方式,使用本体建模也可以避免重复建模的过程。

35、以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1