一种基于蜜罐与伪蜜罐部署的安全探索强化学习方法与流程

文档序号:36882045发布日期:2024-02-02 21:16阅读:11来源:国知局
一种基于蜜罐与伪蜜罐部署的安全探索强化学习方法与流程

本发明涉及网络攻防安全领域,具体涉及一种基于蜜罐与伪蜜罐部署的安全探索强化学习方法。


背景技术:

1、近年来网络攻击事件频繁,网络攻击能够利用网络信息系统存在的漏洞和安全缺陷进行多种类型的攻击行为,已经在全球范围内造成了严重的安全威胁和巨大的经济损失,而基于蜜罐的网络防御技术在抵御网络攻击方面表现出了巨大的潜力。蜜罐技术是一种通过设置诱饵以诱导攻击者攻击并从中收集攻击者情报的欺骗技术。此外,反蜜罐技术则是一种通过将正常主机伪装成蜜罐的欺骗技术,目的是误导攻击者将其检测为蜜罐并绕过不进行攻击。

2、蜜罐技术在现代网络安全领域应用广泛。如中国专利授权公布号为cn116599733a的专利提出一种基于蜜罐的网络攻击防护方法与系统,该方法基于低、中、高风险的网络攻击,蜜罐的诱捕率及防御成功率等进行分析,确定蜜罐部署数量,保证通信安全。中国专利授权公布号为cn116346430a的专利提出一种基于高交互性蜜罐的网络威胁管理系统,利用高交互性蜜罐作为信息收集节点的工具,对潜在的攻击者进行诱骗。中国专利授权公布号为cn116545675a的专利提出一种基于计算机欺骗诱捕技术实现的钓鱼邮件的捕获反制方法,建立开放代理的服务器蜜罐来吸引攻击者进行钓鱼邮件的发放,再找出攻击者的ip来进行捕获反制。

3、w.tian等人[w.tian,m.du,x.ji,g.liu,y.dai and z.han,"honeypot detectionstrategy against advanced persistent threats in industrial internet ofthings:a prospect theoretic game,"in ieee internet of things journal,vol.8,no.24,pp.17372-17381,15dec.15,2021,doi:10.1109/jiot.2021.3080527.]提出了一种基于sdn的动态有界理性蜜罐-apt博弈模型,其中防御系统通过选择蜜罐收集和分析数据的周期策略来最大化效用,而攻击者通过选择其延迟和攻击的周期策略来最大化效用。b.li等人[b.li,y.xiao,y.shi,q.kong,y.wu and h.bao,"anti-honeypot enabledoptimal attack strategy for industrial cyber-physical systems,"in ieee openjournal of the computer society,vol.1,pp.250-261,2020,doi:10.1109/ojcs.2020.3030825.]提出了一种反蜜罐优化策略,该方法引入混合信令和重复博弈,基于各种可能的防御和不同攻击者的攻击行为推导纳什均衡,找到最佳的攻击策略,以实现攻击受蜜罐保护的目标。


技术实现思路

1、本发明的目的在于提供一种基于蜜罐与伪蜜罐部署的安全探索强化学习方法,基于蜜罐与伪蜜罐部署技术,利用安全强化学习方法寻求在最大化防御效益的同时能满足给定的安全约束条件,避免防御系统探索和选择高危部署策略,从而抵御外部未知的网络攻击、提高软件定义网络的整体安全性。该方法不需要预测攻击者的攻击模型,针对攻击者使用普通攻击或者反蜜罐攻击策略,防御系统可以通过安全强化学习方法在频繁的网络攻防对抗过程中探索最优的防御部署策略。

2、为实现上述目的,本发明的技术方案是:一种基于蜜罐与伪蜜罐部署的安全探索强化学习方法,包括如下步骤:

3、步骤1、网络初始化及参数定义

4、设软件定义网络中存在n个服务器、一个网络防御系统;第k个时隙存在一个访问者对系统进行访问,该访问者存在概率p(k)是外部攻击者,存在概率1-p(k)是合法用户;外部攻击者能够采用包括普通攻击或反蜜罐攻击的策略对软件定义网络进行攻击;而网络防御系统能够通过部署h个蜜罐和p个伪蜜罐,并采用提供包括正常服务、蜜罐服务以及伪蜜罐服务的策略进行防御;其中,用ω=[ω1,ω2]来表示网络防御系统是否提供服务,即ω1为提供服务,ω2为不提供服务;设软件定义网络中的第i个服务器在第k个时隙遭受未知的网络攻击,此时网络防御系统采用防御部署策略ai(k),部署这种策略会产生ci(k)防御成本,由资源成本和时间成本组成;在防御系统部署的起始阶段,初始化攻击者、网络防御系统和安全强化学习网络;

5、步骤2、在第k个时隙,外部攻击者对软件定义网络中进行攻击;为应对未知的网络攻击行为,网络防御系统对n个服务器分别采取防御部署策略ai(k),防御部署策略空间集表示为a(k)=[ai(k)]0≤i≤n;

6、步骤3、在第k个时隙,网络防御系统通过观察得到上一时隙k-1的网络系统状态,包括访问者是外部攻击者的概率p(k-1),成功捕获到外部攻击者所获得的效益r(k-1),被外部攻击者成功攻击的损失l(k-1),网络防御系统的安全评估水平safe(k-1),网络防御系统采取正常服务、蜜罐服务以及伪蜜罐服务这三个策略的风险水平risk1(k-1),risk2(k-1),risk3(k-1)以及获得当前k时隙所采取的防御部署策略的成本cd(k);因此,网络防御系统构建系统当前k时隙的观测状态为

7、步骤4、利用安全强化学习算法中的监督器f(x),来判断当前k时隙的防御部署策略空间集a(k)产生的安全评估水平safe(k)是否在安全约束区域ds{safe(k)≤threshold}内;其中,safe(k)表示安全评估水平,具体公式表示为其中p_ai(k)表示外部攻击者使用攻击策略i进行攻击的概率,p_ei(k)表示网络防御系统防御外部攻击者的攻击策略i成功的概率,ci(k)表示网络防御系统防御外部攻击者的攻击策略i使用的防御成本;若满足安全约束区域ds,则网络防御系统通过计算得到即时收益un(k),其公式为β表示网络防御系统成功检测外部攻击者的概率;若不在安全约束区域ds内,则网络防御系统被外部攻击者攻破,网络防御系统更新升级防御部署策略以应对下一轮攻击;

8、步骤5、基于第k个时隙网络防御系统的观测状态函数s(k)和安全评估水平safe(k)来更新下一个时隙网络防御系统的防御部署策略集a(k+1);

9、步骤6、重复步骤2~5,当k=k迭代结束时,终止迭代。

10、相较于现有技术,本发明具有以下有益效果:本发明一种基于蜜罐与伪蜜罐部署的安全探索强化学习方法,基于蜜罐与伪蜜罐部署技术,利用安全强化学习方法寻求在最大化防御效益的同时能满足给定的安全约束条件,避免防御系统探索和选择高危部署策略,从而抵御外部未知的网络攻击、提高软件定义网络的整体安全性。该方法不需要预测攻击者的攻击模型,针对攻击者使用普通攻击或者反蜜罐攻击策略,防御系统可以通过安全强化学习方法在频繁的网络攻防对抗过程中探索最优的防御部署策略。



技术特征:

1.一种基于蜜罐与伪蜜罐部署的安全探索强化学习方法,其特征在于,包括如下步骤:


技术总结
本发明涉及一种基于蜜罐与伪蜜罐部署的安全探索强化学习方法。涉及网络攻防安全领域,在软件定义网络架构的安全攻防场景中,网络防御系统对未知的外部攻击者仅有不完全观测信息的前提下,无需预测攻击者的攻击模型,利用安全强化学习算法可以动态改变防御部署策略,从而应对攻击策略的变化,提高攻击检测、捕获和防御性能。该方法可通过观察当前防御策略的部署成本、检测成本和上次网络防御收益等反馈信息,采用安全强化学习算法选择蜜罐与伪蜜罐等防御部署策略,能够降低网络防御系统的资源成本、提高安全防御效率,从而保障软件定义网络中的设备安全。

技术研发人员:高董英,李铮,郭蔡炜,纪文,吕智垒,吉眉颖,林晨晗,王怡婷,孔美美,李少杰,张楷涵,倪文书
受保护的技术使用者:国网福建省电力有限公司
技术研发日:
技术公布日:2024/2/1
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1