基于攻防微分博弈的网络安全防御决策确定方法及其装置与流程

文档序号:12829225阅读:537来源:国知局
基于攻防微分博弈的网络安全防御决策确定方法及其装置与流程

本发明属于网络安全防御技术领域,特别涉及一种基于攻防微分博弈的网络安全防御决策确定方法及其装置。



背景技术:

当前网络与信息技术发展迅猛,面对网络空间安全领域的诸多挑战,增强网络安全防御能力,确保网络空间安全已成为亟待解决的迫切问题。博弈理论与网络攻防所具有的目标对立性、关系非合作性和策略依存性十分吻合。目前,运用博弈模型分析网络攻防行为,开展防御决策研究已经取得部分成果。但已有研究成果大都建立在攻防双方一次性博弈对抗的基础上。网络安全分析必须符合真实的攻防场景,由于攻防对抗具有多阶段、连续性的特征,因此将其视为一个多阶段博弈过程更加合理。网络空间对抗愈加激烈,网络攻防向快速、实时、多样化的方向发展,基于传统动态博弈的分析方法已不能满足实际要求。一方面,将攻防过程划分为多阶段进行分析,每个阶段的时间长度并非总是相同的,而是动态变化的;另一方面,随着技术发展,攻防过程出现高频变化的趋势,防御决策的条件在各个时间点都不完全相同。当前基于博弈理论的攻防分析大多假设攻防双方只进行一次对抗,即便是采用动态攻防博弈模型,也是将网络攻防处理为离散多阶段过程,而在真实的网络攻防场景中,攻防过程是在连续时间内实时进行的,传统动态博弈分析已不能满足现实要求。实时性的不足对最终的博弈结果将产生重大影响,使最终的博弈均衡结果与实际相差较大,从而降低了模型和方法的有效性。因此,亟需建立能够分析动态、连续、实时攻防过程的博弈模型,用于研究内含时间因素的防御决策方法。



技术实现要素:

针对现有技术中的不足,本发明提供一种基于攻防微分博弈的网络安全防御决策确定方法及其装置,借鉴传染病动力学理论,对连续、实时对抗条件下的攻防过程进行分析,使得网络防御决策结果的时效性、针对性和指导意义更强。

按照本发明所提供的设计方案,一种基于攻防微分博弈的网络安全防御决策确定方法,包含:

依据网络攻防过程及sir模型,构建网络节点的状态演化模型nirm,所述的状态演化模型包含:正常状态n、感染状态i、修复状态r及受损状态m;

根据网络节点状态的迁移路径,获取基于状态演化模型nirm的节点状态变化微分方程组;

依据节点状态变化微分方程组,构建攻防微分博弈模型addg;并根据攻防策略回报及执行代价,获取攻防双方在微分博弈过程中的收益函数;

根据收益函数及攻防微分博弈模型addg,通过动态规划方法求解攻防双方的鞍点策略,确定最优防御策略并输出。

上述的,节点状态变化微分方程组表示为:

其中,q为网络节点总数,α为节点部署在网络系统中的密度,t时刻处于正常状态n、感染状态i、修复状态r及受损状态m状态的节点数量依次记作n(t)、i(t)、r(t)和m(t),η(t)为攻防效用函数,ηni、ηnr、ηir、ηim为通过攻防效用η(t)描述状态迁移n→i、n→r、i→r、i→m发生可能性的迁移参数。

优选的,攻防微分博弈模型addg通过八元组表示为:addg=(n,θ,b,t,x,s,f,u),其中,n=(nd,na)是攻防博弈的参与者集合,nd代表防御方,na代表攻击方;θ=(θd,θa)是防御者与攻击者的类型空间,θd={di|i=1,2,…,n},θa={aj|j=1,2,…,m};b=(ds,as)是动作空间,as=(δ1,δ2,…,δg)、ds=(β1,β2,…,βk)表示攻击者、防御者的动作集合,g,k≥1;t代表攻防微分博弈中的时刻,t∈[t0,t];x(t)={(n(t),i(t),r(t),m(t))|n(t)+i(t)+r(t)+m(t)=q}是网络系统的状态变量,n(t)、i(t)、r(t)、m(t)代表t时刻系统中处于正常状态n、感染状态i、修复状态r和受损状态m的节点数量,q代表网络节点总数;s=(d(t),a(t))是博弈参与者t时刻的控制策略,代表防御者在t时刻选取的混合策略,防御策略依据能力强度划分类型,表示选取不同类型防御策略的概率且代表攻击者在t时刻的混合策略,表示选取不同类型攻击策略的概率且在连续实时对抗的攻防微分博弈中策略控制是当前时刻t、初始状态x(t0)和当前状态x(t)的函数,即pa(t)=pa(t,x(t0),x(t)),pd(t)=pd(t,x(t0),x(t));f={fn,fi,fr,fm}是状态迁移函数,其中,u=(ud,ua)是攻防双方收益函数的集合,对于时间[t0,t]上连续对抗的攻防微分博弈,收益函数为u是随时间动态变化的积分函数。

优选的,获取攻防双方在微分博弈过程中的收益函数,包含如下内容:假设网络中网络节点从正常状态n转变为感染状态i时的回报系数为r1,网络节点从感染状态i或正常状态n转变为修复状态r时的回报系数为r2,网络节点从感染状态i转变为受损状态m时的回报系数为r3,采用统计平均值定义回报系数r1、r2、r3∈[0,10],t时刻的防御回报rd(t)和攻击回报ra(t)表示为:

rd(t)=r2[ηnr(t)n(t)+ηir(t)i(t)]-r1[ηni(t)απi(t)n(t)/q]-r3[ηim(t)i(t)],

ra(t)=r1[ηni(t)απi(t)n(t)/q]+r3[ηim(t)i(t)]-r2[ηnr(t)n(t)+ηir(t)i(t)],t时刻的策略执行代价表示为:其中,cd、ca为防御和攻击策略的成本/效用系数,cd、ca∈[1,10],则攻防双方在微分博弈过程中的收益函数表示如下:

上述的,通过动态规划方法求解攻防双方的鞍点策略,包含:

a、基于攻防微分博弈模型addg及攻防双方的收益函数,分别构造攻防双方的hamilton函数;

b、针对攻防双方,分别获取其对应的共态函数;

c、利用动态规划方法,求解攻防双方的hamilton函数和共态函数;

d、根据求解结果,计算攻防双方各自最优策略组成的策略对,确定最优防御策略并输出。

优选的,通过动态规划方法求解攻防双方的鞍点策略,包含:

a、基于攻防微分博弈模型addg及攻防双方的收益函数ua(pa(t),pd(t))、ud(pa(t),pd(t)),分别构造攻防双方的hamilton函数;

b、针对攻防双方,分别获取其对应的共态函数;

c、利用动态规划方法,分别求解攻防双方的hamilton函数和共态函数;

d、根据求解结果,计算攻防双方各自最优策略组成的策略对,确定最优防御策略并输出。

优选的,所述的步骤a中攻防双方的hamilton函数分别表示为:

h(t,ka(t),x,pa(t),pd(t)),h(t,kd(t),x,pa(t),pd(t));所述的步骤b中,对于防御者,x∈{n(t),i(t),r(t),m(t)},获取其共态函数对于攻击者获取其共态函数

优选的,所述的步骤c包含如下内容:动态规划问题表示如下:

通过计算动态规划问题得到和(n*(t),i*(t),r*(t),m*(t));所述的步骤d中,令则计算得到其中,

得到其中,

,式中,η(t)=[a(t)-d(t)]为攻防效用,当η(t)>0时,表示t时刻防御失败攻击成功;当η(t)≤0时,表示t时刻防御成功攻击失败,η(t)正负属性不同时表明双方的最优策略具有策略依存性,确定最优防御策略并输出。

一种基于攻防微分博弈的网络安全防御决策确定装置,包含:模型构建模块一、微分方程获取模块、模型构建模块二及求解输出模块,

模型构建模块一,用于依据网络攻防过程及sir模型构建网络节点的状态演化模型nirm,所述的状态演化模型包含:正常状态n、感染状态i、修复状态r及受损状态m;

微分方程获取模块,用于根据网络节点状态的迁移路径获取基于状态演化模型nirm的节点状态变化微分方程组;

模型构建模块二,用于依据节点状态变化微分方程组构建攻防微分博弈模型addg;并根据攻防策略回报及执行代价来获取攻防双方在微分博弈过程中的收益函数;

求解输出模块,用于根据收益函数及攻防微分博弈模型addg并通过动态规划方法求解攻防双方的鞍点策略,确定最优防御策略并输出。

上述的网络安全防御决策确定装置中,所述的求解输出模块包含:攻防微分博弈函数构造单元、共态函数获取单元、函数求解单元及防御策略输出单元,

攻防微分博弈函数构造单元,用于根据攻防微分博弈模型addg及攻防双方的收益函数分别构造攻防双方的hamilton函数;

共态函数获取单元,用于根据攻防双方的hamilton函数分别获取其对应的共态函数;

函数求解单元,用于利用动态规划方法求解攻防双方的hamilton函数和共态函数;

防御策略输出单元,用于根据函数求解单元的求解结果计算攻防双方各自最优策略组成的策略对,确定最优防御策略并输出。

本发明的有益效果:

本发明借鉴传染病动力学理论,构建了状态演化模型nirm分析网络系统安全状态的变化过程;在此基础上,构建攻防微分博弈模型,提出描述策略选取和收益变化情况的攻防决策控制函数以及收益积分函数;通过对鞍点策略的求解和分析,得到最优策略控制轨迹的描述方程,通过最优防御策略实时选取防御策略;微分博弈能够刻画网络系统状态和决策控制的动态连续变化过程,更好地分析攻防双方的连续、实时对抗行为,实现最优防御策略动态选取,但是和一般动态博弈不同,在微分博弈过程中,网络系统的安全状态动态变化,攻防行动决策和结果受到时间因素的直接影响和制约,具有实时性;与传统博弈模型相比,本发明能够对连续、实时对抗条件下的攻防过程进行分析,网络防御决策结果的时效性、针对性更强,为连续、实时条件下的攻防对抗研究提供了有效的模型方法,并能够对防御策略的选取提供指导。

附图说明:

图1为本发明的方法流程示意图;

图2为网络攻防博弈状态随机转换图;

图3为nirm模型节点状态转换示意图;

图4为本发明的装置示意图。

具体实施方式:

网络攻防(networkattack-defense):主要指攻防双方均采取一定的措施产生对抗的过程,攻击方选取攻击策略对对方网络进行攻击,从而达到获取对方信息甚至破坏对方网络的效果;针对攻击方的攻击行为,防御方将采用各类防御措施进行网络安全防御,使自身损失达到最小。博弈(games):指在一定的环境条件中,一些个人或组织在一定的规则下,同时或先后,一次或多次,从各自的可选策略集中选取各自的策略并加以实施,并最终获取各自相应结果的过程。纳什均衡(nashequilibrium):在博弈g={s1,…,sn;u1,…,un}中,各博弈方的各一个策略组成的某个策略组合中,任意博弈方i的策略若满足条件:对任意的sij∈si都成立,则称为博弈g的一个纳什均衡。微分博弈(differentialgames):是时间实时变化情况下描述冲突对抗中连续控制过程的理论方法,能够刻画系统状态和决策控制的动态连续变化过程,可以更好地分析攻防双方的连续、实时对抗行为,实现最优防御策略动态选取。鞍点(saddlepoint):指在微分方程中,沿着某个方向是稳定的,但沿着另一个方向却是不稳定的奇点,即称为鞍点。传染病模型(sir,susceptibleinfectiveremoval):指在传染病流行范围内的人群中,将其分成易感者(susceptible)、感病者(infective)以及移出者(removal)三种状态,不同状态的个体数目将会随着时间发生变化。

随机博弈可以看作是一个各个局中人的联合行动下,使得博弈系统从一个状态跳变至另一个状态的状态机。网络系统同样可以看成是一个系统状态不断变化的状态机,攻防双方通过选取各自的策略进行攻防对抗,由于系统状态变化具有不确定性,因此,采用概率的方式来描述状态跳变的随机过程。

攻防随机博弈模型(attack-defensestochasticgame,adsg)可以表示为一个七元组adsg=(n,s,a,d,p,ua,ud),其中,n={a,d}属于参加攻防博弈的局中人集合,在此考虑仅有两个博弈方的情况;s={s1,s2,…,sk}表示攻防随机博弈中的状态集合;a={a1,a2,…,am}表示攻击方的可选策略集;d={d1,d2,…,dn}表示防御方的可选策略集;p:s×a×d×s→[0,1]表示攻防随机博弈状态转移概率函数;表示k=ai,dj时局中人的收益集合,其中表示收益值。

在网络攻防博弈过程中,攻防双方的关系属于非合作的、对抗的,即上述模型属于一个非合作网络攻防随机博弈模型。将网络安全状态作为本博弈模型中的随机状态集合,主要由攻防策略对(ai,dj)引起,其攻防状态转移过程可以用有向图g=(s,e)来表示,其中,s为图的节点集,表示网络安全状态,e为图的边集,表示攻防状态转移过程。具体如图2所示,图中有三个状态,各状态之间具有一定的转移概率,但也存在转移概率为0的情况。给定一个零和攻防随机博弈模型adsg,若博弈状态集s和攻防可选策略集a,d属于有限集合,则存在一个稳定的纳什均衡。给定一个攻防随机博弈模型adsg,对任意的k=1,…,k,博弈状态sk的值vk一定是vk=val(sk)的唯一解,其中val(sk)表示矩阵型博弈sk的值,矩阵sk的元素为通过计算网络攻防双方的攻防收益值,最终可以得到网络攻防博弈稳定状态,用于网络安全行为分析。

传染病动力学的sir模型描述了疾病在人群中感染和爆发的动力学过程,在网络攻防对抗中,攻击者利用网络节点的脆弱性,从个别节点开始渗透、感染系统中的其他节点,力图杀伤、瘫痪整个网络系统的过程与传染病的传播、破坏过程具有相似性。在大量节点构成的网络系统上发生的攻防对抗,同样是不断演化的动力学过程,一方面,组成系统的节点的安全状态不断迁移变化;另一方面,处于不同安全状态的节点的数量动态改变。为刻画这一过程,本发明借鉴sir模型并加以扩展,把网络系统中的节点类比为sir模型中的个体,依据网络攻防实际,将sir模型中的演化状态扩展为4个,将节点按照所处的安全状态分为4类,以攻防双方的策略选择及对抗结果作为节点状态迁移的关键因素,构建安全状态演化模型nirm。

为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发明作进一步详细的说明。

本发明实施例提供了一种基于攻防微分博弈的网络安全防御决策确定方法,参见图1所示,包含:

101、依据网络攻防过程及sir模型,构建网络节点的状态演化模型nirm,所述的状态演化模型包含:正常状态n、感染状态i、修复状态r及受损状态m。

正常状态n:网络节点处于正常工作状态,但是由于节点内在的脆弱性,节点可能遭受攻击;感染状态i:网络节点处于已被攻击策略渗透或传染的状态,但是还未出现服务质量下降,同时攻击者可以利用该节点攻击相邻节点。修复状态r:网络节点已被防御策略保护,对攻击策略具有免疫能力的状态;受损状态m:网络节点处于服务质量严重下降甚至丧失服务能力的状态。

102、根据网络节点状态的迁移路径,获取基于状态演化模型nirm的节点状态变化微分方程组。

103、依据节点状态变化微分方程组,构建攻防微分博弈模型addg;并根据攻防策略回报及执行代价,获取攻防双方在微分博弈过程中的收益函数。

104、根据收益函数及攻防微分博弈模型addg,通过动态规划方法求解攻防双方的鞍点策略,确定最优防御策略并输出。

采用动态多阶段博弈模型分析网络攻防虽然较为合理,但是依然只能研究时间间断、离散的攻防对抗过程。本发明的目标就是建立能够分析动态、连续、实时攻防过程的博弈模型,用于研究内含时间因素的防御决策方法,解决传统动态博弈的分析方法已不能满足实际要求的问题。和一般动态博弈不同,在微分博弈过程中,网络系统的安全状态动态变化,攻防行动决策和结果受到时间因素的直接影响和制约,具有实时性。因此攻防双方的决策控制和收益变化表现为内含时间变量的相空间中的连续路径,采用微分方程进行描述;博弈均衡具有泛函形式,其求解成为变分问题。与现有网络安全防御策略相比,本实施例能够对连续、实时对抗条件下的攻防过程进行分析,网络防御决策结果的时效性、针对性和指导意义更强。

网络节点在上述正常状态n、感染状态i、修复状态r及受损状态m的四种状态下的迁移关系如图3所示,设网络节点总数为q,t时刻处于上述四种状态的节点数量依次记作n(t)、i(t)、r(t)和m(t),则在有n(t),i(t),r(t),m(t)≥0且n(t)+i(t)+r(t)+m(t)=q。

在nirm模型中,网络节点状态有4种迁移路径:

n→i:正常节点面对攻击策略时,若防御策略失败,则节点被攻击者渗透或感染,此时攻击破坏效果尚处于潜伏期,节点服务质量未遭受损失;但是,攻击者可以利用该节点攻击直接相连的邻接节点,争取更大范围的攻击效果。例如攻击者采用病毒策略感染网络节点后并不立刻进行破坏,而是暂时潜伏并利用感染节点进行传播,以争取对系统中更大数量节点的破坏效果。

n→r:正常节点面对攻击策略时,若防御策略成功,则节点具有对攻击的免疫能力,可以避免损失。例如防御者安装补丁或更新杀毒软件以抵御病毒攻击策略。

i→r:防御策略成功识别感染节点并清除渗透或感染,扼杀了尚未出现的攻击破坏效果,避免了该感染节点的损失并将其转化为免疫状态。但是对于状态迁移前,攻击者利用感染节点攻击相邻节点的后果无法补救。例如通过更新节点的杀毒软件可以清除病毒,但是无法消除在此之前病毒扩散传染的后果。

i→m:感染节点面对攻击策略时,若防御策略失败,则攻击破坏效果出现,节点丧失服务功能,受损节点无法治愈并且不能再被用来攻击相邻节点。例如感染节点虽采用更新杀毒软件的策略,仍然未能在病毒发作前成功清除病毒,则病毒攻击可能导致节点崩溃并退出网络系统。

借鉴传染病动力学研究结论,通过分析迁移路径发现,影响网络系统中节点状态变化的原因主要有2个。(1)感染节点直接相连的正常节点的数量。攻击者可以利用感染节点攻击相邻的正常节点,因此与感染节点相邻的正常节点的数量越大,则感染节点的预期增加速度可能越快,安全风险趋向增大;(2)攻防双方的策略对抗结果。攻击和防御策略的对抗结果是决定状态迁移的关键因素,对于具体节点而言,对抗结果直接决定节点的状态迁移路径。下面分别对2个原因进一步分析。

假设节点以密度α部署在网络系统中,则对某一个网络节点而言,与其相连的节点数为απr2。r表示两个节点的网络连接距离,当r=1时,代表两个节点直接相连。对于一个感染状态i的节点,能与其直接通信的相邻节点的数量为απ。在t时刻,处于正常状态n的节点在全部节点中所占的比例是n(t)/q。因此,在整个网络系统中,若假设节点数量较大且感染节点相互距离较远,忽略感染节点影响范围的重叠效应,则t时刻和感染节点直接相连的正常节点的数量为απi(t)n(t)/q。若防御策略失败,则上述正常节点将转化为感染节点。

攻击和防御策略的对抗结果是决定状态迁移的关键因素。通过一个攻防实例具体说明,依据攻击强度将攻击策略分为强、中、弱三类,依次表示为ah、am、al,其平均攻击强度依次为攻击者在时刻t采用混合策略pa(t),即以概率向量选择三类攻击策略,则时刻t的攻击期望效用为简记为a。同理,依据防御强度将防御策略分为dh、dl,其平均防御强度依次为防御者在时刻t采用混合策略pd(t),即以概率向量选取防御策略,则时刻t的防御期望效用为简记为d。通过攻击策略和防御策略的效用差值表示攻击是否成功,记作攻防效用η(t)=a(t)-d(t),且|η(t)|∈[0,1]。当η(t)>0时,表示攻击成功;当η(t)≤0时,表示攻击失败。利用攻防效用η(t)分析迁移路径,可得描述状态迁移n→i、n→r、i→r、i→m发生可能性的迁移参数ηni、ηnr、ηir、ηim,

在本发明的另一个实施例中,节点状态变化微分方程组表示为:

在分析攻防过程中网络系统安全状态演化的基础上,本发明的又一个实施例中,攻防微分博弈模型addg通过八元组表示为:addg=(n,θ,b,t,x,s,f,u),其中,n=(nd,na)是攻防博弈的参与者集合,nd代表防御方,na代表攻击方;θ=(θd,θa)是防御者与攻击者的类型空间,θd={di|i=1,2,…,n},θa={aj|j=1,2,…,m};b=(ds,as)是动作空间,as=(δ1,δ2,…,δg)、ds=(β1,β2,…,βk)表示攻击者、防御者的动作集合,g,k≥1;t代表攻防微分博弈中的时刻,t∈[t0,t];x(t)={(n(t),i(t),r(t),m(t))|n(t)+i(t)+r(t)+m(t)=q}是网络系统的状态变量,n(t)、i(t)、r(t)、m(t)代表t时刻系统中处于正常状态n、感染状态i、修复状态r和受损状态m的节点数量,q代表网络节点总数;s=(d(t),a(t))是博弈参与者t时刻的控制策略,代表防御者在t时刻选取的混合策略,防御策略依据能力强度划分类型,表示选取不同类型防御策略的概率且代表攻击者在t时刻的混合策略,表示选取不同类型攻击策略的概率且在连续实时对抗的攻防微分博弈中策略控制是当前时刻t、初始状态x(t0)和当前状态x(t)的函数,即pa(t)=pa(t,x(t0),x(t)),pd(t)=pd(t,x(t0),x(t));f={fn,fi,fr,fm}是状态迁移函数,其中,u=(ud,ua)是攻防双方收益函数的集合,对于时间[t0,t]上连续对抗的攻防微分博弈,收益函数为u是随时间动态变化的积分函数。

基于博弈模型定义和上述分析结论,针对网络系统,当网络节点的状态从正常状态n转变为感染状态i时,设回报系数为r1,代表节点感染后对自身及相邻节点带来的危害;当节点从感染状态i或正常状态n转变为修复状态r时,设回报系数为r2,代表修复节点具备攻击免疫能力后能够减少的预期损失;当节点从感染状态i转变为受损状态m时,设回报系数为r3,代表节点丧失服务功能造成的损失。在实际攻防博弈中,由于影响回报系数的因素很多,回报系数一般为非线性表达式,为方便后续分析,采用统计平均值定义回报系数r1、r2、r3∈[0,10]。

根据上述分析,t时刻的防御回报rd(t)和攻击回报ra(t)为:

rd(t)=r2[ηnr(t)n(t)+ηir(t)i(t)]-r1[ηni(t)απi(t)n(t)/q]-r3[ηim(t)i(t)],

ra(t)=r1[ηni(t)απi(t)n(t)/q]+r3[ηim(t)i(t)]-r2[ηnr(t)n(t)+ηir(t)i(t)]。

攻防双方执行策略时均会消耗相应的策略代价,策略代价一般正比于策略效能,设t时刻的策略执行代价为

,其中,cd、ca为防御和攻击策略的成本/效用系数,cd、ca∈[1,10]。

综合考虑策略的回报和执行代价,本发明的又一个实施例中,攻防双方在微分博弈过程中的收益函数表示如下:

在本发明的再一实施例中,通过动态规划方法求解攻防双方的鞍点策略,包含:

a、基于攻防微分博弈模型addg及攻防双方的收益函数,分别构造攻防双方的hamilton函数;

b、针对攻防双方,分别获取其对应的共态函数;

c、利用动态规划方法,求解攻防双方的hamilton函数和共态函数;

d、根据求解结果,计算攻防双方各自最优策略组成的策略对,确定最优防御策略并输出。

给定攻防微分博弈addg,攻防双方的策略相互依存,由攻防双方各自的最优策略组成的策略对称为该攻防微分博弈的鞍点策略。在攻防微分博弈addg中,如果存在策略组合满足:

,则称为攻防微分博弈的鞍点,也称为攻防双方的鞍点策略,简称鞍点策略。

如果存在共态函数使得下列条件成立,则攻防微分博弈存在鞍点策略

根据鞍点策略的定义,构造hamilton函数:

h(t,ki(t),x,pa(t),pd(t))=f((t,x(t),pa(t),pd(t))ki(t)+g(t,x(t),pa(t),pd(t)),i∈{d,a}

存在函数使得hamilton方程组

存在策略解满足

根据最优控制理论中的庞特里亚金最大值定理,证明函数ki(t)的存在性,并且当t∈[t0,t]时,映射:为常数。因此,攻防微分博弈addg存在鞍点策略。

本发明的再一实施例中,对于防御者而言,基于攻防微分博弈模型addg构造hamilton函数,则有

计算共态函数kd(t),对x∈{n(t),i(t),r(t),m(t)},

同理,对于攻击者,得共态函数向量

为方便后续阐述,构造辅助表达式

在计算共态函数向量的基础上,采用动态规划方法求解鞍点策略。为方便说明和理解,本发明的其他实施例中,

计算如下动态规划问题:

,得到和(n*(t),i*(t),r*(t),m*(t))。

然后,令则计算得到其中,

同理,令可得其中

式中,η(t)=[a(t)-d(t)]表示攻防效用,当η(t)>0时,表示t时刻攻击成功(即防御失败);当η(t)≤0时,表示t时刻攻击失败(即防御成功)。η(t)正负属性不同时,具有不同结果,表明双方的最优策略具有策略依存性。

与上述方法对应,本发明实施例还提供了一种基于攻防微分博弈的网络安全防御决策确定装置,如图4所示,包含:模型构建模块一201、微分方程获取模块202、模型构建模块二203及求解输出模块204,

模型构建模块一201,用于依据网络攻防过程及sir模型构建网络节点的状态演化模型nirm,所述的状态演化模型包含:正常状态n、感染状态i、修复状态r及受损状态m;

微分方程获取模块202,用于根据网络节点状态的迁移路径获取基于状态演化模型nirm的节点状态变化微分方程组;

模型构建模块二203,用于依据节点状态变化微分方程组构建攻防微分博弈模型addg;并根据攻防策略回报及执行代价来获取攻防双方在微分博弈过程中的收益函数;

求解输出模块204,用于根据收益函数及攻防微分博弈模型addg并通过动态规划方法求解攻防双方的鞍点策略,确定最优防御策略并输出。

在本发明的另一个实施例中,所述的求解输出模块204包含:攻防微分博弈函数构造单元、共态函数获取单元、函数求解单元及防御策略输出单元,

攻防微分博弈函数构造单元,用于根据攻防微分博弈模型addg及攻防双方的收益函数分别构造攻防双方的hamilton函数;

共态函数获取单元,用于根据攻防双方的hamilton函数分别获取其对应的共态函数;

函数求解单元,用于利用动态规划方法求解攻防双方的hamilton函数和共态函数;

防御策略输出单元,用于根据函数求解单元的求解结果计算攻防双方各自最优策略组成的策略对,确定最优防御策略并输出。

在上述分析的基础上,在分析动态网络攻防博弈过程的基础上,对连续过程中的网络攻防行为进行分析研究,构建了攻防微分博弈模型;针对本发明所提出的攻防微分博弈模型,提出了鞍点策略的求解方法并设计了攻防微分博弈的最优防御策略选取算法,如下:

input:攻防微分博弈模型addg

output:最优防御策略

begin

1.初始化addg=(n,θ,b,t,x,s,f,u);

2.构建防御者类型空间集合θd和攻击者类型空间集合θa;

3.构建攻击行为空间as=(δ1,δ2,…,δg)和防御行为空间ds=(β1,β2,…,βk);

4.分析系统状态演化过程,根据公式(3)构建状态演化微分方程组

5.初始化常量系数r1,r2,r3,cd,ca;

6.构造攻防微分博弈的hamilton函数h(t,kd(t),x,pa(t),pd(t))和h(t,ka(t),x,pa(t),pd(t));

7.针对防御者,根据公式(15-18),对于x∈{n(t),i(t),r(t),m(t)},计算

8.针对攻击者,对于x∈{n(t),i(t),r(t),m(t)},同理计算

9.利用动态规划方法计算方程(21),求解kd(t)、ka(t)和(n*(t),i*(t),r*(t),m*(t));

10.对于防御者,由计算

11.对于攻击者,由计算

12.return

end

在上述建立攻防微分博弈模型中,本发明的目的是通过计算博弈的收益最大值,使博弈过程中的防御收益达到最大,其对应的防御策略即为最优网络安全防御策略。在数据分析过程中,攻防双方的可选策略集是通过参考美国mit的攻防行为数据库中的数据,针对网络攻防过程,其攻防策略集的确定也是准备步骤,攻防策略集的选定,主要用于后期攻防过程的分析与求解。采用微分博弈理论对网络攻防行为进行分析,与传统博弈模型不同;当前基于博弈理论的网络安全研究大多采用静态博弈或多阶段动态博弈模型,其攻防分析大多假设攻防双方只进行一次对抗,即便是采用动态攻防博弈模型,也是将网络攻防处理为离散多阶段过程,而在真实的网络攻防场景中,攻防过程是在连续时间内实时进行的,传统动态博弈分析已不能满足现实要求。为更加准确地描述快速变化、连续对抗的网络攻防实际,从动态、实时对抗的视角研究攻防行为。本发明对连续过程中的网络攻防行为进行分析研究,通过借鉴传染病sir模型,提出状态演化模型nirm分析网络系统安全状态的变化过程。在此基础上,构建攻防微分博弈模型,并提出了鞍点策略的求解方法和最优防御策略选取算法。实现在动态连续攻防过程中的实时最优防御决策,具有更好的时效性和针对性。本发明为连续、实时条件下的攻防对抗研究提供了有效的模型方法,并能够对防御策略的选取提供指导;和现有网络安全防御技术相比,本发明提出的模型和方法能够实现对连续、实时攻防过程的分析和最优策略选取,可以更好地满足现实需求。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的各实例的单元及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已按照功能一般性地描述了各示例的组成及步骤。这些功能是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不认为超出本发明的范围。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如:只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1