一种完全信息条件下网络动态变换的决策方法及其系统与流程

文档序号:16925923发布日期:2019-02-22 19:52阅读:158来源:国知局
一种完全信息条件下网络动态变换的决策方法及其系统与流程
本发明属于网络安全
技术领域
,具体涉及一种完全信息条件下网络动态变换的决策方法及其系统。
背景技术
:随着新型网络攻击手段的不断演变,诸如零日漏洞利用(zero-dayexploitation)、高级先进持久威胁(advancedpersistentthreat)等攻击严峻挑战了互联网的安全。研究表明,互连网安全的最大特点就是“易攻难守”。一方面,由于攻击方可长期侦测、收集和利用目标网络系统的资源脆弱性,因此具有时间优势和信息不对称优势;另一方面,由于现有防火墙、入侵检测和病毒查杀等方法是基于先验知识实施防御的,因此存在认知的局限性和滞后性。究其根源,在于现有网络系统中安全漏洞的出现在所难免;结构的确定性和静态性使得攻击者有充足的时间对系统进行探测和攻击;网络架构的同构性则使得攻击者一旦成功实施一次攻击就可以较低的成本扩大攻击范围。因此,在网络攻击趋向组合化、自动化的态势下,现有防御方法难以有效应对愈加复杂的网络入侵,网络攻防地位的不对称性日益加剧。为了改变这种“易攻难守”的局面,移动目标防御(movingtargetdefense:mtd)技术应运而生。它旨在以防御方可控的方法通过改变系统要素的属性,实现被保护网络随机、动态、异构的变化,从而破坏攻击链对运行环境确定、静态、同构的依存要求,进而增加攻击者的攻击难度。虽然现有研究针对不同网络安全威胁提出了多种mtd技术和实现方法,但是不同mtd技术的简单叠加却会极大增加网络系统性能开销,“不惜一切代价”的防御无法适用于防御成本有限的实际条件。因此,如何基于有限网络资源选取最优防御策略,以实现网络性能开销和mtd防御收益的平衡,成为当前研究的热点和重点问题之一。技术实现要素:本发明提供了一种完全信息条件下网络动态变换的决策方法及其系统,根据状态转移概率和攻防博弈双方的收益构建基于马尔科夫博弈的移动目标防御模型,进而求解得到最优的移动目标防御策略,以实现网络性能开销和移动目标防御收益的平衡,解决了如何基于有限网络资源选取最优防御策略的技术问题。为了达到上述技术目的,本发明所采用的技术方案如下:一种完全信息条件下网络动态变换的决策方法,其特征在于,包括以下步骤:根据网络状态、攻击策略和防御策略得到状态转移概率;利用博弈理论描述移动目标防御的过程中攻防博弈双方的收益,结合所述状态转移概率,构建基于马尔科夫博弈的移动目标防御模型;将所述移动目标防御模型的求解等价转化为目标函数,得到最优的移动目标防御策略。进一步,所述网络状态、攻击策略和防御策略分别为:所述网络状态s={s1,s2,...,sk},攻击策略防御策略pd={p1d,p2d,…pld};其中,表示攻击方在网络状态为si时选择的攻击策略,满足表示攻击方在网络状态为si时选择攻击策略的概率,满足表示防御方在网络状态为si时选择的防御策略,满足表示防御方在网络状态为si时选择防御策略的概率,满足进一步,所述根据网络状态、攻击策略和防御策略得到状态转移概率,包括以下步骤:在网络系统为某一网络状态下实施某一攻击策略的概率;该攻击策略实施后防御方选择某一防御策略抵御攻击的概率;以及防御方实施该防御策略后网络状态转移到该网络状态的概率。进一步,所述状态转移概率的表达式为t={p(aj|si),p(dj|aj),p(si|dj)},其中,p(aj|si)表示在网络系统状态为si下实施攻击策略aj的概率;p(dj|aj)表示攻击策略aj实施后防御方选择防御策略dj抵御攻击的概率;p(si|dj)表示防御方实施防御策略dj后网络状态转移到si的概率。进一步,所述攻防博弈双方的收益,包括攻击面和探测面的改变。进一步,所述攻防博弈双方的收益为:所述攻击方的收益ra=ra(s,pia,pid)=δpc+δas-δes;所述防御方的收益rd=rd(s,pia,pid)=δf-δpc+δes-δas;其中,δpc表示网络跳变导致的性能开销,δas表示网络系统攻击面的改变,δes表示网络系统探测面的改变、δf表示网络系统功能的改变。进一步,所述移动目标防御模型为攻防双方的收益值与对应的折扣收益期望值之和。进一步,所述移动目标防御模型的目标准则函数其中,β为折扣率,表示攻防双方在分别采取策略pa和pd时未来的折扣收益值;rs(pa,pd)表示在网络状态为s条件下,攻防双方策略分别为pa和pd时攻击方或防御方的收益。进一步,所述目标函数为约束条件为:pf(pin)≥0,其中,均衡策略pf∈{pf(pin)|n∈n,si∈s,pin∈pn},均衡收益值一种完全信息条件下网络动态变换的决策系统,其特征在于,包括:用于检测在某一网络状态下攻击者所采取的攻击策略和防御者所采取的防御策略的攻防检测模块;用于获得攻击方发动攻击或防御方实施防御所获得的收益的攻防收益模块;用于利用所述攻击策略和防御策略得到系统状态转移概率,并结合所述收益构建马尔科夫博弈的移动目标防御模型的模型构建模块;和用于求解所述移动目标防御模型得到最优的移动目标防御策略的最优策略生成模块。进一步,所述最优策略生成模块中,还包括:用于将求解所述移动目标防御模型的问题转化为非线性规划问题的问题转化模块。进一步,所述攻防收益模块中,还包括:用于获取网络系统探测面的改变和网络系统攻击面的改变的资源脆弱性模块;用于获取网络跳变导致的性能开销的网络跳变模块;和用于获取网络系统功能的改变的系统功能模块。本发明所产生的有益效果如下:1、本发明根据基于马尔科夫博弈的移动目标防御模型获得最优策略的方法,能够准确刻画mtd攻防对抗过程,进而有效分析和选取最优策略。2、本发明利用马尔科夫的决策过程描述了mtd攻防中状态随机转变的特性;利用博弈理论描述了mtd攻防博弈的多阶段特性,从而有效刻画了mtd环境下攻防对抗的非合作性、动态性和马尔科夫性。3、本发明通过将攻防双方对资源脆弱性的利用抽象为攻击面和探测面的改变,保证了模型的通用性。4、本发明分析并给出了均衡策略的求解算法,通过将均衡策略求解等价转化为非线性规划问题,简化了均衡策略的求解过程。5、本发明在攻防收益函数中考虑跳变的性能开销成本,提高了模型的实用性。附图说明图1为本发明mtd跳变要素与攻击面/探测面变化示意图;图2为本发明实施例典型拓扑构建实验网络环境图;图3为本发明实施例的网络系统状态转移关系图;图中:1-mtd跳变策略、2-探测面与攻击面、3-跳变元素、3-1-单元素独立跳变、3-2-多元素协同跳变、4-跳变方法、4-1-攻击面变换、4-2-探测面扩展、4-3-混合方法、5-跳变周期、5-1-固定周期、5-2-变周期、6-选取维度/维度取值、7-改变方式、8-改变时机、9-网络服务器、10-域内服务器、11-linux服务器、12-客户端、13-恶意敌手、14-网络、15-防火墙、16-路由器。具体实施方式下面结合附图和具体的实施例来进一步详细的说明本发明,但本发明的保护范围并不限于此。由于移动目标防御(movingtargetdefense,mtd)跳变策略选取的不同会直接导致网络系统攻击面和探测面的差异,而目标网络攻击面和探测面的改变又可以反映mtd的防御效能,因此能够利用攻击面和探测面描述mtd跳变策略所产生的防御效能。定义1:攻击面(attacksurface,as)是在某一时刻t,防御方为了防止攻击方进入并实现攻击目的所需转移和变换的网络资源集合,它由攻击面维度(attacksurfacedimension:asd)以及维度取值(attacksurfacevalue:asv)共同确定,可记为其中为攻击面的维度,表示目标网络系统中的可用资源,如ftp服务,和网络配置属性,如网络地址和端口配置;为不同攻击面维度在t时刻的取值,“0”表示网络系统在t时刻不包含该维度的攻击面。定义2:探测面(explorationsurface,es)是在某一时刻t,攻击方为了能够进入目标系统并实现攻击目的所需探索的网络资源集合,它由探索面维度(explorationsurfacedimension:esd)以及维度取值(explorationsurfacevalue:esv)共同决定,即为其中,为攻击者所需探测的系统资源维度,即目标网络系统中存在的资源和配置属性;为资源不同维度在t时刻可能的取值范围,“0”表示网络系统在t时刻不包含该维度的探测面。其中,攻击面与探测面中的维度即为跳变元素;维度的取值范围则是跳变元素的跳变空间。此外,攻击面与探测面具有以下两个性质:性质1:不同的网络系统配置可能存在相同维度的攻击面(探测面),但该维度的攻击面(探测面)的取值,即性质2:在一个网络系统中,系统的攻击面(探测面)及其取值(值域)随着时间发生改变。即具体如图1所示,mtd的跳变策略1是不同跳变方法4(how)、跳变元素3(what)和跳变周期5(when)的组合。这与攻击面和探测面的改变一一对应,攻击面与探测面2的改变时机8即为设定的跳变周期5,选取维度/纬度取值6即为选取的跳变元素3,攻击面与探测面2的改变方式7即为选择的跳变方法4。因此,对mtd防御策略1的选取可反映为目标网络攻击面和探测面的形成。(1)跳变方法跳变方法4是指mtd实施防御的方式。通过定义探测面和攻击面可知,探测面是攻击者为了获得可用的资源脆弱性而需探索的网络资源集合,mtd可以通过部署蜜罐、增加系统异构等方式扩展探测面;攻击面则是防御方为了防止资源脆弱性暴露而要转移和变换的网络资源集合,mtd则可以通过改变网络属性和配置等方式转移攻击面。因此,mtd依据跳变方法4则可分为探测面扩展4-2、攻击面转换4-1和混合方法4-3三类。定义3:攻击面转换(attacksurfaceshifting)是在某一时刻t,网络系统s中的网络资源满足以下两个条件之一,则说明s的攻击面发生了转换:(1)即通过改变攻击面的维度转移攻击面;(2)即通过改变攻击面维度的值域变换攻击面。定义4:探测面扩展(explorationsurfaceenlarging)是在某一时刻t,网络系统s中的网络资源满足以下两个条件之一,则说明s的探测面发生了扩展:(1)即通过增加探测面维度扩展探测面;(2)即通过增加探测面维度的值域范围扩展探测面。因此,mtd可通过转换攻击面提高网络系统的随机性,以实现网络系统脆弱性的不可预测性;通过扩展探测面则增加了网络系统的异构性,以扩大网络系统脆弱性的移动范围,从而实现被保护网络系统的随机、动态和异构。(2)跳变元素跳变元素是指mtd防御中改变的网络资源集合,即攻击面和探测面中的维度。跳变元素选取的位置主要在以下五个层面,即数据层、应用软件层、运行环境层、系统平台层、以及通信网络层。依据选取跳变元素的位置和数量可分为多元素协同跳变和单元素独立跳变两类。其中,单元素度量跳变是指在某段跳变周期内,发生改变的元素是唯一的;多元素协同跳变则是指在某段跳变周期内,有不止一种元素发生了改变,且改变的元素之间是相互正交的。(3)跳变周期跳变周期是指mtd发生跳变的频率。由于跳变频率过低会造成由于攻击方有足够时间实施侦测并组织进攻,而导致mtd防御的跳变失去意义;跳变频率过高则会造成由于跳变性能消耗过高而导致的mtd防御可行性降低。因此,如何选取适合的跳变周期将影响mtd实施的效果。依据跳变周期的选择,可分为固定周期跳变和变周期跳变两种。其中,固定跳变周期是指跳变的频率依据预先设定的参数,在实施跳变的过程中不发生改变;变周期跳变则是指跳变的频率会依据跳变环境的变换或预先设定的参数等,在实施跳变的过程中发生随机改变。综上所述,mtd攻防策略的选取就是对跳变元素、跳变方法和跳变周期的确定,它可用攻击面和探测面有效刻画;对mtd攻防策略选取的评判要综合分析选取的跳变元素、方法和周期所产生的性能消耗和带来的防御收益,可等价为mtd对系统攻击面和探测面进行转化所产生的成本和获得的收益。本发明以马尔科夫动态博弈为基础构建了mtd攻防模型mg-mtd,利用马尔科夫决策过程刻画网络系统在mtd攻防过程中的发生的多状态转移;利用多阶段动态博弈描述mtd攻防过程的多阶段特点。本发明实施例提供了一种完全信息条件下网络动态变换的决策方法,包括以下步骤:根据网络状态、攻击策略和防御策略得到状态转移概率;利用博弈理论描述移动目标防御的过程中攻防博弈双方的收益,结合所述状态转移概率,构建基于马尔科夫博弈的移动目标防御模型;将所述移动目标防御模型的求解等价转化为目标函数,得到最优的移动目标防御策略。进一步,基于马尔科夫博弈的移动目标防御模型(mg-mtd)可以表示为六元组(n,s,p,t,r,u)。进一步,所述n,s,p的具体含义如下:(1)n={na,nd}是局中人的集合,假设攻防双方满足理性假设,且只考虑存在攻击和防御两方的情况,即|n|=2。其中,na为攻击方;nd为防御方。(2)s={s1,s2,...,sk}是攻防过程中的网络状态集合。每个网络状态表示某一跳变周期内的网络安全状态;网络系统状态间的随机转化是由一个跳变周期内攻防双方对抗行为导致的,它反映在攻击面和探测面的转换。(3)p={pa,pd}是mg-mtd中攻防双方的策略集合,它由mtd防御选取的跳变元素、设定的跳变周期、和使用的跳变方法共同组成。攻击方可选的策略集合表示为其中,表示攻击方在网络状态为si时选择的攻击策略,满足表示攻击方在网络状态为si时选择攻击策略(0≤j≤m)的概率,满足防御方可选的策略集合表示为pd={p1d,p2d,…pld},其中,表示防御方在网络状态为si时选择的防御策略,满足表示防御方在网络状态为si时选择防御策略(0≤j≤l)的概率,满足进一步,所述根据网络状态、攻击策略和防御策略得到状态转移概率,包括以下步骤:在网络系统为某一网络状态下实施某一攻击策略的概率;该攻击策略实施后防御方选择某一防御策略抵御攻击的概率;以及防御方实施该防御策略后网络状态转移到该网络状态的概率。进一步,状态转移概率的表达式为t={p(aj|si),p(dj|aj),p(si|dj)},其中:p(aj|si)表示在网络系统状态为si下实施攻击策略aj的概率;p(dj|aj)表示攻击策略aj实施后防御方选择防御策略dj抵御攻击的概率;p(si|dj)表示防御方实施防御策略dj后网络状态转移到si的概率。所述攻击策略aj是可选攻击策略集合中的某一具体的攻击策略防御策略dj是可选防御策略集合pd={p1d,p2d,…pld}中的某一具体的防御策略因此,t可以表示为状态转移出现在不同攻防阶段的交替过程中,攻防阶段的交替则是依据跳变周期进行划分的;状态转移的概率取决于攻防双方的策略和网络环境,如网络配置、节点的操作系统环境等。进一步,所述攻防博弈双方的收益,包括攻击面和探测面的改变。进一步,r={ra,rd}表示攻防博弈双方的收益函数集合,它由所有参与者的策略共同决定。由于攻防双方的收益函数都要综合考虑发动攻击或实施防御所产生的成本和获得的收益,依据定义1和定义2,攻防双方的收益可抽象为攻击方和防御方改变攻击面和探测面所产生的性能消耗和带来的影响效果,具体如公式(1)和(2)所示:rd=rd(s,pia,pid)=δf-δpc+δes-δas(1)ra=ra(s,pia,pid)=δpc+δas-δes(2)其中,δf表示网络系统功能(feature)的改变;δpc表示网络跳变导致的性能开销(performancecost);δes表示网络系统探测面的改变;δas表示网络系统攻击面的改变。对于攻击方,它通过探索网络探测面,从而发现并利用资源脆弱性,进而导致网络性能开销增大或系统功能不可用。对于防御方,它通过选取跳变策略从而增加探测面或转换攻击面,进而在保证网络功能正常安全运行的前提下提高系统的安全性。因此,本发明利用一般和博弈描述攻防双方的收益。进一步,所述移动目标防御模型为攻防双方的收益值与对应的折扣收益期望值之和。进一步,u为目标准则函数,用于判断网络攻防双方策略选取的优劣。常用的准则函数主要有折扣期望回报准则函数和平均回报准则函数。在移动目标防御对抗过程中,由于网络系统信息的价值与时间相关,因此采用折扣期望回报准则函数作为博弈双方的目标函数,具体形式如公式(3)所示:其中,β为折扣率,说明了未来的收益与现在的收益不能同等对待;表示攻防双方在分别采取策略pa和pd时未来的折扣收益值。在mg-mtd模型构建的基础上,给出了模型的均衡策略具体选取算法。进一步,由于mg-mtd是模型的求解是pspace问题,直接利用shapley算法求解均衡策略较为复杂。因此,本发明将求解mg-mtd的均衡解问题等价转化为一个非线性规划求解最优值的问题。对于给定的mg-mtd模型,若确定性稳定马氏策略pf*为其均衡策略;相应的稳定收益u*为其均衡收益值,可将对博弈均衡策略和收益的求解等价转化为pf*和u*的非线性规划问题(nonlinearprogrammingsecond,nlp2),其中pf∈{pf(pin)|n∈n,si∈s,pin∈pn},目标函数:约束条件:(1)(2)(3)进一步,本发明还提供了一种完全信息条件下网络动态变换的决策系统,包括:用于检测在某一网络状态下攻击者所采取的攻击策略和防御者所采取的防御策略的攻防检测模块;用于获得攻击方发动攻击或防御方实施防御所获得的收益的攻防收益模块;用于利用所述攻击策略和防御策略得到系统状态转移概率,并结合所述收益构建马尔科夫博弈的移动目标防御模型的模型构建模块;和用于求解所述移动目标防御模型得到最优的移动目标防御策略的最优策略生成模块。进一步,所述最优策略生成模块中,还包括:用于将求解所述移动目标防御模型的问题转化为非线性规划问题的问题转化模块。进一步,所述攻防收益模块中,还包括:用于获取网络系统探测面的改变和网络系统攻击面的改变的资源脆弱性模块;用于获取网络跳变导致的性能开销的网络跳变模块;和用于获取网络系统功能的改变的系统功能模块。在此基础上,针对网络防御方设计了基于mg-mtd模型的最优防御策略选取算法,具体如下:1)初始化mg-mtd中基本参数:网络状态s={s1,s2,...,sk}、折扣率参数β2)构建攻防双方可选策略空间集合:攻击策略集合和防御策略集合pd={p1d,p2d,…pid};3)获取系统状态转移概率t={p(aj|si),p(dj|aj),p(si|dj)};4)针对攻防双方所选攻防策略对获得收益值ra和rd;5)构建目标函数6)令依据约束条件pf(pin)≥0求解最优值;7)得到均衡解中的移动目标防御策略。该算法的时间复杂度主要集中于第5步,即求解最优策略,为o(k2(m+l)2);空间消耗主要集中于收益值和均衡求解中间结果的存储之上,为o(k2ml)。在企业级sdn云平台架构中,如果所有端节点同时需要选取防御策略,算法的响应时间为2.81s量级;存储空间消耗为19.01mb量级本文通过应用实例验证构建的mg-mtd模型和最优策略选取算法的有效性:利用如图2所示的典型拓扑构建实验网络环境,该网络环境包括网络14,网络服务器9通过防火墙15与所述网络14相连接,内网依次通过路由器16和防火墙15与网络14相连接,所述恶意敌手13与网络14相连接,所述内网中有四台主机:网络服务器9,域内服务器10,客户端12和linux数据库11,它们的基本配置信息如表1所示:表1主机节点配置节点名称系统信息h1:网络服务器windowsnt4.0h2:域内服务器windows2000sp1h3:客户端windowsxpprosp2h4:linux数据库redhat7.0如表2所示,通过配置访问控制策略限制网络节点间的连通关系:表2防火墙策略如表3所示,利用nessus扫描器获得了网络系统中各节点的资源脆弱:表3节点资源脆弱性编号网段节点资源端口脆弱性admzh1iis网络服务80iisbufferoverflowbdmzh1ftp21ftprhostoverwritecintraneth2ssh22sshbufferoverflowdintraneth2rsh514rshlogineintraneth3netbois-ssn139netbios-ssnnullsessionfintraneth4licq5190licqremote-to-usergintraneth4squid代理80squidportscanhintraneth4mysqldb3306local-setuid-bof构建mg-mtd模型,并利用设计的算法求解最优策略:1)初始化参数实验网络系统的状态集合为s={s1,s2,...,s9}。分别为s1:初始状态;s2:利用h1的脆弱性获得了服务器user权限;s3:利用h1的脆弱性获得了服务器root权限;s4:利用h2的脆弱性获得了域内服务器access权限;s5:利用h2的脆弱性获得了域内服务器user权限;s6:利用h3的脆弱性获得了的客户端root权限;s7:利用h4的脆弱性获得了的linux数据库的access权限;s8:利用h4的脆弱性获得了linux数据库的root权限;s9:利用h4的脆弱性窃取linux数据库中敏感数据并进行毁瘫。mg-mtd中的折扣率为β=0.7[25]。2)构建策略空间,获得系统状态转移概率和攻防策略收益各状态下网络攻防策略如表4所示。其中,asd={asd1,asd2,asd3,asd4,asd5}表示选择的跳变方法是转换攻击面,asd1={ip,c类}表示所选攻击面维度是ip地址,维度取值范围为c类地址空间;asd2={port,645表示所选攻击面维度是端口信息,维度取值范围为64512;asd3={protocol,5}表示所选攻击面维度是协议类型,维度取值范围为5种;asd4={fingerprint,128}表示所选攻击面维度是系统指纹信息,维度取值范围为128;asd5={datastorage,212}表示所选攻击面维度是数据存储位置信息,维度取值范围为212。esd={esd1,esd2}表示选择的跳变方法是扩展探测面,esd1={fingerprint,256}表示所选探测面维度是系统指纹信息,维度取值范围为256;esd2={datastorage,216}表示所选探测面维度是数据存储位置信息,维度取值范围为216。此外,默认跳变触发方式为自主式跳变,其跳变周期是固定的;asdi+时间和esdi+时间则表示跳变触发方式为反馈式,且跳变周期是可变的。不同状态下网络攻防策略的收益如表4所示:表4网络攻防策略与此同时,在构建网络分层资源图的基础上给出了网络系统状态转移关系,具体如图3所示,其中圆点表示攻击方,三角形表示防御方。网络状态转移概率和攻防策略收益具体如表5和表6所示:表5网络系统状态转移概率——表5续表6网络攻防策略收益3)计算并选取mg-mtd模型的最优策略利用最优策略选取算法对以上非线性规划问题进行求解,得到的攻防双方均衡策略和收益如表7所示。表7网络攻击策略收益[100]网络系统状态[101]攻击策略[102]防御策略[103]攻击收益[104]防御收益[105]s1[106][0.59,0.3,0.11][107][0.06,0.42,0.52][108]107.24[109]-203.72[110]s2[111][0.38,0.3,0.32][112][0.05,0.86,0.09][113]101.19[114]-237.27[115]s3[116][0.6,0.4,0][117][0,0.22,0.78][118]79.46[119]-143.06[120]s4[121][0.99,0.01,0][122][0,0.3,0.7][123]95.62[124]-179.33[125]s5[126][0.5,0.5,0][127][0.71,0.21,0.08][128]84.23[129]-153.15[130]s6[131][0.91,0.06,0.03][132][0.87,0.11,0.02][133]88.03[134]-112.89[135]s7[136][1,0,0][137][0.09,0.46,0.45][138]186.78[139]-87.98[140]s8[141][0.3,0.69,0.01][142][0.27,0.45,0.38][143]216.35[144]-91.90[145]s9[146][0.96,0.02,0.02][147][0.68,0.29,0.03][148]116.64[149]-102.86要说明的是,上述实施例是对本发明技术方案的说明而非限制,所属
技术领域
普通技术人员的等同替换或者根据现有技术而做的其它修改,只要没超出本发明技术方案的思路和范围,均应包含在本发明所要求的权利范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1