一种针对集成树分类器的逃避攻击方法及装置与流程

文档序号:19157106发布日期:2019-11-16 00:57阅读:139来源:国知局
一种针对集成树分类器的逃避攻击方法及装置与流程
本发明涉及网络安全研究
技术领域
,尤其是涉及一种针对集成树分类器的逃避攻击方法及装置。
背景技术
:随着信息数据的不断增加,机器学习作为一种重要的数据分析工具已成功应用于入侵检测、恶意代码检测、垃圾邮件过滤、恶意网页检测等多个网络安全应用中。机器学习算法,如随机森林,旨在通过训练数据学习预测模型,来区分恶意样本和合法样本。与其他操作环境是静态的应用程序不同,安全相关的任务涉及智能对手,这些对手能够分析基于学习的模型的漏洞,并根据系统输出进行攻击。在这样的对抗环境中,传统的基于学习的分类器在基于安全的应用中易受到逃避攻击。在逃避攻击中,攻击者能够操纵样本以逃避系统检测。例如,在恶意代码检测的应用中,攻击者为了使恶意代码逃避系统的检测,会修改恶意代码中一些典型的恶意语句(即经常在恶意代码中出现的语句而很少在正常代码中出现的语句,恶意代码检测系统通常根据这些语句来检测恶意代码),或者在恶意代码中加入一些正常语句(即频繁出现在正常代码中而很少出现在恶意代码中的语句)。在垃圾邮件过滤中,攻击者可以通过拼写错误或添加正常的单词来伪装他们的电子邮件行为。在对抗性环境下,要防止攻击者从训练数据和目标模型中推理敏感信息,在训练检测分类器时,就必须考虑到系统应对潜在智能攻击的鲁棒性。对抗机器学习与传统机器学习最大的不同在于设计算法时考虑的是一个博弈模型——即不但要通过学习训练集数据、优化目标函数达到算法性能,还需要预测对手在各阶段可能的攻击策略并提出相应的防守措施。面对新一代基于对抗性机器学习的智能攻击,目前针对机器学习模型的安全保护技术还不成熟。因此,研究对抗环境下机器学习方法的行为和缺陷,对网络安全相关的应用十分重要。现有针对基于学习的分类模型的漏洞分析主要采用的是基于梯度的攻击方法,这类方法只对具有可微损失函数的模型有效,无法应用于集成树分类模型。目前可用于攻击集成树模型的方法主要有两种。kantchelian等人提出的基于混合整数线性规划集成树分类器攻击方法只能应用于白盒攻击场景,且算法复杂度高,无法应用于较大的数据集。另外,cheng等人提出的基于问询的黑盒攻击方法,要求特征值必须是连续的实数值,无法应用于网络安全领域中使用较为广泛的二进制特征,并且此方法不是专门针对集成树分类器设计,攻击效果较差。综上,在网络安全研究领域中,对于某些集成树分类器(梯度提升树、随机森林等)的黑盒攻击尚未得到有效研究,无法在此方面为设计鲁棒的分类器提供依据和参考。技术实现要素:本发明所要解决的技术问题在于,提供了一种针对集成树分类器的逃避攻击方法及装置,以对针对集成树分类器的黑盒攻击方法进行深入研究,从而为设计鲁棒的分类器提供依据和参考。为了解决上述技术问题,本发明实施例提供了一种针对集成树分类器的逃避攻击方法,包括步骤:(1)获取原始输入样本、替代数据集和目标分类器的学习模型,其中,所述替代数据集为与目标分类器训练数据具有一致分布特征的数据集;(2)根据所述替代数据集和所述学习模型进行训练,得到替代分类器;(3)判断当前特征修改次数是否达到预设的最大修改次数阈值;若否,则根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,并根据所述最优修改特征对所述原始输入样本的对应特征进行修改,生成试探样本,执行步骤(4);若是,则结束运行;(4)利用所述目标分类器对所述试探样本进行分类得到试探分类结果,判断所述试探分类结果与预存的原始分类结果是否一致;若是,则执行步骤(3);若否,则输出所述试探样本;其中,所述原始分类结果为所述目标分类器对所述原始输入样本进行分类的结果。进一步地,根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,具体为:根据所述替代分类器对输入样本进行分类得到的分类结果类型,确定需要得到的目标分类结果类型;利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合;根据所述预设的逃避攻击策略对所述目标最短路径集合中的每个特征进行权值分配;对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征。进一步地,所述目标最短路径集合包括第一目标最短路径集合和第二目标最短路径集合;所述利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合,具体为:根据所述目标分类结果类型将所述替代分类器分为第一类决策树和第二类决策树;其中,所述第一类决策树的决策值与所述目标分类结果类型不一致,所述第二类决策树的决策值与所述目标分类结果类型相一致;利用最短路径算法,查找所述第一类决策树的第一类目标最短路径,得到第一目标最短路径集合,同时,利用最短路径算法,查找所述第二类决策树的第二类目标最短路径,得到第二目标最短路径集合。进一步地,所述第一目标最短路径集合中的特征被分配的权值为正数,所述第二目标最短路径集合中的特征被分配的权值为负数;所述对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征,具体为:对各个特征的权值进行累加并比较每个特征的累计权值,查找出累计权值最大的特征作为所述最优修改特征。进一步地,所述第一目标最短路径集合中的特征按照公式1/10n-1进行权值分配,其中,n代表该特征相对于所在决策路径的位置次序。为了解决相同的技术问题,本发明还提供了一种针对集成树分类器的逃避攻击装置,包括数据获取模块、替代分类器训练模块、特征修改模块和逃避攻击试探模块;其中,所述数据获取模块,用于获取原始输入样本、替代数据集和目标分类器的学习模型,其中,所述替代数据集为与目标分类器训练数据具有一致分布特征的数据集;所述替代分类器训练模块,用于根据所述替代数据集和所述学习模型进行训练,得到替代分类器;所述特征修改模块,用于判断当前特征修改次数是否达到预设的最大修改次数阈值;若否,则根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,并根据所述最优修改特征对所述原始输入样本的对应特征进行修改,生成试探样本;若是,则结束运行;所述逃避攻击试探模块,用于利用所述目标分类器对所述试探样本进行分类得到试探分类结果,判断所述试探分类结果与预存的原始分类结果是否一致;若是,则重复执行特征修改过程;若否,则输出所述试探样本;其中,所述原始分类结果为所述目标分类器对所述原始输入样本进行分类的结果。进一步地,根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,具体为:根据所述替代分类器对输入样本进行分类得到的分类结果类型,确定需要得到的目标分类结果类型;利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合;根据所述预设的逃避攻击策略对所述目标最短路径集合中的每个特征进行权值分配;对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征。进一步地,所述目标最短路径集合包括第一目标最短路径集合和第二目标最短路径集合;所述利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合,具体为:根据所述目标分类结果类型将所述替代分类器分为第一类决策树和第二类决策树;其中,所述第一类决策树的决策值与所述目标分类结果类型不一致,所述第二类决策树的决策值与所述目标分类结果类型相一致;利用最短路径算法,查找所述第一类决策树的第一类目标最短路径,得到第一目标最短路径集合,同时,利用最短路径算法,查找所述第二类决策树的第二类目标最短路径,得到第二目标最短路径集合。进一步地,所述第一目标最短路径集合中的特征被分配的权值为正数,所述第二目标最短路径集合中的特征被分配的权值为负数;所述对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征,具体为:对各个特征的权值进行累加并比较每个特征的累计权值,查找出累计权值最大的特征作为所述最优修改特征。进一步地,所述第一目标最短路径集合中的特征按照公式1/10n-1进行权值分配,其中,n代表该特征相对于所在决策路径的位置次序。相比于现有技术,本发明具有如下有益效果:本发明针对集成树这类不具有可微损失函数的分类模型,从决策树的决策结构入手,找出每个基分类器的决策路径,并从集成树分类器的决策路径集合中分析其能够误导其决策的关键特征,最后通过修改关键决策特征实现攻击。通过实施本发明,能够对集成树分类器(梯度提升树、随机森林等)的黑盒攻击方法进行深入研究,从而为设计鲁棒的集成树分类器提供依据和参考。附图说明图1是本发明一实施例提供的针对集成树分类器的逃避攻击方法的流程示意图;图2是本发明一实施例提供的集成树分类器结构示意图;图3是本发明一实施例提供的集成分类器中的第一类决策树的结构示意图;图4是本发明一实施例提供的集成分类器中的第二类决策树的结构示意图;图5是本发明一实施例提供的逃避攻击流程及模型示意图;图6是本发明一实施例提供的针对集成树分类器的逃避攻击装置的结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。请参见图1,本发明实施例提供了一种针对集成树分类器的逃避攻击方法,包括步骤:(1)获取原始输入样本、替代数据集和目标分类器的学习模型,其中,所述替代数据集为与目标分类器训练数据具有一致分布特征的数据集;(2)根据所述替代数据集和所述学习模型进行训练,得到替代分类器;(3)判断当前特征修改次数是否达到预设的最大修改次数阈值;若否,则根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,并根据所述最优修改特征对所述原始输入样本的对应特征进行修改,生成试探样本,执行步骤(4);若是,则结束运行;(4)利用所述目标分类器对所述试探样本进行分类得到试探分类结果,判断所述试探分类结果与预存的原始分类结果是否一致;若是,则执行步骤(3);若否,则输出所述试探样本;其中,所述原始分类结果为所述目标分类器对所述原始输入样本进行分类的结果。目前,现有针对基于学习的分类模型的漏洞分析主要采用的是基于梯度的攻击方法,这类方法只对具有可微损失函数的模型有效,无法应用于集成树分类模型。目前可用于攻击集成树模型的方法主要有两种。kantchelian等人提出的基于混合整数线性规划集成树分类器攻击方法只能应用于白盒攻击场景,且算法复杂度高,无法应用于较大的数据集。cheng等人提出的基于问询的黑盒攻击方法,要求特征值必须是连续的实数值,无法应用于网络安全领域中使用较为广泛的二进制特征,并且此方法不是专门针对集成树分类器设计,攻击效果较差。本发明针对集成树这类不具有可微损失函数的分类模型,从决策树的决策结构入手,找出每个基分类器的决策路径,从集成树分类器的决策路径集合中分析其能够误导其决策的关键特征,最后通过修改关键决策特征实现攻击,其中,关键的问题在于如何从决策路径集合中找出关键决策特征。本发明从集成树分类器基于投票的集成策略入手,从集成树分类器中找出能改变(或误导)多数基分类器决策值的关键特征,本方法在每一次循环流程中找出一个关键决策特征,并修改输入样本的相应特征数据,生成攻击样本,如果不能攻击成功,就在此基础上找下一个关键特征,直到攻击成功,或达到最大修改特征数。可以理解的是,在逃避攻击中,攻击者的目的是通过估计目标模型的决策边界,操纵输入样本来误导目标模型的决策。假设对输入样本x,目标模型的输出为c(x),攻击策略是通过最少限度地修改x,找到一个样本x'使c(x')≠c(x)。假设d(x,x')是描述修改量的距离函数。逃避攻击问题可以描述为:a(x)=argminx'd(x,x'),s.t.c(x')≠c(x)(一)其中,x为输入样本,为c(x)为分类模型对x的输出类别,样本x'为攻击样本。函数(一)的含义为通过最少限度地修改x,达到改变输出类别(即攻击)的目的。为了进行逃避攻击,攻击者需要对目标系统有一定的了解。对目标系统的知识可以分为四个层次:1)训练数据d;2)特征空间x;3)学习算法f;4)目标模型参数w。攻击者关于目标系统的知识可以用θ=(d,x,f,w)来表示。我们可以根据攻击者的知识层次分为两类攻击场景:白盒攻击:在这个场景中,假定攻击者知道目标系统的全部知识,即θ=(d,x,f,w),这时攻击者可以用最少的代价实现逃避攻击。在实践中,攻击者不太可能拥有全部的知识。不过,这个场景可以用来评估基于学习的分类器在最坏情况下的安全性。黑盒攻击:该场景假设攻击者对目标系统有一定的了解。这里我们假设攻击者知道学习算法f和特征空间x,但不知道训练数据d和目标模型参数w。然而,攻击者可以通过网络或其它来源收集一个替代数据集d',并用这个数据集估计目标模型参数w'。当然,攻击者也有可能获得原始训练集的子集。在这种情况下,攻击者拥有的知识可以定义为θ'=(d',x,f,w')。如图2所示的集成树分类器f:rn→r是由多颗决策树组成的集合在不失通用性的情况下,假设决策树是一颗二叉树,其中每个具有谓词逻辑的内部节点n∈ti.nodes。如果谓词的结果为true,则输出边指向其左孩子n.leftchild,否则,输出边指向它的右孩子n.rightchild。每个叶子结点l∈ti.leaves拥有一个类别值l.class∈r。对于一个给定的样本x∈rn,决策树ti的决策路径是从根结点到其中一个叶子结点的路径。ti对样本x的分类结果ti.class为分类路径上叶子结点的值l.class。集成树的决策值f(x)是所有决策树多数投票的结果。本发明实施例主要针对基于二进制特征的二叉分类树,作为举例,某个二叉分类树参数如下:r∈{-1,1},xi∈{0,1}。假设分类器对输入样本x的分类结果f(x)=1,我们的攻击目标是找到样本x',使得f(x')=-1,并且能够最小化d(x,x')。当特征值为二进制值时,d(·,·)对应于l0范数或汉明距离,表示特征只能从初始样本x添加(从0到1),或删除(从1到0)。根据多数投票策略,如果我们想使得f(x')=-1,那么集合中超过一半决策树的决策值应为-1。攻击算法的基本思想是修改最少数量的特征,使超过一半的树得到-1的决策值。另外,我们有两个发现,一是对于具有二进制特征的决策树,在从根结点到叶子结点的决策路径中,没有特征会分裂两次;二是对于具有二进制特征的决策树,如果想要改变决策类别,分类路径中的某个特征必须首先被修改。这两个发现对于寻找能够误导集成树分类器决策的关键特征至关重要。在本发明实施例中,进一步地,根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,具体为:根据所述替代分类器对输入样本进行分类得到的分类结果类型,确定需要得到的目标分类结果类型;在本发明实施例中,分类器对输入样本进行分类得到的分类结果类型为f(x)=1,那么,本步骤需要确定的目标分类结果类型为f(x')=-1。利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合;根据所述预设的逃避攻击策略对所述目标最短路径集合中的每个特征进行权值分配;对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征。在本发明实施例中,进一步地,所述目标最短路径集合包括第一目标最短路径集合和第二目标最短路径集合;所述利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合,具体为:根据所述目标分类结果类型将所述替代分类器分为第一类决策树和第二类决策树;其中,所述第一类决策树的决策值与所述目标分类结果类型不一致,所述第二类决策树的决策值与所述目标分类结果类型相一致;利用最短路径算法,查找所述第一类决策树的第一类目标最短路径,得到第一目标最短路径集合,同时,利用最短路径算法,查找所述第二类决策树的第二类目标最短路径,得到第二目标最短路径集合。在本发明实施例中,进一步地,所述第一目标最短路径集合中的特征被分配的权值为正数,所述第二目标最短路径集合中的特征被分配的权值为负数;所述对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征,具体为:对各个特征的权值进行累加并比较每个特征的累计权值,查找出累计权值最大的特征作为所述最优修改特征。在本发明实施例中,进一步地,所述第一目标最短路径集合中的特征按照公式1/10n-1进行权值分配,其中,n代表该特征相对于所在决策路径的位置次序。下面采用一个集成树分类器的例子来解释我们的模型。假设一个集成树分类器由图3和图4所示的决策树t1,t2和t3组成,而x=[x0...x9]=1100101100是一个10维的样本。深色结点显示了三棵树对样本x的分类路径,且t1.class=1,t2.class=1,t3.class=-1。在本实施例中,由于多数决策树的分类结果类型为1,那么可以确定目标分类结果类型为-1,因此,将t1、t2划分为第一类决策树,将t3划分为第二类决策树。从t1的分类路径可以看到,如果我们想使得t1.class=-1,首先必须修改分类路径中的某个特征。在本实施例中,可以修改特征是x2,x4,x7。其次我们需要知道依次修改哪些特征才能使d(x,x')最小化。为了实现这个目标,首先要考虑的是修改尽可能少的特征使尽可能多的当前决策值为1的树(第一类决策树)的决策值变为-1。对一颗当前决策值为1的树,我们需要找到这棵树的分类路径中的每个内部节点到值为-1的叶子结点的最短路径。首先,我们列出从分类路径中的每个内部节点到值为-1的叶子结点的所有路径,并且这些路径中不包含分类路径上其它的内部结点。这些路径是树中节点的路径,我们称之为树的路径。但是,树的路径中的特征并不意味着它们需要修改。然后,根据输入样本x确定哪些特征是需要修改的,得到一个需要修改的特征路径集合。最后,我们列出要将该树决策类别变为-1需要修改特征的最短路径(第一类目标最短路径)。具体流程详见算法1。对于本例子中的决策值为1的树t1和t2,其最短路径的生成过程如式(二)和式(三)所示。算法1.最短路径算法.输入:集成树分类器,x:输入样本.输出:p:最短路径集合.for列出该树分类路径上的所有内部结点ti.innodesfor每一个n∈ti.innodesdoifn.leftchild∈ti.innodesorn.leftchild=1then列出从n经过n.rightchild到值-1的叶子的所有路径elseifn.rightchild∈ti.innodesorn.rightchild=1then列出从n经过n.leftchild到值-1的叶子的所有路径endifendfor用样本x找到需要修改的路径pmipi←列出pmi中的最短路径endforreturn:p本发明实施例中第一类目标最短路径的生成过程如下:在本例子中,特征x2在t2需要修改的路径中作为首个特征出现了两次(p21和p22),且这两条路径均为最短路径。对于当某个特征作为最短路径中的第一个特征出现多次时,我们随机选择其中一个。在式(三)的例子中,可以选择路径p21作为t2的最短路径。因此,的树中使决策值从1变为-1的最短路径集合(第一目标最短路径集合)如式(四)所示。因为集成分类器中有多棵决策树,每棵树都有多条最短路径。我们需要找出每次修改哪个特性是最优的,以便让更多的树得到-1的决策值。我们为最短路径集合p中的每个特征分配权值,并选择权值最大的特征作为每次最优修改特征。权值的分配规则可以是对于一条最短路径中的第n个特征分配权值1/10n-1,需要说明的是实际应用中不仅限于此分配规则。对于式(四)的最短路径集合中的四条路径,按照上述分配规则,前两条路径中的特征x2和x7分别赋权值1(x2和x7在所在路径中的位置次序为1,因此权值为1/101-1=1),第三条路径中的特征x2赋权值1,x1的赋权值0.1,第四条路径中的特征x3赋权值1,x8赋权值为0.1。虽然,通过以上的流程可以在第一目标最短路径集合中找出最优的修改特征,使得集成树中尽可能多的树的决策值从1变为-1。但以上流程只考虑了当前决策值为1的树,而集成树中还可能存在当前决策值为-1的树。选择最优修改特征时应当考虑当前决策值为-1的树是否有可能因为特征的修改而使得决策值变为1。因此,我们将当前决策值为-1的树中可能导致决策值变为1的路径列到集合p'(第二目标最短路径集合)中。对于本实施例中决策值为-1的树t3可能由于特征修改决策值变为1的路径集合如式(五)所示。本发明实施例中第二类目标最短路径的生成过程如下:如式(五)所示,考虑到路径中多于一个特征时改变某个特征不会直接导致决策值的改变,因此,针对决策值从-1变为1的路径集合,我们只考虑修改一个特征便能导致决策值改变的情况,并给这个特征赋权值-1。对式(五)的例子,特征x3赋权值-1。将集合p和p'中所有的相同特征的权值加和后,通过比较得到权值最大的特征为x2,其权值和为2。找到本次最优的修改特征x2之后,需要修改输入样本x的对应特征。由于特征被修改后会导致随机森林中多棵树的分类路径发生改变,因此,需要重新计算集合p和p',并根据新集合中路径的情况选择下一个最优特征,直到逃避检测或达到最大修改限制(“逃避检测”即说明攻击成功,“达到最大修改限制”意味着达到最大修改次数时未攻击成功)。该逃避检测模型的具体流程见算法2。其中用到的符号pijk指的是第i颗决策值为1的树的最短路径集合中的第j条路径的第k个特征;pijk.weight指的是pijk的权值。算法2.攻击方法.输入:集成树分类器,x:输入样本,mmax:最大修改特征数.输出:攻击样本x'.用最短路径算法得到对x的最短路径集合p和集合p'm←0whilefor每个特征pijkdoendfor为p'中长度为1的路径中的唯一特征赋权值-1相同特征的权值加和并找到权值最大的特征xwx'←修改样本的对应特征xwm←m+1iff(x')=-1return:x'else重新计算集合p和集合p'endifendwhile请参见图5,为了更直观说明本发明的主要工作原理,在本发明实施例中,我们假设攻击者知道学习模型f和与训练数据具有一致分布的替代数据集d'。首先,攻击者需要基于自己的知识训练一个替代的集成树模型。其次,采用逃避攻击方法对输入样本x的关键特征进行定位并修改。最后,利用修改后的样本x'攻击目标分类器。需要说明的是,通过实施本发明实施例获得成功进行逃避攻击的攻击样本(对抗样本)后,在决策树的训练过程中,通过将对抗样本加入到训练数据集中,可以显著提高提升决策树的安全性。集成树模型(包括随机森林,梯度提升树等)是一种常用的分类模型,因为它易于使用并能显著提高分类准确率。本发明实施例提出了一种新的针对集成树分类器的逃避攻击方法,来研究其对抗逃避攻击的安全性。与现有技术的其他方法相比,本发明通过最短路径算法找出可以改变集成树分类器决策值的最少特征。本方案中寻找一个修改特征的时间复杂度为而kantchelian的方法完成同样任务的时间复杂度为表1给出了本发明与kantchelian方法和cheng的方法的比较。表1三种方法比较方法算法效率支持二进制特征黑盒攻击本发明高是是kantchelian的方法低是否cheng的方法高否是可以理解的是,在实际应用中,我们同时采用白盒攻击和黑盒攻击两种方式评估集成树分类器对抗逃避攻击的安全性。对于白盒攻击,我们假设攻击者拥有跟目标系统相同的知识。对于黑盒攻击(本发明实施例),我们根据攻击者掌握的训练数据的程度考虑两种攻击场景,第一个攻击场景称为训练子集场景,该场景假设攻击者知道原始训练数据的子集,第二个场景称为替代数据场景,该场景假设攻击者不知道原始的训练数据,但是能够通过网络或其它方式收集到与原始训练数据同分布的替代数据集。在这两个攻击场景中,可以将攻击者掌握的数据划分比例20%、50%、80%、100%,来评估攻击者掌握不同数据量的情况下分类器的安全性。分类器安全性的评价采用攻击难度(hardnessofevasion)和逃避率(evasionrate)两种评价标准。本发明针对集成树这类不具有可微损失函数的分类模型,从决策树的决策结构入手,找出每个基分类器的决策路径,并从集成树分类器的决策路径集合中分析其能够误导其决策的关键特征,最后通过修改关键决策特征实现攻击。通过实施本发明实施例,能够对针对应用广泛的基于二进制特征的集成树分类器(梯度提升树、随机森林等)的黑盒攻击方法进行深入研究,从而为设计鲁棒的分类器提供依据和参考。需要说明的是,对于以上方法或流程实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作并不一定是本发明实施例所必须的。请参见图6,为了解决相同的技术问题,本发明还提供了一种针对集成树分类器的逃避攻击装置,包括数据获取模块1、替代分类器训练模块2、特征修改模块3和逃避攻击试探模块4;其中,所述数据获取模块1,用于获取原始输入样本、替代数据集和目标分类器的学习模型,其中,所述替代数据集为与目标分类器训练数据具有一致分布特征的数据集;所述替代分类器训练模块2,用于根据所述替代数据集和所述学习模型进行训练,得到替代分类器;所述特征修改模块3,用于判断当前特征修改次数是否达到预设的最大修改次数阈值;若否,则根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,并根据所述最优修改特征对所述原始输入样本的对应特征进行修改,生成试探样本;若是,则结束运行;所述逃避攻击试探模块4,用于利用所述目标分类器对所述试探样本进行分类得到试探分类结果,判断所述试探分类结果与预存的原始分类结果是否一致;若是,则重复执行特征修改过程;若否,则输出所述试探样本;其中,所述原始分类结果为所述目标分类器对所述原始输入样本进行分类的结果。进一步地,根据所述替代分类器,利用最短路径算法以及预设的逃避攻击策略寻找最优修改特征,具体为:根据所述替代分类器对输入样本进行分类得到的分类结果类型,确定需要得到的目标分类结果类型;利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合;根据所述预设的逃避攻击策略对所述目标最短路径集合中的每个特征进行权值分配;对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征。进一步地,所述目标最短路径集合包括第一目标最短路径集合和第二目标最短路径集合;所述利用最短路径算法,根据所述目标分类结果类型查找每一决策树的目标最短决策路径,得到目标最短路径集合,具体为:根据所述目标分类结果类型将所述替代分类器分为第一类决策树和第二类决策树;其中,所述第一类决策树的决策值与所述目标分类结果类型不一致,所述第二类决策树的决策值与所述目标分类结果类型相一致;利用最短路径算法,查找所述第一类决策树的第一类目标最短路径,得到第一目标最短路径集合,同时,利用最短路径算法,查找所述第二类决策树的第二类目标最短路径,得到第二目标最短路径集合。进一步地,所述第一目标最短路径集合中的特征被分配的权值为正数,所述第二目标最短路径集合中的特征被分配的权值为负数;所述对各个特征的权值进行累加并比较每个特征的累计权值,得到所述最优修改特征,具体为:对各个特征的权值进行累加并比较每个特征的累计权值,查找出累计权值最大的特征作为所述最优修改特征。进一步地,所述第一目标最短路径集合中的特征按照公式1/10n-1进行权值分配,其中,n代表该特征相对于所在决策路径的位置次序。可以理解的是,上述系统项实施例是与本发明方法项实施例相对应的,本发明提供的一种针对集成树分类器的逃避攻击装置,可以实现本发明任意一项方法项实施例所提供的针对集成树分类器的逃避攻击方法。相比于现有技术,本发明具有如下有益效果:本发明针对集成树这类不具有可微损失函数的分类模型,从决策树的决策结构入手,找出每个基分类器的决策路径,并从集成树分类器的决策路径集合中分析其能够误导其决策的关键特征,最后通过修改关键决策特征实现攻击。通过实施本发明实施例,能够对针对应用广泛的基于二进制特征的集成树分类器(梯度提升树、随机森林等)的黑盒攻击方法进行深入研究,从而为设计鲁棒的分类器提供依据和参考。以上所述是本发明的优选实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1