本发明涉及的是一种人工智能对抗领域的技术,具体是一种基于样本到决策边界距离的对抗样本检测方法。
背景技术:
人工智能近年来飞速发展,也被应用在越来越多的领域。但是,研究发现人工智能分类器存在比较严重的安全漏洞,恶意攻击者可以通过对正常的识别样本进行微小扰动,使其成为对抗样本,对抗样本可以使分类器识别出错,使用对抗性训练能在一定程度上抵抗对抗样本攻击,但是效果总是不能令人满意,于是,很多研究者希望通过对抗样本的一些固有特性来检测出对抗样本,从而抵抗对抗性攻击。
技术实现要素:
本发明针对对抗样本攻击,提出一种基于样本到决策边界距离的对抗样本检测方法,以样本到决策边界的距离作为样本的特征,以是否为对抗样本作为分类标签,训练一个分类器,将此分类器作为对抗样本检测器。本发明针对人工智能对抗攻击,能够广泛应用于基于分类器的机器学习模型,如语音识别、图像分类等多个领域,提高对抗样本检测率。用于人工智能api,可以对输入样本进行过滤,对人工智能的安全性有明显提升。
本发明是通过以下技术方案实现的:
本发明根据普通样本生成对抗样本,并要对所有样本进行特征提取,即计算每个样本到决策边界的距离估计值,然后把距离估计值作为样本的特征对一个分类器进行训练,训练后的分类器即为检测器,用于检测对抗样本。
所述的对抗样本,通过多种对抗样本生成方式生成后等比例混合得到,其生成方法包括迭代的快速梯度下降算法(iter-fgsm)、基于优化的对抗样本距离计算方法(c&w)、迷惑深度学习方法(deepfool)、基于雅各比矩阵的贪婪匹配算法(jsma)。
所述的特征提取,优选先对所有样本进行无效样本剔除,其中无效样本包括正常样本中被分类错误的样本,以及无法愚弄分类器(即未跨过决策边界)的对抗样本。
所述的分类器通过神经网络实现,具体包括:全连接层和dropout层。
所述的距离估计值,通过距离上界distu和距离下界distl限制其范围,通过对距离上下界的估计从而把样本到决策边界的距离缩小到一个比较精确的范围,即[distl,distu]。
所述的距离上界,使用基于攻击的距离计算方法得到;所述的距离下界,使用交叉李普希茨极值方法。
所述的基于攻击的距离计算方法具体为:对样本使用迭代的快速梯度下降法(iter-fgsm)计算对抗样本,然后用生成对抗样本所需的扰动作为距离上界的估计,具体为:
本发明中扰动常数ε优选为1。
所述的交叉李普希茨极值方法具体为:
本发明中半径优选为5,采样点数优选为500。
技术效果
本发明以样本到决策边界的距离为特征,来鉴别对抗样本,效果明显,区分度较高。在距离上界的计算中,以iter-fgsm作为攻击方式,可以找到样本到决策边界的最短路径,测量较准确。在距离下界的计算中,采用交叉李普希茨极值方法,并使用了局部lipschitz常数,而不是全局lipschitz常数,通过采样足够多的点,可以使得lipschitz常数测量结果足够准确。最后训练出的检测器达到了较好的检测效果,检测准确率高于现有的局部本征维度法(lid)。
附图说明
图1为实施例流程示意图;
图2为检测器的神经网络结构图;
图3为实施例检测效果对比示意图。
具体实施方式
如图1所示,本实施例采用belgiumts数据集,通过本实施例方法保护路标识别api,使其免受对抗样本攻击。
本实施例具体包括:
步骤一、对抗样本生成:将api的训练样本集作为正常样本,用一部分正常样本分别通过iter-fgsm,c&w,deepfool,jsma四种攻击方式生成对抗样本(等比例混合)。
步骤二、无效样本剔除:对正常样本和对抗样本分别剔除无效样本:无效样本包括:①本身为正常样本,但被api识别错误,这些样本距决策边界较近,故剔除;②本身为对抗样本,但被api识别正确,这类对抗样本攻击失败,无法威胁api。
步骤三、距离上下界计算:首先计算距离上下界:距离上界的计算:取样本x0用iter-fgsm生成对抗样本,然后将对抗样本生成过程中的k次迭代的扰动向量叠加,得到距离上界,距离下界则通过以下步骤得到:
3.1)取样本x0,设其正确分类为c,对除c以外的每一个分类j,求出
3.2)求出||▽g(x)||q,即为
步骤四、检测器的训练:检测器的网络结构如图2所示,具体包括:三个全连接层,中间夹两层dropout层;训练过程中,每个训练批次的大小是64。
如图3所示,训练后,与现有的其他对抗样本检测方法进行效果对比:局部本征维数方法(lid):93.5%
核密度法(kerneldensity):90.7%
k-平均距离(k-meandistance):86.0%
基于样本到决策边界距离的对抗样本检测方法:95.2%
在其他数据集上进行相同的实验,对比实验效果:mnist:
局部本征维数方法(lid):96.8%
核密度法(kerneldensity):95.7%
k-平均距离(k-meandistance):93.0%
基于样本到决策边界距离的对抗样本检测方法:98.4%
cifar
局部本征维数方法(lid):91.1%
核密度法(kerneldensity):83.5%
k-平均距离(k-meandistance):80.7%
基于样本到决策边界距离的对抗样本检测方法:94.3%
可以看到,在这几个样本集上,本发明的测试效果都高于现有的几种检测方法,检测效果的柱状图如图3所示。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。