一种对抗蒸馏神经网络模型的方法及计算设备与流程

文档序号：14303726阅读：217来源：国知局

本发明涉及图像处理技术领域，尤其是一种对抗蒸馏神经网络模型的方法及计算设备。

背景技术：

深度神经网络在现如今的分类回归问题上总是能取得非常准确的结果，在海量数据支撑下，训练出来的深度神经网络模型也具有很强的泛化能力，故，近年来深度神经网络在计算机视觉、语音识别等方面得到广泛地应用。然而这些深度神经网络模型在实际应用中也会存在一些缺陷和漏洞。例如，在不清楚网络模型结构和参数的情况下，对网络的输入做特殊的微小扰动，这些从人的主观上并不会对判断造成任何影响，然而却能使网络模型输出置信度很高的错误结果，这些被“微小扰动”过的输入被称为“对抗样本”。上述问题直接影响到了神经网络模型的泛化能力和安全性。

常见的用于提高神经网络模型的泛化能力和安全性的方案是：在神经网络模型的训练数据中加入对抗样本，以此降低网络模型对这些对抗样本识别的错误率，同时进一步提高模型的泛化能力。然而，对抗样本构建的多样性等导致了这种处理方式没有达到预期的效果。

因此，需要一种能够提供神经网络模型泛化能力和安全性的方案。

技术实现要素：

为此，本发明提供了一种对抗蒸馏神经网络模型的方法及计算设备，以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种对抗蒸馏神经网络模型的方法，其中神经网络模型包括具有特征层结构的前向网络和输出多分类下概率向量的softmax层，该方法适于在计算设备中执行，包括步骤：根据蒸馏温度在原始的神经网络模型的前向网络和softmax层之间加入缩放层，生成第一神经网络模型；利用训练样本自身的第一标签训练第一神经网络模型，得到第二神经网络模型；将训练样本输入第二神经网络模型，经softmax层输出表征训练样本在多分类下概率向量的第二标签；利用第二标签和第一标签同时约束训练第二神经网络模型，得到第三神经网络模型；以及删除第三神经网络模型中的缩放层，以得到对抗蒸馏后的神经网络模型。

可选地，在根据本发明的方法中，缩放层适于按照蒸馏温度对softmax层的输入做缩小处理。

可选地，在根据本发明的方法中，利用训练样本自身的第一标签训练第一神经网络模型得到第二神经网络模型的步骤包括：利用第一标签通过第一损失函数监督第一神经网络模型的训练，得到第二神经网络模型。

可选地，在根据本发明的方法中，利用第二标签和第一标签同时约束训练第二神经网络模型得到第三神经网络模型的步骤包括：利用第一标签通过第一损失函数对第二神经网络模型进行分类监督训练；利用第二标签通过第二损失函数对第二神经网络模型进行回归监督训练；以及结合第一损失函数和第二损失函数训练得到第三神经网络模型。

可选地，在根据本发明的方法中，结合第一损失函数和第二损失函数训练得到第三神经网络模型的步骤包括：对第一损失函数和第二损失函数做加权处理得到训练第三神经网络模型的最终损失函数；以及利用该最终损失函数训练第三神经网络模型。

可选地，在根据本发明的方法中，第一损失函数为：

loss1＝-logf(zk)

其中，

式中，loss1为第一损失函数值，n为训练时的批尺寸，zk为前向网络中全连接层的第k个神经元的输出。

可选地，在根据本发明的方法中，第二损失函数为：

式中，loss2为第二损失函数值，m为经softmax层输出的分类的类别总数，x1i为当前网络第i个类别输出的概率向量，x2i为对应第二标签所表征的第i个类别的概率向量。

可选地，在根据本发明的方法中，训练第三神经网络模型的最终损失函数定义为：loss＝w1×loss1+w2×loss2，

式中，loss为最终损失函数值，w1和w2分别表示第一损失函数值和第二损失函数值的权重因子。

根据本发明的另一方面，提供了一种计算设备，包括：一个或多个处理器；和存储器；一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行如上所述方法中的任一方法的指令。

根据本发明的再一方面，提供了一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当计算设备执行时，使得计算设备执行如上所述的方法中的任一方法。

根据本发明的对抗蒸馏神经网络模型的方法，通过在原始的神经网络模型中添加缩放层，对神经网络模型本身做蒸馏，而不改动神经网络模型中的特征层结构，有效地降低了神经网络模型在应对对抗样本时候的错误率；并且，用训练样本的第二标签和本身的第一标签同时监督神经网络模型的训练，提升了神经网络模型的泛化能力。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明一个实施例的计算设备100的构造示意图；以及

图2示出了根据本发明一个实施例的对抗蒸馏神经网络模型的方法200的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是示例计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理器，包括但不限于：微处理器(μp)、微控制器(μc)、数字信息处理器(dsp)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(alu)、浮点数单元(fpu)、数字信号处理核心(dsp核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如ram)、非易失性存储器(诸如rom、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中，应用122可以布置为在操作系统上利用程序数据124进行操作。在一些实施例中，计算设备100被配置为执行对抗蒸馏神经网络模型的方法，程序数据124中就包含了用于执行所述方法的指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个a/v端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个i/o端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、图像输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(rf)、微波、红外(ir)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。在一些实施例中，计算机可读介质中存储一个或多个程序，这一个或多个程序中包括执行某些方法的指令，如根据本发明的实施例，计算设备100通过所述指令来执行对抗蒸馏神经网络模型的方法。

计算设备100可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、数码照相机、个人数字助理(pda)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。

以下将结合图2，详细阐述根据本发明一个实施例的对抗蒸馏神经网络模型的方法200的实现流程。

根据本发明实施例的神经网络模型的一般结构可以分为两部分，即，具有特征层结构的前向网络和输出多分类下概率向量的softmax层。其中，前向网络一般具有至少一个卷积层、池化层和全连接层，输入数据例如经多次卷积和池化操作后、再经全连接层联通合并后输出。softmax层可以理解为对前向网络的输出作归一化处理的结果，假设神经网络模型用来对图片进行分类，目前图片分类有一百种，那经过softmax层的输出就是一个一百维的向量，向量中的第一个值就是当前图片属于第一分类的概率值，向量中的第二个值就是当前图片属于第二分类的概率值……并且，这一百维的向量值之和为1。

需要说明的是，方法200一般的应用场景为利用神经网络模型进行分类处理，其对神经网络模型的具体结构并不做限制。在实际应用中，神经网络模型的前向网络可以选用alexnet、vggnet、googleinceptionnet、resnet等已有的或重新定义的网络结构中的任意一个，本发明的实施例对此不作限制。

方法200始于步骤s210，设蒸馏温度为t，根据蒸馏温度在原始的神经网络模型的前向网络和softmax层之间加入缩放层，生成第一神经网络模型。根据本发明的一个实施例，缩放层按照蒸馏温度t对softmax层的输入(即，前向网络的输出)做缩小处理。也就是说，在原始神经网络模型的前向网络和softmax层之间增加一个缩放层，缩放层将前向网络的输出(也就是，前向网络中最后一个全连接层的输出)做1/t的缩小，再将缩小后的数据输入到softmax层。本发明的实施例对蒸馏温度t的取值并不做限制，在实际应用中，根据前向网络的大小和实际情况选取t的值。

随后在步骤s220中，利用训练样本自身的第一标签训练第一神经网络模型，得到第二神经网络模型。根据本发明的一个实施例，将训练样本输入第一神经网络模型，通过第一损失函数在第一标签标注的训练样本上监督第一神经网络模型的训练，并将训练好网络内各参数的神经网络模型作为第二神经网络模型，其中，第一标签是训练样本本身的标签，称之为hardlabel。

随后在步骤s230中，将步骤s220中的训练样本输入经步骤s220训练出的第二神经网络模型中，经softmax层输出表征训练样本在多分类下概率向量的第二标签，称之为softtarget，第二标签即第二神经网络模型对训练样本的预测概率向量。

随后在步骤s240中，利用第二标签和第一标签同时约束训练第二神经网络模型(即，蒸馏后的神经网络模型)，得到第三神经网络模型。根据本发明的一个实施例，训练第二神经网络模型时，用上述训练样本的第一标签(hardlabel)和第二标签(softtarget)同时训练该网络模型，并且分配两组损失函数。具体步骤描述如下：

一方面，针对第一标签(hardlabel)，通过第一损失函数对第二神经网络模型进行分类监督训练。此处训练过程可以同步骤s220，利用训练样本自身的第一标签训练第二神经网络模型。可选地，第一损失函数例如是caffe中的softmaxwithloss，caffe的全称是convolutionalarchitectureforfastfeatureembedding，它提供了开源的工具包，用来训练、测试、微调和部署深度学习模型。在根据本发明的一个实施例中，选取caffe中的softmaxwithloss进行分类监督学习。

另一方面，针对第二标签(softtarget)，通过第二损失函数对第二神经网络模型进行回归监督训练。第二损失函数例如是caffe中的euclideanloss，用来学习拟合softtarget的输出向量。应当注意的是，此处训练第二神经网络时，因为缩放层的存在，前向网络的输出都进行了1/t的缩小。

最后，结合第一损失函数和第二损失函数训练得到第三神经网络模型。根据本发明的一个实施例，为第一损失函数和第二损失函数分别设置不同的权重，对第一损失函数和第二损失函数做加权处理得到训练第三神经网络模型的最终损失函数，利用该最终损失函数训练第三神经网络模型。

随后在步骤s250中，删除第三神经网络模型中的缩放层，以得到对抗蒸馏后的神经网络模型。也就是说，将经步骤s240训练得到的第三神经网络模型中的缩放层的蒸馏温度t置为1(即，取消缩放处理)，得到对抗蒸馏后的神经网络模型。

根据本发明的实施方案，通过在原始的神经网络模型中添加缩放层，对神经网络模型本身做蒸馏，而不改动神经网络模型中的特征层结构，有效地降低了神经网络模型在应对对抗样本时候的错误率；并且，用蒸馏后的概率向量(即第二标签)和本身的第一标签同时监督神经网络模型的训练，提升了神经网络模型的泛化能力。

为进一步说明上述方法200，下面以人脸五官分类中的下巴分类为例，介绍方法200的具体执行过程。

第一步，选取传统的vgg-face网络作为前向网络，取蒸馏温度为t＝20。在前向网络和softmax层之间加入缩放层，对前向网络的输出(即，前向网络中最后一个全连接层的输出)进行1/20的缩小、再输入到softmax层中，将加入缩放层的神经网络模型作为第一神经网络模型。

vggnet是牛津大学计算机视觉研究组(visualgeometrygroup)和googledeepmind公司的研究员一起研发的深度卷积神经网络，常被用来抽取图像特征，vgg-face是vgg小组中其中一个用来做人脸识别的网络。其利用卷积神经网络的深度与其性能之间的关系，通过反复的堆叠3×3的小型卷积核和2×2的最大池化层，构建了16～19层深度的卷积神经网络，整个网络结构简洁，都使用同样大小的卷积核尺寸(3×3)和最大池化尺寸(2×2)。关于vggnet的更多细节可以参阅论文：verydeepconvolutionalnetworksforlarge-scaleimagerecognition，此处对其网络结构不作过多阐述。

第二步，使用第一损失函数在第一标签标注的训练样本(即训练图像)上进行训练，将训练好的神经网络模型作为第二神经网络模型。第一标签即训练图像本身的标签。其中，第一损失函数(softmaxloss)定义为：

loss1＝-logf(zk)

其中，

上式中，loss1为第一损失函数值，n为训练时的批尺寸(即batch_size)，通俗来讲，n可以理解为第一神经网络模型在一次正向传播处理时的输入样本数量，zk为前向网络中全连接层的第k个神经元的输出。

第三步，将原来的训练图像输入到第二神经网络模型，得到每一个训练图像在第二神经网络模型(即，蒸馏过的模型)中输出的概率向量，作为第二标签。例如，某个训练图像的第二标签为[0.93,0.02,0.05]，三个概率值分别对应该图像中的下巴是方下巴、尖下巴、圆下巴的概率。

第四步，使用第一标签和第二标签同时监督第二神经网络模型的训练，将训练好的神经网络模型作为第三神经网络模型。

如前所述，根据本发明的一个实施例，对于第一标签，仍然采用第二步中的第一损失函数(softmaxloss)对第二神经网络模型进行分类监督；对于第二标签，第二损失函数选择欧几里得损失函数(euclideanloss)对第二神经网络模型进行回归监督。其中，第二损失函数(即，euclideanloss)定义为：

上式中，loss2为第二损失函数值，m为经softmax层输出的分类的类别总数(即，特征的维度)，x1i为当前网络第i个类别输出的概率向量，x2i为对应第二标签所表征的第i个类别的概率向量。

而后，对上述两个损失函数赋予不同的权重，则训练第三神经网络模型的最终损失函数最终定义为：

loss＝w1×loss1+w2×loss2

式中，loss为最终损失函数值，w1和w2分别表示第一损失函数值和第二损失函数值的权重因子。w1和w2的取值视训练情况而定，本发明的实施例对此不作限制。

第五步，删除训练好的第三神经网络模型中的缩放层，即将蒸馏温度t置为1，所得的神经网络模型即可作为对抗蒸馏后的神经网络模型。

根据本发明的对抗蒸馏神经网络模型的方法，以蒸馏神经网络模型自身的方式，有效降低了神经网络模型在应对对抗样本时的错误率，同时，在分类问题中得到的分类平面更加合理、分类结果更准确。并且，根据本发明的方案不需要构造对抗样本，很好地改善了神经网络模型的安全性。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、cd-rom、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明所述的方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈良;洪炜冬;张伟;许清泉;王喆
技术所有人：厦门美图之家科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。