本发明涉及神经网络安全,具体地涉及一种神经网络后门检测方法及装置。
背景技术:
1、目前,随着人工智能技术的发展,深度神经网络被大量应用于各个行业和场景中,但由于一些客观因素的限制,神经网络可能存在不被人所感知的后门。比如用户缺少充足的数据集时,可能需要从第三方平台获取数据,但这些数据中可能包含被攻击者恶意篡改过的数据,而这类被篡改的数据会使得网络学习到一些攻击者希望植入网络的恶意信息。再比如当用户不具备强大的算力训练网络时,需要将训练任务交给第三方平台,然后由第三方平台直接交付已训练好的模型,而第三方平台也可能在训练过程中植入后门。
2、深度神经网络中可能存在有恶意的后门,当正常样本输入网络时,网络的输出表现正常,但当某个特定的输入或者特征进入网络时会激活后门,使网络输出攻击者预设目标。因此需要一种方案来帮助用户检测模型是否存在后门,而对于数据敏感的场景,用户可能不愿意将模型的数据交给检测方,对于这种无数据的场景,如何检测神经网络是否存在后门,现有技术还没有相应的解决方案。
技术实现思路
1、本发明实施例提供一种神经网络后门检测方法及装置,可以在无数据的情况下检测神经网络是否存在后门,进而为神经网络的安全提供有效信息。
2、为此,本发明实施例提供如下技术方案:
3、一方面,本发明实施例提供一种神经网络后门检测方法,所述方法包括:
4、生成对应神经网络模型中每个标签的检测样本,所述检测样本中包含所述标签对应的分类特征;
5、将所述检测样本输入所述神经网络模型,得到特征层的激活向量,将相同标签对应的检测样本的激活向量拼接在一起,得到所述标签的特征矩阵;
6、根据所述特征矩阵确定所述标签对应的检测指标;
7、对所述检测指标进行异常值检测,根据检测结果确定所述神经网络模型是否存在后门。
8、可选地,所述生成对应神经网络模型中每个标签的检测样本包括:
9、对于所述神经网络模型中每个标签,设置一组样本作为初始样本;
10、以最小化输入为所述样本时神经网络的输出与所述标签的分类损失为目标,对所述初始样本进行迭代更新,得到更新样本;
11、将所述更新样本作为对应所述标签的检测样本。
12、可选地,所述根据所述特征矩阵确定所述标签对应的检测指标包括:对所述特征矩阵进行统计学分析,得到所述标签对应的检测指标。
13、可选地,所述对所述特征矩阵进行统计学分析,得到所述标签对应的检测指标包括:对所述特征矩阵进行统计学分析,计算第一主成分所占的信息比重,并将所述信息比重作为所述标签对应的检测指标。
14、可选地,所述统计学分析包括以下任意一种:主成分分析、独立成分分析、奇异值分解。
15、可选地,所述对所述检测指标进行异常值检测,根据检测结果确定所述神经网络模型是否存在后门包括:
16、利用设定的异常值检测算法确定检测阈值;
17、计算所述检测指标的异常指数;
18、如果所述检测指标的异常指数大于所述检测阈值,则确定所述检测指标为异常值,所述神经网络模型存在后门。
19、可选地,所述异常值检测算法包括以下任意一种:绝对中位差算法、箱线图。
20、可选地,所述方法还包括:确定所述异常值对应的标签为攻击的目标标签。
21、另一方面,本发明实施例还提供一种神经网络后门检测装置,所述装置包括:
22、样本生成模块,用于生成对应神经网络模型中每个标签的检测样本,所述检测样本中包含所述标签对应的分类特征;
23、特征矩阵生成模块,用于将所述检测样本输入所述神经网络模型,得到特征层的激活向量,将相同标签对应的检测样本的激活向量拼接在一起,得到所述标签的特征矩阵;
24、检测指标确定模块,用于根据所述特征矩阵确定所述标签对应的检测指标;
25、检测模块,用于对所述检测指标进行异常值检测,根据检测结果确定所述神经网络模型是否存在后门。
26、可选地,所述样本生成模块包括:
27、初始样本生成单元,用于对于所述神经网络模型中每个标签,设置一组样本作为初始样本;
28、样本更新单元,用于以最小化输入为所述样本时神经网络的输出与所述标签的分类损失为目标,对所述初始样本进行迭代更新,得到更新样本;
29、检测样本生成单元,用于将所述更新样本作为对应所述标签的检测样本。
30、可选地,所述检测模块包括:
31、阈值确定单元,用于利用设定的异常值检测算法确定检测阈值;
32、异常指数计算单元,用于计算所述检测指标的异常指数;
33、检测单元,用于在所述检测指标的异常指数大于所述检测阈值的情况下,确定所述检测指标为异常值,所述神经网络模型存在后门。
34、可选地,所述检测单元,还用于确定所述异常值对应的标签为攻击的目标标签。
35、另一方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行前面所述方法的步骤。
36、另一方面,本发明实施例还提供一种神经网络后门检测装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行前面所述方法的步骤。
37、本发明实施例提供的神经网络后门检测方法及装置,针对神经网络模型中每个标签,通过逆向生成对应各标签的检测样本,然后将检测样本输入神经网络模型,得到各标签的特征矩阵,对特征矩阵的特征空间进行分析,得到检测指标,对各检测指标进行异常值检测,根据检测结果确定神经网络模型是否存在后门,从而有效地解决了无数据场景下的后门检测问题。而且,本发明方案通用性强,可以对多种不同类型触发的攻击都进行有效检测。
1.一种神经网络后门检测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述生成对应神经网络模型中每个标签的检测样本包括:
3.根据权利要求1所述的方法,其特征在于,所述根据所述特征矩阵确定所述标签对应的检测指标包括:
4.根据权利要求3所述的方法,其特征在于,所述对所述特征矩阵进行统计学分析,得到所述标签对应的检测指标包括:
5.根据权利要求4所述的方法,其特征在于,所述统计学分析包括以下任意一种:主成分分析、独立成分分析、奇异值分解。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述对所述检测指标进行异常值检测,根据检测结果确定所述神经网络模型是否存在后门包括:
7.根据权利要求6所述的方法,其特征在于,所述异常值检测算法包括以下任意一种:绝对中位差算法、箱线图。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
9.一种神经网络后门检测装置,其特征在于,所述装置包括:
10.根据权利要求9所述的装置,其特征在于,所述样本生成模块包括:
11.根据权利要求9或10所述的装置,其特征在于,所述检测模块包括:
12.根据权利要求11所述的装置,其特征在于,
13.一种计算机可读存储介质,所述计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1至8中任一项所述方法的步骤。
14.一种神经网络后门检测装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1至8中任一项所述方法的步骤。