一种基于反事实对比的深度神经网络模型可视化解释方法及系统

文档序号:36099860发布日期:2023-11-21 10:29阅读:59来源:国知局
一种基于反事实对比的深度神经网络模型可视化解释方法及系统

本发明涉及可信人工智能(ai)领域,具体涉及一种基于反事实对比的深度神经网络模型可视化解释方法及系统。


背景技术:

1、深度视觉模型被广泛的应用于人机交互、自动驾驶、安全监控等各个领域,具有广阔的应用场景。但利用深度视觉模型进行重大决策时,往往需要知晓算法所给出结果的依据,否则贸然部署会带来严重后果。最近的研究发现,针对图像分类任务的深度神经网络模型可以轻易地被恶意构造的对抗样本诱导出错,例如攻击者通过佩戴对抗性眼镜绕过人脸识别系统。深度神经网络模型的可解释性是指对模型的决策行为做出清晰地解释,从而使人们了解模型背后的决策依据从而判断决策是否合理。深度神经网络模型由于其黑盒特性和内部高度的复杂性, 导致模型缺乏可解释性造成潜在的安全风险无法感知与防御,对模型的安全应用带来了极大地挑战。因此,全面地分析模型内部复杂的决策机理,并结合对抗性噪声来探索模型的内在脆弱性,是提高模型透明性和可靠性的重要前提。

2、然而,深度神经网络模型结构复杂,内部信息抽象,现有的模型可视化可解释技术存在解释只能分析简单因果问题,即“为什么模型认为输入样本的类别是 p?”而无法解决更复杂的因果问题“为什么模型认为输入的类别是 p,而不是类别 q?”。同时,现有的可视化解释方法无法解释模型对恶意样本输出异常的缺陷,导致模型依旧面临各种风险,极大地限制了现有的模型现实应用。


技术实现思路

1、本发明针对现有可解释性技术存在的问题,提供了一种基于反事实对比的深度神经网络模型可视化解释方法及系统,即提出了针对不同因果问题的反事实样本生成算法生成特定的反事实图像,同时对待解释图像添加强度一致的高斯噪声消除反事实扰动的影响,通过比较扰动噪声图像和反事实图像在深度神经网络模型的内部表达差异,筛选出对模型决策影响强烈区域,实现了对复杂因果问题和对抗样本现象的可视化解释。

2、为了实现上述目的,本发明是通过以下技术方案实现:

3、本发明公开了了一种基于反事实对比的深度神经网络模型可视化解释方法,包含如下步骤:

4、确定目标深度神经网络模型 f,获得待解释图像;

5、将待解释图像输入到目标深度神经网络模型 f中,获得图像的原始类别 p;

6、获得因果问题 q,根据因果问题 q是否包含特定目标类别 q,将其划分为无目标因果问题和有目标因果问题,基于此选择针对待解释图像的反事实样本使用无目标的生成方式或有目标的生成方式;若因果问题 q是针对原始类别 p的无目标因果问题,则使用无目标的生成方式得到反事实图像;若因果问题 q是针对特定目标类别 q的有目标因果问题,则使用有目标的生成方式得到反事实图像;

7、根据选择的针对待解释图像的反事实样本的生成方式,使用待解释图像针对深度神经网络模型 f生成 n张反事实图像,构成反事实图像集合{};

8、通过对待解释图像添加随机高斯噪声,生成 n张包含高斯扰动的扰动图像,构成噪声图像集合{};

9、使用噪声图像集合{}和反事实图像集合{},分别计算针对深度神经网络模型 f的噪声加权特征图集合{}和反事实加权特征图集合{};

10、根据噪声加权特征图集合{},计算平均噪声加权特征图;

11、通过平均噪声加权特征图和反事实加权特征图集合{},计算平均正向特征表达和平均负向特征表达,分别计算每一张反事实图像的正向特征表达和负向特征表达,并求取平均值作为平均正向特征表达和平均负向特征表达;

12、通过平均正向特征表达和平均负向特征表达,使用上采样算法计算得到以热力图形式可视化的正向显著图和负向显著图。

13、作为进一步地改进,本发明所述的根据因果问题的内容将其划分为无目标因果问题和有目标因果问题,用于解决不同因果问题的侧重点不同的问题,具体为:

14、无目标因果问题的形式为“为什么模型 f认为图像的类别是 p?”,有目标因果问题的形式为“为什么模型 f认为图像的类别是 p而不是类别 q?”,特别的对抗样本现象的解释即对应有目标因果问题,对于无目标因果问题,反事实图像的生成目标为最小化类别 p的概率;对于有目标因果问题,反事实图像的生成目标为最大化目标类别 q的概率。

15、作为进一步地改进,本发明所述的使用待解释图像针对深度神经网络模型 f生成反事实图像,具体为:

16、对于无目标因果问题,反事实图像的生成目标为最小化类别 p在深度神经网络模型 f全连接层的输出,并保持其他类别在全连接层的输出不变,其优化目标函数为:

17、;

18、其中表示反事实图像输入模型后,在类别 p上对应的全连接层输出概率;分布距离度量损失采用均方误差衡量反事实图像与带解释图像的在目标类别 p以外的全连接层输出概率分布的距离,超参数用于平衡两个损失之间的权重,是反事实扰动的最大阈值;

19、对于有目标因果问题,反事实图像的生成目标为最小化类别 p在深度神经网络模型 f全连接层的输出,同时最大化目标类别 q在深度神经网络模型 f全连接层的输出,并保持除类别和以外其他类别在全连接层的输出概率不变,优化目标函数为:

20、;

21、;

22、其中,超参数和用于平衡不同损失之间的权重,使用投影梯度下降算法分别对两种目标函数进行求解得到对应的反事实样本。

23、作为进一步地改进,本发明所述的计算针对深度神经网络模型 f的噪声加权特征图集合{}和反事实加权特征图集合{},具体为:

24、将噪声图像集合{}和反事实图像集合{}中的所有图像依次输入到目标深度神经网络模型 f之中,生成深度神经网络模型 f对不同输入图像的内部特征表达,所述的加权特征图包含以下计算步骤:

25、1)利用深度神经网络模型 f的前向传播得到特征图,计算原始类别 p对于第 k个特征图的反向传播梯度作为权重,在高度和宽度维度上,分别以 i和 j为索引对梯度进行全局平均,获得通道加权值,如下表示:

26、;

27、2)计算原始类别 p的反向传播梯度作为特征图的加权值,将其与特征图进行相乘得到加权特征图,加权特征图的公式如下所示:

28、;

29、其中,第层的前向传播激活值表示为,第 k个特征图表示为,对于每张反事实图像,分别计算加权特征图得到反事实特征图集合{};对高斯扰动图像在分别计算特征图得到集合{}后,将所有图像的平均值作为平均噪声加权特征图输出。

30、作为进一步地改进,本发明所述的通过平均噪声加权特征图和反事实加权特征图集合{}计算平均正向特征表达和平均负向特征表达,具体为:

31、计算每一张反事实加权特征图和平均噪声加权特征图的差值,解耦特征图的变化情况,使用relu函数作为特征解耦函数,用于区分正向特征和负向特征,其对应的公式表示如下:

32、;

33、;

34、其中正向特征代表在在待解释图像中表达更强烈的特征,对应待解释图像中与原始类别 p紧密相关的特征;相似的,负向特征代表的是在反事实样本中表达更强烈的特征,在无目标因果问题中,这些特征与原始类别 p无关而与其他类别高度相关;而在有目标因果问题中这些特征与原始类别 p无关而与目标类别 q高度相关。

35、作为进一步地改进,本发明所述的使用上采样算法以热力图形式可视化的正向显著图和负向显著图,具体为:

36、对于平均正向特征表达和平均负向特征表达,首先对特征进行归一化处理,之后使用双线性插值上采样算法,将显著图的大小恢复到与待解释图像一样,生成对应的正向显著图和负向显著图,对于无目标因果问题,标注了图像中与原始类别 p有显著的正向相关性的特征区域,标注图像中对原始类别 p干扰最大的特征区域,从而建立输入图像和深度神经网络模型的原始预测类别 p之间的对应关系,实现对深度神经网络决策结果的解释,对于有目标因果问题,标注了图像中与原始类别 p有显著的正向相关性的特征,标注图像中与目标类别 q有显著的正向相关性的特征,从而实现对深度神经网络模型的可视化解释。

37、本发明公开了一种基于反事实对比的深度神经网络模型可视化解释系统,包含:

38、输入获取模块:用于确定目标深度神经网络模型 f,获得待解释图像;

39、类别预测模块:用于将待解释图像输入到目标深度神经网络模型 f中,获得图像的原始类别 p;

40、解释设置模块:用于获得因果问题 q,根据因果问题 q是否包含特定目标类别 q将其划分为无目标因果问题和有目标因果问题,基于此选择针对待解释图像的反事实样本使用无目标的生成方式或有目标的生成方式;若因果问题 q是针对原始类别 p的无目标因果问题,则使用无目标的生成方式得到反事实图像;若因果问题 q是针对特定目标类别 q的有目标因果问题,则使用有目标的生成方式得到反事实图像;

41、反事实图像生成模块:用于根据选择的针对待解释图像的反事实样本的生成方式,使用待解释图像针对深度神经网络模型 f生成 n张反事实图像,构成反事实图像集合{};

42、高斯噪声图像生成模块:用于通过对待解释图像添加随机高斯噪声,生成 n张包含高斯扰动的扰动图像,构成噪声图像集合{};

43、特征图生成模块:用于使用噪声图像集合{}和反事实图像集合{},分别计算针对深度神经网络模型 f的噪声加权特征图集合{}和反事实加权特征图集合{};

44、平均特征图计算模块:用于根据噪声加权特征图集合{},计算平均噪声加权特征图;

45、特征解耦模块:用于通过平均噪声加权特征图和反事实加权特征图集合{},计算平均正向特征表达和平均负向特征表达,分别计算每一张反事实图像的正向特征表达和负向特征表达,并求取平均值作为平均正向特征表达和平均负向特征表达;

46、可视化解释生成模块:用于通过平均正向特征表达和平均负向特征表达,使用上采样算法计算得到以热力图形式可视化的正向显著图和负向显著图。

47、与现有技术相比,本发明的有益技术效果如下。

48、1)本发明技术方案中提出的基于反事实的深度神经网络模型可视化解释方法可以实现对无目标因果问题和有目标因果问题的解释,对有目标因果问题的解释实现了对对抗样本现象的可视化解释,拓展了深度神经网络模型的可视化解释范围。

49、2)本发明技术方案创新性地提出了反事实图像的生成方法,可以针对不同的因果问题生成对应的反事实图像,同时保证与目标无关的类别概率不出现显著变化,从而使生成的反事实更合理,有助于模型的可视化解释。

50、 3)本发明技术方案创新性地提出通过对比的方式,利用反事实样本和原始图像的在模型中的特征表达差异,生成正向显著图和负向显著图,从更多维的角度实现对深度神经网络模型的可视化解释。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1