一种静态权重引导的深度神经网络后门检测方法及系统

文档序号：30437672发布日期：2022-06-17 20:54阅读：来源：国知局

技术特征：
1.一种静态权重引导的深度神经网络后门检测方法，其特征在于，包括以下步骤：步骤1：对深度神经网络进行静态权重分析，得到后门攻击的可疑目标标签和受害标签，组成目标-受害标签对；步骤1的具体实现包括以下子步骤：步骤1.1：提取深度神经网络最后一层与输出标签相连的所有权重，假设深度神经网络共有n个输出标签，将与每一个标签相连接的权重组织成向量，得到n个权重向量w1…
w
n
；步骤1.2：对每一个权重向量，计算它和其他所有权重向量的差异度，将差异度由高到低排序，取差异度高的前k
d
个权重向量对应的目标标签集合d；对每一个权重向量，计算它包含所有权重的和，将权重和由高到低排序，取权重和高的前k
s
个权重向量对应的目标标签集合s；将d和s取并集得到最终的可疑目标标签集合t；步骤1.3：将步骤1.2得到的最高差异度和次高差异度相减，所得到的差大于阈值θ，则认为受害标签是模型中的所有标签；否则，对t中的每一个可疑目标标签t，计算它和其他权重向量的相似度，将相似度由高到低排序，取相似度高的前k
v
个标签，作为可疑受害标签v
t
；步骤1.4：将得到的可疑目标标签集合t和t中每一个目标标签t对应的受害标签v
t
，组成目标-受害标签对集合；步骤2：利用步骤1得到的可疑目标标签和受害标签，和干净图像样本，进行触发器逆向工程，得到逆向触发器；当所述触发器逆向工程为像素补丁型触发器逆向工程时，则判断得到的像素补丁型逆向触发器是否满足成功率和触发器大小预设条件，若满足预设条件，则执行下述步骤3；否则，输出检测结果为待检测深度神经网络不含有像素补丁型后门；当所述触发器逆向工程为图像滤镜型触发器逆向工程时，则判断得到的图像滤镜型逆向触发器是否满足成功率预设条件，若满足预设条件，则输出检测结果为待检测深度神经网络含有图像滤镜型后门；否则，输出检测结果为待检测深度神经网络不含有图像滤镜型后门；步骤3：分析步骤2得到的像素补丁型逆向触发器的形状属性，以及激活待检测深度神经网络内部神经元的分布，输出最终检测结果。2.根据权利要求1所述的静态权重引导的深度神经网络后门检测方法，其特征在于：步骤1.2中，所述权重向量差异度，是采用平均余弦相似度计算标签l的权重向量w
l
的差异度divergence(l)，其定义为：divergence(l)，其定义为：3.根据权利要求1所述的静态权重引导的深度神经网络后门检测方法，其特征在于：步骤1.3中，所述权重向量相似度，是采用余弦相似度计算权重向量之间的相似度，对t中的可疑目标标签t，其权重向量为w
t
，则标签i的权重向量w
i
与w
t
的相似度定义为：4.根据权利要求1所述的静态权重引导的深度神经网络后门检测方法，其特征在于：步骤2中，在触发器逆向工程中，对于图像滤镜型触发器的逆向工程，包括定义图像滤镜型触
发器对图像进行变换的一般形式和定义优化任务求解图像滤镜型触发器；所述定义图像滤镜型触发器对图像进行变换的一般形式，包括：对维度为3
×
h
×
w的三通道彩色图片，拼接两个值为全1的通道，即透明度通道和偏置通道，得到维度为5
×
h
×
w的矩阵；其中，h和w分别表示高和宽；将滤镜触发器定义为一个大小为4
×
5的二维矩阵，与维度为5
×
h
×
w的矩阵相乘，得到4
×
h
×
w的矩阵；将4
×
h
×
w的矩阵视为rgba格式的图片，最后一个通道为透明度通道；利用rgba格式转rgb格式的方法，将4
×
h
×
w的矩阵还原为3
×
h
×
w的三通道彩色图片，最终得到经过滤镜触发器变换的图片；所述定义优化任务求解图像滤镜型触发器，优化任务包括：添加滤镜触发器后的图片能被待检测神经网络模型错误分类到目标标签，和添加滤镜触发器后的图片与原图片结构相似性尽量高。5.根据权利要求1所述的静态权重引导的深度神经网络后门检测方法，其特征在于：步骤2中，在触发器逆向工程中，对于像素补丁型触发器的逆向工程，其优化任务为：受害标签图片加上同一个触发器后，能被神经网络模型错判为目标标签，且触发器的像素数量尽量少。6.根据权利要求1所述的静态权重引导的深度神经网络后门检测方法，其特征在于，对于图像滤镜型触发器的逆向工程，步骤2的具体实现包括以下子步骤：(1)输入目标标签集合；(2)取第一个目标标签；(3)模拟图像滤镜添加过程，为每个其他标签求解优化任务；(4)生成图像滤镜型逆向触发器，计算平均逆向成功率；(5)判断成功率是否大于阈值；若是，则执行下述步骤(6)；若否，则执行下述步骤(7)；(6)深度神经网络含有图像滤镜型后门，输出该标签和求解的逆向触发器；本流程结束；(7)判断是否遍历完所有标签对；若是，则执行下述步骤(8)；若否，取下一个目标标签，并回转执行步骤(3)；(8)输出判断结果为深度神经网络无图像滤镜型后门。7.根据权利要求1所述的静态权重引导的深度神经网络后门检测方法，其特征在于，对于像素补丁型触发器的逆向工程，步骤2的具体实现包括以下子步骤：(1)输入目标-受害标签对集合；(2)取第一个目标-受害标签对；(3)模拟像素补丁添加过程，为这个标签对求解优化任务；(4)生成像素补丁型逆向触发器，计算逆向成功率；(5)判断成功率是否大于阈值；若是，则执行下述步骤(6)；若否，则执行下述步骤(9)；(6)判断触发器大小是否小于阈值；若是，则执行下述步骤(7)；若否，则执行下述步骤(9)；(7)深度神经网络可能含有像素补丁型后门，进一步分析得到的逆向触发器，判断是否存在真正的后门触发器；若是，则执行下述步骤(8)；若否，则执行下述步骤(9)；(8)深度神经网络含有像素补丁型后门，输出该标签对和求解的逆向触发器；本流程结束；
(9)判断是否遍历完所有标签对；若是，则执行下述步骤(10)；若否，取下一个目标-受害标签对，并回转执行步骤(3)；(10)输出判断结果为深度神经网络无像素补丁型后门。8.根据权利要求1-7任意一项所述的静态权重引导的深度神经网络后门检测方法，其特征在于，步骤3的具体实现包括以下子步骤：步骤3.1：对得到的成功率和触发器大小满足预设条件的像素补丁型触发器，分析其像素分布的稀疏度，若高于预设的稀疏度阈值，则认定是对抗扰动误报，输出深度神经网络检测结果为不含像素补丁型后门；否则，继续执行下述步骤3.2；步骤3.2：分析其激活待检测深度神经网络内部神经元的分布和目标标签干净图片样本激活神经元分布的相似性，若高于预设的相似性阈值，则认定是自然特征误报，输出深度神经网络检测结果为不含像素补丁型后门；否则，继续执行下述步骤3.3；步骤3.3：认定该触发器是恶意植入的后门触发器，输出深度神经网络检测结果为含像素补丁型后门深度神经网络，以及目标标签，受害标签，触发器样式。9.一种静态权重引导的深度神经网络后门检测系统，其特征在于，包括以下模块：模块1，用于对深度神经网络进行静态权重分析，得到后门攻击的可疑目标标签和受害标签，组成目标-受害标签对；模块1包括以下子模块：模块1.1，用于提取深度神经网络最后一层与输出标签相连的所有权重，假设深度神经网络共有n个输出标签，将与每一个标签相连接的权重组织成向量，得到n个权重向量w1…
w
n
；模块1.2，用于对每一个权重向量，计算它和其他所有权重向量的差异度，将差异度由高到低排序，取差异度高的前k
d
个权重向量对应的目标标签集合d；对每一个权重向量，计算它包含所有权重的和，将权重和由高到低排序，取权重和高的前k
s
个权重向量对应的目标标签集合s；将d和s取并集得到最终的可疑目标标签集合t；模块1.3，用于将模块1.2得到的最高差异度和次高差异度相减，所得到的差大于阈值θ，则认为受害标签是模型中的所有标签；否则，对t中的每一个可疑目标标签t，计算它和其他权重向量的相似度，将相似度由高到低排序，取相似度高的前k
v
个标签，作为可疑受害标签v
t
；模块1.4，用于将得到的可疑目标标签集合t和t中每一个目标标签t对应的受害标签v
t
，组成目标-受害标签对集合；模块2：用于利用模块1得到的可疑目标标签和受害标签，和干净图像样本，进行触发器逆向工程，得到逆向触发器；当所述触发器逆向工程为像素补丁型触发器逆向工程时，则判断得到的像素补丁型逆向触发器是否满足成功率和触发器大小预设条件，若满足预设条件，则执行下述模块3；否则，输出检测结果为待检测深度神经网络不含有像素补丁型后门；当所述触发器逆向工程为图像滤镜型触发器逆向工程时，则判断得到的图像滤镜型逆向触发器是否满足成功率预设条件，若满足预设条件，则输出检测结果为待检测深度神经网络含有图像滤镜型后门；否则，输出检测结果为待检测深度神经网络不含有图像滤镜型后门；
模块3，用于分析得到的像素补丁型触发器的形状属性，以及激活待检测深度神经网络内部神经元的分布，输出最终检测结果。

技术总结
本发明公开了一种静态权重引导的深度神经网络后门检测方法及系统，首先对预训练神经网络模型进行静态权重分析，得到后门攻击的可疑目标标签和受害标签，组成目标-受害标签对；然后利用得到的目标-受害标签对进行逆向工程，恢复后门触发器；最后分析逆向触发器的形状属性和激活神经元分布来过滤误报，得到最终的检测结果。该方法发挥了静态权重分析计算开销小、不受输入样本质量影响、不受触发器类型影响的优势，有效提高了神经网络后门检测的效率、精度和可扩展性。精度和可扩展性。精度和可扩展性。

技术研发人员：赵磊李文欣王琦刘佩
受保护的技术使用者：武汉大学
技术研发日：2022.02.25
技术公布日：2022/6/16

完整全部详细技术资料下载

当前第2页1 2