基于噪声网络和图像预处理的图像检索防御方法及系统

文档序号：34482548发布日期：2023-06-15 16:42阅读：121来源：国知局

本发明涉及图像检索，尤其涉及一种基于噪声网络和图像预处理的图像检索防御方法及系统。

背景技术：

1、在web2.0时代，尤其是随着flickr、facebook等社交网站的流行，图像、视频、音频、文本等异构数据每天都在以惊人的速度增长。例如，facebook注册用户超过10亿，每月上传超过10亿的图片；flickr图片社交网站2015年用户上传图片数目达7.28亿，平均每天用户上传约200万的图片；中国最大的电子商务系统淘宝网的后端系统上保存着286亿多张图片。针对这些包含丰富视觉信息的海量图片，如何在这些浩瀚的图像库中方便、快速、准确地查询并检索到用户所需的或感兴趣的图像，成为多媒体信息检索领域研究的热点。

2、图像检索按描述图像内容方式的不同可以分为两类，一类是基于文本的图像检索(text based image retrieval，tbir)，另一类是基于内容的图像检索(content basedimage retrieval，cbir)。

3、基于内容的图像检索(content based image retrieval，cbir)是计算机视觉研究领域中的一项热门课题，并在实际生活得到了广泛的应用。图像检索从给定的数据集中搜寻与输入图像具有相似特征的图像，达到以图搜图的目的。基于内容的图像检索方法充分发挥了计算机长于处理重复任务的优势，将人们从需要耗费大量人力、物力和财力的人工标注中解放出来。经过十来来的发展，基于内容的图像检索技术已广泛应用于搜索引擎、电子商务、皮革布料、版权保护、医疗诊断、公共安全、街景地图等工业领域。

4、在电子商务方面，谷歌的goggles、阿里巴巴的拍立淘等闪拍购物应用允许用户抓拍上传至服务器端，在服务器端运行图片检索应用从而为用户找到相同或相似的衣服并提供购买店铺的链接；在皮革纺织工业中，皮革布料生产商可以将样板拍成图片，当衣服制造商需要某种纹理的皮革布料时，可以检索库中是否存在相同或相似的皮革布料，使得皮革布料样本的管理更加便捷；在版权保护方面，提供版权保护的服务商可以应用图像检索技术进行商标是否已经注册了的认证管理；在医疗诊断方面，医生通过检索医学影像库找到多个病人的相似部位，从而可以协助医生做病情的诊断。

5、主流方法的图像检索方法可以分为两类：第一类是较为传统的方法，通过词袋模型(bag-of-words)、空间几何信息(spatial verification)、拓展查询(query expansion)和汉明编码嵌入(hamming embedding)等手段得到局部特征。这类方法的实现流程通常是检测局部特征、提取描述器、量化并统一为嵌入编码。在深度神经网络得到迅速发展前,这类方法占据了图像检索领域的绝大部分。第二类是基于深度神经网络的方法，也是目前实现图像检索最为高效的手段，深度神经网络的优势在于其可以高效地对图像进行语义特征表示。此类方法根据神经网络架构实现方式的不同而不同，具体包括池化层、多尺度放缩、相似度评估函数、模型预训练方式等策略。

6、深度神经网络在人工智能的众多领域取得了空前成功，如图像分类、图像分割、目标检测、语音识别、机器翻译等。然而，最近的研究发现，深度神经网络对于精心设计的输入样本是脆弱的，易受到它们的攻击，这类输入样本被称为对抗样本。对抗样本的特点是，它相对于原始样本的改变，对于人类肉眼来说是难以察觉的，但是却可以使得深度神经网络的预测结果产生错误。因此，围绕对抗样本的研究开始受到关注，即对抗攻击和对抗防御。

7、对抗攻击首先在图像分类任务中被提出，对抗样本可以通过多种手段生成。白盒攻击假设攻击者知道模型的完整参数，如快速梯度符号法(fast gradient sign method，fgsm)、deepfool和c&w攻击；黑盒攻击与白盒攻击相反，模型对于攻击者来说是未知的，如基于模型蒸馏的替代模型法和zoo；通用对抗扰动指算法生成的同一扰动可以对多张不同图像生效，如uap(universal adversarial perturbation)。最近，其他领域开始研究对抗攻击，其中就包括图像检索领域，研究者们分别提出了基于最优化的攻击方法、通用对抗扰动以及有目标对抗攻击。

8、由于对抗攻击的出现，与之相对的，提高深度神经网络模型鲁棒性的方法也开始被广泛研究。防御对抗攻击的策略也可以分为两类，积极防御指通过修改模型的结构来提高鲁棒性，而消极防御不修改模型，只在检测阶段尽可能地识别出对抗样本或减轻对抗样本对模型的影响。消极防御的具体方法有很多种，如图像预处理技术、检测算法以及网络验证，它的优点在于无需额外训练、运算开销小，缺点是无法抵抗较强大的攻击方法，如投影梯度下降法(projected gradient descent，pgd)。投影梯度下降法是基于快速梯度符号法的，通过多次的、更小步的、随机初始化的攻击得到。积极防御的方法也有很多种,效果最好的是对抗训练(adversarial training)，即在模型训练过程中，通过迭代的攻击方法修改训练数据集，从而使得神经网络对于对抗样本具有鲁棒性。它的缺点是需要重新训练模型、计算成本大、计算速度慢。此外，还有一种基于生成对抗网络的对抗防御方法，该方法利用对抗样本作为训练样本，同时在网络中加入条件约束来指导gan的训练过程，建立具有鲁棒性的防御模型。

9、现有的基于内容的图像检索对抗防御技术工作存在以下不足：

10、(1)目前的防御方法主要是基于特征变换的图像检索对抗防御，运用随机缩放、随机填充、总方差最小化、纹理图像分割等图像预处理方法。该对抗防御方法在图像检索系统中的确能够起到一定的防御效果，但防御效果不佳。在两个地标图像检索数据集：经过重构的牛津数据集(revisited oxford dataset,roxford5k)和经过重构的巴黎数据集(revisited paris dataset,rparis6k)的测试下，该防御方法针对有目标对抗攻击(targeted mismatch adversarial attack,tma)方法进行防御，在大部分图像检索系统中平均精度均值(map)仅有略微的提升。

11、(2)在上面提到的两种数据集的测试中，同一种图像变换方法所起到的防御效果在两个数据集上的效果有着较大差距，即该图像变换方法防御对抗攻击的能力会随着数据集的变化而变化，该防御方法的泛用性不佳。

技术实现思路

1、本发明提供了一种基于噪声网络和图像预处理的图像检索防御方法，该方法提高了图像检索模型的防御能力，同时在针对不同的数据集时，都能起到较好的防御效果。

2、本发明的技术方案如下：

3、一种基于噪声网络和图像预处理的图像检索防御方法，包括：

4、对图像样本进行标注，构建训练数据集；

5、以局部与全局特征深度正交融合为框架构建efficient网络，并在其全连接层参数上添加噪声参数项，获得图像检索模型；

6、将训练数据集中的图像样本进行jpeg压缩预处理后，输入至所述的图像检索模型中，对图像检索模型进行训练，获得具有主动防御能力的目标防御模型；

7、将目标图像进行jpeg压缩预处理后，输入至所述的目标防御模型进行图像检索。

8、本发明采用gldv2(google landmarks dataset v2)数据集作为训练数据集。

9、本发明将训练数据集中的图像样本进行jpeg压缩预处理后，再对图像检索模型进行训练，以减小输入数据中包含的噪声。

10、对图像样本进行jpeg压缩预处理，包括：

11、(i)将图像样本xa切割为8×8的小块，作为jpeg压缩过程中的最小处理单元；

12、(ii)将图像样本xa从rgb色域转换为ycbcr色域，其中y表示亮度，cb和cr分别表示绿色和红色的“色差值”；转换完成后对色度通道进行空间二次采样；

13、(iii)利用离线余弦变换将ycbcr通道中的8×8方块转换为频域表示，使得每一个8×8的图像块都变成了三个8×8的浮点数矩阵，然后进行数据量化，并将量化后得到的二维矩阵转变成一维数组；

14、(iv)对数据进行哈弗曼编码，根据数据中元素的使用频率，调整元素的编码长度，实现对图像数据的压缩预处理。

15、将图像样本xa从rgb色域转换为ycbcr色域的原因是人眼对于明暗的变化感知更加敏锐，ycbcr色域下的图片能将图片中的重要信息与不重要信息分离出来。

16、步骤(ii)中，将图像样本xa从rgb色域转换为ycbcr色域的转化公式为：

17、

18、其中，y表示亮度，cb和cr分别表示绿色和红色的“色差值”，r、g、b分别表示红、绿、蓝三个颜色通道的亮度。

19、r、g、b表示原始图像中的红、绿、蓝三个颜色分量。在数字图像处理中，rgb表示将颜色分解为三个基本颜色通道的方式，其中每个通道都包含一个0到255的整数值，表示该通道对应颜色的强度或亮度。

20、优选的，所述的图像检索模型包括依次连接的三个efficientnet块，在第三个efficientnet块后包括并列的局部分支和全局分支，局部分支用于提取输入图像的局部特征，全局分支用于提取输入图像的全局特征；之后连接正交融合模块，用于正交融合局部特征和全局特征；之后连接全连接层，所述的全连接层的参数包含有噪声参数。

21、进一步的，局部分支中包括多簇卷积层和自注意模块，多簇卷积层中包括三个空洞卷积和一个全局池化层，得到的四个特征图合并，传送到一个卷积层，得到的特征图进入自注意模块，经过一个conv-bn模块后分成两路，一路对特征进行l2正则化，另一路经过relu激活函数和带有softplus激活函数的卷积层，两路特征进行矩阵运算输出局部特征；

22、全局分支包括第四个efficientnet块和gem池化层。

23、进一步的，正交融合模块正交融合局部特征fl和全局特征fg，包括：

24、计算每个局部特征点fl(i,j)在全局特征fg上的投影向量

25、

26、其中，fl(i,j).fg是点积运算，|fg|2是fg的l2范数，

27、正交分量是局部特征与投影向量的差值，可得正交分量

28、

29、将正交分量与全局特征fg两者进行互补链接，生成最终表征fi，作为全连接层的输入。

30、全连接层的参数包含有噪声参数，使得图像检索模型能够主动防御带有噪声的图像样本。

31、全连接层的参数包含有噪声参数，包括：

32、全连接层的原始前向计算公式为：

33、f＝ωfi+b (7)

34、其中，fi为输入，f为输出，ω为权重矩阵，b为偏置矩阵；

35、添加噪声参数后，全连接层的前向计算公式为：

36、

37、其中，fi为输入，fε为输出，ω为权重矩阵，b为偏置矩阵，μ为均值，σ为标准差，ε为噪声参数；参数b和ω服从于均值为μ、方差为σ的正态分布，ε服从标准正态分布。

38、优选的，训练图像检索模型时，噪声参数随机产生，包括：

39、将全连接层和上一层之中每个神经元生成一个独立的高斯噪音，将其乘积作为相应连接权重的噪音：

40、

41、

42、其中，εi和εj为全连接层中的神经元i和上一层中的神经元j产生的高斯噪音，为εi和εj连接权重的噪音，为偏置噪音；

43、此处的f是一个实值函数：

44、

45、训练图像检索模型时，损失函数为：

46、

47、

48、其中，权重矩阵为(μω+σω⊙εω)，将该矩阵经过l2归一化得到ω∈r512×1024，ωn是ω的第n行，fε为全连接层输出特征fε′经过归一化后的结果，y是one-hot标签向量，t为groundtruth类索引(yt＝1)，γ是比例因子；af表示arcface调整的余弦相似度，s是余弦相似度，m是arcface边距，c＝1表示这是groundtruth真值类，c＝0表示负类或与真实类不同的类别。

49、本发明还提供了一种基于噪声网络和图像预处理的图像检索防御系统，包括图像预处理模块和上述训练好的目标防御模型；

50、图像预处理模块对输入的图像数据进行jpeg压缩预处理，将处理后的图像数据输入至目标防御模型进行图像检索。

51、与现有技术相比，本发明的有益效果为：

52、(1)本发明在图像检索模型的全连接层添加噪声参数，噪声参数会随着模型参数一起训练，经过训练的模型对现有的图像检索攻击方法都具备较好的主动防御效果；

53、(2)运用jpeg压缩的图像预处理方法对对输入样本进行处理，结合经过噪声训练的图像检索模型，提高了图像检索模型的防御能力，同时在针对不同的数据集时，都能起到较好的防御效果。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林昶廷韩蒙赵昱洪榛董建锋王滨俞伟平
技术所有人：浙江大学滨江研究院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。