基于DINO师生模型的自监督数字水印方法及系统

文档序号：37557954发布日期：2024-04-09 17:50阅读：57来源：国知局

本发明涉及信息安全，具体的是基于dino师生模型的自监督数字水印方法及系统。

背景技术：

1、在信息时代，数字产品如图像、视频、音频等需要版权保护，数字水印也由此得到发展。一种高效的数字水印方法应该是兼顾鲁棒性和不可感知性的。鲁棒性是指数字水印应该能够在图像受到攻击的情况下，仍然能够被正确提取出来，以便验证图像的合法性和保护版权。而不可感知性则要求水印信息的嵌入不应影响原始图像的质量和视觉效果，确保实际应用效果不变。然而如何在这两个方面达到平衡一直以来都是此技术研究的难点和重点。

2、传统的数字图像水印算法可分为空间域和频域方法。空间域水印的实现相对简单，可以抵御简单的攻击，如噪声添加，但在应对复杂攻击时有一定的局限性，因此在实际应用中效果较差。另一方面，频域水印技术通常采用扩频技术来修改图像的频域以嵌入水印。与空间域水印技术相比，频域水印技术具有更强的抗攻击能力、更高的信息隐藏能力以及处理更复杂攻击方法的能力，因此被更广泛地采用。

3、随着人工智能的发展，深度学习也被应用到数字水印领域。与传统的频域方法相比，基于深度学习的水印技术通过卷积层中的卷积核进行线性变换，将图像从空间域转换到频域中的特定位置。网络通过优化损失函数进行训练，以获得水印嵌入的最优解。然而，现有方法仍难以抵御各种攻击，在某些攻击面前可能无法达到令人满意的提取效果。此外，基于深度学习的水印技术的不可感知性和鲁棒性往往不平衡，需要进一步改进。

技术实现思路

1、为解决上述背景技术中提到的不足，本发明的目的在于提供基于dino师生模型的自监督数字水印方法及系统，保留了纹理特征和深层特征，同时具有更好的可靠性，能够应对各种攻击。

2、第一方面，本发明的目的可以通过以下技术方案实现：基于dino师生模型的自监督数字水印方法，方法包括以下步骤：

3、接收载体图像和秘密信息的特征张量，将载体图像输入至预先建立的dino模型内，输出得到载体图像的特征向量；

4、将秘密信息的特征张量和载体图像的特征向量进行拼接，经过convbnrelu层得到特征映射，将特征映射与载体图像拼接后经过convbnrelu层，得到编码图像；

5、将编码图像输入至预先构建的噪声模拟器内，输出得到噪声图像，将噪声图像输入至预先构建的解码器内，通过提取输出得到秘密信息。

6、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述秘密信息的特征张量的提取过程：

7、将长度为l的秘密信息m∈{0,1}l重塑为1×h×w，其中l＝h×w，通过一个convbnrelu块进行初始特征提取，得到c×h×w，其中，c是通道的个数，h，w是秘密信息的高和宽；然后经过4个转置卷积块进行上采样操作，得到c×h×w的特征映射，其中，h,w是载体图像的高和宽。

8、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述预先建立的dino模型使用的主干网络为resnet50，通过数据增强，输入图像x得到x1和x2，分别输入到学生网络和老师网络，学生网络和老师网络具有相同的结构，使用的初始参数不同，教师网络的输出是所有批次的平均值，并经过归一化和softmax变换，得到一个k维特征向量p2，如式(1)所示，学生网络的输出也是经过相同的变换和处理，得到与教师网络相同的k维特征向量p1，如式(2)所示，然后使用交叉熵损失来衡量两个特征向量之间的相似性，如式(3)所示，在进行反向传播时，只使用学生网络进行反向传播和参数更新，使用指数移动平均值ema来更新教师网络的参数，如式(4)所示。

9、p1＝softmax[s(x1)] (1)

10、其中，s为学生网络，softmax为一种激活函数；

11、p2＝softmax{centering[t(x1)]} (2)

12、其中，t为教师网络，softmax为一种激活函数，centering为取均值；

13、

14、其中，n表示数据集中图像的数量，p(i)是第i张图像的教师模型生成的目标概率分布，而q(i)是学生模型对第i张图像的输出概率分布；

15、

16、其中，θs是学生网络的参数，θt是教师网络的参数，ema是指数移动平均值。

17、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述resnet50包括5个部分：conv_1、conv_2、conv_3、conv_4和conv_5，其中第一部分是一个7×7×64的卷积层，后四部分均包含残差单元，每个残差单元都由三层卷积组成。

18、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述将载体图像输入至预先建立的dino模型内，输出得到载体图像的特征向量的过程：

19、将载体图像ic输入至预先建立dino模型中，得到4×4×2048的张量，随后将张量上采样，先经过一个步长为5，填充为1,卷积核为3×3的反卷积层，再通过一个步长为9，填充为5，卷积核为3×3的反卷积层，得到了载体图像的特征映射，作为载体图像ic的特征向量。

20、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述噪声模拟器通过jpeg-mask方法来模拟jpeg噪声，jpeg-mask应用固定掩码，只在y通道中保留25个低频dct系数，在u,v通道中保留9个，其他系数设为0，通过编码图像输入后，应用jpeg-mask方法得到噪声图像。

21、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述将噪声图像输入至预先构建的解码器内，通过提取输出得到秘密信息的过程：

22、通过1个convbnrelu块将噪声图像in放大，接着使用9个eca块，1个convbnrelu块，最后通过1个平均池化层和一个linear激活层从噪声图像in中提取秘密信息。

23、结合第一方面，在第一方面的某些实现方式中，该方法还包括：所述编码图像ie和载体图像ic之间的视觉相似性通过鉴别器的对抗性训练进行提高，鉴别器用1来表示编码图像，用0来表示载体图像来判断图像是否包含水印，由1个高通滤波器、3个convbnrelu块、一个自适应平均池化层、一个单输出单元的线性层和一个sigmoid激活层构成。

24、第二方面，为了达到上述目的，本发明公开了基于dino师生模型的自监督数字水印系统，包括：

25、向量提取模块，用于接收载体图像和秘密信息的特征张量，将载体图像输入至预先建立的dino模型内，输出得到载体图像的特征向量；

26、拼接输出模块，用于将秘密信息的特征张量和载体图像的特征向量进行拼接，经过convbnrelu层得到特征映射，将特征映射与载体图像拼接后经过convbnrelu层，得到编码图像；

27、信息提取模块，用于将编码图像输入至预先构建的噪声模拟器内，输出得到噪声图像，将噪声图像输入至预先构建的解码器内，通过提取输出得到秘密信息。

28、结合第二方面，在第二方面的某些实现方式中，该系统还包括：所述向量提取模块内秘密信息的特征张量的提取过程：

29、将长度为l的秘密信息m∈{0,1}l重塑为1×h×w，其中l＝h×w，通过一个convbnrelu块进行初始特征提取，得到c×h×w，其中，c是通道的个数，h，w是秘密信息的高和宽；然后经过4个转置卷积块进行上采样操作，得到c×h×w的特征映射，其中，h,w是载体图像的高和宽；

30、或者向量提取模块内预先建立的dino模型使用的主干网络为resnet50，通过数据增强，输入图像x得到x1和x2，分别输入到学生网络和老师网络，学生网络和老师网络具有相同的结构，使用的初始参数不同，教师网络的输出是所有批次的平均值，并经过归一化和softmax变换，得到一个k维特征向量p2，如式(1)所示，学生网络的输出也是经过相同的变换和处理，得到与教师网络相同的k维特征向量p1，如式(2)所示，然后使用交叉熵损失来衡量两个特征向量之间的相似性，如式(3)所示，在进行反向传播时，只使用学生网络进行反向传播和参数更新，使用指数移动平均值ema来更新教师网络的参数，如式(4)所示。

31、p1＝softmax[s(x1)] (1)

32、其中，s为学生网络，softmax为一种激活函数；

33、p2＝softmax{centering[t(x1)]} (2)

34、其中，t为教师网络，softmax为一种激活函数，centering为取均值；

35、

36、其中，n表示数据集中图像的数量，p(i)是第i张图像的教师模型生成的目标概率分布，而q(i)是学生模型对第i张图像的输出概率分布；

37、

38、其中，θs是学生网络的参数，θt是教师网络的参数，ema是指数移动平均值。

39、或者向量提取模块内resnet50包括5个部分：conv_1、conv_2、conv_3、conv_4和conv_5，其中第一部分是一个7×7×64的卷积层，后四部分均包含残差单元，每个残差单元都由三层卷积组成；

40、优选地，向量提取模块内将载体图像输入至预先建立的dino模型内，输出得到载体图像的特征向量的过程：

41、将载体图像ic输入至预先建立dino模型中，得到4×4×2048的张量，随后将张量上采样，先经过一个步长为5，填充为1,卷积核为3×3的反卷积层，再通过一个步长为9，填充为5，卷积核为3×3的反卷积层，得到了载体图像的特征映射，作为载体图像ic的特征向量；

42、优选地，信息提取模块内噪声模拟器通过jpeg-mask方法来模拟jpeg噪声，jpeg-mask应用固定掩码，只在y通道中保留25个低频dct系数，在u,v通道中保留9个，其他系数设为0，通过编码图像输入后，应用jpeg-mask方法得到噪声图像；

43、优选地，信息提取模块内将噪声图像输入至预先构建的解码器内，通过提取输出得到秘密信息的过程：

44、通过1个convbnrelu块将噪声图像in放大，接着使用9个eca块，1个convbnrelu块，最后通过1个平均池化层和一个linear激活层从噪声图像in中提取秘密信息；

45、优选地，拼接输出模块内编码图像ie和载体图像ic之间的视觉相似性通过鉴别器的对抗性训练进行提高，鉴别器用1来表示编码图像，用0来表示载体图像来判断图像是否包含水印，由1个高通滤波器、3个convbnrelu块、一个自适应平均池化层、一个单输出单元的线性层和一个sigmoid激活层构成。

46、本发明的有益效果：

47、本发明使用dino模型，通过反向传播和数据增强减少标记数据成本，增强训练的多样性，提高模型的鲁棒性和泛化能力。学习感知图像块损失(lpips)和均方误差(mse)可以增强水印模型的不可感知性。鉴别器中的高通滤波器可以使得水印模型在中频区域嵌入水印，平衡鲁棒性和不可感知性。综合下来可以更加安全、隐秘地将秘密信息隐藏在图像中，实用价值大。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕新宇,王保卫
技术所有人：南京信息工程大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。