一种基于转换器和频率混合增强的图像文本篡改检测方法

文档序号:37149294发布日期:2024-02-26 17:03阅读:16来源:国知局
一种基于转换器和频率混合增强的图像文本篡改检测方法

本发明属于人工智能领域,更具体而言,涉及计算机视觉和信息安全。


背景技术:

1、随着人们对数字化技术和在线交易的依赖程度越来越高,图像文本数据的重要性也越来越突出。然而,由于其易受攻击的特性,图像文本数据也成为了黑客和犯罪分子攻击的目标之一。例如,一些不良分子可能会利用图像文本篡改技术,通过更改或删除文本信息,从而窃取财产或者欺骗受害者。

2、在这种情况下,开发一种高效的图像文本篡改检测技术就变得尤为重要。这种技术不仅可以防止文本数据被篡改,还可以提高图像文本数据的可信度和可靠性,从而增强数字化交易和在线交流的安全性。此外,图像文本篡改检测技术还可以在司法鉴定、信息取证和安全审计等领域发挥重要作用。

3、然而,图像文本篡改检测技术也存在一些挑战和困难。首先,由于图像文本数据的非结构化特性,篡改检测的精度和鲁棒性很难保证。其次,篡改检测还需要考虑篡改区域的大小、对比度和背景环境等因素。此外,由于篡改攻击的多样性和变化性,图像文本篡改检测技术需要具备较强的适应性和灵活性。

4、为了应对这些挑战,需要不断改进图像文本篡改检测技术,不断提高其准确性、鲁棒性和效率。同时,还需要建立公共数据集和评估标准,以促进篡改检测技术的研究和发展。最终,通过不断完善图像文本篡改检测技术,可以有效保护文本信息的安全和完整性,为数字化交易和在线交流提供更加可靠和安全的环境。


技术实现思路

1、本发明的主要目的在于提供一种基于转换器和频率混合增强的图像文本篡改检测方法。本发明的目的是针对图像文本被篡改部分与其他部分存在局部纹理差异,和篡改检测方法对数据依赖性强的问题,而提出深度学习方法。这种方法能够学习语义不可知的特征,对篡改敏感,同时专门防止假警报。

2、根据本发明的第一方面,实现本发明的技术方案实现步骤包括:

3、步骤1、读取数据集中的图像获取3×h×w的3通道图像数据,并且对图像数据水平翻转和竖直翻转以进行数据增强;

4、步骤2、经过增强的数据输入高斯模块,高斯模块是一种固定参数的高斯核卷积方法;

5、步骤3、经过步骤2高斯卷积后的数据输入特征提取模块的第一层得到输出特征向量1的通道数大小为c1,尺寸大小为该层得的输出流向下一层特征提取模块;

6、步骤4、输出特征向量1进入第二层特征提取模块得到输出特征向量2的通道数大小为c2,尺寸大小为该层得的输出流向下一层特征提取模块;

7、步骤5、输出特征向量2进入第三层特征提取模块得到输出特征向量3的通道数大小为c3,尺寸大小为该层得的输出流向下一层特征提取模块;

8、步骤6、输出特征向量3进入第四层特征提取模块得到输出特征向量4的通道数大小为c4,尺寸大小为

9、步骤7、输出特征向量1、2、3、4连接在一起后再与输出特征向量4输入到头部网络最终得到检测结果;

10、步骤8、检测结果同真实值一起计算交叉熵损失函数,来不断优化模型参数;

11、步骤9、利用训练好的模型进行结果推理。

12、所述步骤2中的高斯模块能提升深度神经网络模型对高频信息的捕捉,高频信息难在rgb域中被捕获;因此,网络需要大量被篡改的图像才能收敛于被篡改的纹理,从而导致高度的数据依赖性,使用该高斯模块能解决篡改检测任务中模型对数据的高依赖的问题。

13、所述步骤3中的特征提取模块是提取图像特征的模块,是由两个标准化函数、一个前馈神经网络和频率混合器组成的:

14、其中频率混合器是对给定的输入特征图x,沿着通道维度分解为高频特征xh和低频特征xl,因此两个特征的通道数之和与x的通道数相等,高、低频特征分别输入高、低频混合器中;

15、高频混合器中,考虑到最大值滤波器的尖锐敏感性和卷积操作的细节感知,采用一种并行结构来学习高频分量,将xh沿通道维度划分为xh1和xh2,对其进行不同的操作:

16、yh1=fc(maxpool(xh1))

17、yh2=dwconv(fc(xh2))

18、yh1和yh2是高频混合器的输出结果;

19、低频混合器中,使用多头自注意力来传达低频混合器的所有标记中的信息,尽管注意力具有很强的学习全局表示的能力,但特征图的大解析会在较低层带来很大的计算成本,因此,使用平均池化层来减少注意力操作之前xl的空间尺度,并使用上采样层恢复注意力后的原始空间维度,这种设计降低了计算开销,并使注意力操作专注于嵌入全局信息,该低频混合器分支定义为:

20、yl=upsample(msa(avepooling(xl)))

21、最后的输出定义为:

22、yc=concat(yl,yh1,yh2)。

23、所述步骤8中,交叉熵损失函数的计算方法如下:

24、loss=-(ylogp+(1-y)log(1-p))

25、其中y为真值,p为预测值。

26、根据本发明第一方面实施例所述的本发明上述技术方案中的一个技术方案至少具有如下优点或有益效果之一:

27、1、采用高斯核卷积方法中的高斯拉普拉斯算子来捕获高频信息。对于输入图像i,首先利用大小为k×k的卷积层进行特征增强。k的值表示在频率分支中可以感知多少信息,然后,使用二维高斯核对特征进行平滑处理,最后,使用跳跃连接和1×1卷积层分别生成高频信息和维度对齐。

28、2、为了平衡各个层次间的视觉特征,本技术方案与其他检测算法不一样的地方是:一不仅仅只将最后一层的高级特征输入到头部网络,二将经过四层结构网络循环的低层特征和高层特征都输入头部网络,使得模型具有更丰富更全面的图像特征。

29、3、本技术方案可以更好的权衡所有通道层次的高频分量和低频分量。采用并行的卷积和转换器结构去更好的处理和融合高低频信息。



技术特征:

1.一种基于转换器和频率混合增强的图像文本篡改检测方法,其特征在于,包括:

2.根据权利要求1所述的一种基于转换器和频率混合增强的图像文本篡改检测方法,其特征在于:所述步骤2中的高斯模块能提升深度神经网络模型对高频信息的捕捉,高频信息难在rgb域中被捕获;因此,网络需要大量被篡改的图像才能收敛于被篡改的纹理,从而导致高度的数据依赖性,使用该高斯模块能解决篡改检测任务中模型对数据的高依赖的问题。

3.根据权利要求1所述的一种基于转换器和频率混合增强的图像文本篡改检测方法,其特征在于:所述步骤3中的特征提取模块是提取图像特征的模块,是由两个标准化函数、一个前馈神经网络和频率混合器组成的:


技术总结
本发明公开了一种基于转换器和频率混合增强的图像文本篡改检测方法,所述方法包括训练和测试流程。这种方法通过使用转换器和频率混合增强的技术来检测图片中的文本是否被篡改,并且可以提高实际的检测效果。

技术研发人员:钟必能,李啸海,胡现韬,梁启花,邓清勇,李宁,李先贤
受保护的技术使用者:广西师范大学
技术研发日:
技术公布日:2024/2/25
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1