一种用于文档类图像可视水印的擦除方法

文档序号：8923185阅读：624来源：国知局

一种用于文档类图像可视水印的擦除方法
【技术领域】
[0001] 本发明涉及数字水印以及图像去噪、图像修复技术领域，具体是一种用于文档类图像可视水印的擦除方法。
【背景技术】
[0002] 数字水印技术的主要思想是将诸如序列号、代码或者图标等标识信息嵌入图像、音频或视频等数字载体中，达到版权保护的目的。这些标识信息就称为数字水印。然而，在一些特殊情况下，需要一定的技术将数字媒介的水印擦除掉，例如，水印版权已过期，但嵌有水印的产品依然具有存在和使用价值。此时水印设计单位已不再提供技术支持和对数字水印擦除技术纯粹的科学研宄；又如，水印设计单位需要进行水印的鲁棒性测试。水印擦除技术在这些应用背景下应运而生。
[0003] 在图像中嵌入水印信息可以认为是对原始图像人为的加入噪声，从而得到一幅 "含有噪声"的图片。可以借鉴在图像去噪领域的经典方法来擦除水印，将水印擦除后，图片内容会受损丢失，需要采用图像修复技术来进行图像的修复。
[0004] 目前市面上对于自然图像可视水印擦除软件有很多，譬如光影魔术手、Photoshop 等图像处理软件。在可查询的方法中，有些采用视频作为载体，在发送端，改变可视水印的每个DCT系数，然后将改变后的每个DCT系数图像加到视频数据的DCT系数上，含有水印的视频数据通过广播网传输到接收端，供接收端预览；接收端与发送端交互；用户在接收端利用接收到的水印密钥来擦除可视水印，恢复高质量的视频数据。
[0005]而现如今，在各种应用平台中，将word、pdf等文字文档信息拍摄成图片的场景广泛可见，在这些文档类图像添加可视水印的场景也很多。市面上针对文档类图像的可视水印的擦除软件却很少。相比于自然图像的水印擦除，文档类图像的水印擦除不仅需要视觉上使得原可视水印不可见，同时需要高保真度地维持原水印区域背景文字的上下文语义可读性。而以往针对自然图像和视频帧水印擦除的方法，不适合文档类图像处理。由此使得研宄文档类图像可视水印擦除方法具有比较不错的产品转化空间和应用前景。

【发明内容】

[0006] 本发明的目的在于提供一种用于文档类图像可视水印的擦除方法，该方法能够应用于word、pdf等文档类图像（非原word、pdf文档）上的可视水印擦除，譬如文档版权标识、公司logo或单位公章类水印以及一些个性化的文档水印等的擦除，同时可以高保真度地维持原水印区域背景文字的上下文语义可读性，能够最大程度上恢复原始背景文字。
[0007] 本发明的技术方案为：
[0008] 一种用于文档类图像可视水印的擦除方法，包括以下步骤：
[0009] (1)对目标图像进行二值化预处理，得到特征图像，所述目标图像为嵌入可视水印的待修复文档类图像；
[0010] (2)确定目标图像和特征图像的水印区域和非水印区域；
[0011] (3)分别将目标图像和特征图像的非水印区域划分成若干个重叠的分块，并对每个分块进行采样，得到目标图像非水印区域分块样本集Xb和特征图像非水印区域分块样本集Yf:
[0012] Xb= [x !，i = 1，2，…，m]
[0013] Yf= [y p i = 1，2，…，m]
[0014] 其中，Xi表示由目标图像非水印区域每个分块的像素组成的列向量，
[0015] yi表示由特征图像非水印区域每个分块的像素组成的列向量；
[0016] (4)构建稀疏表不板型：
[0018] 其中，
Db表示目标图像非水印区域分块对应的字典，Df 表示特征图像非水印区域分块对应的字典，Z表示惩罚项，X表示正则参数，df:表示护中的每个原子；
[0019] (5)利用字典学习的方法对构建的稀疏表示模型进行优化，得到压缩的Db和Df; [0020] (6)根据#与Df的相似匹配度，自适应地采用字典相似块擦除算法或局部擦除算法来擦除目标图像中的可视水印。
[0021] 所述的用于文档类图像可视水印的擦除方法，所述步骤（2)还包括按照以下步骤确定分块大小：
[0022] (21)采用形态学连通度方法检测特征图像的背景文字大小；
[0023] (22)按照背景文字大小确定分块大小。
[0024] 所述的用于文档类图像可视水印的擦除方法，所述步骤（6)包括：
[0025] (31)计算013与Df之间的欧氏距离；
[0026] (32)判断计算得到的欧氏距离是否小于预设阈值，若是，则采用字典相似块擦除算法来擦除目标图像中的可视水印，若否，则采用局部擦除算法来擦除目标图像中的可视水印。
[0027] 所述的用于文档类图像可视水印的擦除方法，所述步骤（6)中，采用字典相似块擦除算法来擦除目标图像中的可视水印，包括：
[0028] (41)分别将目标图像和特征图像的水印区域划分成若干个非重叠的分块，并对每个分块进行采样，得到目标图像水印区域分块样本集X'b和特征图像水印区域分块样本集 Yrf：
[0029] X'b=[x' j，j=l，2，...，n]
[0030] Y'f=[y1 j，j = l，2，...，n]
[0031] 其中，x'」表示由目标图像水印区域每个分块的像素组成的列向量，y'」表示由特征图像水印区域每个分块的像素组成的列向量；
[0032] (42)对特征图像水印区域的各个分块求解如下优化方程，得到其对应的稀疏表示系数：
[0033] min | | a』| | A | | e | |!，s. t. y ' 』=D f a j+e
[0034] 其中，a」表示y'」的稀疏表示系数，e表示高斯噪声；
[0035] (43)通过以下公式利用Db对目标图像水印区域的各个分块进行修复：
[0037] 其中，Xf表示x'」的修复值；
[0038] (44)用X/替换x'』，完成修复。
[0039] 所述的用于文档类图像可视水印的擦除方法，所述步骤（6)中，采用局部擦除算法来擦除目标图像中的可视水印，包括：
[0040] (51)采用形态学连通度方法检测特征图像水印区域的连通区域，判断各个连通区域的连通度是否大于门限，若是，则相应的连通区域属于实线水印区域，跳转步骤（52)，若否，则相应的连通区域属于虚线水印区域，对其采用形态学膨胀方法处理后，标记为待修复区域，跳转步骤（53);
[0041] (52)对各个实线水印区域，判断其比特平面复杂度是否高于门限，若是，则不作处理，若否，则将其标记为待修复区域；某个实线水印区域的比特平面复杂度定义为该实线水印区域黑白边界点像素数与所有实线水印区域边界点像素数的比值；
[0042] (53)根据目标图像与特征图像的位置对应关系，确定目标图像水印区域中的各个待修复区域；
[0043] (54)估计目标图像各个待修复区域的背景文字像素值；
[0044] (55)用估计的背景文字像素值填充相应的待修复区域。
[0045] 由上述技术方案可知，鉴于文档类图像的背景文字往往有一定的文档格式，不同于一般的自然图像的纹理特性，本发明利用文档类图像本身有一定的自相似特性，采用形态学方法和信号稀疏表示的优化模型，提出了一种自适应图像修复方法，该方法能够在不同噪声情况下精确修复适应于字典的图像分块，较好地解决文本环境下的可视水印擦除问题，极大地改进擦除效果，提高图像恢复质量。
【附图说明】
[0046] 图1是本发明的方法流程图；
[0047] 图2是本发明的训练分块示意图；
[0048]图3是本发明采用稀疏表示、字典相似块擦除算法的流程图；
[0049] 图4是本发明的效果示意例图。
【具体实施方式】
[0050] 下面，结合附图和具体实施例进一步说明本发明。
[0051] 如图1所示，一种用于文档类图像可视水印的擦除方法，包括以下步骤：
[0052]S1、对目标图像进行二值化预处理，然后对得到的二值图像再进行边界细化和梯度计算得到特征图像。
[0053]这里，目标图像指的是嵌入可视水印的归一化的待修复文档类图像，对其进行二值化预处理是为了避免归一化图像背景局部亮度不一致的情况，进一步对二值图像进行边界细化和梯度计算是为了增强下述分块的鲁棒性。
[0054] S2、将目标图像划分为水印区域和非水印区域（人为观测设定），由于特征图像是由目标图像经过预处理得到的，所以根据特征图像与目标图像的位置对应关系，特征图像的水印区域和非水印区域也就确定了。采用形态学连通度方法检测特征图像的背景文字大小，按照文字大小确定分块大小，一般分块大小比文字平均大小略大。采用这种分块方法，可以减少无意义分块数目，训练分块如图2所示。
[0055] S3、按照步骤S2确定的分块大小，分别对目标图像和特征图像的非水印区域进行重叠分块（即分别将目标图像和特征图像的非水印区域划分成若干个重叠的分块），基于位置对应关系，目标图像和特征图像的分块划分轨迹完全一致。
[0056] 分别对目标图像和特征图像非水印区域的分块进行采样，处于两个图像上相同位置的分块采样结果组成一个样本对（Xi，yi)，其中，\表示由目标图像非水印区域第i个分块的像素组成的列向量，71表示由特征图像非水印区域第i个分块的像素组成的列向量。
[0057] 假设有m组样本对：Xb=[x"i= 1，2，…，m] = [X!，x2，…，xm]，Yf=[y"i= 1，2，…，，…，ym]，定义训练样本集为：
[0058]Xc= {Xb，Yf}
[0059] 稀疏编码的目的就是通过对浐的学习来估计学习字典，并且将目标图像非水印区域分块Xb和特征图像非水印区域分块Yf统一到一个稀疏编码框架中，使其具有相同的稀疏表示，其目标函数为：
[0061] 上式可简化表示为：
[0063] 其中，Db表示目标图像非水印区域分块对应的字典，下面简称为目标图像分块字典，Df表示特征图像非水印区域分块对应的字典，下面简称为特征图像分块字典，
De中每个原子（列向量）dG|的12范数归一化约束的目的是为了避免原子的尺度歧义性，Z表示惩罚项，用于避免过拟合，X表示正则参数。
[0064]S4、利用字典学习的方法优化下式：
[0066] 得到压缩的原子集合字典Db和Df。
[0067]S5、采用欧氏距离度量计算目标图像分块字典Db和特征图像分块字典DMA相似匹配度，若炉与Df之间的欧氏距离小于阈值T，则认为两者的相似匹配度高，转至步骤S6,采用字典相似块擦除算法来擦除目标图像中的可视水印，若炉与〇{之间的欧氏距离大于等于阈值T，则认为两者的相似匹配度低，转至步骤S7,采用局部擦除算法来擦除目标图像中的可视水印。
[0068] S6、采用字典相似块擦除算法来擦除目标图像中的可视水印，如图3所示，包括以下步骤：
[0069]S61、按照步骤S2确定的分块大小，分别对目标图像和特

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张卫明;田辉;郭玉刚;胡校成;王辉;
技术所有人：合肥高维数据技术有限公司;
我是此专利的发明人

上一篇：一种能定位pdf电子发票篡改的水印嵌入与认证方法
上一篇：为图像添加标签的方法、系统和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。