本发明属于pdf文件处理,尤其涉及一种pdf文件去水印方法、装置、电子设备及存储介质。
背景技术:
1、随着网络技术的飞速发展,为了保护在互联网上传播的各种pdf文件的版权,pdf文件的版权所有人经常会在pdf文件中叠加可见的水印标记。但是,很多时候pdf文件的使用者是需要使用没有水印的文档,所以此时就需要对pdf文件进行去水印处理。
2、pdf文件去水印技术是指利用软件工具去除pdf文件中的水印信息,以便获得高质量的pdf文件。很多pdf编辑软件都是借助pdf规范中定义的水印对象去识别和删除水印,但是人们的视觉水印元素在pdf文件中并不是以pdf规范中定义的水印对象的形式存在的,这样就会导致去除水印的效果很差。
技术实现思路
1、为了克服现有技术的不足,本发明实施例的发明目的在于提供一种pdf文件去水印方法、装置、电子设备及存储介质,其可以针对用户在pdf文档中选定的特定位置(包括但不限于视觉水印所在位置,只要用户认为是有必要的位置),都可以先进行水印识别操作,而且一旦识别到水印就可执行删除,水印去除效果较好。
2、为解决上述问题,本发明实施例第一方面公开了一种pdf文件去水印方法,包括以下步骤:
3、s1:获取需要去除的水印信息;
4、s2:获取用户在pdf第i页的页面上选定的目标去除区域j;其中,i和j均为自然数,i的取值范围为0<i≤pdf总页面数;
5、s3:根据所述目标去除区域j,确定页面对象;
6、s4:判断所述页面对象中是否包含所述水印信息:
7、若是,则去除所述水印信息,后再返回执行s2;
8、若否,则返回执行s2。
9、作为可选的方案,在本发明实施例的第一方面中,所述水印信息为文本;所述s3包括:
10、s31:遍历所述目标去除区域j中的页面对象;
11、s32:判断所述页面对象是否为文本:
12、若是,则执行s4;
13、若否,则执行s5。
14、作为可选的方案,在本发明实施例的第一方面中,所述s5包括:
15、判断所述页面对象是否为图片;
16、若是,则识别所述图片中的文字,后执行s4;
17、若否,则返回执行s31;
18、所述s4包括:
19、判断所识别出来的文字内容是否包含所述水印信息:
20、若是,则去除所述水印信息;
21、若否,则返回执行s31。
22、所述识别所述图片中的文字,包括:
23、作为可选的方案,在本发明实施例的第一方面中,采用ocr识别所述图片中的文字。
24、作为可选的方案,在本发明实施例的第一方面中,所述水印信息为图片;所述s3包括:
25、s31:遍历所述目标去除区域j中的页面对象;
26、s32:判断所述页面对象是否为图片:
27、若是,则计算页面对象与所述水印信息的相似度;
28、若否,则返回执行s31;
29、所述s4包括:
30、根据所述相似度,判断所述页面对象中是否包含所述水印信息。
31、作为可选的方案,在本发明实施例的第一方面中,所述根据所述相似度,判断所述页面对象中是否包含所述水印信息,包括:
32、若相似度大于或等于预设阈值时,则判定所述页面对象包含所述水印信息;
33、若相似度小于预设阈值时,则判定所述页面对象不包含所述水印信息。
34、作为可选的方案,在本发明实施例的第一方面中,所述计算页面对象与所述水印信息的相似度,包括:
35、采用图像相似度检测算法或模板匹配算法或特征提取算法或卷积神经网络算法来计算所述页面对象与所述水印信息的相似度。
36、本发明实施例第二方面公开了一种pdf文件去水印装置,包括:
37、第一获取模块,用于获取需要去除的水印信息;
38、第二获取模块,用于获取用户在pdf第i页的页面上选定的目标去除区域j;其中,i和j均为自然数,i的取值范围为0<i≤pdf总页面数;
39、分析模块,用于根据所述目标去除区域j,确定页面对象;
40、处理与反馈模块,用于判断所述页面对象中是否包含所述水印信息:
41、若是,则去除所述水印信息,后再返回第二获取模块;
42、若否,则返回第二获取模块。
43、本发明实施例第三方面公开了一种电子设备,包括存储器、处理器以及存储在所述存储器中并能在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述的pdf文件去水印方法的步骤。
44、本发明实施例第四方面公开了一种计算机可读存储介质,其存储有计算机程序,其中,所述计算机程序使得计算机执行上述任意一项所述的pdf文件去水印方法的步骤。
45、与现有技术相比,本发明实施例的有益效果在于:
46、1.本发明实施例通过首先获取需要去除的水印信息和用户在pdf上选定的目标去除区域j,再次根据所述目标去除区域j,确定页面对象,然后再判断所述页面对象中是否包含所述水印信息:若是,则删除水印;若无,则重新获取目标区域j,从而可以针对用户在pdf文档中选定的特定位置(包括但不限于视觉水印所在位置,只要用户认为是有必要的位置),都可以先进行水印识别操作,而且一旦识别到水印就可执行删除,水印去除效果较好,并且可以针对单个pdf页面上的单个目标去除区域,或者同一个pdf页面上的多个不同的目标去除区域,或者多个不同pdf页面上的单个目标去除区域,又或者多个不同pdf页面上的多个不同目标去除区域,进行水印识别后决定是否删除,适用范围广,同时使用灵活、方便。
47、2.本发明实施例能够有效去除用户选定区域的文本格式和图片格式的水印,成功率可以达到90%以上。
48、3.针对水印信息为文本或图片,有不同的处理流程步骤,满足pdf文档中不同格式的水印信息的使用需求,进一步提升本发明实施例的适用范围、使用灵活性和便捷度。
49、下面结合附图和具体实施方式对本发明作进一步详细说明。
1.一种pdf文件去水印方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的pdf文件去水印方法,其特征在于:所述水印信息为文本;所述s3包括:
3.根据权利要求2所述的pdf文件去水印方法,其特征在于:所述s5包括:判断所述页面对象是否为图片;
4.根据权利要求3所述的pdf文件去水印方法,其特征在于:所述识别所述图片中的文字,包括:
5.根据权利要求1所述的pdf文件去水印方法,其特征在于:所述水印信息为图片;所述s3包括:
6.根据权利要求5所述的pdf文件去水印方法,其特征在于:所述根据所述相似度,判断所述页面对象中是否包含所述水印信息,包括:
7.根据权利要求5所述的pdf文件去水印方法,其特征在于:所述计算页面对象与所述水印信息的相似度,包括:
8.一种pdf文件去水印装置,其特征在于:包括:
9.一种电子设备,其特征在于:包括存储器、处理器以及存储在所述存储器中并能在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7任意一项所述的pdf文件去水印方法的步骤。
10.一种计算机可读存储介质,其特征在于:其存储有计算机程序,其中,所述计算机程序使得计算机执行权利要求1-7任意一项所述的pdf文件去水印方法的步骤。