用于西文水印处理的水印图像分块方法和装置的制作方法

文档序号:6341135阅读:134来源:国知局
专利名称:用于西文水印处理的水印图像分块方法和装置的制作方法
技术领域
本发明涉及数字排版领域,具体而言,涉及用于西文水印处理的水印图像分块方法和装置。
背景技术
随着电子商务及电子政务的发展,企事业单位、党政机关以及国家安全等有关部门将处理大量的文字材料,这其中包括合约、涉密等等的重要文件。这些文本文件的版权保护和内容安全是一个重要的问题,数字水印技术为上述问题的解决提供了一种途径。数字水印是指将特定的信息嵌入数字信号中,数字信号可能是音频、图片或是影片等。若要拷贝有数字水印的信号,所嵌入的信息也会一并被拷贝。数字水印可分为浮现式和隐藏式两种,前者是可被看见的水印(visible watermarking),其所包含的信息可在观看图片或影片时同时被看见。一般来说,浮现式的水印通常包含版权拥有者的名称或标志。电视台在画面角落所放置的标志,也是浮现式水印的一种。隐藏式的水印是以数字数据的方式加入音频、图片或影片中,但在一般的状况下无法被看见。隐藏式水印的重要应用之一是保护版权,期望能借此避免或阻止数字媒体未经授权的复制和拷贝。隐写术(Meganography)也是数字水印的一种应用,双方可利用隐藏在数字信号中的信息进行沟通。数字照片中的注释数据能记录照片拍摄的时间、使用的光圈和快门,甚至是相机的厂牌等信息,这也是数字水印的应用之一。某些文件格式可以包含这些称为“metadata”的额外信息。另外,很多文本文件不仅以数字形式存在,它还会通过打印、复印等途径以纸张的形式传播,这其中不乏大量的西文文档。随着国际化程度越来越高,西文文档的交流也变得日趋频繁,因此对于此类文档的安全保护的需求也变得更加强烈。而随着数字化技术的迅猛发展,这种方式已经变得相当普遍,这也使得很多重要或者机密信息以纸质文件为传播途径而泄漏出去。因此,研究基于纸质文件的能够抵抗打印和复印的二值文本水印技术显得尤为重要。1、申请号为200710121642. 7的专利文献公开了一种二值图像中数字水印的嵌入方法,该方法为将二值图像的部分或全部划分为至少两个水印图像块,根据每个水印图像块中的黑色像素点个数得到分组,对所述每个分组中的数据进行哈达玛(Hadamard)变换。 使用量化方法,将待嵌入水印信号嵌入,进行逆哈达玛变换得到每个水印图像块中需要改变的像素点个数从而达到嵌入、提取水印的目的。2、申请号为200810055770. 0的专利文献公开了一种二值文本图像中数字水印的嵌入方法和装置,该方法包括将二值文本图像的部分或全部划分为嵌入部分和调整部分, 计算所述嵌入部分和调整部分每个集合所包含的黑色像素点个数的平均值,根据所述平均值和嵌入部分每个集合所包含的黑色像素点的个数计算颜色改变参数,根据所述颜色改变参数改变嵌入部分和调整部分每个集合所包含的黑色像素点的个数,实现水印的嵌入。3、申请号为200610114048. 0的专利文献公开了一种黑白二值文本图像中数字水印嵌入与提取的方法及装置,其中嵌入方法包括定位文本图像中的有效字符区域;将有效字符区域进行分组,并统计各字符区域中的黑点个数;根据分组内的各字符区域内黑点个数之间的相对关系、水印信息位串、以及第一步长计算出每个字符区域内需要翻转的像素第一个数;按第一个数翻转每个字符区域内的像素。提取方法包括定位文本图像中有效字符区域;将有效字符区域进行分组,并统计各字符区域中的黑点个数;根据每个分组中字符区域黑点个数之间的相对关系及第一步长提取嵌入的水印信息位串。在上述的二值文本水印技术中,水印图像块作为水印的嵌入区域显得尤为重要。 可以看出,在上述专利申请1中,水印图像块直接作为水印嵌入区域。在专利申请2中,二值文本图像部分划分为嵌入部分,即为水印图像块。在专利申请3中,文本图像中分组后的有效字符区域作为水印图像块。以上专利申请均通过改变水印图像块内的黑色像素点个数来嵌入水印,通过量化水印图像块内的黑色像素点个数来提取水印。因此,上述方法都是基于两个前提1、正确的字符切分结果。目前的字符切分算法大多依赖于光学字符识OCR (Optical Character Regnition)系统的字符识别结果,但是考虑到OCR识别的速度和效率问题,一般不会在数字水印系统中引入OCR机制,并且对于粘连的西文字符而言,OCR识别也存在一定的错误率;2、水印图像块的黑色像素点个数波动范围不大。比如在中文文档中,采用的是基于一个汉字为一个水印图像块。中文是方块字,各个字符的面积大小差别不大,因此水印图像块中的黑色像素点个数差别不大,从而保证了水印嵌入和提取的正确率。但是,上述方法不太适合于西文文档。面临的困难有a)西文字母在打印前后的粘连现象普遍,无法保证打印扫描前后的字符切分的一致性。例如“mn”、“tt”等。如果将单个西文字母作为水印图像块,字母的粘连必然影响水印嵌入和提取前后的字符图像块切分序列的再同步性,从而影响水印嵌入和提取的成功率。b)西文单词的长度差别较大,单词所含字符图像块的黑点个数波动比较大。例如 "My extraordinary power”,其中各单词长度差别数倍。如果将单个西文单词作为水印图像块,那么水印图像块中的黑色像素点个数差别很不稳定,无法完成水印操作。c)西文文档中的字号变化造成的字符大小变化。例如“Here”和“Here”,所包含的黑色象素点个数相差甚远。针对不同字号的文档,需要采取不同的量化方法。因此,针对西文文本文档,获得的水印图像块需要满足以下条件1、能够避免因字符粘连带来的水印图像块不同步的影响。2、水印图像块中的黑色像素点个数差别不大。3、针对不同字号的文档,可按大小自适应地划分水印图像块。

发明内容
本发明旨在提供一种用于西文水印处理的水印图像分块方法和装置,以解决现有技术对于西文图像难以正确划分水印图像块的问题。在本发明的实施例中,提供了一种用于西文水印处理的水印图像分块方法,包括 将西文图像通过行列切分得到多个字符图像块;从字符图像块中识别有效字符图像块;对有效字符图像块的尺寸进行统计,以确定西文图像是大字号文档或是小字号文档;针对大字号字符文档和小字号字符文档分别采用不同数目的单词进行分组;均分单词组为多份, 以这些份对应水印图像块。在本发明的实施例中,提供了一种用于西文水印处理的水印图像分块装置,包括 切分模块,用于将西文图像通过行列切分得到多个字符图像块;识别模块,用于从字符图像块中识别有效字符图像块;统计模块,用于对有效字符图像块的尺寸进行统计,以确定西文图像是大字号文档或是小字号文档;分组模块,用于针对大字号字符文档和小字号字符文档分别采用不同数目的单词进行分组;均分模块,用于均分单词组为多份,以这些份对应水印图像块。本发明上述实施例的用于西文水印处理的水印图像分块方法和装置,因为根据字符大小合理地设置水印图像块,所以解决了现有技术对于西文图像难以正确划分水印图像块的问题,保证了水印嵌入处理的可操作性。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中图1为本发明实施例提供的一种用于西文水印处理的水印图像分块方法的流程图;图2为本发明实施例提供的一种大小字号字符文档判别方法的流程图;图3为本发明实施例提供的一种有效字符区域分组方法的流程图;图4A为本发明实施例中的西文二值图像行高和中心线示意图;图4B为本发明实施例中的西文二值图像有效字符图像块示意图;图5为本发明实施例中的西文二值图像字符切分结果示意图;图6为本发明实施例中的西文二值图像单词分组结果示意图;图7A为本发明实施例中的计算单词分组中字符有效长度的示意图;图7B为本发明实施例中的获得水印图像块示意图;图8A为本发明实施例中的西文小字号字符文档的水印图像块示意图;图8B为本发明实施例中的西文小字号字符文档打印扫描后的水印图像块示意图;图8C为本发明实施例中的西文小字号字符文档在不正常间距和部分字符粘连下的水印图像块示意图;图8D为本发明实施例中的西文大字号字符文档的水印图像块示意图;图8E为本发明实施例中的西文大字号字符文档打印扫描后的水印图像块示意图;图9为本发明实施例中的计算单词切分中切分阈值的示意图;图10为本发明实施例提供的一种用于西文水印处理的水印图像分块装置的示意图。
具体实施例方式下面将参考附图并结合实施例来详细说明本发明。
图1为本发明实施例提供的一种用于西文水印处理的水印图像分块方法的流程图,包括步骤S10,将西文图像通过行列切分得到多个字符图像块;步骤S20,从字符图像块中识别有效字符图像块;步骤S30,对有效字符图像块的尺寸进行统计,以确定西文图像是大字号文档或是小字号文档;步骤S40,针对大字号字符文档和小字号字符文档分别采用不同数目的单词进行分组;步骤S50,均分单词组为多份,以这些份对应水印图像块。该实施例对有效字符图像块的尺寸进行统计,这充分考虑了西文单词在不同字体下行列切分的特性,区分大字号字符文档和小字号字符文档。自适应地采用不同数目的单词分组,获得的水印图像块中的黑色像素点个数差距较小,保证了水印嵌入处理的可操作性。另外,本实施例均分单词组为多份,这充分考虑了西文字符间隙打印前后不稳定的特性,在嵌入端,确定扩间距字符和缩间距字符进行适当修正。从而保证打印扫描前后的西文单词切分结果的一致性,使得该水印图像块的再同步性较强,并使得水印嵌入和提取处理的健壮性更好。优选地,本方法在步骤SlO之前还包括获取西文图像;对西文图像进行降噪处理,得到二值化的西文图像。该步骤是实现了对西文图像的预处理,很容易在计算机上实现。本优选实施例通过降噪处理,可以得到较好的西文二值文本图像。优选地,步骤S20包括将字符图像块区分为标点图像块和有效字符图像块。西文文本主要包括标点和字母,标点通常较小,不适合嵌入水印。本优选实施例对字符图像块进行区分,可以排除标点。优选地,将字符图像块区分为标点图像块和有效字符图像块包括判断以下条件条件1、w > NtlXH;条件2、U的底边与顶边均落在m的同侧;条件3、U的底边与顶边分别落在m的两侧,且w < Nt2XH ;其中,U为字符图像块的集合Ω中的字符图像块的外接矩形框,H为U所处行的行高,m为U所处行的中线位置,h、w分别为U的高度、宽度,Ntl和Nt2为预设的系数;如果条件1-3中任一条成立,则确定U对应的字符图像块为标点图像块,如果条件 1-3均不成立,则确定U对应的字符图像块为有效字符图像块。本优选实施例给出了具体的数值化判断流程,有利于在计算机中编程实现。优选地,设置Ntl = 4,Nt2 = 0. 35。本优选实施例是发明人经过大量艰苦的试验后得到的最佳系数。当然,将系数设置在以上数值附近范围也是可行的,这仍然属于本发明的精神范围。
h + h + · · · + /2优选地,步骤S30包括计算协=-1?-^ ;其中ΛΑ、…、hm分别是
m
U所处行的有效字符图像块1、2、…、m的高度;如果Hs ^ Thsize,则确定U所处行是大字号字符行,否则是小字号字符行,其中Thsize是预设阈值;统计西文图像中大字号字符行的行数Nlaw和小字号字符行的行数Nsmall ;如果Nlaw ^ Nsmall,则确定西文图像是大字号字符文档,否则是小字号字符文档。本优选实施例给出了具体的数值化判断流程,有利于在计算机中编程实现。优选地,设置Thsize = 88。本优选实施例是发明人经过大量艰苦的试验后得到的最佳阈值。当然,将阈值设置在以上数值的附近范围也是可行的,这仍然属于本发明的精神范围,应当受到权利要求的保护。图2为本发明实施例提供的一种大小字号字符文档判别方法的流程图。本实施例通过初步的行列切分获得若干字符图像块的外接矩形框。通过字符图像块的统计特征判断大字号字符行和小字号字符行,然后确定大字号字符文档和小字号字符文档的类型。具体包括以下步骤S201、获取字符图像块。通过初步的行列切分获得若干字符图像块的外接矩形框。如图4A所示,对当前字符图像块集合Ω,H为当前行的行高,m为当前行的中线位置。如图4B所示,字符图像块U 即为Ω中任意一个外接矩形框。h、w分别为U的高度、宽度。S202、区分标点字符图像块。字符图像块U如果满足以下3个条件中的任意一项,标记U为标点字符图像块,否则,标记为有效字符图像块。条件1、w > NtlXH;条件2、该字符图像块U的底边与顶边均落在中心线同侧;条件3、该字符图像块U的底边与顶边分别落在中心线异侧,且w < Nt2XH0一般地,Ntl = 4,Nt2 = 0. 35。其中,条件1是筛选形如下划线“_,,的标点符号;条件2是筛选形如逗号、
句号、引号的标点符号;条件3是筛选形如连词符号“_”的标点符号。显然,经过该步骤,所有的字符图像块U都被区分成标点图像块和有效字符图像块两类。S203、计算有效字符图像块的统计特征。不妨设当前行中,有效字符图像块U的个数为m。那么当前行的有效字符图像块的有效高度Hs为
权利要求
1.一种用于西文水印处理的水印图像分块方法,其特征在于,包括 将西文图像通过行列切分得到多个字符图像块;从所述字符图像块中识别有效字符图像块;对所述有效字符图像块的尺寸进行统计,以确定所述西文图像是大字号文档或是小字号文档;针对所述大字号字符文档和所述小字号字符文档分别采用不同数目的单词进行分组;均分所述单词组为多份,以所述份对应水印图像块。
2.根据权利要求1所述的方法,其特征在于,从所述字符图像块中识别有效字符图像块包括将所述字符图像块区分为标点图像块和所述有效字符图像块。
3.根据权利要求2所述的方法,其特征在于,将所述字符图像块区分为标点图像块和所述有效字符图像块包括判断以下条件 条件 l、w > NtlXH ;条件2、U的底边与顶边均落在m的同侧;条件3、U的底边与顶边分别落在m的两侧,且w < Nt2XH5其中,U为所述字符图像块的集合Ω中的所述字符图像块的外接矩形框,H为U所处行的行高,m为U所处行的中线位置,h、w分别为U的高度、宽度,Ntl和Nt2为预设的系数;如果条件1-3中任一条成立,则确定U对应的所述字符图像块为所述标点图像块,如果条件1-3均不成立,则确定U对应的所述字符图像块为所述有效字符图像块。
4.根据权利要求3所述的方法,其特征在于,设置Ntl= 4,Nt2 = 0. 35。
5.根据权利要求3所述的方法,其特征在于,对所述有效字符图像块的尺寸进行统计包括计算历= h+/ 2+"’ + /S m其中,hptv…、hm分别是U所处行的所述有效字符图像块1、2、…、m的高度; 如果Hs ^ Thsize,则确定U所处行是大字号字符行,否则是小字号字符行,其中Thsize是预设阈值;统计所述西文图像中所述大字号字符行的行数Nlaw和所述小字号字符行的行数N ·丄,small ‘如果队_ ^ Nsmall,则确定所述西文图像是所述大字号字符文档,否则是所述小字号字符文档。
6.根据权利要求5所述的方法,其特征在于,设置Thsize= 88。
7.根据权利要求1所述的方法,其特征在于,均分所述单词组为多份,以所述份对应水印图像块包括将所述单词组按照其中单词列投影下的有效长度均分成固定份数; 以所述份所占的宽度和所在字符的最大高度组合成外接矩形框,所述外接矩形框对应所述水印图像块。
8.根据权利要求1所述的方法,其特征在于,在将西文图像通过行列切分得到多个字符图像块之前,还包括获取所述西文图像;对所述西文图像进行降噪处理,得到二值化的所述西文图像。
9.一种用于西文水印处理的水印图像分块装置,其特征在于,包括 切分模块,用于将西文图像通过行列切分得到多个字符图像块; 识别模块,用于从所述字符图像块中识别有效字符图像块;统计模块,用于对所述有效字符图像块的尺寸进行统计,以确定所述西文图像是大字号文档或是小字号文档;分组模块,用于针对所述大字号字符文档和所述小字号字符文档分别采用不同数目的单词进行分组;均分模块,用于均分所述单词组为多份,以所述份对应水印图像块。
10.根据权利要求9所述的装置,其特征在于,所述识别模块包括 判断模块,用于判断以下条件条件 l、w > NtlXH ;条件2、U的底边与顶边均落在m的同侧;条件3、U的底边与顶边分别落在m的两侧,且w < Nt2XH5其中,U为所述字符图像块的集合Ω中的所述字符图像块的外接矩形框,H为U所处行的行高,m为U所处行的中线位置,h、w分别为U的高度、宽度,Ntl和Nt2为预设的系数;确定模块,用于如果条件1-3中任一条成立,则确定U对应的所述字符图像块为标点图像块,如果条件1-3均不成立,则确定U对应的所述字符图像块为所述有效字符图像块。
11.根据权利要求10所述的装置,其特征在于,所述统计模块包括计算模块,用于计算
全文摘要
本发明提供了一种用于西文水印处理的水印图像分块方法,包括将西文图像通过行列切分得到多个字符图像块;从字符图像块中识别有效字符图像块;对有效字符图像块的尺寸进行统计,以确定西文图像是大字号文档或是小字号文档;针对大字号字符文档和小字号字符文档分别采用不同数目的单词进行分组;均分单词组为多份,以份对应水印图像块。本发明还提供了一种用于西文水印处理的水印图像分块装置。本发明保证了水印嵌入处理的可操作性。
文档编号G06T1/00GK102567938SQ20101062042
公开日2012年7月11日 申请日期2010年12月23日 优先权日2010年12月23日
发明者亓文法, 杨斌, 王立东, 王高阳 申请人:北京北大方正电子有限公司, 北京大学, 北大方正集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1