一种水印嵌入和提取方法及装置的制作方法

文档序号:6471876阅读:196来源:国知局
专利名称:一种水印嵌入和提取方法及装置的制作方法
技术领域
本发明涉及数字版权管理领域,尤指一种用于数字文本的、基于标点的文本数字
水印嵌入和提取方法及装置。
背景技术
随着全球信息数字化进程的日益加快,文本资料大量涌现,如个人档案、医疗记 录、学历证书、专利证件、手写签名、馆藏图书、机要文件等等都是文本的常见形式,这些文 本资料的重要性是不言而喻的。此外,随着电子商务、电子政务的日趋流行,对网上发行的 电子刊物进行盗版追踪,对来往的电子信函、公文或传真进行真伪判断、完整性认证也日益 紧迫。因此在文本资料中嵌入水印(即加入附加的信息),从而实现产权保护、信息安全维 护等也就显得尤为重要。
上面所说的文本资料,有两种常见的载体形式一是纸张,二是电子文档。嵌入水
印的方式也有两种显式和隐式。显式嵌入水印,指加入的信息人眼明显可见,例如半透明
图像水印、在背景上印刷上单位名称、附加的条码等等。隐式嵌入水印,指加的信息人眼很
难察觉,例如各种隐式的图像水印,需要用特定的仪器结合相应的软件才能识别出来。在上
述几种情况的组合中,对纸质文件隐式地嵌入水印较为困难,其中又以在黑白二值的单色
纸质文件(下面简称为二值纸张)中进行嵌入难度最大。纸质文件嵌入信息,最常见的是
显示方式,例如在纸张背景上加上特定的背景图,写上特定的文字(如银行给客户看的样
本文件,会在一些区域写上"样本"的字样);或采用特殊的纸张作为载体等。但在二值纸
张,例如在常见的"白纸黑字"中隐式地嵌入信息,是很困难的。 现有的技术中,也出现了一些在二值纸张中嵌入数字水印的技术。 例如技术文献《Brassil J, Low S, Maxemchuk N F. Copyright Protectionfor
the Electronic Distribution of Text Documents. Proceedings of the IEEE, 1999,
87(7) :1181-1196》中,公开了通过修改行间距、字间距来调整文档的排版格式,从而实现信
息的嵌入,该方法原理简洁,容易实现。其主要问题是嵌入信息的稳定性与视觉效果的矛盾
很难解决如果行间距、字间距的改变量不足,则信息提取时很难做到准确;如果要保证提
取的准确性,则需要较大的改变量,很容易被读者察觉,不能达到"隐式"的效果。 专利申请《对电子公文或文档进行加密及鉴别真伪的方法》(公开号CN1588351)
中公开了将普通汉字做一些轻微的变形,人眼不易察觉,但可以通过手工或OCR技术识别
出这种轻微的变形,从而达到隐式嵌入信息的目的。该方法嵌入信息量较大,稳定性高,但
涉及到字库、OCR、打印输出、特定的电子文本格式(用于打印)、数据训练等技术,其工序烦
琐、工作量大、制作成本非常高昂。 专利申请《基于字符拓扑结构的文本数字水印技术》(公开号CN1684115)中公开 了通过改变组成字符(串)的各笔划之间的连断关系来改变字符的拓扑结构,使变体字的 笔划组成的连通域数目发生变换,从而嵌入信息的方法。该方法的主要缺点首先是制作成 本高,此外在信息检测时的鲁棒性也不理想纸张的轻微污染可能造成原来未连通的笔划连通,而复印很容易造成原来连接的笔划断开,使连通域发生变化,从而使得通过连通域数 来检测变得很不稳定。 专利申请《一种数字水印嵌入与提取方法及装置》(公开号CNI945622A)中公开了 将文本中各字符划分区域,翻转每个区域内的点,造成区域内黑像素点发生变化,从而嵌入 信息。该方法嵌入水印的制作成本高,且由于视觉特征的限制,翻转的点只能在字符笔划边 缘处,实际是改变了笔划的粗细,对视觉效果也不够理想。 可见,现有技术中对文档进行加密(嵌入水印)的方法,存在潜入信息量大,工作 量大,制作繁琐,制作成本高的缺点;其稳定性也比较差,在复制过程中很难保持;且容易 被读者察觉,隐避效果不好,视觉效果也不佳。

发明内容
本发明实施例提供一种水印嵌入和提取方法及装置,用于解决现有技术中在文本
文档中嵌入水印信息时存在的稳定性差、隐蔽性差的问题。 —种水印嵌入方法,包括 根据设定的区域确定规则,确定出待嵌入信息的文本文档中的可用标点区域;
根据设定的位置确定规则,分别确定出每个所述可用标点区域中标点的原始位 置; 针对每一个可用标点区域,根据其中标点的原始位置和对应的待嵌入编码,对其
中标点的位置进行调整,实现将所述待嵌入编码嵌入到对应的可用标点区域中。 —种水印提取方法,包括 根据与嵌入水印信息时相同的区域确定规则,确定出已嵌入信息的文本文档中的 可用标点区域; 根据与嵌入水印信息时相同的位置确定规则,分别确定出每个所述可用标点区域 中标点所在的位置; 根据所述标点所在的位置,分别确定出各可用标点区域中的嵌入编码。
—种水印嵌入装置,包括 区域确定模块,用于根据设定的区域确定规则,确定出待嵌入信息的文本文档中 的可用标点区域; 位置确定模块,用于根据设定的位置确定规则,分别确定出每个所述可用标点区 域中标点的原始位置; 信息嵌入模块,用于针对每一个可用标点区域,根据其中标点的原始位置和对应 的待嵌入编码,对其中标点的位置进行调整,实现将所述待嵌入编码嵌入到对应的可用标 点区域中。 —种水印提取装置,包括 区域确定模块,用于根据与嵌入水印信息时相同的区域确定规则,确定出已嵌入 信息的文本文档中的可用标点区域; 位置确定模块,用于根据与嵌入水印信息时相同的位置确定规则,分别确定出每 个所述可用标点区域中标点所在的位置; 编码提取模块,用于根据所述标点所在的位置,分别确定出各可用标点区域中的嵌入编码。 本发明实施例提供的水印嵌入和提取方法及装置,通过选取可用标点区域;通过 对每一个可用标点区域中的标点位置进行调整,实现将待嵌入编码嵌入到对应的可用标点 区域中。在提取水印时,则根据调整后的标点位置采用对应的规则分别提取出各个可用标 点区域中的嵌入编码。上述方法操作简单,且由于人眼对标点位置改变的敏感度远远小于 对字符位置的改变,因此可做较大幅度的改变,使得嵌入的水印信息稳定性高,隐藏性好, 同时能够保证良好的视觉效果。


图1为本发明实施例中水印嵌入方法的流程图; 图2为本发明实施例中确定出文档片段中可用标点区域的示例图; 图3为本发明实施例中对确定出的可用标点区域进行频带划分的示意图; 图4为本发明实施例中在可用标点区域中嵌入信息后的文本片段示例; 图5为本发明实施例中水印提取方法的流程图; 图6为本发明实施例中水印嵌入装置的结构示意图; 图7为本发明实施例中水印提取装置的结构示意图。
具体实施例方式
本发明实施例提供的水印嵌入和提取方法,根据设定的区域选取规则在待嵌入水 印信息的文本文档中选取可用标点区域,确定出每个可用标点区域中标点所在的位置,然 后通过调整每个可用标点区域中标点的位置,达到嵌入水印信息的目的;在提取时,仍采用 相同的规则确定出已嵌入水印信息的文本文档中的可用标点区域和每个可用标点区域中 标点所在的位置,根据标点所在的位置得到嵌入的水印信息。 本发明实施例提供的水印嵌入方法,通过调整文本文档中标点的位置,达到嵌入 水印信息的目的,其流程图如图1所示,执行步骤如下 S101 :根据设定的区域选取规则,查找并确定出待嵌入信息的文本文档中的可用 t示点区域。 首先,利用OCR,对欲嵌入信息的文本文档进行版面识别分析,去除文本文档中的 边框、表格线、图像、花边等非文本区域的特征,获得纯文本区域。 对纯文本区域进行文字切分和标点分析,找出所有可用标点,确定出可用标点区 域。 可用标点是指标点的前后均有至少一个其他字符,即标点所在位置满足"其它字 符、标点、其它字符"这一位置关系。对于不满足此条件的标点则可舍去不用。例如,当标点 位于文字行的最后时,由于其后没有其他字符而不符合条件,故对于这样的标点则舍去不 用。其中,其它字符包括中文、数字、字母等除标点外的所有其它符号。 根据可用标点及其前后相邻的两个其他字符,定义起始边界和终止边界、得到可 用标点区域。其中,可用标点区域的起始边界可以包括前面字符的左边界、右边界、重心位 置或中心位置等,可用标点区域的终止边界可以包括后面字符的左边界、右边界、重心位 置或中心位置等。
例如图2所示的文本文档中,确定出可用标点包括"示,是"之间的","、"图。 首"之间的"。"、"先,文"之间的","等7个可用标点。可用标点区域的起始边界取的是前 面字符的左边界,终止边界取的是后面字符的右边界,从而确定出图2所示的"示,是"、"图。 首"、"先,文"等7个可用标点区域。 S102 :根据设定的位置确定规则,确定出可用标点区域中标点的原始位置。具体包 括 (1)将每个可用标点区域划分为若干频带。 根据设定的边界规则,计算出各可用标点区域的长度,即起始边界至终止边界的 距离。根据计算出来的距离,分别将各可用标点区域平均划分为若干份,每份即为一个 频带。例如分为k份,则从第一个频带到最后一个频带,其对应的频带索引分别为0、1、
2、. . k-l。 沿用上边的例子,将图2中确定出的7个可用标点区域均进行频带划分,例如每个 可用标点区域划分为16个频带,划分后如图3所示。 (2)根据每个可用标点区域中的标点所在的坐标位置,分别确定出每个可用标点 区域中标点所在的频带以及对应的频带索引。 可以由标点的重心、中心、左边界或右边界等位置参数代表标点的位置,根据标点 的重心、中心、左边界或右边界等所在的位置确定标点所在的频带,并确定出对应的频带索 引。 根据标点的重心位置确定标点所在的频带时,需要先计算标点重心所在的坐标位 置。计算标点重心坐标的公式如下 其中,A Si表示该标点包含的水平坐标为Xi的黑像素点数;
Xi表示任意水平坐标值。
S为标点的黑像素点数的总和;
x。为标点的重心坐标。 然后,根据计算出的坐标位置所在频带得到标点所在的频带。即根据每个频带所
处的坐标范围,判断重心坐标Xc落入了哪个频带,以及对应的频带索引。 例如对图3所示的第一个区域"示,是",计算出逗号在水平方向的重心坐标后,
根据重心坐标确定出其所在的频带为频带索引为6的频带。 特别的,对于横排的文本文档,计算水平重心,而对于竖排的文本文档则需要计算 的是垂直方向的重心,垂直重心的计算公式可以根据水平重心的计算公式类比得到。
当需要根据中心计算时,也有相应的公式,此处不再一一列举。 需要说明的是,许多标点带有拖尾,例如逗号就带有一个较尖的尾部。这时若将纸 张通过扫描仪等设备扫描为图像,则其较尖的尾部易发生消失或断裂的情况,即其尾部的 尖缺失了。这时如果以标点的中心或左、右边界来代表标点的位置,则会出现误差。如果以 标点的重心代表标点的位置,则由于个别点的缺失或增加对整个标点重心位置的改变非常 小,在实际计算过程中,对该值四舍五入后,得到的重心坐标值基本上不会发生变化,因此 用标点的重心位置来代表标点的位置,是最佳的选择,可获得更好的稳定性。
S103 :根据设定的信息嵌入规则,确定出每个可用标点区域的待嵌入编码。其中, 信息嵌入规则可以任意设置和选择。具体包括 首先,根据文本文档对应的待嵌入信息,确定出待嵌入的二进制数;其中确定出的 待嵌入的二进制数的位数小于等于确定出的可用标点区域数量。 若待嵌入信息本身是一个二进制数,且其位数小于等于确定出的可用标点区域数 量,则直接确定该嵌入信息为待嵌入的二进制数。 若待嵌入信息本身是一个二进制数,但其位数大于确定出的可用标点区域数量, 则选择一个位数小于等于确定出的可用标点区域数量的二进制数,作为待嵌入的二进制 数,并建立所选择的二进制数与待嵌入信息的对应关系,并将待嵌入信息,以及其与选择的 二进制数的对应关系保存记录下来,例如记录在数据库中。 若待嵌入信息本身不是一个二进制数,但通过进制转化能转化为二进制数,且转 化得到的二进制数位数小于等于确定出的可用标点区域数量,则确定转化得到的二进制数 为待嵌入的二进制数。 若待嵌入信息本身不是一个二进制数,但通过进制转化能转化为二进制数,且转 化得到的二进制数位数大于确定出的可用标点区域数量,则选择一个位数小于等于确定出 的可用标点区域数量的二进制数,作为待嵌入的二进制数,并建立所选择的二进制数与所 述待嵌入信息的对应关系,并将待嵌入信息,以及其与选择的二进制数的对应关系记录下 来,例如保存在数据库中。 若待嵌入信息本身不是二进制数,且不能转化为二进制数时;则选择一个位数小 于等于确定出的可用标点区域数量的二进制数,作为待嵌入的二进制数,并建立所选择的 二进制数与待嵌入信息的对应关系,并将待嵌入信息,以及其与选择的二进制数的对应关 系记录下来,例如保存在数据库中。 然后,根据待嵌入的二进制数和设定的信息嵌入规则,确定出每个可用标点区域 的待嵌入编码。具体为根据待嵌入的二进制数的位数和可用标点区域的数量,依照设定的 信息嵌入规则,确定出每个可用标点区域的待嵌入编码。 若待嵌入的二进制数的位数等于可用标点区域的数量,则直接进行分配,即直接 将待嵌入的二进制数包含的二进制编码分别分配给各可用标点区域作为待嵌入编码。
若待嵌入的二进制数位数小于可用标点区域的数量,则通过冗余算法为各可用标 点区域分别分配一个待嵌入的二进制数中包含的二进制编码作为待嵌入编码。若可用标点 区域的数量为M, 二进制数的位数为N,且M < N ;则计算M/N,得到商和余数。将余数对应 的可用标点区域舍去,然后为剩余的可用标点区域分配待嵌入编码,例如得到的商为3,则 为第1-3个可用标点区域分配二进制数中包含的第一位二进制编码作为待嵌入编码,为第
4-6个可用标点区域分配二进制数中包含的第二位二进制编码作为待嵌入编码,......,以
此类推。 沿用上边的例子,如果将123这个数作为待嵌入的信息嵌入文本文档,则将123转 化为二进制数1111011,由于该二进制数的位数为7,而确定出的可用标点区域也为7个, 因此直接将1111011分配给图2中所示的7个可用标点区域,其中区域"示,是"分配该二进 制数的第一位二进制编码1、区域"图。首"分配该二进制数的第二位二进制编码1........
例如将345这个数作为待嵌入的信息,则将345转化为二进制数101011001,由 于该二进制数的位数为9,而确定出的可用标点区域也为7个,因此随机选择一个位数小于 等于可用标点区域数量的二进制数。此处可以选择一个7位的二进制数也可以选择一个小 于7位的二进制数。建立起选择的二进制数与345这个待嵌入信息的对应关系,并存储345 这个待嵌入信息及其与所选择。 特别的,当每个可用标点区域对应的待嵌入编码已知或已随机设定时,则可以不 用省略步骤S103,在执行完步骤S102后直接进入步骤S104。 S104 :根据各可用标点区域中标点的原始位置和对应的待嵌入编码,调整各可用 标点区域中标点的位置。通过调整标点的位置可以实现每个可用标点区域对应的待嵌入编 码嵌入到各可用标点区域中。 其中,每个可用标点区域对应的待嵌入编码包括1或O,根据待嵌入编码的奇偶性 以及标点所在的频带的频带索引的奇偶性(简称索引奇偶性),对标点的位置进行调整,使 其位置发生变化,来达到嵌入信息的目的。具体为 (i)若某可用标点区域中标点所在的原始位置对应的频带索引为奇数,且该可用 标点区域对应的待嵌入编码为O,则移动该可用标点区域内标点的位置至频带索引为偶数 的频带,即移动标点的位置使其频带索引变为偶数。 (ii)若某可用标点区域中标点所在的原始位置对应的频带索引为奇数,且该可用 标点区域对应的待嵌入编码为l,则不改变该可用标点区域内标点所在的频带,即标点所在 的频带索引的奇偶性不变。此时为了使嵌入信息的稳定性更好,也要根据情况移动标点的 位置,详见下面的说明。 (iii)若某可用标点区域中标点所在的原始位置对应的频带索引为偶数,且该可 用标点区域对应的待嵌入编码为O,则不改变该可用标点区域内标点所在的频带,即标点所 在的频带索引的奇偶性不变。此时为了使嵌入信息的稳定性更好,也要根据情况移动标点 的位置,详见下面的说明。 (iv)若某可用标点区域中标点所在的原始位置对应的频带索引为偶数,且该可用 标点区域对应的待嵌入编码为l,则移动该可用标点区域标点的位置至频带索引为奇数的 频带,即移动标点的位置使其频带索引变为偶数。 对所有需要嵌入待嵌入编码的可用标点区域都进行上述处理后,就完成对文本文 档的水印信息嵌入。 沿用上述例子,当待嵌入信息是123这个数时,对应于第一个可用标点区域"示, 是"的待嵌入编码为l,该区域内标点所在的频带频带索引6为偶数,根据上述移动规则的 第(iv)条,需要将其移动到频带索引为奇数的频带上去,则将该可用标点区域内的标点移 至相邻的频带索引为5或7的频带,本实施例中是以移到频带索引为5的频带上为例。同 理将其他6个区域的标点按照上述规则进行移动,移动后各可用标点区域中标点的位置如 图4所示。 上述(ii)、 (iii)两种情况下并不需要改变标点所在频带的奇偶性,但如果标点 正好位于频带的边缘附近,则很不稳定,很可能由于各种干扰(例如打印、扫描等)造成其 频带索引的奇偶性翻转。例如某可用标点区域中标点的处于第3个频带中,其所在位置的 具体值为3.01,由于某种干扰,使其变为2. 99,则其频带索引的奇偶性由奇数3,变成了 2,则会在后续检测时发生错误。因此对于不需要进行频带索引的奇偶性翻转的标点所在位置 调整到其所在频带的中间,可大大增加稳定性。例如上述的标点的位于第3个频带中所在 位置的具体值为3. Ol,可以将其调整为3. 5,则可有效地增加其稳定性。
同理,对于需要改变所在频带的频带索引奇偶性的标点,也应将之移动到所要调 整到的频带的中间位置处,以使其所处位置的稳定性较好。例如上述的可用标点区域"示, 是",将其索引从6调整为5时,使其所处位置的具体值为5. 5。 本发明实施例提供的水印提取方法,用于提取使用上述水印嵌入方法所嵌入的水 印信息,其流程图如图5所示,执行步骤如下 S201 :根据与嵌入水印信息时所采用的相同的区域选取规则,查找并确定出已嵌 入信息的文本文档中的可用标点区域。 该步骤确定可用标点区域的过程具体同步骤S101,此处不再赘述。所不同的是在 步骤S101可以随意选择区域选取规则,即可以定义可用标点区域的起始边界和终止边界, 而该步骤中必须采用所处理的文本文档嵌入水印信息时所采用的边界选取规则,对可用标 点区域使用与嵌入水印信息时相同的起始边界和终止边界。 沿用上边的例子,则可确定出图4所示的文本片段中的7个可用标点区域。
S202 :根据与嵌入水印信息时相同的位置确定规则,分别确定出每个可用标点区 域中标点所在的位置。 确定可用标点区域中标点所在位置的过程具体同步骤S102。 所不同的是在确定标点位置时,需要使用与嵌入信息时相同的位置参数(标点 的重心、中心、左边界或右边界等)代表可用标点的位置,例如,嵌入信息时以重心代表标 点的位置,则此步骤中也必须以重心代表标点的位置。以保证确定出来的标点所在的频带 以及对应的频带索引的准确性。 沿用上边的例子,对于第一个可用标点区域"示,是"确定出标点所在的频带为5 或7。 S203 :根据各可用标点区域中标点所在的位置,分别确定出各可用标点区域中的 嵌入编码。具体为 根据可用标点区域中标点所在频带对应的频带索引的奇偶性,确定嵌入该可用标 点区域中的嵌入编码。 若可用标点区域中标点所在的频带对应的频带索引为偶数,则确定该可用标点区 域内的嵌入编码为0。 若可用标点区域中标点所在的频带对应的频带索引为奇数,则确定该可用标点区 域内的嵌入编码为1。 沿用上边的例子,根据确定出的第一个可用标点区域"示,是"中标点所在的频带
为5或7,得到该区域内的嵌入编码为1。
上述水印提取方法还可以包括下述步骤 S204:根据嵌入水印信息时相同的信息嵌入规则和确定出的各可用标点区域中的 嵌入编码,得到该文本文档中的嵌入信息。具体为 根据嵌入水印信息时相同的信息嵌入规则和确定出的各可用标点区域中的嵌入 编码,得到嵌入文本文档中的二进制数。
根据得到的二进制数,得到文本文档对应的嵌入信息。具体包括若二进制数即为 嵌入信息时,则可以直接的到嵌入信息;若二进制数不是嵌入信息时,查找存储的嵌入的二 进制数与嵌入信息的对应关系,获取到嵌入信息。 沿用上边的例子,根据各个可用标点区域内的嵌入编码和嵌入水印信息时的分配
规则,得到嵌入该文本片段中的二进制数为iiiioii,进一步可以恢复出嵌入该文本文档的
信息为123。 上述水印嵌入和提取方法中,在嵌入水印时频带的划分可通过计算机软件分析文 本的扫描图,也可由人工用标尺等工具,在纸张上直接划分;相应的在提取水印时,也可以 通过计算机软件或人工方式进行提取,得到每个可用标点区域对应的嵌入编码;进而可以 恢复出嵌入的二进制数。 根据上述水印嵌入方法,可以构建一种水印嵌入装置,如图6所示,包括区域确 定模块101、位置确定模块102和信息嵌入模块103。 区域确定模块101,用于根据设定的区域确定规则,确定出待嵌入信息的文本文档 中的可用标点区域。 较佳的,区域确定模块IOI,进一步可以包括获取单元1011、标点确定单元1012 和区域确定单元1013。 获取单元1011,用于获取文本文档中的纯文本区域。 标点确定单元1012,用于对获取单元1011获取到的纯文本区域进行文字切分和 标点分析,确定出包含的可用标点;其中,可用标点的前后均至少有一个相邻的其他字符。
区域确定单元,用于根据标点确定单元1012确定出的可用标点及其前后相邻的 两个其他字符,定义起始边界和终止边界,得到可用标点区域。 位置确定模块102,用于根据设定的位置确定规则,分别确定出每个可用标点区域 中标点的原始位置。 较佳的,位置确定模块102,进一步可以包括频带划分单元1021和位置确定单元 1022。 频带划分单元1021,用于计算每个可用标点区域的起始边界至终止边界的距离, 根据上述距离将每个可用标点区域划分为若干个频带。 位置确定单元1022,用于根据每个可用标点区域中的标点所在的坐标位置,分别 确定出每个可用标点区域中标点所在的频带以及对应的频带索引。 信息嵌入模块103,用于针对每一个可用标点区域,根据其中标点的原始位置和对 应的待嵌入编码,对其中标点的位置进行调整,实现将对应的待嵌入编码嵌入到对应的可 用标点区域中。 上述水印嵌入装置,还包括编码分配模块104,用于根据文本文档对应的待嵌入 信息,确定出待嵌入的二进制数;其中,二进制数的位数小于等于确定出的可用标点区域数 量;以及根据待嵌入的二进制数和设定的信息嵌入规则,确定出每个可用标点区域的待嵌 入编码。 根据上述水印提取方法,可以构建一种水印提取装置,如图7所示,包括区域确 定模块201、位置确定模块202和编码提取模块203。 区域确定模块201,用于根据与嵌入水印信息时相同的区域确定规则,确定出已嵌入信息的文本文档中的可用标点区域。 较佳的,区域确定模块201进一步可以包括获取单元2011、标点确定单元2012、 区域确定单元2013。 获取单元2011 ,用于获取文本文档中的纯文本区域。 标点确定单元2012,用于对获取单元2011获取到的纯文本区域进行文字切分和 标点分析,确定出包含的可用标点;其中,可用标点的前后均至少有一个相邻的其他字符。
区域确定单元2013,用于根据标点确定单元2012确定出的可用标点、其前后相邻
的两个其他字符和嵌入水印信息时定义的起始边界和终止边界,确定出可用标点区域。
位置确定模块202,用于根据与嵌入水印信息时相同的位置确定规则,分别确定出
每个可用标点区域中标点所在的位置。 较佳的,位置确定模块202进一步可以包括频带划分单元2021和位置确定单元 2022。 频带划分单元2021,用于计算每个可用标点区域的起始边界至终止边界的距离, 根据上述距离将每个可用标点区域划分为若干个频带。 位置确定单元2022,用于并根据每个可用标点区域中的标点所在的坐标位置,分 别确定出每个可用标点区域中标点所在的频带以及对应的频带索引。 编码提取模块203,用于根据位置确定模块202确定出的标点所在的位置,分别确 定出各可用标点区域中的嵌入编码。 上述水印提取装置,还包括信息恢复模块204,用于根据嵌入水印信息时相同的 信息嵌入规则和确定出的各可用标点区域中的嵌入编码,得到嵌入文本文档中的二进制 数;以及根据上述二进制数,得到文本文档对应的嵌入信息。 本发明实施例提供的水印嵌入和提取方法及装置,通过选取可用标点区域;通过 对每一个可用标点区域中的标点位置进行调整,实现将待嵌入编码嵌入到对应的可用标点 区域中。在提取水印时,则根据调整后的标点位置采用对应的规则分别提取出各个可用标 点区域中的嵌入编码。上述方法操作简单,且由于人眼对标点位置改变的敏感度远远小于 对字符位置的改变,因此可做较大幅度的改变,使得嵌入的水印信息稳定性高,隐藏性好, 同时能够获得良好的视觉效果。 此外,还可以根据待嵌入信息,确定出待嵌入的二进制数,进而通过设定的信息 嵌入规则,为各个可用标点区域分配待嵌入编码,根据待嵌入编码的值和标点的原始位置 (所在的频带),调整和移动标点的位置,完成信息嵌入;信息嵌入的安全、可靠性高,信息 提取时的准确性也比较高。尤其是通过改变标点重心来嵌入水印信息时,可以获得更好的、 更稳定、更准确的嵌入和检测提取效果。 本发明实施例提供的上述方法及装置,嵌入水印信息的信息隐蔽性好,且具有很 高的鲁棒性,可以抵抗多次打印、复印、縮放的攻击,水印提取可实现盲检测,运算快捷,适 用于对视觉要求高,鲁棒性要要求高的场合。解决了现有技术由于实施成本过高,或稳定性 与视觉效果的矛盾无法解决而导致难以在实际中使用的问题。 以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不局限于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化、替换或 应用到其他类似的装置,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准c
权利要求
一种水印嵌入方法,其特征在于,包括根据设定的区域确定规则,确定出待嵌入信息的文本文档中的可用标点区域;根据设定的位置确定规则,分别确定出每个所述可用标点区域中标点的原始位置;针对每一个可用标点区域,根据其中标点的原始位置和对应的待嵌入编码,对其中标点的位置进行调整,实现将所述待嵌入编码嵌入到对应的可用标点区域中。
2. 如权利要求1所述的方法,其特征在于,所述根据设定的区域确定规则,确定出待嵌入信息的文本文档中的可用标点区域,具体包括获取所述文本文档中的纯文本区域;对所述纯文本区域进行文字切分和标点分析,确定出包含的可用标点;所述可用标点的前后均至少有一个相邻的其他字符;根据所述可用标点及其前后相邻的两个其他字符,定义起始边界和终止边界,得到可用标点区域。
3. 如权利要求2所述的方法,其特征在于,所述可用标点区域的起始边界包括前面字符的左边界、右边界、重心位置或中心位置;所述可用标点区域的终止边界包括后面字符的左边界、右边界、重心位置或中心位置。
4. 如权利要求2所述的方法,其特征在于,所述根据设定的位置确定规则,分别确定出每个所述可用标点区域中标点的原始位置,具体包括计算每个所述可用标点区域的起始边界至终止边界的距离,根据所述距离将每个所述可用标点区域划分为若干个频带;并根据每个可用标点区域中的标点所在的坐标位置,分别确定出每个可用标点区域中标点所在的频带以及对应的频带索引。
5. 如权利要求4所述的方法,其特征在于,所述标点所在的坐标位置具体包括所述标点的重心、中心、左边界或右边界所在的坐标位置。
6. 如权利要求4所述的方法,其特征在于,所述根据其中标点的原始位置和对应的待嵌入编码,对其中标点的位置进行调整,具体包括若所述标点所在的原始位置对应的频带索引为奇数,且对应的待嵌入编码为O,则移动所述标点的位置至频带索引为偶数的频带;若所述标点所在的原始位置对应的频带索引为奇数,且对应的待嵌入编码为l,则不改变所述标点所在的频带;若所述标点所在的原始位置对应的频带索引为偶数,且对应的待嵌入编码为O,则不改变所述标点所在的频带;若所述标点所在的原始位置对应的频带索引为偶数,且对应的待嵌入编码为l,则移动所述标点的位置至频带索引为奇数的频带。
7. 如权利要求1-6任一所述的方法,其特征在于,还包括根据所述文本文档对应的待嵌入信息,确定出待嵌入的二进制数;所述二进制数的位数小于等于确定出的所述可用标点区域数量;根据所述待嵌入的二进制数和设定的信息嵌入规则,确定出每个所述可用标点区域的待嵌入编码。
8. 如权利要求7所述的方法,其特征在于,所述根据所述文本文档对应的待嵌入信息,确定出待嵌入的二进制数,具体包括若所述待嵌入信息本身是或能转化为位数小于等于所述可用标点区域数量的二进制 数,则确定所述待嵌入信息或转化得到的二进制数为待嵌入的二进制数;若所述待嵌入信息本身是或能转化为位数大于所述可用标点区域数量的二进制数,或 所述待嵌入信息不是且不能转化为二进制数时;则选择一个位数小于等于所述可用标点区 域数量的二进制数,作为待嵌入的二进制数,并建立待嵌入的二进制数与所述待嵌入信息 的对应关系。
9. 如权利要求8所述的方法,其特征在于,所述根据所述待嵌入的二进制数和设定的 信息嵌入规则,确定出每个所述可用标点区域的待嵌入编码,具体包括若所述待嵌入的二进制数的位数等于可用标点区域的数量,则直接将待嵌入的二进制 数包含的二进制编码分别分配给各可用标点区域作为待嵌入编码;若待嵌入的二进制数位数小于可用标点区域的数量,则通过冗余算法为各可用标点区 域分别分配待嵌入的二进制数中包含的二进制编码作为待嵌入编码。
10. —种水印提取方法,其特征在于,包括根据与嵌入水印信息时相同的区域确定规则,确定出已嵌入信息的文本文档中的可用 t示点区域;根据与嵌入水印信息时相同的位置确定规则,分别确定出每个所述可用标点区域中标 点所在的位置;根据所述标点所在的位置,分别确定出各可用标点区域中的嵌入编码。
11. 如权利要求io所述的方法,其特征在于,所述根据与嵌入水印信息时相同的区域确定规则,确定出已嵌入信息的文本文档中的可用标点区域,具体包括 获取所述文本文档中的纯文本区域;对所述纯文本区域进行文字切分和标点分析,确定出包含的可用标点;所述可用标点 的前后均至少有一个相邻的其他字符;根据所述可用标点、其前后相邻的两个其他字符和嵌入水印信息时定义的起始边界和 终止边界,确定出可用标点区域。
12. 如权利要求11所述的方法,其特征在于,所述可用标点区域的起始边界包括前面 字符的左边界、右边界、重心位置或中心位置;所述可用标点区域的终止边界包括后面字符的左边界、右边界、重心位置或中心位置。
13. 如权利要求11所述的方法,其特征在于,所述根据与嵌入水印信息时相同的位置 确定规则,分别确定出每个所述可用标点区域中标点所在的位置,具体包括计算每个所述可用标点区域的起始边界至终止边界的距离,根据所述距离将每个所述可用标点区域划分为若干个频带;并根据每个可用标点区域中的标点所在的坐标位置,分别确定出每个可用标点区域中 标点所在的频带以及对应的频带索引。
14. 如权利要求13所述的方法,其特征在于,所述标点所在的坐标位置具体包括所述 标点的重心、中心、左边界或右边界所在的坐标位置。
15. 如权利要求13所述的方法,其特征在于,所述根据所述标点所在的位置,分别确定 出各可用标点区域中的嵌入编码,具体包括若可用标点区域中所述标点所在的频带对应的频带索引为偶数,则确定该可用标点区 域内的嵌入编码为0;若可用标点区域中所述标点所在的频带对应的频带索引为奇数,则确定该可用标点区 域内的嵌入编码为1。
16. 如权利要求10-15任一所述的方法,其特征在于,还包括根据嵌入水印信息时相同的信息嵌入规则和确定出的各可用标点区域中的嵌入编码, 得到嵌入所述文本文档中的二进制数;以及根据所述二进制数,得到所述文本文档对应的嵌入信息。
17. —种水印嵌入装置,其特征在于,包括区域确定模块,用于根据设定的区域确定规则,确定出待嵌入信息的文本文档中的可 用标点区域;位置确定模块,用于根据设定的位置确定规则,分别确定出每个所述可用标点区域中 标点的原始位置;信息嵌入模块,用于针对每一个可用标点区域,根据其中标点的原始位置和对应的待 嵌入编码,对其中标点的位置进行调整,实现将所述待嵌入编码嵌入到对应的可用标点区 域中。
18. 如权利要求17所述的装置,其特征在于,所述区域确定模块,包括 获取单元,用于获取所述文本文档中的纯文本区域;标点确定单元,用于对所述纯文本区域进行文字切分和标点分析,确定出包含的可用 标点;所述可用标点的前后均至少有一个相邻的其他字符;区域确定单元,用于根据所述可用标点及其前后相邻的两个其他字符,定义起始边界 和终止边界,得到可用标点区域。
19. 如权利要求18所述的装置,其特征在于,所述位置确定模块,包括 频带划分单元,用于计算每个所述可用标点区域的起始边界至终止边界的距离,根据所述距离将每个所述可用标点区域划分为若干个频带;位置确定单元,用于根据每个可用标点区域中的标点所在的坐标位置,分别确定出每 个可用标点区域中标点所在的频带以及对应的频带索引。
20. 如权利要求17-19任一所述的装置,其特征在于,还包括编码分配模块,用于根据所述文本文档对应的待嵌入信息,确定出待嵌入的二进制数; 所述二进制数的位数小于等于确定出的所述可用标点区域数量;以及根据所述待嵌入的二 进制数和设定的信息嵌入规则,确定出每个所述可用标点区域的待嵌入编码。
21. —种水印提取装置,其特征在于,包括区域确定模块,用于根据与嵌入水印信息时相同的区域确定规则,确定出已嵌入信息 的文本文档中的可用标点区域;位置确定模块,用于根据与嵌入水印信息时相同的位置确定规则,分别确定出每个所 述可用标点区域中标点所在的位置;编码提取模块,用于根据所述标点所在的位置,分别确定出各可用标点区域中的嵌入编码。
22. 如权利要求21所述的装置,其特征在于,所述区域确定模块,包括 获取单元,用于获取所述文本文档中的纯文本区域;标点确定单元,用于对所述纯文本区域进行文字切分和标点分析,确定出包含的可用 标点;所述可用标点的前后均至少有一个相邻的其他字符;区域确定单元,用于根据所述可用标点、其前后相邻的两个其他字符和嵌入水印信息 时定义的起始边界和终止边界,确定出可用标点区域。
23. 如权利要求22所述的装置,其特征在于,所述位置确定模块,包括 频带划分单元,用于计算每个所述可用标点区域的起始边界至终止边界的距离,根据所述距离将每个所述可用标点区域划分为若干个频带;位置确定单元,用于并根据每个可用标点区域中的标点所在的坐标位置,分别确定出 每个可用标点区域中标点所在的频带以及对应的频带索引。
24. 如权利要求21-23任一所述的装置,其特征在于,还包括信息恢复模块,用于根据嵌入水印信息时相同的信息嵌入规则和确定出的各可用标点 区域中的嵌入编码,得到嵌入所述文本文档中的二进制数;以及根据所述二进制数,得到所 述文本文档对应的嵌入信息。
全文摘要
本发明公开了一种水印嵌入和提取方法及装置,应用于数字内容的版权管理过程中,该方法包括根据设定的区域确定规则,确定出待嵌入信息的文本文档中的可用标点区域;根据设定的位置确定规则,分别确定出每个所述可用标点区域中标点的原始位置;针对每一个可用标点区域,根据其中标点的原始位置和对应的待嵌入编码,对其中标点的位置进行调整,实现将所述待嵌入编码嵌入到对应的可用标点区域中。在提取水印时,采用对应的规则分别提取出各个可用标点区域中的嵌入编码。上述方法操作简单,嵌入的水印信息隐蔽性好、且稳定性高,同时能获得很好的视觉效果。
文档编号G06K9/20GK101751656SQ20081024048
公开日2010年6月23日 申请日期2008年12月22日 优先权日2008年12月22日
发明者于权, 吴於茜, 崔晓瑜, 康凯 申请人:北京大学;北大方正集团有限公司;北京方正电子政务信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1