一种基于同义词替换的文本可恢复水印方法和装置的制作方法

文档序号:6599492阅读:354来源:国知局
专利名称:一种基于同义词替换的文本可恢复水印方法和装置的制作方法
技术领域
本发明属于计算机文本版权保护技术领域,尤指一种基于同义词替换的文本可恢复水印方法和装置。
背景技术
随着计算机技术和网络技术的飞速发展,信息安全的重要性显得日益突出。版权保护技术是信息安全领域的一个重要分支,它可以有效的保护各种信息载体的版权免受侵犯。文本文档是互联网上应用最为广泛且使用最为频繁的一种载体,因此文本版权保护显得尤为重要。近几年,作为文本版权保护技术重要分支的文本水印技术变得越来越实用,催生了大量的有关文本水印的研究。目前,文本水印大致可以分为三大类1)文本图像数字水印,即将文本视为一种特殊的二值图像,借鉴图像数字水印方法而嵌入一定量的信息;幻基于文本格式的数字水印一种是基于不可见字符的方法,它是将空格等不可见字符加在句末或行末等位置而不会显著改变文本的外观,现有的大部分软件如ffbstego、Snow等主要就是采用的这类方法隐藏信息;另一种是Brassil等人根据格式化文本的特征提出了字移编码、行移编码和特征编码等三种水印技术。幻基于自然语言的数字水印,首先由Mercan Topkara等人提出,主要是利用现有的自然语言处理技术,在保证句子意思和整个文本意义大致不变的前提下,通过同义词替换、语法替换、语义替换等方法来嵌入水印信息。比较文本水印的这三类方法,我们可以发现前两类方法的文本水印存在鲁棒性差,不能抵御常见的OCR(光学字符识别),重拷贝和格式变换的攻击,而且不能适用于纯文本;而基于自然语言的文本水印,鲁棒性强,隐蔽性好,因而基于自然语言的文本水印技术是当前文本水印领域研究最为热门和最为看好的部分,大量的研究成果已经显现出来。然而基于自然语言的文本水印也有其缺点基于自然语言的文本水印会扭曲词句甚至整个文本的意思(我们把它叫做意义扭曲)。一个典型的方法-同义词替换,通过用文本中的词的同义词来替换原来的词来做到嵌入信息,容易导致文本语义的改变。通常,基于自然语言的文本水印产生的意义扭曲是很小也是不可见的,但是在军事、法律和文学等领域,即使是很微小的文本内容的改变也是不希望发生的。例如,法律文件采用基于自然语言的文本水印技术来嵌入作者信息的话,就可能导致意义扭曲,从而导致法官做出错误的判决。为此,有必要结合图像可恢复水印的概念来对基于自然语言的文本水印进行进一步的研究。可恢复水印的出现主要是为了在保护版权信息的同时,将原始数据(图像)恢复出来。可恢复水印的概念第一次被Honsinger et al使用,他们嵌入到图像中的水印是完全可见的,由于水印以一种可恢复的形式嵌入的,因而是可以移除的。近年来,许多研究者提出了许多针对图像、音频和视频的可恢复水印算法。较早的可恢复水印算法包括 C. W. Honsinging Honsinger等人提出的像素值翻转技术,它利用模为256的模加运算逐像素嵌入水印数据位。只要不在边界值附近,该算法就可以取得较好的效果。然而,对于含有较多边界值附近像素的图像,翻转运算会引起可见的椒盐噪声。为了解决此问题,后来的学者提出了其它解法。J.Fridrich,Μ. Goljan和R. Du等人先提出了利用图像的位平面进行无损数据嵌入,之后对该方法进行了改进,将图像分成η个像素一组的不相交组,再通过定义区分函数和翻转函数,将认证信息比特嵌入到符合条件的像素组。Jun Tian提出一种基于整数小波变换的可逆数据嵌入方法,利用高频分量系数的扩展获得高嵌入容量。Celik对 Jun Tian的方法进行了推广。^ngjian Hu等人研究了可恢复可见水印嵌入的算法,进一步研究了图像在数据嵌入后的误差分散,降低引起视觉上的图像形变。Kamastra利用LSB 预测和差值预测分别改进了 J. Fridrich,Μ. Goljan和Jun Tian的方法。也有算法通过改变(替代)图像特征来嵌入数据,例如,直方图修改技术就是利用直方图中的冗余刻度点, 但这种技术需要附加通道(边信息)记录峰值点和零点的位置。尽管可恢复水印在图像、音频和视频载体中取得了一定的研究成果,但目前还没有研究人员针对文本进行可恢复水印的研究。本发明的目标便在于提出一种基于同义词替换的文本可恢复水印方法和装置。

发明内容
本发明的目的在于提出文本可恢复水印的概念和文本可恢复水印的一般流程,并提供一种基于同义词替换的文本可恢复水印方法和装置。该发明提供的算法能够在隐藏信息的过程中将用于恢复原始文本的信息嵌入文本中,但却不影响阅读者的视觉效果。在提取秘密信息时,利用嵌入的用于恢复原始文本的信息恢复出原始文本。与图像中可恢复水印概念一样,我们定义文本可恢复水印的概念如下文本可恢复水印是一种嵌入秘密信息到文本中,并且在提取相应水印信息的同时恢复原始文本的技术。这里,恢复原始文本指的是恢复在嵌入过程中被改变的词句。文本可恢复水印基于改变文本内容的自然语言水印技术。目前最常用的自然语言水印技术是同义词替换对于一个有同义词的词W和一些需要嵌入的信息b,同义词替换方法将w替换成它的同义词序号为b的同义词。假设词w的同义词数量为n,同义词替换算法能够嵌入[log〗」位信息。本发明提出的方法就是基于同义词替换技术。可恢复水印技术除了满足鲁棒性,不可见性,和易于嵌入和提取的特性外,还拥有以下与传统不可恢复水印技术不同的特性 盲嵌入和提取,原始内容应该在提取水印的时候恢复出来; 高嵌入容量,以便有足够的容量来嵌入有效信息;嵌入和提取流程跟传统不可恢复水印技术一样,但可恢复文本水印能在提取水印信息的同时恢复原始文本内容。如

图1、图2所示。本发明中采用的整数可逆变换如下假设(Xl,x2)是定义在D=
X
的整数对,其中L是控制嵌入单元长度的嵌入层(Embedding Level) ;η是一个正整数常量。我们定义如下的整数变换
xi = (n + l)Xl-nX2i , ( 、为了保证(X1,X2)属于D,我们定义以下不等式组作为⑴的限制条件
权利要求
1.一种基于同义词替换的文本可恢复水印方法和装置,发送方与接收方拥有共同的密钥,并且共享所需的同义词库和信息编码的对应关系。版权信息的隐藏方法是将文本中有同义词的词的同义词序号转换来的整数对,根据需要嵌入的版权信息,利用一个整数可逆变换转换成新的整数对,将转换而来的整数对再换成相应的以该整数对元素值为同义词序号的词。版权信息的提取方法是用隐藏信息时采用的整数可逆变换的逆变换将隐藏信息提取出来,提取出来的隐藏信息中包含版权信息和用于恢复原始文本的信息,利用用于恢复原始文本的信息,将原始文本恢复出来。
2.根据权利要求1所述的方法,其特征在于,本发明提出的算法的总体步骤如下a)将文本中有同义词的词的同义词序号转换成像素值;b)利用上面的整数可逆变换和同义词替换算法来嵌入信息、提取信息和恢复原始文本;c)将像素值重新转换成同义词序号并且替换为相应的词,得到嵌入信息的文本或原始文本;
3.根据权利要求1所述的方法,其特征在于,我们采用的整数可逆变换如下假设(Xl,x2)是定义在D=
X
的整数对,其中L是控制嵌入单元长度的嵌入层(Embedding Level) ;η是一个正整数常量。我们定义如下的整数变换 xS=(n + l)Xl-nx2⑴X2 = -nXl + (n + l)X2为了保证(χι,χ2)属于D,我们定义以下不等式组作为⑴的限制条件 θ<ν; < L-1]Xl_2 (2)变换(1)的可逆变换定义如下η + 1 , η , Xi=+ ΓΧ22η +1 2η +1,。、i(3)η , η + 1 ,Χ2 = --7X1 + --7X2[2η + 1 2η + 1 _ 这里|_x」是取整数下界函数.
4 根据权利要求1所述的方法,其特征在于,我们利用整数对(Xl,x2)的最低有效位 (LSB)来嵌入信息。其利用了 (1)、⑶的如下特性如果LSB(χ‘ 1)+LSB(x' 2) = 0,那么从(3)中计算得到的(Χι,χ2)跟(1)中的一样; 如果LSB(x' 1)+LSB(x' 2)兴0,那么从(3)中计算得到的(Xl,x2)比⑴中的要小 (1,1);
5.根据权利要求1所述的方法,其特征在于,提取有同义词的词,并模拟图像像素值的算法如说明书中算法1所示。
6.根据权利要求1所述的方法,其特征在于,将模拟而来的像素值恢复成文本中词的算法如说明书中算法2所示。
7.根据权利要求1所述的方法,其特征在于,嵌入隐藏信息的算法如说明书中算法3所7J\ ο
8.根据权利要求1所述的方法,其特征在于,提取隐藏信息并恢复原始文本的算法如说明书中算法4所示。
9.根据权利要求1所述的方法,其特征在于,当存在连续的不满足嵌入条件的对时,则只嵌入奇数对的第一个元素的最低有效位(LSB)作为恢复原始文本信息的一部分。
全文摘要
本发明涉及一种基于同义词替换的文本可恢复水印方法和装置,属于计算机文本版权保护技术领域。文本可恢复水印是一种嵌入秘密信息到文本中,并且在提取相应水印信息的同时恢复原始文本的技术。本发明所述的方法及装置通过将文本中有同义词的词模拟成像素值对,利用整数可逆变换,嵌入或提取版权信息,并在提取版权信息的同时,恢复原始文本。本发明的优点是在提取版权信息的同时恢复原始文本。本发明能够在军事、法律和文学等对文本内容要求甚高的领域中,既保证文档的版权,又不会导致合法用户的歧义理解。
文档编号G06T1/00GK102194205SQ20101012714
公开日2011年9月21日 申请日期2010年3月18日 优先权日2010年3月18日
发明者付章杰, 刘志杰, 刘玉玲, 孙星明 申请人:湖南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1