一种中文超短文本的水印嵌入和提取方法

文档序号:6369585阅读:105来源:国知局
专利名称:一种中文超短文本的水印嵌入和提取方法
技术领域
本发明涉及自然语言信息隐藏技术领域,具体涉及ー种中文超短文本的水印嵌入和提取方法。
背景技术
随着计算机网络的快速发展和普及,数字著作在因特网中扮演的角色也越来越重要,它将人们引入了一个崭新的世界。对于数字著作而言,数字化后的数据显然比传统时代的数据更具优势和吸引力,比如便于编辑、储存、发布和共享。由于对数字信息的复制非常容易,而且所得复制品和原件完全相同,因此有恶意的个人或団体有可能在没有得到作品所有者许可的情况下复制、窜改、传播有版权的内容,甚至非法用作商业用处,严重侵犯了作者及版权所有者的利益,并且导致了越来越多的版权纠纷。 超短文本是指字数在80字至500字的文本文档,例如通讯稿、微博、点评等。这些超短文本被人们在网络中使用的频率越来越高,使用范围也越来越广。例如,网络中有这样ー些点评网站,它们致力于为网友提供餐饮、购物、休闲娱乐及生活服务等领域的商户信息、消费优惠以及发布消费评价的互动平台。这些点评网站中,几乎所有的信息都来源于大众,每个人都可以自由发表对商家的评论,好则誉之,差则贬之,每个人都可以向大家分享自己的消费心得,同时分享大家集体的智慧。为维持平台的核心竞争力,就必须保持点评数据的真实准确,具有參考价值,以及点评的客观公正。然而,这些网站中的某些核心点评,可能会被其他网站盗用。如果没有办法对用户发表的内容进行版权归属的判定,很容易造成点评的版权纠纷,甚至会承担了侵权的连带责任。目前,越来越多的网站开通了微博功能,使得用户在网络中发表言论越来越自由,而用户发表的言论也很容易被其他人复制甚至歪曲,如何没有办法来判定这些微博的版权以及是否被人修改歪曲,很容易造成版权纠纷,甚至会带来法律问题。除了以上点评和微博的举例,超短文本还在网络中其他的地方广泛用至IJ,对其版权处理不当,可能会到来巨大的损失,因而,如何有效地保护这些超短文本的版权成为了一个迫在眉睫的现实问题。自然语言信息隐藏使用自然语言作为隐藏秘密信息的载体,利用保留语义的变换等方法改写文字,在载体中嵌入秘密信息。它作为文本信息保护的ー种重要方法,越来越受到人们的关注。但是,现有的自然语言信息隐藏技术对载体文本的容量有着相当高的要求,而在进行秘密信息嵌入时,根据载体文本的篇幅长短以及行文风格不同,文本能够为信息隐藏技术提供的隐藏空间也不一祥。如在版权保护领域,通讯稿、微博、评论、点评等这些超短文本,能够提供的容量非常有限,这就使得在这些超短文本当中嵌入版权信息变得不太现实。所以如何在超短文本当中最大量的嵌入版权信息,具有十分重要的意义。

发明内容
本发明的目的在于,提供一种中文超短文本的水印嵌入和提取方法,该方法在对超短文本进行版权信息保护时,在不影响原内容的价值和使用,并且能够不引起人们的注意的情况下,在超短文本内尽可能嵌入最大的秘密信息。为了实现上述任务,本发明采用了如下的技术解决方案一种中文超短文本的水印嵌入和提取方法,包括嵌入和提取两个过程,其特征在于,所述的嵌入过程包括嵌入単元的识别和秘密信息的嵌入两个阶段,提取过程包括嵌入単元的识别、秘密信息的提取和水印验证三个阶段;其中,两个过程中的嵌入単元的识别操作相同。所述的嵌入単元的识别包括以下几个步骤步骤I :文本繁简体转换待嵌密的文本中可能存在繁体字,而繁体字会影响到后续的嵌入単元识别,因而在处理之前需先根据繁简对照表将文本中的繁体字转换为相对应的简体字。 步骤2 :以文本中的标点符号作为分界符将文本划分成多个分句,同时对每ー个分句进行分词,并将小句内容和分词后的结果记录下来。步骤3 :取出一个小句中的一个词语,判断其是否位于专有名词词典中。如果在词典中,则继续步骤3中的下一个词语,否则,转至步骤4。步骤4 :判断词语是否位于同义词词典当中,如果在,则将此词语的信息记录在准嵌入単元集合当中;如果不在,转至步骤5。步骤5 :判断词语是否位于高频词词典当中,如果在,则将此词语的信息记录在准嵌入単元集合当中;如果不在,转回步骤3。步骤6 :嵌入单元预替换嵌入単元的预替换是在分句的基础上进行的,当一个分句中的所有词语都进行完准嵌入単元的识别后,在分句上对分句中所有的准嵌入单元进行预替换;通过采用中国专利201110122787. 5中的步骤,将那些替换前后分词与原句一样的准嵌入单元确认为理想嵌入单元,并将其记录至嵌入单元集合当中;步骤7 :所有分句中的准嵌入単元都进行完嵌入単元预替换后,依据密钥对嵌入単元集合当中的嵌入単元进行排序。步骤8 :判断嵌入単元集合的容量是否满足嵌入秘密信息所需的容量。如果嵌入単元集合的容量满足所需容量,则嵌入単元的识别终止;否则,转至步骤9。步骤9 :依据密钥对超短文本的所有分句进行排序,每4个分句划分为ー个“的”字片段,并记录下每ー个片段中的分句序号。“的”字片段的最大数目应为嵌入秘密信息所需容量与同义词嵌入単元的容量之差。步骤10 :判断嵌入単元集合的容量与“的”字片段的容量之和是否满足嵌入秘密信息所需的容量。如果满足所需容量,则嵌入単元的识别终止;否则,转至步骤11。步骤11 :依据步骤9中排好序的分句,进行“了”字片段的划分,并记录下每ー个片段中的分句序号。“了”字片段中的分句数可以根据需求来设定,默认为3个分句为ー个“了”字片段。步骤12 :判断嵌入単元集合的容量与“的”字片段的容量和“了”字片段的容量之和是否满足嵌入秘密信息所需的容量,如果满足所需容量,则嵌入単元的识别终止;否则,提示“嵌入単元不足,无法嵌入秘密信息”。秘密信息的嵌入包括以下几个步骤
步骤I :将嵌入単元识别步骤里排序好的顺序对同义词嵌入単元集合使用混合进制编码计算出每ー嵌入単元的比特值。步骤2 :取出一个分句中的一个词语,判断是否与嵌入単元集合当中当前的嵌入単元内容以及所在小句是否匹配,如果不匹配,则继续步骤2 ;否则,转至步骤3。步骤3 :依据比特串当前的比特值对嵌入単元的内容进行替换,在替换的时候,因为同义词集合当中存在着繁体字的同义词,因而替换后的文本当中就有可能存在着繁体字。同时,比特串及嵌入単元集合的索引加1,并转至步骤2。步骤4:待所有嵌入単元都已替换完毕,判断“的”字片段嵌入単元的个数是否为
O。如果为0,则水印信息的嵌入过程完成,返回含密文本;如果不为0,则转至步骤5。步骤5:使用扩频编码对“的”字片段嵌入单元进行编码以及秘密信息的嵌入。“的”字片段的扩频编码參考了赵敏之等《基于虚词变换的自然语言信息隐藏算法研究》2. 2节里 的文本隐藏算法,详细操作流程參照图10,并在此算法的基础上稍作修改进行实现。“的”字片段扩频算法的首先应该对文本中的句子进行片段划分,此过程已于嵌入単元识别过程中的步骤9中实现。在分好的“的”字片段中,首先依据规则计算每ー个“的”字片段中可删除“的”的位置,并将分句序号及删除“的”后的句子记录下来。然后计算片段中“的”的个数,并規定“的”个数为奇数时,表示比特0,为偶数吋,表示比特I。根据需嵌入的比特值来改变片段中“的”的数目以达到嵌密的目的。改变“的”数目需遵守的规则是“先删除,后增加”。也就是说,片段中有可删除“的”的分句,就进行删除操作,如果有多个分句可以删除,就随机选择ー个进行操作。如果分句中没有分句可以进行删除操作,则进行“的”的増加操作,増加操作与删除操作类似。如果片段中既没有可删除“的”的分句,也没有可増加“的”的分句,则提示“嵌入単元不足,无法正确嵌入秘密信息”。步骤6 :待所有“的”字片段嵌入単元都已替换完毕,判断“ 了 ”字片段嵌入単元的个数是否为O。如果为0,则水印信息的嵌入过程完成,返回含密文本;如果不为0,则转至步骤7。步骤7 了”字片段嵌入単元秘密信息的嵌入。“了”字片段的扩频算法也是在“的”字片段扩频算法上的修改。“了”字片段秘密信息的嵌入与“的”字片段秘密信息的嵌入相同。步骤8 :待所有“了”字片段嵌入単元都已替换完毕,则水印信息的嵌入过程完成,返回含密文本。秘密信息的提取包括以下几个步骤步骤I :依次对照嵌入单元识别步骤中识别出来的同义词嵌入单元找出其在超短文本中的位置,即索引号,并将其记录下来。步骤2 :依据简体文本中的嵌入单元的索引号在原始文本中找出每ー个嵌入单元,并与简体文本中的嵌入单元--对应的记录下来。步骤3 :取出一个分句中的一个词语,判断是否与嵌入単元集合当中当前的嵌入単元内容以及所在小句是否匹配,如果不匹配,则继续步骤3中的下ー个词语;否则,转至步骤4。步骤4 :取出词语对应的原始文本中的词语,在当前嵌入単元集合中的嵌入単元的同义词中查找词语的索引号,所得出的索引号即是此词语的比特值。嵌入単元的索引加I,并转至步骤3。步骤5 :待所有嵌入単元的比特值都提取出来后,将比特串按照嵌入単元的逻辑顺序进行排序,并以逻辑顺序将比特串恢复成整数。步骤6 :判断“的”字片段嵌入単元的个数是否为0,如果为0,则秘密信息的提取完成,转至步骤10 ;如果不为0,转至步骤7。步骤7 :计算每ー个“的”字片段中“的”的个数,如果为偶数,则说明此片段表示比特0,否则,表示比特I。将提取出来的比特串转换为整数,并与前面提取出来的整数进行叠カロ。步骤8 :判断“了”字片段嵌入単元的个数是否为0,如果为0,则秘密信息的提取完成,转至步骤10 ;如果不为0,转至步骤9。 步骤9 :计算每ー个“了”字片段中“了”的个数,如果为偶数,则说明此片段表示比特0,否则,表示比特I。将提取出来的比特串转换为整数,并与前面提取出来的整数进行叠カロ。步骤10 :将提取出来的整数转换为其对应的水印信息。水印验证包括预先选取ー些语料作为训练语料,统计同义词词典中的同义词在训练语料中出现的频次,并将其以同义词或频次的形式记录下来。此训练过程只进行一次,在水印验证过程中,只需用到训练过程中统计出来的結果。具体按以下几个步骤进行步骤I :给定特征阈值δ,本发明设置δ =0. 6,根据预先工作中统计出来的结果选取在训练语料中出现频率大于S的特征词作为特征元素。步骤2 :统计步骤I中选取的特征元素在检测文本中出现的频率r。步骤3:比较频率!·和检测阈值Φ (本发明设置为0=0.7),若1*〈0,则认为该检测文本中含密,否则认为该检测文本中未含密。本发明的中文超短文本的水印嵌入和提取方法,在将ロ语、网络用语以及繁体字増加至词典来扩大同义词词典规模基础上,同时在载体操纵方面融合同义词载体操纵、“的”字片段载体操纵和“ 了 ”字片段载体操纵三个载体操纵技术来充分识别文本中的可用嵌入単元,另外采用专有名词词典来过滤专有名词的替换给文本带来的隐蔽性问题。而在编码方面针对同义词嵌入单元采用容量最优化——混合进制编码,针对“的”、“ 了 ”字片段采用扩频编码,充分利用每ー个嵌入単元,大大提高了超短文本的隐藏容量。在提取水印信息时,采用水印验证技术来分析待检测文本是否是经过嵌入处理的文本,有效地降低了提取水印信息时的虚警率。
经过申请人的实验,从互联网上随机搜索10000篇饮食类的点评,这些点评长度不等,最短的只有50字,平均长度为115字。采用本发明的技术方案,在点评当中嵌入14比特的水印信息。在这10000篇点评当中,有4729篇点评成功嵌入秘密信息,这些嵌入成功的点评平均长度为165. 6字,平均每11. 8个字嵌入一个比特,嵌入成功率为47. 29%。然后对嵌入成功的4729篇含密文本进行水印信息提取,提取成功率为100%。在对10000篇点评的原始文档进行秘密信息提取时,从9篇文章中提取出了所需的秘密信息,提取水印信息的虚警率接近O. 1%。将4729篇含密文本与5271篇没有成功嵌入水印的点评混合到一起,然后对其进行加入水印验证的水印信息提取,共有4731篇文章中可以提取出有效地水印信息。根据分析,其中有两篇的水印信息是无效的。由此可知,添加了水印验证以后,将水印信息提取的虚警率降低至O. 02%。


图I为水印信息嵌入的框架。图2为水印信息提取的框架。图3为嵌入単元识别的流程图。图4为秘密信息嵌入的流程图。
图5为“的”和“了”字片段秘密信息嵌入流程图。图6为“的”和“了”预替换流程图。图7为秘密信息提取流程图。图8为“的”和“了”字片段秘密信息提取流程图。图9为水印验证的流程图。图10为赵敏之等提出的文本隐藏算法。以下结合附图和实施例对本发明作进ー步的详细说明。
具体实施例方式首先对本发明将要用到的术语进行解释和定义一、术语解释I、载体操纵算法载体操纵算法采用的是基于词汇的载体操纵算法和基于句法的载体操纵算法相结合,词汇层次采用的是中文绝对同义词替换算法,句法不完整语义层次采用的是助词“的”和“了”字的增删,如此,可以在有限的文本当中寻找更多的嵌入単元。2、隐藏编码算法超短文本的平均长度在150字,需要嵌入的水印信息可以根据需求来进行设置,例如14比持。为了能在短小的文本中成功嵌入水印信息,就得充分利用每ー个嵌入单元。因而采用混合进制编码与扩频编码相融合的隐藏编码算法来充分利用每ー个嵌入单元。针对中文绝对同义词算法,采用混合进制编码算法。混合进制编码算法參考了 KeithWinstein 的《Lexical Steganography Through Adaptive Modulation of the WordChoice Hash》里第5部分的Ideal Coding。此编码给姆ー组同义词集合中的单词从0编号。每个拥有同义词的单词都对应ー个进制不同的一位数字。设载体文本中拥有同义词的单词数量为N,那么这N个单词联合在一起就可以视作ー个N位的混合进制数。秘密信息可以看作ニ进制数,利用同义词替换,使载体代表的混合进制数等于秘密信息代表的ニ进制数就完成了嵌入过程。提取过程只是简单地从文本中把这个混合进制数读出来再转换回ニ进制数。混合进制编码算法是容量最优编码,它充分利用了每ー嵌入単元。针对助词“的”和“了”字的增删,采用了扩频编码。“的”字片段的扩频编码是在赵敏之等人在《基于虚词变换的自然语言信息隐藏算法研究》2. 2节里的提出文本隐藏算法(參见图10)基础上进行修改来实现编码。本发明的“的”字片段扩频编码是指将文本进行分句后,每4个分句划分为ー个“的”字片段,片段中“的”的个数为偶数则表示比特0,否则表示比特I。秘密信息嵌入时,通过“的”的增删规则来寻找片段中可以增刪“的”的句子来改变片段中“的”的个数,以此达到嵌密的目的。“ 了”字片段的扩频编码与“的”字片段的扩频编码相同,只是“ 了 ”字片段的扩频编码当中,每3个分句划分为ー个“了”字片段。3、同义词词典的建立同义词的替换算法的关键就在于词典的建立。本发明中,同义词除了常用的绝对同义词外,根据超短文本中网络用语多、ロ语化、语法要求不高的特点,将网络用语、ロ语以及部分繁体字添加至同义词词典当中,扩充了同义词词典的规模,也进ー步提高了超短文本的隐藏容量。4、专有名词词典同义词词典中的某些同义词在特定的语篇中会变成专有名词,这样嵌密时进行替换就很容易就引起读者的注意。为了排除这些专有名词的同义词替换带来的隐蔽性问题。 本发明采用了建立专有名词词典的方法来进行避免。只要是属于专有名词词典中的词语均不考虑作为嵌入単元。5、水印验证水印信息的长度可以根据需求来设置,例如本发明中设置为14比特,而需要嵌入的水印内容才几十个,因而在提取水印信息时虚警率高达O. 1%,使得水印难以应用。为了降低虚警率,本发明设计了ー种高可靠的水印验证方法,如果水印验证得出此文本是已经经过嵌密处理的,那么得出来的水印信息即是有效地信息,反之,水印信息是无效的。6、专利 201110122787. 5 中的步骤中国专利申请(申请号201110122787.5)中的权利要求I中的步骤和权利要求2中的舍弃位置选择算法步骤,来找到准嵌入単元中的嵌入単元,此过程通过专利201110122787. 5中的一系列步骤,舍弃ー些准嵌入单元集合当中的准嵌入単元,使最终得到的嵌入単元集合是所有理想嵌入単元的集合,在嵌入秘密时,只将理想嵌入単元承载秘密信息,就能保证含密句子与原件分词结果相一致。ニ、定义(I)超短文本是指字数在80字至500字的文本文档,例如微博,点评,留言等。(2)水印是指嵌入在数字作品中的一个版权信息,它可以是作者的序列号、公司标志、有特殊意义的文本等。(3)嵌入単元对于特定的自然语言处理技术,可以进行不改变语义的变换的最短文本片段。例如,对于同义词替换技术而言,具有同义词的词语就可以作为嵌入単元;对于句式变换技术而言,可以进行句式变换的句子就可以称作嵌入単元。(4)准嵌入単元从文本中识别出来的嵌入単元当中,有的进行替换后可能会造成嵌入単元识别不一致。我们把刚识别出来的嵌入単元统称为准嵌入単元,只有在对准嵌入单元进行预处理(如预替换)操作后,那些替换前后识别出来的嵌入単元一致的,才作为可以进行嵌密的嵌入単元。(5)准嵌入単元集合一个分句中识别出来的所有准嵌入単元的集合。(6)嵌入単元识别一致对嵌入单元进行替换后,重新对替换后的新句子进行嵌入单元识别,识别出来的嵌入单元与替换前识别出来的嵌入单元一致。(7)理想嵌入単元句子中的准嵌入単元,如果无论对这些词怎样进行同义词替换,生成的新句子都与原句分词一致,那么这些准嵌入単元被称为理想的。(8)嵌入単元集合从文本中依次识别出来的所有理想嵌入单元组成的有序集合。(9)嵌入单元的物理顺序嵌入单元在嵌入单元集合中的顺序。例如嵌入单元集合为{A,B, C,D},则A,B, C,D的物理顺序分别为I, 2,3,4。( 10)嵌入单元的逻辑顺序将嵌入単元集合按密钥进行重排序,嵌入单元在重排序后的顺序则为逻辑顺序。例如,嵌入単元集合{A,B,C,D}重排序后为{C,D,A,B},_A,B,C,D的物理顺序分别为3,4,1,2。目的是防止未授权提取!(11)分句以指定标点符号对文本进行分割,分割出来的每ー个文本片段定义为ー个分句。软件中的指定标点符号有以下几种’\f’,’\n’,,\r,,,\
权利要求
1. 一种中文超短文本的水印嵌入和提取方法,其特征在于,包括嵌入和提取两个过程,所述的嵌入过程包括嵌入单元的识别和秘密信息的嵌入两个阶段;所述的提取过程包括嵌入单元的识别、和秘密信息的提取和水印验证三个阶段;嵌入和提取两个过程中的嵌入单元的识别操作一样; 所述的嵌入单元的识别包括以下几个步骤 步骤I :文本繁简体转换 需先根据繁简对照表将待嵌密的文本中的繁体字转换为相对应的简体字; 步骤2 :以文本中的标点符号作为分界符,将文本划分成多个分句,同时对每一个分句进行分词,并将小句内容和分词后的结果记录下来; 步骤3,取出一个小句中的一个词语,判断其是否位于专有名词词典中,如果在专有名词词典中,则继续步骤三取小句中的下一个词语,否则,转至步骤4 ; 步骤4,判断词语是否位于同义词词典当中,如果在,则将此词语的信息记录在准嵌入单元集合当中;如果不在,转至步骤5 ; 步骤5 :判断词语是否位于高频词词典当中,如果在,则将此词语的信息记录在准嵌入单元集合当中;如果不在,转回步骤3 ; 步骤6:嵌入单元预替换 嵌入单元的预替换是在分句的基础上进行的,当一个分句中的所有词语都进行完准嵌入单元的识别后,在分句上对分句中所有的准嵌入单元进行预替换;通过采用中国专利、201110122787. 5中的步骤,将那些替换前后分词与原句一样的准嵌入单元确认为理想嵌入单元,并将其记录至嵌入单元集合当中; 步骤7:所有分句中的词语都判断完后,依据密钥对嵌入单元集合当中的嵌入单元进行排序; 步骤8 :判断嵌入单元集合的容量是否满足嵌入秘密信息所需的容量,如果嵌入单元集合的容量满足所需容量,则嵌入单元的识别终止;否则,转至步骤9 ; 步骤9 :依据密钥对超短文本的所有分句进行排序,每4个分句划分为一个“的”字片段,并记录下每一个片段中的分句序号;其中“的”字片段的最大数目应为嵌入秘密信息所需容量与同义词嵌入单元的容量之差; 步骤10 :判断嵌入单元集合的容量与“的”字片段的容量之和是否满足嵌入秘密信息所需的容量,如果满足所需容量,则嵌入单元的识别终止;否则,转至步骤11 ; 步骤11 :依据步骤9中排好序的分句,进行“了”字片段的划分,并记录下每一个片段中的分句序号,“了 ”字片段中的分句数可以根据需求来设定,默认为3个分句为一个“ 了”字片段; 步骤12 :判断嵌入单元集合的容量、与“的”字片段的容量和“了”字片段的容量之和是否满足嵌入秘密信息所需的容量,如果满足所需容量,则嵌入单元的识别终止;否则,提示“嵌入单元不足,无法嵌入秘密信息”; 所述的秘密信息的嵌入包括以下几个步骤 步骤I :将嵌入单元识别步骤里排序好的顺序对同义词嵌入单元集合使用混合进制编码算法计算出每一嵌入单元的比特值; 混合进制编码算法是,将每个嵌入单元的同义词集合中的词语从0编号,每个拥有同义词的词语都对应一个进制不同的一位数字,将文本中所有的同义词联合在一起,就可以看做是一个混合进制数;每一个嵌入单元对应的数字即为这个嵌入单元的比特值,它是水印信息转换的整数除以嵌入单元元素个数的余数值;计算完所有嵌入单元的比特值后,然后再按嵌入单元的物理顺序对比特串进行排序; 步骤2:取出一个分句中的一个词语,判断是否与嵌入单元集合当中当前的嵌入单元内容以及所在小句是否匹配,如果不匹配,则继续步骤2中的下一个词语;否则,转至步骤3; 步骤3 :依据比特串当前的比特值对嵌入单元的内容进行替换,在替换的时候,因为同义词集合当中存在着繁体字的同义词,因而替换后的文本当中就有可能存在着繁体字;同时,比特串及嵌入单元集合的索引加1,并转至步骤2 ; 步骤4 :待所有嵌入单元都已替换完毕,判断“的”字片段嵌入单元的个数是否为O ;如果为O,则水印信息的嵌入过程完成,返回含密文本;如果不为O,则转至步骤5 ; 步骤5 :使用扩频编码对“的”字片段嵌入单元进行编码以及秘密信息的嵌入,首先依据规则计算每一个“的”字片段中可删除“的”的位置,并将分句序号及删除“的”后的句子记录下来,然后计算片段中“的”的个数,并规定“的”个数为奇数时,表示比特O,为偶数时,表示比特I ;根据需嵌入的比特值来改变片段中“的”的数目以达到嵌密的目的;改变“的”数目需遵守的规则是“先删除,后增加”,即片段中有可删除“的”的分句,就进行删除操作,如果有多个分句可以删除,就随机选择一个进行操作;如果分句中没有分句可以进行删除操作,则进行“的”的增加操作,增加操作与删除操作类似;如果片段中既没有可删除“的”的分句,也没有可增加“的”的分句,则提示“嵌入单元不足,无法正确嵌入秘密信息”; 步骤6 :待所有“的”字片段嵌入单元都已替换完毕,判断“了”字片段嵌入单元的个数是否为O ;如果为O,则水印信息的嵌入过程完成,返回含密文本;如果不为O,则转至步7 ; 步骤7 了”字片段嵌入单元秘密信息的嵌入 “了”字片段秘密信息的嵌入与“的”字片段秘密信息的嵌入相同; 步骤8:待所有“了”字片段嵌入单元都已替换完毕,则水印信息的嵌入过程完成,返回含密文本;· 所述的秘密信息的提取包括以下几个步骤 步骤I :依次对照嵌入单元识别步骤中识别出来的同义词嵌入单元找出其在超短文本中的位置,即索引号,并将其记录下来; 步骤2 :依据简体文本中的嵌入单元的索引号在原始文本中找出每一个嵌入单元,并与简体文本中的嵌入单元--对应的记录下来; 步骤3 :取出一个分句中的一个词语,判断是否与嵌入单元集合当中当前的嵌入单元内容以及所在小句是否匹配,如果不匹配,则继续步骤3中的下一个词语;否则,转至步骤4; 步骤4:取出词语对应的原始文本中的词语,在当前嵌入单元集合中的嵌入单元的同义词中查找词语的索引号,所得出的索引号即是此词语的比特值;嵌入单元的索引加1,并转至步骤3 ; 步骤5 :待所有嵌入单元的比特值都提取出来后,将比特串按照嵌入单元的逻辑顺序进行排序,并以逻辑顺序将比特串恢复成整数; 步骤6 :判断“的”字片段嵌入单元的个数是否为O,如果为O,则秘密信息的提取完成,转至步骤10 ;如果不为0,转至步骤7 ; 步骤7:计算每一个“的”字片段中“的”的个数,如果为偶数,则说明此片段表示比特0,否则,表示比特I ;将提取出来的比特串转换为整数,并与前面提取出来的整数进行叠加;步骤8 :判断“了”字片段嵌入单元的个数是否为0,如果为0,则秘密信息的提取完成,转至步骤10 ;如果不为0,转至步骤9 ; 步骤9:计算每一个“了”字片段中“了”的个数,如果为偶数,则说明此片段表示比特0, 否则,表示比特I ;将提取出来的比特串转换为整数,并与前面提取出来的整数进行叠加;步骤10 :将提取出来的整数转换为其对应的水印信息; 所述的水印验证包括 预先选取一些语料作为训练语料,统计同义词词典中的同义词在训练语料中出现的频次,并将其以同义词或频次的形式记录下来;此训练过程只进行一次,在水印验证过程中,只需用到训练过程中统计出来的结果,具体按以下几个步骤进行 步骤I:给定特征阈值S,δ =0.6,根据预先工作中统计出来的结果选取在训练语料中出现频率大于S的特征词作为特征元素; 步骤2 :统计步骤I中选取的特征元素在检测文本中出现的频率r ; 步骤3 比较频率r和检测阈值Φ,Φ=0. 7,若ΚΦ,则认为该检测文本中含密,否则认为该检测文本中未含密。
全文摘要
本发明公开了一种中文超短文本的水印嵌入和提取方法,该方法包括嵌入和提取两个过程,嵌入过程包括嵌入单元的识别和秘密信息的嵌入两个阶段,提取过程包括嵌入单元的识别、和秘密信息的提取和水印验证三个阶段;其中,两个过程中的嵌入单元的识别操作相同。而在编码方面针对同义词嵌入单元采用容量最优化——混合进制编码,针对“的”、“了”字片段采用扩频编码,充分利用每一个嵌入单元,大大提高了超短文本的隐藏容量。在提取水印信息时,采用水印验证技术来分析待检测文本是否是经过嵌入处理的文本,有效地降低了提取水印信息时的虚警率。
文档编号G06F17/22GK102682248SQ201210148620
公开日2012年9月19日 申请日期2012年5月15日 优先权日2012年5月15日
发明者何路, 房鼎益, 谢碧清, 陈晓江 申请人:西北大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1