一种基于语义角色位置映射的文本水印嵌入及提取方法

文档序号:9453332阅读:431来源:国知局
一种基于语义角色位置映射的文本水印嵌入及提取方法
【技术领域】
[0001] 本发明涉及水印的嵌入与提取技术,尤其涉及一种基于语义角色位置映射的文本 水印嵌入及提取方法。
【背景技术】
[0002] 随着互联网和信息技术的普及应用,文本信息越来越多的以数字的方式发布、传 播和使用,它在给人们的学习、工作和生活带来便利的同时,也产生了文本容易被非法复制 和盗用等问题,数字文本的知识产权保护受到业界的广泛关注。文本水印是近年来出现的 保护数字文本知识产权的一项技术,它通过某种方式在数字文本中嵌入版权标识信息或身 份认证信息(水印),当发现文本遭到非法复制或盗用时,可以提取这些信息来证明文本的 版权归属,确认非法复制和盗用行为,保护文本著作权人或拥有人的权益。除此之外,文本 水印技术还可用于在文本中隐藏和传递秘密信息、文本内容的认证、文本信息的追踪等方 面。
[0003] 文本水印目前主要有两类方法一一基于文本格式的文本水印和基于自然语言的 文本水印。基于文本格式的水印技术利用轻微改变文本格式不易被察觉的特点来嵌入水印 信息,如改变行间距、字间距、字符大小等等。这类基于文本格式的水印技术构造简单,易于 实现,但对文本进行格式变换就有可能使嵌入的水印遭到破坏,鲁棒性不强。基于自然语言 的文本水印技术利用文本内容的语法语义进行编码来嵌入水印信息,目前实现的较多的是 通过同义词替换和句法变换对水印信息进行编码。与基于文本格式的水印相比,自然语言 文本水印具有更好的隐蔽性和鲁棒性,格式变换不会对水印产生影响。但由于中文语言的 复杂性,同义词替换和句法变换有可能会产生歧义或改变语义,同时它也不适用于文本内 容不宜改变的情形。

【发明内容】

[0004] 本发明目的在于克服以上现有技术之不足,提供一种基于语义角色位置映射的文 本水印嵌入方法,它通过将水印信息与文本中语义角色的位置信息进行映射来实现水印的 嵌入,对文本的格式和内容不做任何改变,原文本的使用不受任何影响,嵌入的水印具有 很好的隐蔽性和鲁棒性,能有效抵抗各种常见的格式变换和攻击,具体由以下技术方案实 现:
[0005] 所述基于语义角色位置映射的文本水印嵌入方法,包括如下步骤:
[0006] 1)对水印信息进行预处理,将水印字符转换成由码元构成的信息串;
[0007] 2)通过自然语言处理技术找出文本中语义角色,得到语义角色的位置信息,且将 语义角色类型与表示水印信息的码元一一对应;
[0008] 3)逐个取出水印信息串中的码字,将该码字与所对应类型语义角色的一个位置相 映射,对所有码字进行映射,完成水印的嵌入。
[0009] 所述基于语义角色位置映射的文本水印嵌入方法,其特征在于所述语义角色包括 表示动作的施事的角色A0,表示动作的影响的角色A1以及关系相对模糊的角色ADV。
[0010] 所述基于语义角色位置映射的文本水印嵌入方法的进一步设计在于,所述步骤1) 中的水印信息进行预处理包括如下步骤:
[0011] 1-1)采用Unicode编码,将水印字符转换成十六进制信息;
[0012] 1-2)运用Huffman编码对十六进制信息中的码元数量进行压缩,将十六进制的 Unicode码串转换成由0、1、2三种码元表示的Huffman编码,与A0、Al、ADV三种语义角色 相匹配。
[0013] 所述基于语义角色位置映射的文本水印嵌入方法的进一步设计在于,所述步骤2) 中,通过语言技术平台LTP处理确定和标记文本中的语义角色,LTP的处理结果为一个包含 文本中句子成分语义角色关系的XML格式的文件,所述文件包含若干用于标明各种句段关 系、句法关系、语义角色的结点标签,所述结点标签包括para、sent、word、arg,每个类别的 结点标签均包含用于标明序号的id属性。
[0014] 所述基于语义角色位置映射的文本水印嵌入方法的进一步设计在于,查找选定的 语义角色并标记其位置的方法具体包括如下步骤:
[0015] 2-1)对所述XML文件进行解析遍历,定位到relate="HED"的word结点;
[0016] 2-2)接着遍历此word结点下的arg结点内的type属性,判断其是否为指定查找 的类型(即A0、A1、ADV),如果是,则标记出该语义角色的位置,标记语义角色位置的表达式 如下:
[0017] L = p+para. id+s+sent. id+a+arg. id
[0018] 其中,p表示para属性,s表示sent,a表示arg;
[0019]2-3)重复上述步骤2-1)、2-2),标记出文本中所有的三种语义角色A0、A1、ADV的 位置信息,分别对应地存入三个不同的集合Ll、L2、L3中。
[0020] 所述基于语义角色位置映射的文本水印嵌入方法的进一步设计在于,所述步骤3) 具体包括如下步骤:
[0021] 3-1)让水印信息中的三种码元与三种语义角色类型--对应,即A0对应0,A1对 应1,ADV对应2;
[0022] 3-2)逐个取出水印信息串中的码字,将该码字与所对应类型语义角色的的一个位 置相映射,即码字〇映射为L1集合中的一个位置,码字1映射为L2集合中的一个位置,码 字2映射为L3集合中的一个位置。将每个码字映射的位置信息读出,依次存放于一位置文 件中;
[0023] 3-3)重复上述过程,将水印信息串中的所有码字均映射为Ll、L2、L3集合中的一 个位置,映射完成即实现了水印的嵌入,最终得到一个存放了三种语义角色位置信息的位 置文件。
[0024] 如上述基于语义角色位置映射的文本水印嵌入方法,提供一种基于语义角色位置 映射的文本水印提取方法,包括:
[0025] 根据嵌入水印时得到的语义角色的位置信息,找到文本中该位置的语义角色,再 根据语义角色与水印信息码元的对应关系,反向映射得到由所述码元表示的水印信息串, 最终将其转换成原始水印信息。
[0026] 所述基于语义角色位置映射的文本水印提取方法的进一步设计在于,具体包括如 下步骤:
[0027]a)将需要检测水印的文档提交LTP平台进行语义角色标注处理,得到包含文本中 句子成分语义角色关系的XML文件;
[0028]b)打开嵌入水印时形成的所述位置文件,依次取出一个位置信息,根据该位置信 息,在所述XML文件中找到对应的位置,判断此位置的语义角色的类型,根据语义角色类型 进行反向映射或译码。如果语义角色类型为A0,则译码为0 ;如果语义角色类型为A1,则译 码为1 ;如果语义角色类型为ADV,则译码为2。直到所有的位置信息全部反向映射完毕,即 得到嵌入的水印彳目息串。
[0029] 本发明的优点如下:
[0030] 本发明提出的方法以文本中的语义角色为载体来嵌入水印信息,语义角色是根据 语义关系抽象出来的角色类型,这种角色类型是稳定不变的,并且不在文档中显式出现,文 档阅读者不会注意到,具有很强的隐蔽性。水印的嵌入与提取是通过将水印信息与文本中 语义角色的位置进行映射来实现的,不对载体文本做任何修改,水印没有任何痕迹,不会被 察觉和发现,具有良好的隐蔽性,同时对原文本的含义和使用不会产生任何影响。对文本进 行格式变换(包括改变行间距、字间距,改变字符大小、字体、颜色等等)不会改变语义角 色,因而不会影响水印的正确提取,对文本进行同义词替换也不会改变语义角色,故也不会 对水印的提取产生影响,水印具有良好的鲁棒性和抗攻击性。
【具体实施方式】
[0031] 下面对本发明方案进行详细说明。
[0032] 本实施例提供的基于语义角色位置映射的文本水印嵌入方法,包括如下步骤:1) 对水印信息进行预处理,将水印字符转换成由码元构成的信息串;2)通过自然语言处理技 术找出文本中语义角色,得到语义角色的位置信息,且将语义角色类型与表示水印信息的 码元一一对应;3)逐个取出水印信息串中的码字,将该码字与所对应的语义角色类型的位 置信息相
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1