避免中文自然语言信息隐藏嵌密前后分词不一致的方法

文档序号：6553931阅读：321来源：国知局

专利名称：避免中文自然语言信息隐藏嵌密前后分词不一致的方法
技术领域：
本发明涉及自然语言信息隐藏领域，特别涉及一种避免中文自然语言信息隐藏嵌密前后分词不一致的方法。
背景技术：
随着计算机网络的发展，数字视频、数字音频、电子文档等数字产品都可以通过网络迅速传播到全球各地。由于这些数字产品制作成本低、可以无限复制、在网络上传播的速度非常快，导致盗版和攻击数字产品变得轻而易举。鉴于此，近几年数字产品的安全防护以及版权保护越来越受到商业界和学术界的重视。目前针对数字产品的保护方式主要包括加密方式和信息隐藏方式，传统的加密方式可以有效的保护数据传输过程中的信息安全，但是数据一旦被所有者接收并解密，就无法继续起到保护作用，而且也不能防范所有者对解密后的数据进行复制和传播。针对传统加密方式的不足，很多研究者开始关注一种新的安全技术即信息隐藏技术。所谓信息隐藏是将秘密信息隐藏在非机密的载体内容之中，载体形式可以是视频、音频、图像或文本文档等。在所有的载体形式中，文本文档是人们进行信息交换的主要方式之一，尤其军事部门，政府机关，国家安全部门，商业机构的机密文件都需要得到有效保护。自然语言信息隐藏是指通过对文本内容进行语义的等价替换或者语态转换，从而把秘密信息嵌入到载体文本中。根据文本变换所涉及的层次不同，又可以将自然语言信息隐藏分为基于同义词替换的信息隐藏、基于句法的信息隐藏以及基于语义的信息隐藏。上述方法中，由于词法分析技术已经比较成熟，而句法分析和语义分析的技术研究还处于探索阶段，所以基于同义词替换的信息隐藏方法是比较流行的，这种方法使用载体文本中的同义词承载秘密信息。目前，英文文本同义词替换的方法已经有了很多研究成果。研究人员提出了一系列的算法，可以让秘密信息隐藏得更加隐蔽或者不易被攻击者破坏。与之相比，中文文本的同义词替换方法在借鉴英文文本同义词替换方法的时候，由于语言体系的差异遇到了特有的困难，最为突出的是中文分词问题。中文文章的句子是一长串连续的汉字，不像英文单词直接通过空格分隔开。目前，现有的中文分词工具，比如中国科学院计算技术研究所的分词工具ICTCLAS、哈工大信息检索研究中心的分词工具LTP，分词正确率都达不到100%，这就可能造成文章嵌密前后分词结果不一致，导致秘密信息提取错误。例如中文原句“我手指头流血了”。ICTCLAS对原句的分词结果是“我手指头流血了”。其中“手指头”有同义词“手指”，“流血”有同义词“出血”。两者都可以承载秘密信息。我们有下表
权利要求
1.一种避免中文自然语言信息隐藏嵌密前后分词不一致的方法，该方法涉及的字母η 是自然数，表示对一个句子的处理过程中，未被舍弃的可嵌密词个数；字母k是不小于1的正整数，表示验证个数其特征在于具体包括以下步骤步骤1 根据文本中的标点符号将文本切分成多个小句，其中，所述的小句由切分出的内容与对应的标点符号组成；初始化一个空的理想可嵌密词集合，它由由词、同义词、所在句子、句内序号等内容组成；步骤2 从还没被处理过的小句中选出第一个，对其进行分词；找出所有可嵌密词，并且根据可嵌密词在句中依次出现的顺序进行编号；步骤3 :n为小句中全部可嵌密词个数；令该小句的验证个数k为1 ；如果，n=0，表示小句没有可嵌密词，或者小句所有可嵌密词都已经被舍弃，跳到步骤8.否则进行步骤4 ；步骤4 根据小句中未被舍弃的η个可嵌密词的序号，得到^个可嵌密词序号组合；创建一个空的出错序号组合列表；按照可嵌密词序号组合对原句进行同义词预替换，得到全部满足条件的在η个可嵌密词中只预替换k个可嵌密词的含密新句子；当然，因为一个可嵌密词可能有多个同义词，所以一种序号组合可能对应多个新句子；步骤5 根据可嵌密词序号组合，判断获得的新句子与原句分词是否一致，如果其中一种可嵌密词序号组合的全部新句子与原句分词一致，跳到下一种可嵌密词序号组合；如果某一种组合出现与原句分词不一致的新句子，把这种组合添加到出错序号组合列表，跳过本组合的其他句子，验证下一种组合；直到全部序号组合都被验证过为止；从而将分词不一致的新句子对应的序号组合都添加到了出错序号组合列表中；利用舍弃选择算法，将出错序号组合列表中出现次数最多的可嵌密词全部删除；步骤6 更新η的数值，如果，小句的可嵌密词都被舍弃了，即ri=0，则句子内所有可嵌密词全都不理想，跳到步骤8，否则继续执行步骤7 ；步骤7 当验证个数k不小于句中未被舍弃的可嵌密词个数n，即k>=n时，则句中未被舍弃的可嵌密词都是理想可嵌密词，将其添加到理想可嵌密词集合，继续执行步骤8 ；否则，将该小句的验证个数k设置为k=k+l，重复步骤4至步骤7 ；步骤8 对文本经划分得到的其他所有小句遵循上述步骤2至步骤7重复进行操作，直到文本中的所有小句均完成上述步骤，得到整个文本的理想可嵌密词集合，结束处理。
2.如权利要求1所述的避免中文自然语言信息隐藏嵌密前后分词不一致的方法，其特征在于所述的舍弃位置选择算法包括以下步骤(1)获取小句出错序号组合列表；(2)判断该获取小句出错序号组合列表是否为空，当小句出错序号组合列表为空时，则结束操作；当小句出错序号组合列表不为空时，舍弃列表中出现次数最多的可嵌密词，如果有多个可嵌密词出现的次数最多且相同，那么根据嵌入和提取时使用的密钥，选择一个可嵌密词进行舍弃；(3)更新小句出错序号组合列表，删除列表中有被舍弃的嵌密词的序号的组合，跳到第 (2)步循环进行操作，直到第(2)步实现小句出错序号组合列表为空停止。
全文摘要
本发明公开了一种避免中文自然语言信息隐藏嵌密前后分词不一致的方法，它能够在现有分词工具分词正确率达不到100%的条件下，提供一种找到文本理想可嵌密词的方法，该方法通过一系列步骤，舍弃一些可嵌密位置上的可嵌密词，使最终得到的可嵌密词都是理想的，在嵌入秘密时，只将理想可嵌密词承载秘密信息，就能保证含密句子与原件分词结果相一致，彻底地解决了中文同义词替换方法嵌密前后分词结果不一致的问题。
文档编号G06F21/00GK102201046SQ20111012278
公开日2011年9月28日申请日期2011年5月12日优先权日2011年5月12日
发明者何路, 吴建涛, 房鼎益, 陈长安申请人:西北大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何路;陈长安;吴建涛;房鼎益
技术所有人：西北大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。