基于修改标识符的oox文本文档隐私信息检测方法

文档序号:9327242阅读:424来源:国知局
基于修改标识符的oox文本文档隐私信息检测方法
【技术领域】
[0001]本发明属于信息隐藏技术领域,针对基于修改标识符的OOX文本文档信息隐藏方法提出了一种针对性的新的检测方法。
【背景技术】
[0002]在网络飞速发展的今天,信息隐藏技术已经广泛应用于多个领域,用于隐藏个人或企业的隐私信息。在信息隐藏技术中,有多种有效的基于文本的隐写方法可以取得较好的隐蔽效果,例如利用字体格式、字体颜色、同义词替换及不可见字符等方法来进行信息隐藏。其中,有一种隐藏方式主要基于OOX(Office Open XML)文本文档中的“修改标识符”进行隐私信息的携带。OOX文档格式是由微软公司为Office 2007产品开发的技术规范,现已成为国际文档格式标准,兼容前国际标准ODF(Open Document Format)和中国文档标准UOF (Unified Office document Format),于 2006 年 12 月成为 ECMA 标准。在 00X 文本文档格式中包括了一组特殊的元素属性,这些属性几乎分布在整个00X文本文档中,这就是“修改标识符”:每一次00X文本文档被打开编辑时,都会产生一个独一无二的标识符ID号,用户所作的任何一次修改都会用一个标识符ID号进行标识,修改不仅包括内容,而且还包括文档的格式;这个ID号在文档保存之后以“修改标识”属性值的形式储存在00X文本文档中,而且这个ID号是完全随机产生的,与用户及修改时间没有任何关系。
[0003]这些“修改标识”保存在document, xml文件中,数量较多,而且经过实验发现,替换这些“修改标识”属性值并不会影响00X文本文档的正常显示和使用,所以可以将待隐蔽的隐私信息(或加密后的隐私信息)转换为16进制字符串,然后依次替换这些“修改标识”的属性值即可达到隐藏信息的目的。

【发明内容】

[0004]为了防止利用基于修改标识符的00X文本文档隐写方法来进行信息隐藏和隐蔽通信,导致一些重要的信息通过这种方式泄露出去,本发明提出了一种针对基于修改标识符的00X文本文档隐私信息检测方法。
[0005]为了达到检测目的,本发明采用了如下所述的技术方案:
[0006]—种基于修改标识符的00X文本文档隐私信息检测方法,其步骤包括:
[0007]I)将待检测的00X文本文档进行解压,形成层次化文件结构,该层次化文件结构中包含 document, xml 和 settings, xml 文件;
[0008]2)提取解压得到的document, xml和settings, xml文件中的修改标识符,并将提取的该两个文件的修改标识符分别保存到两个容器中;
[0009]3)对比两个容器中修改标识符的异同,进而统计出其中通过隐写工具嵌入的隐私信息的数量。
[0010]步骤I)主要利用zlib中的Unzip进行解压,此外也可以采用其它解压工具或解压缩开发包代替Unzip。经过研究发现,在00X文本文档解压之后的文件结构中,只有document, xml和settings, xml文件中包含有修改标识符,因此本发明主要利用document.xml和settings, xml文件实现隐私信息的检测。
[0011]步骤2)分别将提取到的修改标识符保存到两个容器中,如Vector向量,此外也可以采用其它模版、结构体或类的容器形式代替Vector向量。优选地,将修改标识符插入到容器中时需要进行去重和排序操作,排序的作用主要是为了后续统计文档所携带的隐私信息量时节省时间。
[0012]步骤3)中,如果文档中不含有隐私信息,即document, xml中的修改标识没有被修改,那么settings, xml文件中的修改标识一定包含了 document, xml文件中所有修改标识符;如果文档中含有隐私信息,则基于修改标识符的隐写工具一定修改了 document,xml文件中的某一部分修改标识,这样就导致settings, xml中的修改标识无法全部包含document, xml文件中的修改标识。本发明通过对比document, xml的修改标识和settings,xml的修改标识,进而统计出隐私信息隐藏的数量。
[0013]与现有技术相比,本发明的有益效果如下:
[0014]利用基于修改标识符的00X文本文档隐写方法可以用来将一些重要信息或隐私信息隐蔽到00X文本文档之中,并通过网络发送的方式泄露出去,而不会引起察觉。采用人工检查的方法对网络发送的00X文本文档进行手工比对检查是非常费时、费力的工作。通过采用本发明所描述的检测方法,可以自动化地对文本文档进行检测,检测过程中无需人工干预,可以大大节省人力、时间成本。本发明的技术方案不仅可以用于对计算机、终端设备中存储的00X文本文档进行检查,也可以用于对局域网设备中传输的文档进行检测,还可以广泛应用于政府、企业等组织的网络出入口设备之中,用于对00X文本文档是否携带隐私信息进行检查,此外,也可以应用于电信运营商的相关检测设备与内容分发设备之中,用于对用户上传的00X文本文档是否可能携带有隐私信息进行检查。
【附图说明】
[0015]图1是基于修改标识符的隐写检测流程图。
[0016]图2是00X文本文档解压之后的文档结构图。
[0017]图3是基于修改标识符的隐写流程图。
[0018]图4是document, xml文件修改标识示例图。
[0019]图5是settings, xml文件修改标识示例图。
【具体实施方式】
[0020]为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
[0021]本发明的技术内容主要分为三部分,第一部分是对00X文本文档档解压;第二部分是提取解压之后的document, xml和settings, xml文件中的修改标识符,并做相应的排序和去重操作;第三部分是利用整理后的修改标识符进行隐私信息的统计。图1是本发明的基于修改标识符的隐写检测的总体流程图,具体包括如下步骤:
[0022]—、文件解压
[0023]本发明解决的第一个问题是将00X文本文档进行解压,使其形成典型的层次化文件结构。基于修改标识符的隐写检测是针对OOX文本文档进行分析检测,由于OOX文本文档是压缩文件,因此首先需要对其进行解压。具体解压操作如下:
[0024]I)利用unz0pen64()函数打开OOX文本文档,在函数内部生成一个unz64_s的结构体,这个结构体是使用所有函数的关键。
[0025]2)使用UnzGoToFirstFile (unzFile,…)函数可以得到OOX文本文档中第一个文件的数据。
[0026]3)调用unzOpenCurrentFi Ie (unzFile,…)函数,读取文件中的数据,利用unz641ocal_GetCurrentFiIeInfoInternal(unzFile, &s->cur_file_info, &s->cur_file_info_internal, name, 100, NULL, 0, NULL, 0)函数可以得到文件的名字。
[0027]4)通过strcmpO函数对比得到的文件名是否是“document, xml”和“settings,xml”中的一种。如果判断是其中的一种,通过fwriteO函数写入到相应的路径下。
[0028]5)调用UnzGoToNextFile (unzFile,…)函数可以得到00X文本文档中下一个的数据文件。循环执行该函数,直到将document, xml和settings, xml文件全部解压出来为止。
[0029]6)通过unzClose (unzFile,…)函数关闭00X文本文档。
[0030]图2是00X文本文档解压之后的文档结构图。此文件结构中的每个文件都表示不同的内容。其中[Content_Types].xml描述出现在文件中的每个内容类型;rels文件夹存储所有指定部件的关系部件,.rels文件描述了文档结构中的起始关系,称之为关系部件;docProps文件夹包含了所有属性部件,App.xml文件包含了文档特定的属性,如文档字数,、行数,Core, xml文件包含了所有基于开放打包约定文档格式的通用文件属性,如文档的作者,单位等信息;在Word文件夹中,theme文件夹包含了文档中使用的所有样式;rels文件夹存储了指定部件的关系部件;document.xml是主XML文档,其中包含了 Word文档中所有文字的内容和属性以及非文字内容的属性;fontTable.xml、settings, xml、styles.xml、webSettings.xml文件则分别描述了文档中的字体表、文档设置、样式定义、Web设置的信息。
[0031]解压技术主要利用zlib中的Unzip解压。Unzip可以对整个文件结构做解压,同时也可以对某个或某几个文件进行单独解压。经过研究发现,在00X文本文档解压之后的文件结构中,只有的document, xml和settings, xml文件中包含有修改标识符,因此本发明利用Unzip单独解压出文档中的document, xml和settings, xml文件。并且本发明在解压处理完一个文件时,并没有将文件写入到对应的目录下,而是直接在内存中对其进行下一步的操作。这样不仅节省空间,而且大大缩短了检测的时间,进而提高了检测系统的时效性。
[0032]二、提取修改标识符
[0033]本发明解决的第二个问题是在解压得到document, xml和settings, xml文件之后,分别提取两个文件中的修改标识符到两个不同的容器(Vector)中。基于修改标识符的00X文本文档信息隐藏方法的流程如图3所示,是将document, xml文件中的部分修改标识替换为待隐藏的隐私信息。而当用户修改文档并保存时,不仅在document, xml文件中会生成相应的修改标识,而且还同样在settings, xml文件中生成同样的修改标识,本发明的检测原理就是要统计两个xml文件中修改标识符的不同。
[0034]图4是document, xml文件修改标识示例图,图5是settings, xml文件修改标识示例图。在 document, xml 中,如图 4 中元素 w:p 的属性 rsidR,w:rsidRr, w:rsidRDefault,w:rsidP以及w:r的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1