一种PDF文档隐私泄露防御方法及系统与流程

文档序号:17003811发布日期:2019-03-02 01:55阅读:298来源:国知局
本发明涉及计算机网络安全领域,具体而言,涉及一种针对pdf文档隐私泄露问题的防御方法及系统。
背景技术
::pdf(portabledocumentformat)是由adobe公司推出的一种通用的文档格式,可以将格式丰富的文字、图像、表格、链接等信息集成在一个文件中,并且可以在各种设备和操作系统上稳定地呈现内容。得益于pdf文档的灵活性和稳定性,它被广泛应用于信息传递、知识交换、资料存档等多个场景,也成为了政府、商业、教育等领域部门对内对外信息交流的常用媒介。pdf文档承载着大量的数据和信息,除了正文内容之外,还有作者留在其中的姓名、所属单位、联系方式等个人信息。由于人们经常在互联网上传播pdf文档,这些文档可能会被人们无意识地存储在了互联网的某个角落里,从而能够被无关的人下载,个人信息随之传播,造成隐私泄露。以上所述信息是文档作者有意留下的,除此之外,还存在着人们无意识留下的敏感信息。人们普遍认为pdf文档结构严谨、性能稳定,相比microsoftoffice文档安全性更高。实际上,由于pdf特殊而复杂的结构,一些敏感信息可能会在作者进行文档编辑等操作的时候遗留下来。其中一种众所周知的敏感信息是元数据。元数据是用于从多个方面描述数据的数据。文档、图片、可执行程序等文件都含有元数据。对于文档来说,元数据可以存储文档的创建时间、修改时间、作者名称、语言、公司、生成工具等信息。pdf文档的结构中有一个专门的对象用于储存元数据。由于这些信息是人们无意识留下而又与作者的真实身份相关,因此将其认为是敏感信息。尽管有元数据的提取和擦除工具,但是很少有人有意识去使用它们来保护隐私。目前针对pdf文档的研究主要集中在两个方面,更高效的pdf内容提取和恶意pdf文档的检测,而涉及pdf文档隐私泄露防御的研究没有得到足够的关注。在全球信息互通、大数据技术广泛应用的时代,从pdf文档中泄露的信息很可能与从其他来源泄露的信息结合起来,被不法分子加以利用,造成更严重的隐私泄露,危害用户的信息安全。就以往的研究而言,仍然存在可能的隐私泄露途径没有被发现,尤其是还没有一个成型易用的系统让普通用户来发现并防止pdf文档的隐私泄露问题。技术实现要素:针对上述问题,本发明提出了一种pdf文档隐私泄露防御方法及系统。该方法能够帮助用户方便地检查pdf文档中是否存在隐私泄露风险,如果存在,则帮助用户进行隐私擦除,以防御隐私泄露。为达上述目的,本发明采取的具体技术方案是:一种pdf文档隐私泄露防御方法,包括以下步骤:提取pdf文档的元数据,并通过元数据检查是否具有密码保护;若该文档没有密码保护,则检查是否具有文件复制保护;若该文档没有文件复制保护,则从中提取pdf辅助支持中的可选描述;过滤掉可选描述中的描述性文本和互联网链接,只保留文件路径;将上述元数据中的可能含有隐私信息的敏感成分和上述文件路径呈现给用户;根据用户的选择将文档中会泄露隐私信息的成分擦除,生成一不含隐私信息且不破坏原本结构和内容的pdf文档。进一步地,调用exiftool工具的api进行元数据提取。进一步地,若提取的元数据中包含“encryption”键名,则该文档具有密码保护。进一步地,根据对象流内容是否能够正常解压缩来判定所述文档是否具有文件复制保护,步骤包括:识别pdf文档结构中的对象流标识“objstm”,提取完整的对象流内容;利用上述标识对应的对象所标注的压缩方法进行对象流内容解压缩,得到可读的原始内容,识别并提取出其中的可选描述;若该文档具有文件复制保护,则对象流内容无法被解压缩,对象流中的原始内容无法被正常读取,进而无法提取可选描述。进一步地,根据文件路径的文本特征,通过正则匹配从可选描述中提取文件路径。进一步地,呈现给用户的方式为直观可视化,其中对于元数据,明确标注每一条的类型、内容,并将所有高风险数据类型进行高亮处理。进一步地,擦除方式包括仅擦除元数据、仅擦除可选描述、仅擦除文件路径型可选描述、仅擦除文件路径型可选描述的一部分、全部擦除;进一步地,对于元数据的擦除,调用可用公开工具进行擦除,如exiftool。进一步地,对于可选描述的擦除,若全部擦除,则用相同长度的无意义字符串替换全部的可选描述字符串;若仅擦除文件路径型可选描述,则通过正则匹配识别出可选描述中的文件路径,使用相同长度的无意义字符串替换文件路径字符串;若仅擦除文件路径型可选描述的一部分,则使用与该部分长度相同的无意义字符串进行替换;替换完内容的对象流使用原本的压缩方式进行压缩操作,并插入回其原本在文档结构中的位置。一种pdf文档隐私泄露防御系统,包括:一文档敏感成分提取模块,用于提取pdf文档中存在隐私泄露风险的成分,包括元数据和可选描述中的文件路径;一文档敏感成分展示模块,用于将提取出的敏感成分直观地展示给用户;一文档隐私信息擦除模块,用于将文档中的隐私敏感成分擦除,并生成一份不含隐私信息且不破坏原本结构和内容的pdf文档返还给用户。本发明方法基于首次发现的pdf文档中一直被忽视的敏感信息泄露途径,将pdf文档中的敏感信息提取出来,弥补了当前pdf文档隐私泄露防御方法的空缺。设计了一个可用的系统以便普通用户方便地检查pdf文档的隐私泄露风险情况,并可选择地对隐私信息进行有效擦除。附图说明图1是实施例中的pdf文档隐私泄露防御系统的结构图。图2是实施例中的pdf文档隐私泄露防御系统建立和部署总括示意图。图3是实施例中的pdf文档隐私泄露防御方法流程图。具体实施方式为了使本
技术领域
:的人员更好地理解本发明实施例中的技术方案,并使本发明的目的、特征和优点能够更加明显易懂,下面结合附图和事例对本发明中技术核心作进一步详细的说明。本实施例结合本发明提出的pdf文档隐私泄露防御方法及系统详细说明如下:本系统的构成如图1所示,分为3个模块:文档敏感成分提取模块、文档敏感成分展示模块、文档隐私信息擦除模块。对各模块具体说明如下:1、文档敏感成分提取模块,提取pdf文档中可能泄露隐私的敏感成分,即元数据和可选描述。将二者认为是敏感信息的原因是,它们都是作者无意识地遗留在文档结构中且与作者真实身份相关的。就元数据而言,可从pdf中提取出的种类数量超过30个,包括作者名称、创建时间、修改时间、文档生成工具、公司、语言、文档id等。作者名称一般默认是操作系统账户名称,通常可能由作者的真实姓名、外文姓名、常用昵称、出生日期、惯用词汇等信息单独或组合生成,且存在较大的复用可能性,即作者的操作系统账户名称很可能同样使用在其他的平台账户中。作者的名称信息一旦泄露,就有可能成为与其他来源泄露的隐私信息的一个交汇点。元数据中的公司信息将泄露作者所工作的单位和所从事的行业,语言信息则会泄露作者的国籍。为了给残疾人士提供pdf文档内容获取的功能,adobe公司设计了辅助支持功能,具体包含以下几种类型:语言、可选描述、替代描述、缩略语。其中可选描述是为图像、表格等无法自然转换成文本的元素提供文本描述。结构化的可选描述以压缩的形式储存在pdf文档的对象流中。当用户向word文档中通过复制的方式插入图片,并将该word文档转换为pdf文档时,图片的原始存储路径将会被储存为该张图片的可选描述。图片的原始存储路径可能是网络链接或文件路径,而文件路径存在着泄露用户隐私信息的风险,如系统账户名、社交软件账号、从事行业。因此对于从pdf文档中提取出的可选描述,再通过正则匹配的方式对文件路径进行提取。2、文档敏感成分展示模块,将提取出的敏感成分以直观的方式呈现给用户。对于元数据,明确标注每一条的类型、内容,并将所有高风险数据类型进行高亮处理,如姓名、公司等。对于文件路径,由于一篇文档内的文件路径数量往往不多,用户可以仅通过肉眼方便地识别其中是否含有隐私信息。3、文档隐私信息擦除模块,提供可选的隐私信息擦除功能,若用户选择擦除隐私信息,则系统对文档进行敏感元数据和可选描述的擦除,再将干净的文档返回给用户,供用户下载。用户可以选择仅擦除元数据、仅擦除可选描述、仅擦除文件路径型可选描述、仅擦除文件路径型可选描述的一部分、全部擦除或不做任何操作。若需擦除元数据,则调用公开的工具,如exiftool,进行元数据擦除。对于可选描述的擦除,用户可以选择全部擦除、仅擦除文件路径或仅擦除某条文件路径的某部分。若用户选择全部擦除,则用相同长度的无意义字符串替换全部的可选描述字符串;若用户选择仅擦除文件路径型可选描述,则通过正则匹配识别出可选描述中的文件路径,同样使用相同长度的无意义字符串替换文件路径字符串;若用户选择仅擦除某条文件路径型可选描述的一部分,则使用与该部分长度相同的无意义字符串进行替换。系统使用相同长度的无意义字符串进行替换而非直接删除的目的是,保证pdf文档结构完整,内容不被破坏,新生成的文档依然可正常阅读内容。替换完内容的对象流使用原本的压缩方式进行压缩操作,并插入回其原本在文档结构中的位置。图2所示为本系统的建立和部署总括示意图,包括以下步骤:步骤100:提取pdf文档中的元数据,并检测文档是否具有密码保护,对已具有密码保护的文档直接判定为不含隐私泄露风险。具体地,系统调用公开的工具exiftool所提供的api进行元数据的提取。同时,检查该文档是否具有文档密码保护,即需要正确的密码才能打开文件浏览内容的保护措施。若提取的元数据中包含“encryption”键名,则该文档具有密码保护,无法提取任何敏感内容,包括有效元数据和可选描述,从而认为该文档不具有隐私泄露风险。此处的有效元数据指的是作者名称、公司名称等更为敏感的内容,而不包括文件创建时间、修改时间等内容。步骤200:若文档不具有密码保护,则提取pdf文档中的可选描述,根据对象流内容是否能够正常解压缩来判定文档是否具有文件复制保护。文件复制保护即文档可以打开并浏览,但文本内容不可复制的保护措施。具体地,识别pdf文档结构中的对象流标识“objstm”,提取完整的流内容,利用该对象所标注的压缩方法进行对象流内容解压缩,得到可读的原始内容,识别并提取出其中的可选描述。可选描述的存储结构为跟在“alt”字符串之后并包裹在圆括号或尖括号中间,具有明显的文本特征,因此采用正则匹配的方式进行提取。若该文档具有文件复制保护,则对象流内容无法被解压缩,对象流中的原始内容无法被正常读取,进而无法提取可选描述。对已具有文件复制保护的文档仅处理元数据,否则将对元数据和可选描述都进行进一步处理。步骤300:文件路径具有明显的文本特征,如windows系统的文件路径由盘符、冒号、斜杠和目录层级组成,linux和macos系统由斜杠和目录层级组成。根据此特点通过正则匹配的方法,将文件路径从可选描述中筛选出来。步骤400:将提取出的敏感元数据和文件路径以直观友好的方式展示给用户,让用户方便地确认系统所提取出的内容是否对于自己的真实身份敏感,掌握文档的隐私泄露风险情况。步骤500:根据用户需求和选择,将有泄露隐私风险的元数据和可选描述从文档中擦除,将安全的文档返还给用户。图3所示为利用本系统防御pdf文档隐私泄露流程示意图,具体流程如下:步骤110:利用目前最成熟的元数据提取工具——exiftool的公开api提取pdf文档的元数据,检测用户提交的pdf文档是否已加密,若已具有密码保护则直接告知用户本系统认为文档不含隐私泄露风险,否则继续下一步处理。步骤210:读取pdf文档的对象流并按标定方法进行解压缩,若无法正常解压缩,则文档具有文件复制保护,后续不再对可选描述进行提取,否则解压缩获得对象流内容,并通过正则匹配提取其中的可选描述。步骤310:根据文件路径具有的特征,利用正则匹配方法从可选描述中筛选出文件路径。步骤410:将提取出的敏感元数据和文件路径以直观友好的方式展示给用户,让用户方便地确认系统所提取出的内容是否对于自己的真实身份敏感,掌握文档的隐私泄露风险情况。对于元数据,明确标注每一条的类型、内容,并将高风险数据类型进行高亮处理,如姓名、公司等,以提醒用户。对于文件路径,由于一篇文档内的文件路径数量往往不多,用户可以轻易地仅通过肉眼识别其中是否含有隐私信息。步骤510:若用户有擦除文档隐私痕迹的需求,则选择页面上所展示的不同敏感内容以向系统提交响应的请求。用户可以选择仅擦除元数据、仅擦除可选描述、仅擦除文件路径型可选描述、仅擦除文件路径型可选描述的一部分、全部擦除或不做任何操作。步骤520:根据用户提交的请求,将相应的敏感内容从文档中擦除,同时保证不破坏原文档的结构和内容,将安全的文档返还给用户。最后所应说明的是,以上实施案例仅用以说明本发明的技术方案而非限制,尽管使用事例对本发明进行了详细说明,本领域的普通技术人员应当理解,可对本发明的技术方案进行修改或者等价替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1