计算机系统涉密文件搜索方法

文档序号:6579137阅读:2260来源:国知局
专利名称:计算机系统涉密文件搜索方法
计算机系统涉密文件搜索方法
技术领域
本发明涉及对计算机系统中存放的涉密文件进行搜索的方法。
背景技术
信息技术的快速发展大力推动了计算机网络与信息系统在政府及企事业单位的 广泛应用,为办公及生产建设的电子化、自动化提供了坚实保障,同时,各种涉密信息也大 量以电子文件的形式存储于计算机系统中。这种涉密文件在非涉密计算机上的存在,给信 息安全带来了严重隐患,尤其在政府内网(公安、检察院、法院、政府、财税、电力等等领域) 环境中,防止涉密文件的非法存储可以说已成为国家安全保密工作的重中之重。现有的涉 密文件搜索程序基本上采用关键字查找方法,对涉密文件的搜索工作并无太好使用效果, 这主要是由于以下几方面的缺点造成的 1、搜索结果准确性不高。设定的关键字可能会在涉密文件中存在,但也有其他许 多文档会存在相同关键字内容,使用关键字搜索的方法必然导致搜索到的结果中包含了大 量的非涉密文件,仍需人工进行判断,这对计算机中存在大量文件或者对大量计算机进行 搜索检查时效率不高。 2、搜索结果完整性不强。涉密文件内容各种各样,无法采用统一关键字的方式涵
盖所有涉密文件内容,导致搜索结果中漏掉相当多的涉密文件,这给安全保密工作留下隐 串

发明内容
本发明的目的就是解决现有技术中的问题,提出一种计算机系统涉密文件搜索方 法,能够更加完整且准确地发现计算机系统中存放的涉密文件,以便于消除信息安全保密 工作的隐患。 为实现上述目的,本发明提出了一种计算机系统涉密文件搜索方法,依次包括以 下步骤 A、解析步骤依照不同计算机文件类型、版本,解析出文档内容、格式信息;
B、搜索匹配步骤对文档内容及格式特征信息按照"设定策略组合"进行搜索匹 配,生成该文件是否被判断为涉密文件的结果; C、展现步骤对被判断为涉密文件的文件名、文件存放路径进行界面展现。 作为优选,所述解析步骤中解析出文档内容、格式信息是指根据文件后缀名和文
件内容中的特征字节联合判断,解析文档的结构化存储格式或纯文本,提取出文档内容和
格式信息,所述文档内容是指文字和图片内容,所述格式信息是指字体、字号、字符和显示
位置等等信息。 作为优选,所述解析步骤中采用二进制码解析方法,二进制搜索可不依赖操作系 统是否安装有待解析文档的编辑软件,所述待解析文档的编辑软件是指Microsoft Office 软件或PDF软件或WinRAR软件或WPS软件。
作为优选,所述解析步骤中也可以采用二进制码以外(包括字符、文字等等)的 其他解析方法,并相应调整搜索匹配步骤中的"设定策略组合"的码的类型。或者采用二 进制码与二进制码以外的解析方法结合解析。二进制码以外的方法是指采用操作系统的 搜索接口进行解析或者采用待解析文档的编辑软件搜索接口进行解析,所述编辑软件是指 Microsoft Office软件或PDF软件或WPS软件。 所述搜索匹配步骤中的"设定策略组合"是指根据展现在打印稿中的不同密级 (绝密文件、机密文件、秘密文件、内部文件等)、不同类型、不同行业的涉密文件分析出多 个特征点(可分为重要特征点、一般特征点),多个特征点之间进行"与"、"或"、"非"中至少 一种的组合来搜索匹配,然后编译到计算机能识别的语言。 作为优选,所述搜索匹配步骤中的"设定策略组合"采用两种策略进行组合搜索,
一种是可选择全面搜索策略或精确搜索策略;另一种是可选择普密级搜索策略或绝密级搜
索策略或秘密级搜索策略或内部文档搜索策略。不同密级有绝密文件、机密文件、秘密文
件、内部文件等,分析出不同密级、不同类型、不同行业的共性的重要特征点、一般特征点,
归纳出一些差异的特征点,这些特征点包括关键字、字符、位置、格式等信息。 作为优选,所述搜索匹配步骤中的"设定策略组合"可以选择采用全面搜索策略、
精确搜索策略、普密级搜索策略、绝密级搜索策略。 作为优选,所述搜索匹配步骤中可选择对文件头部分和/或文件尾部分进行查找 匹配。在匹配步骤中采用只对文件开头部分和/或结尾部分进行匹配运算的方法后,可加 快涉密文件搜索速度,提高计算机系统涉密文件搜索的效率。 作为优选,所述展现步骤中可按密级排序展现,并可根据搜索策略匹配程度按判 断可能性的百分比排序展现。 作为优选,在所述搜索匹配步骤之后还包括排除步骤通过内容及格式特征判断 是否为涉密文件教学例文,如果是教学例文则从搜索结果中删除。 作为优选,在所述解析步骤之前还可设定文件系统恢复步骤通过文件系统恢复, 将删除的文件进行复原,然后再转到解析步骤。 作为优选,所述展现步骤中可按密级排序展现,并可根据搜索策略匹配程度按判 断可能性的百分比排序展现。 作为优选,该方法可应用到单机版应用程序中使用,也可应用到网络版应用程序 中使用。 本发明的有益效果本发明对文档内容及能展现在打印稿中的格式特征按照涉密 文件样式进行组合查找匹配,可选择是否设定文件系统恢复搜索,并通过精确搜索或全面 搜索等不同匹配规则策略组的设置。实现搜索计算机系统中存放的涉密文件的功能。该方 法能兼顾搜索结果的完整性与准确性,大大减少了人工判断的工作量,提高了涉密文件查 找的命中率。本方法能够高效、完整、准确地搜索出计算机系统中存放的涉密文件,对于减 少涉密信息泄露风险,提高涉密文件管理能力,加强信息安全保护具有重要作用。
本发明的特征及优点将通过实施例结合附图进行详细说明。


图1是本发明计算机系统涉密文件搜索方法的流程图。
具体实施方式
参阅图l,计算机系统涉密文件搜索流程具体步骤描述如下 1)、程序启动之后,由用户设定搜索范围,选择精确搜索或全面搜索及是否进行文 件系统恢复搜索。 2)、若设定为进行文件系统恢复搜索,则对搜索范围内的删除文件进行恢复,每一 个恢复文件均做标记。 3)、开始遍历搜索范围内的每一个文件,若文件为压縮文件,则先进行解压縮。
4)、解析文档内容及格式信息,根据不同的文件类型,使用相应的方法进行解析。 如TXT文档,直接读取文本内容及相应格式信息;如WORD文档,按照其结构化存储格式进行 结构解析,提取其中文本、图片及相应格式信息,或特定地针对W0RD2007及以上版本,在解 压縮之后解析其包含的XML标签,取得文本、图片及相应格式信息;对PDF等其他文件类型, 采用相关方法解析出文本、图片及相应格式信息。 5)、对文档内容及能展现在打印稿中的格式特征按照涉密文件样式进行联合查找 匹配,判断该文件是否符合涉密文件特征。 6)、若判断符合涉密文件特征,则进入到第7步判断是否为涉密文件教学例文,若 不符合涉密文件特征,则进入到第10步判断在第2步中是否设定为进行文件系统恢复搜 索。 7)、判断是否为涉密文件教学例文,若不是涉密文件教学例文,则为搜索到涉密文 件,进入第8步进行界面显示及记录;若是涉密文件教学例文,则进入到第10步判断在第2 步中是否设定为进行文件系统恢复搜索。 8)、对搜索到的涉密文件进行界面显示,并将文件存放路径记录到U盘隐藏扇区 中。 9)、若设定备份,则将涉密文件及文件存放路径备份到U盘隐藏扇区中,同时将原 文件粉碎。并转到第12步判断是否搜索完成。 10)、在第6步中判断为不符合涉密文件特征,或在第7步中判断为符合涉密文件 教学例文的情况,进行是否设定为文件系统恢复的判断若未设定为文件系统恢复,转到第 12步;若已设定为文件系统恢复,则进入到第11步判断是否为恢复文档的判断。
11)、若为恢复文档,则将该文档进行删除,转到第12步;若不是恢复文档,转到第 12步。 12)、判断是否搜索完成,若未搜索完成,则选择下一文件,并转到第3步进行判 断,若搜索完成,则结束流程。 本实施例通过对文档内容及能展现在打印稿中的格式特征进行组合查找匹配的 方法,搜索本机中符合涉密文件特征的文档,并通过判断是否为涉密文件教学例文,排除这 些教学例文对搜索结果的干扰,提高搜索准确度。同时可选择设定进行文件系统恢复搜索 的方法,将可恢复的文件复原再进行搜索,达到更高的搜索强度和全面性。搜索的结果可选 择为被记录到U盘的隐藏扇区,防止搜索结果的人为更改,以利于提高信息安全检查时对 涉密文件搜索取证的公正性。 本实施例的计算机系统涉密文件搜索方法以单机版为例。程序一般固化于U盘上,U盘插入后自动运行,进行本机涉密文件存储状况的检查。用户可设定搜索的文件夹或 进行本机可访问存储设备的全盘搜索,并可设定搜索过程中采用精确搜索或全面搜索策略 及是否进行文件系统恢复搜索。搜索结果在用户界面上列表显示,并自动可选择存入U盘 隐藏扇区,提供取证,用专用应用程序可读回。程序可根据设定自动备份涉密文件到U盘隐 藏扇区,并彻底粉碎本机文件系统中的涉密文件,这里的本机文件系统包括本机硬盘、映射 到本机的网络驱动器及连接到本机的移动存储设备。 本发明可应用于政府内网(公安、检察院、法院、政府、财税、电力等等领域)、企事 业单位的计算机安全保密检查工作,对(非涉密)计算机上存储涉密文件进行检查。本发 明提出的计算机系统涉密文件搜索方法可做成单机版和网络版两种形式,更多的应用于网 络版的内网安全管理系统软件中,实现网络化、高效率、实时性监测、检查,为信息安全工作 提供强有力技术手段。 虽然本发明已通过参考优选的实施例进行了图示和描述,但是,本专业普通技术 人员应当了解,在权利要求书的范围内,可作形式和细节上的各种各样变化。
权利要求
计算机系统涉密文件搜索方法,其特征在于依次包括以下步骤A、解析步骤依照不同计算机文件类型、版本,解析出文档内容、格式信息;B、搜索匹配步骤对文档内容及格式特征信息按照“设定策略组合”进行搜索匹配,生成该文件是否被判断为涉密文件的结果;C、展现步骤对被判断为涉密文件的文件名、文件存放路径进行界面展现。
2. 如权利要求1所述的计算机系统涉密文件搜索方法,其特征在于所述解析步骤中 解析出文档内容、格式信息是指根据文件后缀名和文件内容中的特征字节联合判断,解析 文档的结构化存储格式或纯文本,提取出文档内容和格式信息,所述文档内容是指文字和 图片内容,所述格式信息是指字体、字号、字符和显示位置信息。
3. 如权利要求1所述的计算机系统涉密文件搜索方法,其特征在于所述解析步骤中 采用二进制码解析方法,二进制搜索可不依赖操作系统是否安装有待解析文档的编辑软件,所述编辑软件是指Microsoft Office软件或PDF软件或WinRAR软件或WPS软件。
4. 如权利要求1所述的计算机系统涉密文件搜索方法,其特征在于所述解析步骤中 采用操作系统的搜索接口进行解析或者采用待解析文档的编辑软件搜索接口进行解析,所 述编辑软件是指Microsoft Office软件或PDF软件或WPS软件。
5. 如权利要求1所述的计算机系统涉密文件搜索方法,其特征在于所述搜索匹配步 骤中的"设定策略组合"是指根据展现在打印稿中的不同密级、不同类型、不同行业的涉密 文件分析出多个特征点,多个特征点之间进行"与"、"或"、"非"中至少一种的组合来搜索匹 配。
6. 如权利要求1所述的计算机系统涉密文件搜索方法,其特征在于所述搜索匹配步骤中的"设定策略组合"采用两种策略进行组合搜索,一种是可选择全面搜索策略或精确搜索策略;另一种是可选择普密级搜索策略或绝密级搜索策略或秘密级搜索策略或内部文档 搜索策略。
7. 如权利要求1所述的计算机系统涉密文件搜索方法,其特征在于所述搜索匹配步 骤中可选择对文件头部分和/或文件尾部分进行查找匹配。
8. 如权利要求1所述的计算机系统涉密文件搜索方法,其特征在于所述展现步骤中 可按密级排序展现,并可根据搜索策略匹配程度按判断可能性的百分比排序展现。
9. 如权利要求1至8中任一项所述的计算机系统涉密文件搜索方法,其特征在于在 所述搜索匹配步骤之后还包括排除步骤通过内容及格式特征判断是否为涉密文件教学例 文,如果是教学例文则从搜索结果中删除。
10. 如权利要求1至8中任一项所述的计算机系统涉密文件搜索方法,其特征在于在 所述解析步骤之前还可设定文件系统恢复步骤通过文件系统恢复,将删除的文件进行复 原,然后再转到解析步骤。
全文摘要
本发明公开了一种计算机系统涉密文件搜索方法,依次包括解析步骤依照不同计算机文件类型、版本,解析出文档内容、格式信息;搜索匹配步骤对文档内容及格式特征信息按照“设定策略组合”进行搜索匹配,生成该文件是否被判断为涉密文件的结果;展现步骤对被判断为涉密文件的文件名、文件存放路径进行界面展现。本发明对文档内容及能展现在打印稿中的格式特征按照涉密文件样式进行联合查找匹配,兼顾搜索结果的完整性与准确性,大大减少了人工判断的工作量,提高了涉密文件查找的命中率。本方法能够高效、完整、准确地搜索出计算机系统中存放的涉密文件,对于减少涉密信息泄露风险,提高涉密文件管理能力,加强信息安全保护具有重要作用。
文档编号G06F17/30GK101763394SQ20091015681
公开日2010年6月30日 申请日期2009年12月31日 优先权日2009年12月31日
发明者傅如毅 申请人:傅如毅
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1