计算机系统涉密文件知识库搜索方法

文档序号:6399904阅读:639来源:国知局
专利名称:计算机系统涉密文件知识库搜索方法
计算机系统涉密文件知识库搜索方法
技术领域
本发明涉及对计算机系统中存放的已知涉密文件进行搜索的方法。
背景技术
信息技术的快速发展大力推动了计算机网络与信息系统在政府及企事业单位的广泛应用,为办公及生产建设的电子化、自动化、信息化提供了坚实保障,同时,各种涉密信息也大量以电子文件的形式存储于计算机系统中。这种涉密文件在非涉密算机上的存在,给信息安全带来了严重隐患,尤其在政府内网(公安、检察院、法院、政府、财税、电力等等领域)环境中,防止涉密文件的非法存储可以说已成为国家安全保密工作的重中之重。虽然国家对涉密文件有明确的文件格式和标识规定,但是在实际应用当中有许多单位和部门为了便于自己内部管理和使用,都会有自己的一套涉密信息文件格式和标识规定,有的甚至没有明确的格式和标识,甚至还有一些管理人员为了逃避涉密检查故意破坏涉密信息文件格式,打乱涉密信息文件内容。那么面对这些问题如何准确的发现这些涉密信息文件,对这些文件进行保护和管理已近成为当前解决涉密信息泄露的关键问题。目前的涉密文件搜索程序主要采用关键字检查和涉密文件格式检查方法,这样的检查方式存在一定的漏洞和缺陷。1、搜索结果准确性不高。许多非涉密文件中会存在同样的关键字,导致关键字检查准确度不高。2、搜索结果完整性不强。许多部门和单位对涉密文件格式要求不严格,导致采用涉密文件格式检查方式会遗漏很多涉密文档。3、搜索方式抗干扰性弱。如果人为的破坏一些涉密文档的格式,比如删除涉密文件文件头内容、打乱涉密文 件段落次序,那么原本能通过涉密文件格式特征搜索方式能发现的涉密文档可能就会发现不了。4、对已知涉密文件缺乏有效管理。对发布的涉密信息文件缺乏原始记录追踪,t匕如发布部门、发布时间、发布人等。导致无法对涉密文档整个生命周期进行有效的管理。一但发生泄密,无法取证,无法追查其泄密源头。

发明内容本发明的目的就是解决现有技术中的问题,提出一种计算机系统涉密文件知识库搜索方法,能够更加完整且准确地发现计算机系统中存放的涉密文件并且加以有效的管理,以便于消除信息安全保密工作的隐患。为实现上述目的,本发明提出了一种计算机系统涉密文件知识库搜索方法,依次包括以下步骤:a)敏感信息文件整理:由各部门涉密信息管理员把涉密文件通过录入模块导入到系统内,并通过录入模块录入文件来源管理信息;b) “学习”涉密文件:由学习模块提取涉密文件的多个内容特征信息,并将学习到的内容特征信息与a)步骤中录入的文件来源管理信息相对应保存到知识库中;学习到的多个内容特征信息分成基础特征信息和附加特征信息两类;d)解析扫描对象:对计算机进行检查时,依照不同计算机文件类型、版本,解析出文档的内容信息;e)搜索匹配步骤:将解析出的文档对象的内容信息与知识库中的内容特征信息通过“设定策略组合”进行匹配扫描,生成该扫描对象文件是否被判断为涉密文件的结果;f)展现步骤:在页面上展现被判断为涉密文件的文件名、文件存放路径、文件来
源管理信息。作为优选,所述a)敏感信息文件整理步骤中文件来源管理信息包括文件名、发布部门、发布人和发布时间;f)展现步骤中展现的文件来源管理信息也包括文件名、发布部门、发布人和发布时间。作为优选,所述b) “学习”涉密文件步骤中提取内容特征信息时,内容特征信息的提取位置和提取大小按 照“设定提取策略”来进行提取。作为优选,所述“设定提取策略”是提取位置至少有3处,提取大小少于50个字节。作为优选,在d)解析扫描对象步骤之前还设有c)文件系统恢复步骤:通过文件系统恢复,将删除的文件进行复原,然后再进入d)解析扫描对象步骤。作为优选,所述d)解析扫描对象步骤中采用二进制码解析方法、字符解析方法、文字解析方法相结合。作为优选,所述e)搜索匹配步骤中“设定策略组合”是指根据匹配文档对象的内容大小、段落数量和内容特征信息,设定匹配规律,根据匹配算法来计算出匹配对象文档的匹配相似度。作为优选,所述e)搜索匹配步骤中匹配相似度采用基础特征信息与附加特征信息相结合的方式来判断,基础特征信息用来初次过滤明显不符合的匹配文档对象,附加特征信息用来提高搜索精度,相似度分数越高说明匹配程度越高。作为优选,所述f)展现步骤中按相似度排序展现,根据相似度分数分成相似、可疑和准确三类进行直观显示,展现的文件来源管理信息包括发布部门、发布人和发布时间。本发明的有益效果:本发明通过对已知涉密信息文档的内容特征学习,解决了特定行业和特定部门自定义一些涉密文件格式,和一些人为的破坏涉密文件格式内容而导致通过传统的关键字检查和涉密文件格式检查发现不了的难题,同时引入了涉密文件的生命周期信息管理方式,能够准确定位涉密信息文档泄密源头。本方法搜索的针对性强、准确性大大提高,对于减少涉密信息泄露风险,提高涉密文件管理能力,加强信息安全保护具有重要作用。本发明的特征及优点将通过实施例结合附图进行详细说明。

图1是本发明计算机系统涉密文件知识库搜索方法的流程框图。图2是本发明计算机系统涉密文件知识库搜索方法的具体流程图。
具体实施方式
参阅图1、2,计算机系统涉密文件知识库搜索方法,依次包括以下步骤:I)、进行文件信息整理,判断是否是涉密信息文档,如果是涉密信息文档,则进入学习涉密文件步骤;如果不是涉密信息文档,则结束程序。2)、将涉密文件导入系统内,并录入文件来源管理信息,同时,提取涉密文件的内容特征信息,将内容特征信息与文件来源管理信息相对应关联后保存到知识库中。3)由用户设定搜索范围,选择精确搜索或全面搜索及是否进行文件系统恢复搜索。4)、若设定为进行文件系统恢复搜索,则对搜索范围内的删除文件进行恢复,每一个恢复文件均做标记。5)、开始遍历搜索范围内的每一个文件,若文件为压缩文件,则先进行解压缩。6)、解析文档内容及格式信息,根据不同的文件类型,使用相应的方法进行解析。如TXT文档,直接读取文本内容及相应格式信息;如WORD文档,按照其结构化存储格式进行结构解析,提取其中文本、图片及相应格式信息,或特定地针对W0RD2007及以上版本,在解压缩之后解析其包含的XML标签,取得文本、图片及相应格式信息;对TOF等其他文件类型,采用相关方法解析出文本、图片及相应格式信息。7)、判断是否符合涉密文件知识库特征,如果符合的,则进行界面显示及记录,如果不符合的,则进入是否符合涉密文件格式特征的判断。8)对文档内容及能展现在打印稿中的格式特征按照涉密文件样式进行联合查找匹配,判断该文件是否符合涉密文件特征。9)、若判断符合涉密文件特征,则进入到第9步判断是否为涉密文件教学例文,若不符合涉密文件特征,则判断是否搜索完成。10)、判断是否为涉密文件教学例文,若不是涉密文件教学例文,则为搜索到涉密文件,进行界面显示并记录;若是涉密文件教学例文,则判断是否搜索完成。11)、对搜索到的涉密文件进行界面显示。12)、若设定备份,则将涉密文件及文件存放路径备份到U盘隐藏扇区中,同时将原文件粉碎。并转到判断是否搜索完成。13)、判断是否搜索完成,若未搜索完成,则选择下一文件,并转到第5步进行判断,若搜索完成,则结束流程。本实施例通过已知涉密信息文档的内容特征学习,解决了特定行业和特定部门自定义一些涉密文件格式,和一些人为的破坏涉密文件格式内容而导致通过传统的关键字检查和涉密文件格式检查发现不了的难题,同时引入了涉密文件的生命周期信息管理方式,能够准确定位涉密信息文档泄密源头,使风险可靠。本方法搜索的针对性强、准确性大大提高,对于减少涉密信息泄露风险,提高涉密文件管理能力,加强信息安全保护具有重要作用。本发明可应用于政府内网(公安、检察院、法院、政府、财税、电力、等等领域)、企事业单位的计算机安全保密检查工作,对(非涉密)计算机上存储涉密文件进行检查。本发明提出的计算机系统涉密文件搜索方法可做成单机版和网络版两种形式,更多的应用于网络版的内网安全管理系统软件中,实现网络化、高效率、实时性监测、检查,为信息安全工作提供强有力技术手段。
虽然本发明已通过参考优选的实施例进行了图示和描述,但是,本专业普通技术人员应当了解,在权利要求书的范围内,可作形式和细节上的各种各样变化。
权利要求
1.计算机系统涉密文件知识库搜索方法,其特征在于:依次包括以下步骤: a)敏感信息文件整理:由各部门涉密信息管理员把涉密文件通过录入模块导入到系统内,并通过录入模块录入文件来源管理信息; b)“学习”涉密文件:由学习模块提取涉密文件的多个内容特征信息,并将学习到的内容特征信息与a)步骤中录入的文件来源管理信息相对应保存到知识库中;学习到的多个内容特征信息分成基础特征信息和附加特征信息两类; d)解析扫描对象:对计算机进行检查时,依照不同计算机文件类型、版本,解析出文档的内容信息; e)搜索匹配步骤:将解析出的文档对象的内容信息与知识库中的内容特征信息通过“设定策略组合”进行匹配扫描,生成该扫描对象文件是否被判断为涉密文件的结果; f)展现步骤:在页面上展现被判断为涉密文件的文件名、文件存放路径、文件来源管理信息。
2.如权利要求1所述的计算机系统涉密文件知识库搜索方法,其特征在于:所述a)敏感信息文件整理步骤中文件来源管理信息包括文件名、发布部门、发布人和发布时间;f)展现步骤中展现的文件来源管理信息也包括文件名、发布部门、发布人和发布时间。
3.如权利要求1所述的计算机系统涉密文件知识库搜索方法,其特征在于:所述b)“学习”涉密文件步骤中提取内容特征信息时,内容特征信息的提取位置和提取大小按照“设定提取策略”来进行提取。
4.如权利要求3所述的计算机系统涉密文件知识库搜索方法,其特征在于:所述“设定提取策略”是提取位置至少有3处,提取大小少于50个字节。
5.如权利要求1所述的计算机系统涉密文件知识库搜索方法,其特征在于:在d)解析扫描对象步骤之前还设有c)文件系统恢复步骤:通过文件系统恢复,将删除的文件进行复原,然后再进入d)解析扫描对象步骤。
6.如权利要求1所述的计算机系统涉密文件知识库搜索方法,其特征在于:所述d)解析扫描对象步骤中采用二进制码解析方法、字符解析方法、文字解析方法相结合。
7.如权利要求1-6中任一项所述的计算机系统涉密文件知识库搜索方法,其特征在于:所述e)搜索匹配步骤中“设定策略组合”是指根据匹配文档对象的内容大小、段落数量和内容特征信息,设定匹配规律,根据匹配算法来计算出匹配对象文档的匹配相似度。
8.如权利要求7所述的计算机系统涉密文件知识库搜索方法,其特征在于:所述e)搜索匹配步骤中匹配相似度采用基础特征信息与附加特征信息相结合的方式来判断,基础特征信息用来初次过滤明显不符合的匹配文档对象,附加特征信息用来提高搜索精度,相似度分数越高说明匹配程度越高。
9.如权利要求8所述的计算机系统涉密文件知识库搜索方法,其特征在于:所述f)展现步骤中按相似度排序展现,根据相似度分数分成相似、可疑和准确三类进行直观显示,展现的文件来源管理信息包括发布部门、发布人和发布时间。
全文摘要
本发明公开了一种计算机系统涉密文件知识库搜索方法,依次包括a)敏感信息文件整理、b)“学习”涉密文件、c)文件系统恢复、d)解析扫描对象、e)搜索匹配步骤和f)展现等步骤。本发明通过对已知涉密信息文档的内容特征学习,解决了特定行业和特定部门自定义一些涉密文件格式,和一些人为的破坏涉密文件格式内容而导致通过传统的关键字检查和涉密文件格式检查发现不了的难题,同时引入了涉密文件的生命周期信息管理方式,能够准确定位涉密信息文档泄密源头。本方法搜索的针对性强、准确性大大提高,对于减少涉密信息泄露风险,提高涉密文件管理能力,加强信息安全保护具有重要作用。
文档编号G06F17/30GK103164515SQ20131006697
公开日2013年6月19日 申请日期2013年3月1日 优先权日2013年3月1日
发明者傅如毅 申请人:傅如毅
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1