一种基于打印文档的全文检索方法

文档序号:6375812阅读:364来源:国知局
专利名称:一种基于打印文档的全文检索方法
技术领域
本发明涉及打印相关的信息管理与信息安全领域,即涉及一种基于打印文档的全文检索方法。
背景技术
政府、企业、军队、军工单位的打印管理、打印安全系统,对打印相关的身份认证、水印添加、日志跟踪、审计、统计分析等进行了管理,但是对于打印文档数据库的关键信息追查、数据库深度挖掘还没有成熟的方案。没有全文检索技术的支持,在海量的打印文档库中,涉密关键信息的查询、分类统计犹如大海捞针,为打印信息的管理、监控、跟踪带来了很大的困难。同时,深度数据挖掘、统计分析企业打印记录,为企业战略发展提供决策分析更是无从下手。搜索技术广泛应用于互联网环境,即对检索对象数据源,经过加工处理建立信 息数据库和索引数据库,从而对用户提出的各种检索做出响应,提供用户所需的信息或相关指针。用户的检索途径主要包括自由词全文检索、关键词检索、分类检索及其他特殊信息的检索。搜索技术是对数据源进行整理,按照用户要求把信息反馈给用户。搜索技术的工作主要分三点;建立索引数据库、在索引数据库中搜索并排序、将数据库记录反馈给用户。索引技术是搜索的核心技术之一,对收集到的信息进行整理、分类、索引以产生索引库,中文搜索核心是分词技术。分词技术是利用一定的规则和词库,切分出一个句子中的词,为搜索做好准备。索引器生成从关键词到索引资源单元的关系索引表。索引表一般使用某种形式的倒排表,即由索引项查找相对应的索引资源单元。索引表也要记录索引项在文档中出现过的位置,以便检索器计算索引项之间的相邻关系或者相近关系,并以特定的数据结构进行物理存储。搜索器主要是根据用户录入的关键词在索引器形成的倒排表中进行检索,同时完成页面与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。通过搜索引擎获得的检索结果往往成百上千,为了得到有用的信息,常用的技术是按搜索单元的重要性或相关性给搜索单元评级,进行相关性排序。这里的相关度是指搜索关键字在文档中出现的额度。当额度越高时,则认为该文档的相关程度越高。现有的搜索技术广泛应用于互联网、电子图书、行业应用系统等,但针对打印管理、打印安全系统的应用还是个空白。在实现本发明过程中,发明人发现现有打印系统关注点多停留在身份认证、打印文档管理、打印文档闭环跟踪、打印文档统计分析,但针对打印文档的数据搜索、打印文档数据关键信息统计分析没有实现。

发明内容
本发明旨在提供一种基于打印文档的全文检索方法,能够解决现有系统中针对打印文档库关键信息没有深度挖掘的问题,导致涉密文档安全预警不够全面、没有完善的数据统计分析、泄密文档追查不够彻底、涉密文档统计不够准确。基于打印文档的全文检索方法的实现,为打印系统的智能化进行了铺垫。一种基于打印文档的全文检索方法,包括打印内容文字提取模块,用于提取打印文档中的文字信息,作为全文搜索的数据源;搜索引擎模块,用于对用户录入关键信息进行搜索、分析,并将搜索结果反馈给用户。优选地,所述打印内容文字提取模块包括打印任务截获单元,用于截获所有打印任务,为提取打印文档内容做准备;提取文字内容单元,用于提取打印文档的文字内容;保存文字内容单元,用于将提取出来的文字内容,保存到文件中,以便进行全文检索。优选地,所述搜索引擎模块包括搜索Π单元,用于用户交互,接收用户录入的搜索条件,并显示搜索结果;索引器单元,用于以打印文档为基础,以每份打印文档为单位,抽取该打印文档的索引项并记录到索引数据库中;检索器单元,用于根据用户的检索,在索引库中找出打印文档,进行相关度匹配,搜索相关度匹配的打印文档搜索结果。优选地,搜索Π单元包括搜索范围设定、关键词设定、关键词搜索、搜索结果排序、打印任务搜索结果列表显示单元;用户在Π页面输入组织类型、个人信息、文档密级、 文档用途、打印时间等搜索范围信息,根据本次查询的关键词,将搜索范围设定、关键词信息提交搜索引擎进行搜索,根据搜索引擎的搜索结果,对搜索结果进行显示排序,最终将打印任务列表信息显示给用户,用户可对打印任务列表显示的详细列进行灵活配置,以显示用户关心的打印任务信息。优选地,所述索引器单元是根据提取的打印文档文字信息,将打印文档信息表示为一种便于检索的方式并存储在索引数据库中生成文档库的索引表;由索引项找相应的打印文档,将打印文档集合排序存储的同时有一个排好序的关键词列表,用于存储关键词到打印文档的映射关系索引表。优选地,所述检索器单元是根据用户的查询,在索引库中找出相关打印文档,进行打印文档与查询的相关度评价,返回符合设定阀值的打印文档集合。在上述方案中,通过对打印文档的文字提取,对打印文档的文字内容建立索引,对用户关心的关键字信息,能够对相关打印文档进行搜索、统计、分析,克服了现有方法中对于打印文档关键字信息的全面检索、大量分析的缺失现象。导致企事业单位对于打印文档库的文档内容无法全面、立体、深度分析,泄密文档的内容排查带来了很大的困难,同时由于没有对文档库深度挖掘,对于单位今后涉密信息管控的决策制定也缺乏数据支持和理论指导。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发名的不当限定。在附图中
图I示出了基于打印文档的全文检索方法的示意 图2示出了打印文档文字提取模块的流程 图3示出了搜索引擎模块的结构 图4示出了搜索引擎模块的搜索Π子模块的流程 图5示出了搜索引擎模块的索引器子模块的流程 图6示出了搜索引擎模块的检索器子模块的流程图。
具体实施例方式下面将参考附图并结合实施例,来详细说明本发明。图I示出了基于打印文档的全文检索方法的构成图,包括 打印内容文字提取模块S1001,用于提取打印文档中的文字信息,作为全文搜索的数
据源;
搜索引擎模块S1002,用于对用户录入关键信息进行搜索、分析,并将搜索结果反馈
给用户。图2示出了打印内容文字提取模块的流程图。打印内容文字提取模块包括截获打印任务单元S2001,用于获取用户发起的打印任务信息,包括用户帐号、文档名称、打印任务ID、打印任务内容;提取文字内容单元S2002,用于根据截获的打印任务信息,提取文档中的所有文字信息;保存文字内容单元S2003,当用户发起的打印任务成功打印后,将提取出的文字信息进行保存,保存形式为文件形式。图3示出了搜索引擎的构成图。搜索引擎模块S1002包括搜索Π单元S3002,用于用户S3001交互,接收用户录入的搜索条件,并显示搜索结果;索引器单元S3004,用于以打印文档为基础,以每份打印文档为单位,抽取该打印文档的索引项并记录到索引数据库中;检索器单元S3005,用于基于索引数据库,根据用户搜索的关键词,将关键词与索引数据库进行相关度匹配,搜索相关度匹配的打印文档搜索结果。如图4所示,搜索Π单元由搜索范围设定S4001、关键词设定S4002、关键词搜索S4003、搜索结果排序S4004、打印任务搜索结果列表显示单元S4005构成。用户在Π页面输入组织类型(单位、部门、组)、个人信息(账户名)、文档密级(内部、非密、秘密、机密)、文档用途(留存、流转)、打印时间等搜索范围信息,根据本次查询的关键词,将搜索范围设定、关键词信息提交搜索引擎进行搜索,根据搜索引擎的搜索结果,对搜索结果进行显示排序,最终将打印任务列表信息显示给用户,用户可对打印任务列表显示的详细列进行灵活配置,以显示用户关心的打印任务信息。如图5所示,索引器单元是根据提取的打印文档S5001文字信息,将打印文档信息表示为一种便于检索的方式并存储在索引数据库中生成文档库的索引表。由索引项找相应的打印文档,将打印文档集合排序存储的同时有一个排好序的关键词列表用于存储关键词一〉打印文档的映射关系索引表。如图6所示,检索器单元是根据用户的查询,在索引库中找出相关打印文档,进行打印文档与查询的相关度评价,返回符合设定阀值的打印文档集合。检索方法采用基于关键词的检索、基于概念的检索、基于内容的检索。从以上的描述中,可以看出,本发明上述的实施例实现了如下方法效果通过方法手段来实现打印文档的文字信息提取,为打印文档的数据提供资源库,经过对打印文档文字信息的分析,为每个打印文档建立索引数据库,提供用户进行打印文档查询的用户界面,根据用户提供的打印文档的属性信息和关键词信息,结合打印文档索引数据库对打印文档数据库进行相关度查询,返回符合查询条件的打印文档类表,每份打印文档中与关键词相匹配的文档部分会进行标识。显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通方法人员来说,在上述说明的基础上还可 以做出其他不同形式的变化和变动。这里无法对所有的实施方式予以穷举。凡是属于本发明的方法方案所引申出的显而易见的变化或变动仍处于本发明的保护范围之列。
权利要求
1.一种基于打印文档的全文检索方法,其特征在于,包括 打印内容文字提取模块,用于提取打印文档中的文字信息,作为全文搜索的数据源; 搜索引擎模块,用于对用户录入关键信息进行搜索、分析,并将搜索结果反馈给用户。
2.根据权利要求I所述的基于打印文档的全文检索方法,其特征在于,所述打印内容文字提取模块包括 打印任务截获单元,用于截获所有打印任务,为提取打印文档内容做准备; 提取文字内容单元,用于提取打印文档的文字内容; 保存文字内容单元,用于将提取出来的文字内容,保存到文件中,以便进行全文检索。
3.根据权利要求I所述的基于打印文档的全文检索方法,其特征在于,所述搜索引擎模块包括 搜索UI单元,用于用户交互,接收用户录入的搜索条件,并显示搜索结果; 索引器单元,用于以打印文档为基础,以每份打印文档为单位,抽取该打印文档的索引项并记录到索引数据库中; 检索器单元,用于根据用户的检索,在索引库中找出打印文档,进行相关度匹配,搜索相关度匹配的打印文档搜索结果。
4.根据权利要求3所述的基于打印文档的全文检索方法,其特征在于,所述搜索UI单元包括搜索范围设定、关键词设定、关键词搜索、搜索结果排序、打印任务搜索结果列表显示单元;用户在Π页面输入组织类型、个人信息、文档密级、文档用途、打印时间等搜索范围信息,根据本次查询的关键词,将搜索范围设定、关键词信息提交搜索引擎进行搜索,根据搜索引擎的搜索结果,对搜索结果进行显示排序,最终将打印任务列表信息显示给用户,用户可对打印任务列表显示的详细列进行灵活配置,以显示用户关心的打印任务信息。
5.根据权利要求3所述的基于打印文档的全文检索方法,其特征在于,所述索引器单元是根据提取的打印文档文字信息,将打印文档信息表示为一种便于检索的方式并存储在索弓I数据库中生成文档库的索引表;由索引项找相应的打印文档,将打印文档集合排序存储的同时有一个排好序的关键词列表,用于存储关键词到打印文档的映射关系索引表。
6.根据权利要求3所述的基于打印文档的全文检索方法,其特征在于,所述检索器单元是根据用户的查询,在索引库中找出相关打印文档,进行打印文档与查询的相关度评价,返回符合设定阀值的打印文档集合。
全文摘要
本发明提供了一种基于打印文档的全文检索技术,包括打印内容文字提取模块、搜索引擎模块。打印内容文字提取模块,用于提取打印成功文档中的文字内容。搜索引擎模块,用于对提取的打印内容进行分析,形成索引数据库。对于用户搜索的关键字,对索引数据库进行检索,返回符合搜索条件的打印文档列表。
文档编号G06F17/30GK102819612SQ20121031069
公开日2012年12月12日 申请日期2012年8月29日 优先权日2012年8月29日
发明者谷宏兵 申请人:北京鼎盾信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1