文件内容检索系统及方法

文档序号:6472352阅读:170来源:国知局
专利名称:文件内容检索系统及方法
技术领域
本发明涉及一种文件内容检索系统及方法。
背景技术
随着计算机技术的普及与发展,电子文件在我们的工作与生活中被广泛应用,逐步取代 传统的纸本文件。信息的e化大大加速了信息传递的速度,降低了成本,同时也提高了我们 的工作效率。
但在我们享受它为我们带来巨大便利的同时,如何高效率的査找和利用我们的电子文件 资料成为不得不解决的问题。传统的文件索引系统将文件资料全部导入数据库,利用数据库 的强大搜索功能完成文件索引。然而,将硬盘中的资料导入到数据库里以利于文件索引作业 ,工作量很大,同时造成资源浪费,并且当文件资料中带有图片时,图片必须通过程序来査 看,还没有直接存放在硬盘上査看更方便,其效果并不理想。

发明内容
鉴于以上内容,有必要提供一种文件内容检索系统,可以建立一个比较全面的词库,根 据该词库中词组依次对文件内容进行检索,得到一个以词库中词组为目录的检索信息表,以 备用户在对文件进行检索时直接调用,提高了工作效率。
鉴于以上内容,有必要提供一种文件内容检索方法,可以建立一个比较全面的词库,根 据该词库中词组依次对文件内容进行检索,得到一个以词库中词组为目录的检索信息表,以 备用户在对文件进行检索时直接调用,提高了工作效率。
一种文件内容检索系统,包括计算机主机及与该计算机主机相连的词库及检索信息库, 该计算机主机包括获取模块,用于依次获取该词库中所有词组,及获取该计算机主机中所
存储的需进行内容检索文件的格式,并根据获取的文件格式打开需进行内容检索文件以获取
文件内容;检索模块,用于根据所获取的词库中的词组及从词库中获取词组的顺序依次对所 述需进行内容检索文件的内容进行检索以生成各个词组对应的检索信息,并根据生成的检索 信息为所述需进行内容检索文件建立一个以词库中的词组为目录的检索信息表;保存模块, 用于将所述检索信息表保存至该检索信息库中;输入模块,用于输入需检索的词组;及査询 模块,用于在词库中査询所输入词组,及根据所述词组在检索信息库中査询该词组所对应的 检索信息。一种文件内容检索方法,该方法包括如下步骤依次获取词库中所有词组;获取计算机 主机中所存储的需进行内容检索文件的格式,并根据获取的文件格式打开需进行内容检索文 件以获取文件内容;根据所获取的词库中的所有词组及从词库中获取词组的顺序依次对所述 需进行内容检索文件的内容进行检索以生成各个词组对应的检索信息,并根据生成的检索信 息为所述需进行内容检索文件建立一个以词库中的词组为目录的检索信息表;将所述检索信 息表保存至该检索信息库中;输入需检索的词组;在词库中査询所输入词组;及根据所述词 组在检索信息库中査询该词组所对应的检索信息。
相较于现有技术,本发明所提供的文件内容检索系统及方法,可根据词库中词组对文件 内容进行检索,得到一个以词库中词组为目录的检索信息表,以备用户在对文件进行检索时 直接调用,提高了工作效率。


图1是本发明文件内容检索系统较佳实施例的硬件架构图。 图2是图1中计算机主机的功能模块图。 图3是本发明文件内容检索方法较佳实施例的流程图。
具体实施例方式
如图1所示,是本发明文件内容检索系统较佳实施例的系统架构图。该系统主要包括计 算机主机l、词库2、检索信息库3、显示器4、键盘5及鼠标6。该词库2及检索信息库3分别与 该计算机主机l相连,该词库2用于存储常用的词组,该检索信息库4用于存储对文件内容进 行检索的结果。该计算机主机1根据词库2中所有词组对该计算机主机l中需进行内容检索文 件的内容进行检索,并将检索的结果保存至检索信息库3中。所述显示器4、键盘5及鼠标6分 别与计算机主机l相连,用于在文件内容检索过程中相关信息的输入和输出。
如图2所示,是图l中计算机主机l的功能模块图。所述计算机主机1包括判断模块10、更 新模块12、获取模块14、检索模块16、保存模块18、输入模块20、査询模块22及显示模块 24。
所述判断模块10用于判断该系统中是否出现新的词组。当用户输入的检索词组不存在于 词库2中时,判断模块12判断该系统中出现新的词组;当用户输入的检索词组存在于词库2中 时,判断模块12判断该系统中没有出现新的词组。
所述更新模块12用于当该系统中出现新的词组时,将所述新的词组更新至该词库2中。
所述获取模块14用于依次获取该词库2中所有词组。
所述获取模块14还用于获取计算机主机1中所存储的需进行内容检索文件的格式,并根据获取的文件格式打开需进行内容检索文件以获取文件内容。所述需进行内容检索文件包括 ,但不限于,后缀名为.DOC的文件,后缀名为.PDF的文件,各种格式的图片及Excel文件。
所述检索模块16用于根据所获取的词库2中的词组及从词库2中获取词组的顺序依次对所 述需进行内容检索文件的内容进行检索得到检索信息表。所述检索模块16依次检索所获取词 组出现的文件名称和路径、在对应文件中出现的频率和相对应的位置以生成各个词组对应的 检索信息,并按照从词库中获取词组的顺序对生成的各个词组对应的检索信息进行归纳和记 录,对所述需进行内容检索文件建立一个以词库2中的词组为目录的检索信息表。所述检索 信息包括词组出现的文件名称和路径、词组在文件中出现的频率和相对应的位置。该检索信 息表包括,但不限于,各个词组对应的标识符,每一个标识符对应的词组的检索信息,即每 一个标识符对应的词组出现的文件名称和路径,每一个标识符对应的词组在对应文件中出现 的频率及相对应的位置。
所述保存模块18用于将所述检索信息表保存至检索信息库3中。
所述输入模块20用于用户输入需检索的词组。
所述査询模块22用于在词库中査询所输入词组的标识符。
所述査询模块22还用于根据输入词组的标识符在检索信息库3中査询该标识符所对应的 检索信息。
所述显示模块24用于将所述査询到的检索信息以列表形式显示出来。所述列表包括用户 输入的检索词组、输入的检索词组出现的文件名称和路径、输入的检索词组在每一个文件中 出现的频率及相应位置。该列表中各文件的排列顺序可按照输入的检索词组在各文件中出现 的频率从大到小的顺序确定。
如图3所示,是本发明文件内容检索方法较佳实施例的流程图。首先,步骤SIO,判断模 块10判断该系统中是否出现新的词组。当用户输入的检索词组不存在于词库2中时,判断模 块10判断该系统中出现新的词组;当用户输入的检索词组存在于词库2中时,判断模块12判 断该系统中没有出现新的词组。
步骤S12,当该系统中出现新的词组时,更新模块12将所述新的词组更新至该词库2中。
步骤S 14,获取模块l4依次获取该词库2中所有词组。
步骤S16,获取模块14获取该计算机主机1中所存储的需进行内容检索文件的格式,并根 据获取的文件格式打开需进行内容检索文件以获取文件内容。
步骤S 18,检索模块16根据所获取的词库2中的词组及从词库2中获取词组的顺序依次对 所述需进行内容检索文件的内容进行检索得到检索信息表。所述检索模块16依次检索所获取词组出现的文件名称和路径、在对应文件中出现的频率和相对应的位置以生成各个词组对应 的检索信息,并按照从词库中获取词组的顺序对生成的各个词组对应的检索信息进行归纳和 记录,对所述需进行内容检索文件建立一个以词库中的词组为目录的检索信息表。所述检索 信息包括词组出现的文件名称和路径、词组在文件中出现的频率和相对应的位置。该检索信 息表包括,但不限于,各个词组对应的标识符,每一个标识符对应的词组的检索信息,即每 一个标识符对应的词组出现的文件名称和路径,每一个标识符对应的词组在对应文件中出现 的频率及相对应的位置。
步骤S20,保存模块18将所述检索信息表保存至检索信息库3中。
步骤S22,用户利用输入模块20输入需检索的词组。
步骤S24,査询模块22在词库中査询所输入词组的标识符。
步骤S26,査询模块22根据输入词组的标识符在检索信息库3中査询该标识符所对应的检 索信息。
步骤S28,显示模块24将所述査询到的检索信息以列表形式显示出来。所述列表包括用 户输入的检索词组、输入的检索词组出现的文件名称和路径、输入的检索词组在每一个文件 中出现的频率及相应位置。该列表中各文件的排列顺序可按照输入的检索词组在各文件中出 现的频率从大到小的顺序确定。
权利要求
1.一种文件内容检索系统,包括计算机主机及与该计算机主机相连的词库及检索信息库,其特征在于,该计算机主机包括获取模块,用于依次获取该词库中所有词组,及获取该计算机主机中所存储的需进行内容检索文件的格式,并根据获取的文件格式打开需进行内容检索文件以获取文件内容;检索模块,用于根据所获取的词库中的词组及从词库中获取词组的顺序依次对所述需进行内容检索文件的内容进行检索以生成各个词组对应的检索信息,并根据生成的检索信息为所述需进行内容检索文件建立一个以词库中的词组为目录的检索信息表;保存模块,用于将所述检索信息表保存至该检索信息库中;输入模块,用于输入需检索的词组;及查询模块,用于在词库中查询所输入词组,及根据所述词组在检索信息库中查询该词组所对应的检索信息。
2 如权利要求l所述的文件内容检索系统,其特征在于,该系统还包括更新模块,用于当该系统中出现新的词组时,将所述新的词组更新至该词库中。
3 如权利要求l所述的文件内容检索系统,其特征在于,该系统还包括显示模块,用于将所述査询到的检索信息以列表形式显示出来。
4 如权利要求l, 2或3所述的文件内容检索系统,其特征在于,所 述检索信息表包括各个词组对应的标识符,及每一个标识符对应的词组的检索信息,在检索 信息表中査询该词组所对应的检索信息是根据该词组所对应的标识符进行。
5 如权利要求4所述的文件内容检索系统,其特征在于,所述检索 信息包括词组出现的文件名称和路径、词组在文件中出现的频率和相对应的位置。
6 一种文件内容检索方法,其特征在于,该方法包括如下步骤 依次获取词库中所有词组;获取计算机主机中所存储的需进行内容检索文件的格式,并根据获取的文件格式打开 需进行内容检索文件以获取文件内容;根据所获取的词库中的所有词组及从词库中获取词组的顺序依次对所述需进行内容检 索文件的内容进行检索以生成各个词组对应的检索信息,并根据生成的检索信息为所述需进 行内容检索文件建立一个以词库中的词组为目录的检索信息表;将所述检索信息表保存至该检索信息库中;输入需检索的词组;在词库中査询所输入词组;及根据所述词组在检索信息库中査询该词组所对应的检索信息。
7.如权利要求6所述的文件内容检索方法,其特征在于,在依次获 取该词库中所有词组的步骤之前还包括步骤当系统中出现新的词组时,将所述新的词组更新至词库中;
8.如权利要求6所述的文件内容检索方法,其特征在于,该方法还包括步骤将所述査询到的检索信息以列表形式显示出来。
9.如权利要求6, 7或8所述的文件内容检索方法,其特征在于,所 述检索信息表包括各个词组对应的标识符,及每一个标识符对应的词组的检索信息,在检索 信息表中査询该词组所对应的检索信息是根据该词组所对应的标识符进行。
10.如权利要求9所述的文件内容检索方法,其特征在于,所述检索 信息包括词组出现的文件名称和路径、词组在文件中出现的频率和相对应的位置。
全文摘要
一种文件内容检索方法,该方法包括如下步骤依次获取词库中所有词组;获取计算机主机中所存储的需进行内容检索文件的格式,并根据获取的文件格式打开需进行内容检索文件以获取文件内容;根据所获取的词库中的所有词组及从词库中获取词组的顺序依次对所述需进行内容检索文件的内容进行检索以生成各个词组对应的检索信息,并根据生成的检索信息为所述需进行内容检索文件建立一个以词库中的词组为目录的检索信息表;将所述检索信息表保存至该检索信息库中;输入需检索的词组;在词库中查询所输入词组;及根据所述词组在检索信息库中查询该词组所对应的检索信息。另外,本发明还提供一种文件内容检索系统。
文档编号G06F17/30GK101576897SQ20081030152
公开日2009年11月11日 申请日期2008年5月9日 优先权日2008年5月9日
发明者常小军 申请人:鸿富锦精密工业(深圳)有限公司;鸿海精密工业股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1