因特网信息资源快速检索方法

文档序号:6515877阅读:1285来源:国知局
因特网信息资源快速检索方法
【专利摘要】一种因特网信息资源快速检索方法,它包括以下步骤:定义一套索引文件格式,建立文档类;将数据库中的目标文件转换为二进制文件,生成带有编号的索引目录;建立字段描述类,用于存放单个字段的各种属性;对文档内容进行分词处理;把每个索引文档加入到与其对应的文档对象中;将用户查找的关键字进行封装;建立一个用户保存搜索结果的对象;对关键字进行处理;建立数据转化类,将搜索结果转化为网页显示所需要的格式;把搜索结果转化成页面展示所需的格式。本发明实现了分块检索,大大提升了检索速度,在有新的数据产生时,会把新数据建立一个与原文件索引并列的小文件索引,使搜索更加快捷。
【专利说明】因特网信息资源快速检索方法
【技术领域】
[0001]本发明涉及因特网信息检索领域,具体说是一种因特网信息资源快速检索方法。【背景技术】
[0002]随着互联网技术的不断发展,以搜索引擎为首的互联网应用,在日益广泛渗透到中国经济、文化、政治生活的各个领域。网络信息资源具有数量巨大,更新迅速的特点,如何在海量的互联网信息中快速准确的检索出人们所需要的信息资源是互联网企业改进的方向。目前,搜索信息是从数据库中进行搜索,每个数据库都很大,因此搜索时间长,而且在数据更新后,更新的数据与原有的数据混合到一个新的数据库中,这样搜索起来更加麻烦。

【发明内容】

[0003]为了克服上述现有技术存在的缺点,本发明的目的在于提供一种实现分块索引,提升索引速度的因特网信息资源快速检索方法。
[0004]为了解决上述问题,本发明采用以下技术方案:一种因特网信息资源快速检索方法,包括以下步骤:
Si,定义一套索引文件格式,建立文档类,用于存放文件索引及索引范围的记录;
S2,将数据库中的目标文件转换为二进制文件,生成索引目录,并在索引目录前进行编号,其中,所述目标文件包括网页、文件和数据库记录;
S3,建立字段描述类,用于存放单个字段的各种属性;
S4,在文档被索引之前,首先对文档内容进行分词处理;
S5,把每个索引文档加入到与其对应的文档对象中;
S6,将用户查找的关键字封装成所在二进制文件易于识别的形式;
S7,建立一个用户保存搜索结果的对象,用于用户保存查找结果;
S8,解析用户输入的搜索关键字,根据关键字排他字典对关键字进行处理;
S9,建立数据转化类,将搜索结果转化为网页显示所需要的格式;
S10,通过套用显示模板,把搜索结果转化成页面展示所需的格式。
[0005]当增加新的数据记录文件时,SI步骤中建立一个小文件索引,所述小文件索引与原有的文件索引为并列关系。
[0006]SI步骤中定义的索引文件格式为8位字节或16位字节。
[0007]本发明的有益效果是:它通过建立文档类,较以前的数据库分类更细,实现了分块检索,大大提升了检索速度,而且,在有新的数据产生时,会把新数据建立一个小文件索引,它与原有的索引文件并列,这样就加快了对新数据的索引速度。
【专利附图】

【附图说明】
[0008]下面结合附图和实施例对本发明做进一步的说明:
图1为本发明的流程框图; 图2为本发明的系统结构示意图。
【具体实施方式】
[0009]如图1所示,本发明的一实施方式包括一下步骤:
Si,定义一套索引文件格式,建立文档类,用于存放文件索引及索引范围的记录;
S2,将数据库中的目标文件转换为二进制文件,生成索引目录,并在索引目录前进行编号,其中,所述目标文件包括网页、文件和数据库记录;
S3,建立字段描述类,用于存放单个字段的各种属性;
S4,在文档被索引之前,首先对文档内容进行分词处理;
S5,把每个索引文档加入到与其对应的文档对象中,方便后续的查找操作;
S6,将用户查找的关键字封装成所在二进制文件易于识别的形式;
S7,建立一个用户保存搜索结果的对象,用于用户保存查找结果;
S8,解析用户输入的搜索关键字,根据关键字排他字典对关键字进行处理,去掉一些如“的”、“吗”等语助词;
S9,建立数据转化类,将搜索结果转化为网页显示所需要的格式;
S10,通过套用显示模板,把搜索结果转化成页面展示所需的格式。
[0010]如图2所示,用户通过索引页进行检索,文件索引中的目录进行编号,搜索范围记录也进行编号,当增加新数据时,生成新数据的小文件索引,它与原有文件索引并列,使检索过程更加快捷;在对目标文件(包括网页、文件、数据库记录等)进行检索后,通过数据转化类,进行算法和对应关系,将搜过结果转化为网页显示所需要的格式后返回结果,进行显
/Jn ο
[0011]本发明具有一下特点:
1、索引文件格式独立于应用平台。本发明定义了一套8位字节为基础的索引文件格式,当然也可以使16位等其他位数字节,使得兼容系统或者不同平台的应用能够共享建立的索引文件。
[0012]2、在传统文件检索引擎的倒排索引的基础上,实现了分块检索,能够针对新的文件建立小文件索引,提升索引速度,然后通过索引的合并,达到优化目的。
[0013]3、优秀的面向对象的系统构架,使得本搜索扩展的学习难度降低,方便扩充信功倉泛。
[0014]4、设计了独立与语言和文件格式的文本分析接口,用户扩展的语言和文件格式,只需要实现该接口。
[0015]5、实现了模糊查询,分组查询等功能。
[0016]以上所述只是本发明的优选实施方式,对于本【技术领域】的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。
【权利要求】
1.一种因特网信息资源快速检索方法,其特征在于,包括以下步骤: Si,定义一套索引文件格式,建立文档类,用于存放文件索引及索引范围的记录; S2,将数据库中的目标文件转换为二进制文件,生成索引目录,并在索引目录前进行编号,其中,所述目标文件包括网页、文件和数据库记录; S3,建立字段描述类,用于存放单个字段的各种属性; S4,在文档被索引之前,首先对文档内容进行分词处理; S5,把每个索引文档加入到与其对应的文档对象中; S6,将用户查找的关键字封装成所在二进制文件易于识别的形式; S7,建立一个用户保存搜索结果的对象,用于用户保存查找结果; S8,解析用户输入的搜索关键字,根据关键字排他字典对关键字进行处理; S9,建立数据转化类,将搜索结果转化为网页显示所需要的格式; S10,通过套用显示模板,把搜索结果转化成页面展示所需的格式。
2.根据权利要求1所述的因特网信息资源快速检索方法,其特征在于,当增加新的数据记录文件时,SI步骤中建立一个小文件索引,所述小文件索引与原有的文件索引为并列关系。
3.根据权利要求1或2所述的因特网信息资源快速检索方法,其特征在于,SI步骤中定义的索引文件格式为8位字节或16位字节。
【文档编号】G06F17/30GK103530384SQ201310492732
【公开日】2014年1月22日 申请日期:2013年10月21日 优先权日:2013年10月21日
【发明者】史高升, 朱涛, 赵西法, 韩祥松, 荣丽萍 申请人:济南政和科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1