一种索引文件及索引文件建立方法

文档序号:6331603阅读:198来源:国知局
专利名称:一种索引文件及索引文件建立方法
技术领域
本发明涉及一种索引文件及索引文件的建立方法,尤其涉及一种用于保存全文检 索的索引文件及索引文件的建立方法。
背景技术
网络改变了人们获取信息的方式,随着网络的发展,人们的要求不断提高,互联网 搜索即全文检索成了大多人离不开的获取信息的方式;也正是为了满足这种不断提高的需 求,全文检索技术也得到了不断提高。对于全文检索来说,除了索引建立算法外,一个很重 要的部分就是索引信息的保存,即索引文件如何保存更高效。目前一些开源检索系统,有很优秀的地方,但某些不足在应用时也是不可忽略的, 比如clucene,在索引的文件的组织、保存、使用简易性上都有明显的长处,但其索引文件的 结构并不怎么适合频繁更新,当系统需要频繁对索引文件进行更新,clucene就不能很好的 满足要求了。

发明内容
本发明解决的技术问题是构建一种索引文件及索引文件的建立方法,克服现有 技术在全文检索过程中,空闲空间未被充分利用,索引文件频繁更新时效率低的问题。本发明的技术方案是构建一种索引文件,所述索引文件包括存储索引词的索引 词模块、存储索引词出现频率的频率模块、存储索引词所在文档中所有词的信息的词源文 件模块、存储含有索引词文档信息的文档信息模块,所述索引词模块包括索引词信息、根据 索引词信息链接到频率模块的词频指针,所述频率模块包括索引词所在文档在所述文档信 息模块中的编号及索引词在其所在文档中出现的频率,所述词源文件模块包括词源文件中 索引词的信息及链接所述频率模块的存放位置指针,所述文档信息模块包括含有索引词的 文件信息及链接所述词源文件的文档指针,所述索引词模块通过词频指针链接所述频率模 块,所述文档信息模块通过文档指针链接所述词源文件模块,所述词源文件模块通过存放 位置指针信息的指针链接所述频率模块。本发明的进一步技术方案是所述频率模块包括在索引词删除时标记的删除标记。本发明的进一步技术方案是所述索引词模块包括索引词模块的版本信息。本发明的进一步技术方案是所述索引词模块包括索引词的数量信息。本发明的进一步技术方案是所述索引词模块包括空闲块。本发明的进一步技术方案是所述词源文件模块包括空闲块。本发明的技术方案是提供一种索引文件建立方法,所述索引文件包括存储索引 词的索引词模块、存储索引词出现频率的频率模块、存储索引词所在文档中所有词的信息 的词源文件模块、存储含有索引词文档信息的文档信息模块,包括如下步骤分词及索引将预检索的文件按词语划分并根据倒排索引算法整理;
建立索引文件所述索引词模块包括索引词信息、根据索引词信息链接到频率模 块的词频指针,所述频率模块包括索引词所在文档在所述文档信息模块中的编号及索引词 在其所在文档中出现的频率,所述词源文件模块包括词源文件中索引词的信息及链接所述 频率模块的存放位置指针,所述文档信息模块包括含有索引词的文件信息及链接所述词源 文件的文档指针;建立链接所述索引词模块通过词频指针链接所述频率模块,所述文档信息模块 通过文档指针链接所述词源文件模块,所述词源文件模块通过存放位置指针信息的指针链 接所述频率模块。本发明的进一步技术方案是在建立索引文件步骤中,所述频率模块包括在索引 词删除时标记的删除标记。本发明的进一步技术方案是在建立索引文件步骤中,所述索引词模块包括索引 词模块的版本信息。本发明的进一步技术方案是所述索引词模块包括空闲块。本发明的技术效果是本发明一种索引文件构建了存储索引词的索引词模块、存 储索引词出现频率的频率模块、存储索引词所在文档中所有词的信息的词源文件模块、存 储含有索引词文档信息的文档信息模块。本发明一种索引文件通过链式结构可保证空闲 空间可得重复利用,避免移动文件数据,从而提高索引文件更新效率,降低索引文件更新成 本。


图1为本发明的结构示意图。图2为本发明删除文件时索引文件的结构示意图。图3为本发明增加文件时索引文件的结构示意图。图4为本发明的流程图。
具体实施例方式下面结合具体实施例,对本发明技术方案进一步说明。如图1所示,本发明的具体实施方式
是构建一种索引文件,所述索引文件包括存 储索引词的索引词模块2、存储索引词出现频率的频率模块1、存储索引词所在文档中所有 词的信息的词源文件模块3、存储含有索引词文档信息的文档信息模块4,所述索引词模块 2包括索引词信息、根据索引词信息链接到频率模块的词频指针,所述频率模块1包括索引 词所在文档在所述文档信息模块中的编号及索引词在其所在文档中出现的频率,所述词源 文件模块3包括词源文件中索引词的信息及链接所述频率模块的存放位置指针,所述文档 信息模块4包括含有索引词的文件信息及链接所述词源文件的文档指针,所述索引词模块 2通过词频指针链接所述频率模块1,所述文档信息模块4通过文档指针链接所述词源文件 3模块,所述词源文件模块3通过存放位置指针信息的指针链接所述频率模块1。如图1所示,本发明的具体实施过程如下先将文件内容进行索引词划分,然后根 据倒排索引算法整理好,每一个索引词都设置一个编号,以下简称为“词id”。所述索引词模块2包括索引词信息,这里索引词信息为“词id”。还包括根据索引
4词信息链接到频率模块的词频指针,所述词频指针为所述索引词链接到频率模块1相应位 置的指针。本发明具体实施例中,所述索引词模块1还包括相应索引词所在的文档数,即在 几个文档中出现过。所述索引词模块1还包括索引词模块的版本信息,以便于更新。所述 索引词模块1还包括索引词的数量,以及空闲块,所述空闲块采用指针进行链接,形成一个 链方便插入操作时快速定位。所述频率模块1包括索引词所在文档在所述文档信息模块4中的编号及索引词在 所述词源文件模块3的词源文件中的频率。这里索引词所在文档在所述文档信息模块4中 的编号即图1中的“文档id”,索引词在所述词源文件模块3的词源文件中的频率,也即是 出现的次数。所述频率模块1还包括在索引词删除时标记的删除标记,删除标记是为了复 用,从而达到较少索引文件更新的成本。所述频率模块1还包括空闲块,所述空闲块方便进 行插入操。所述词源文件模块3包括词源文件中索引词的信息及链接所述频率模块的存放 位置指针,所述索引词的信息为索引词的“词id”。所述词源文件模块3描述一个文件包含 词的信息,当要删除某个文档时,从此文件中可找到所包含的词在频率文件中的位置,所以 可以实现快速删除,从而提高删除文档引起索引文件更新时的效率。所述文档信息模块4包括含有索引词的文件信息及链接所述词源文件的文档指 针。所述文档信息模块4是用来维护源文件信息的,在所述频率模块1中只有词源文件位 置,根据词源文件位置都可以在此文件中找到相应的文档信息。所述索引词模块2通过词频指针链接所述频率模块1,所述文档信息模块4通过文 档指针链接所述词源文件模块3,所述词源文件模块3通过存放位置指针信息的指针链接 所述频率模块1。本发明索引文件由于是一个链条的形式,那么可以不断增加,已满足索引内容不 断增加的需求。以下具体举例进行说明假设有三个文档,文档id分别为1,2,3 文档 id = 1 的内容为I will treat you。文档 id = 2 的内容为You know what I mean ?文档id = 3 的内容为Yes,I do.假设以上文档里出现的词的id如下:id(I) = 1,id(will) = 2,id (treat) = 3, id (you) = 4, id (known) = 5, id (what) = 6, id (mean) = 7, id (yes) = 8, id (do) = 9下面通过对这些文章建立索引,增加文章和删除文章来体现以上文件结构之间的 联系。对文档1,2倒排后,建立索引后结构图如图1所示。根据文档id,找到文档词源信息,再删除文档1.删除之后结构图如图2所示。根据文档id,增加文档3时,将增加的文档3的索引词建立索引文件之后的结构如 图3所示。增加文档3时,先从空闲位置找插入位置,如果当前空闲不能满足要求,则需要 从文件里再起用新的空间。如图4所示,本发明的具体实施方式
是提供一种索引文件建立方法,所述索引文 件包括存储索引词的索引词模块2、存储索引词出现频率的频率模块1、存储索引词所在文档中所有词的信息的词源文件模块3、存储含有索引词文档信息的文档信息模块4。包括如 下步骤步骤100 分词及索引,即将预检索的文件按词语划分并根据倒排索引算法整理。步骤200 建立索引文件,即所述索引词模块2包括索引词信息、根据索引词信息 链接到频率模块的词频指针,所述频率模块1包括索引词所在文档在所述文档信息模块中 的编号及索引词在其所在文档中出现的频率,所述词源文件模块3包括词源文件中索引词 的信息及链接所述频率模块的存放位置指针,所述文档信息模块4包括含有索引词的文件 信息及链接所述词源文件的文档指针。步骤300 建立链接,即所述索引词模块2通过词频指针链接所述频率模块1,所 述文档信息模块4通过文档指针链接所述词源文件3模块,所述词源文件模块3通过存放 位置指针信息的指针链接所述频率模块1。如图1所示,具体实施过程如下先将文件内容进行索引词划分,然后根据倒排索 引算法整理好,每一个索引词都设置一个编号,以下简称为“词id”。所述索引词模块2包括索引词信息,这里索引词信息为“词id”。还包括根据索引 词信息链接到频率模块的词频指针,所述词频指针为所述索引词链接到频率模块1相应位 置的指针。本发明具体实施例中,所述索引词模块1还包括相应索引词所在的文档数,即在 几个文档中出现过。所述索引词模块1还包括索引词模块的版本信息,以便于更新。所述 索引词模块1还包括索引词的数量,以及空闲块,所述空闲块采用指针进行链接,形成一个 链方便插入操作时快速定位。所述频率模块1包括索引词所在文档在所述文档信息模块4中的编号及索引词在 所述词源文件模块3的词源文件中的频率。这里索引词所在文档在所述文档信息模块4中 的编号即图1中的“文档id”,索引词在其所在文档中出现的频率,也即是出现的次数。所 述频率模块1还包括在索引词删除时标记的删除标记,删除标记是为了复用,从而达到较 少索引文件更新的成本。所述频率模块1还包括空闲块,所述空闲块方便进行插入操。所述词源文件模块3包括词源文件中索引词的信息及链接所述频率模块的存放 位置指针,所述索引词的信息为索引词的“词id”。所述词源文件模块3描述一个文件包含 词的信息,当要删除某个文档时,从此文件中可找到所包含的词在频率文件中的位置,所以 可以实现快速删除,从而提高删除文档引起索引文件更新时的效率。所述文档信息模块4包括含有索引词的文件信息及链接所述词源文件的文档指 针。所述文档信息模块4是用来维护源文件信息的,在所述频率模块1中只有词源文件位 置,根据词源文件位置都可以在此文件中找到相应的文档信息。 所述索引词模块2通过词频指针链接所述频率模块1,所述文档信息模块4通过文 档指针链接所述词源文件模块3,所述词源文件模块3通过存放位置指针信息的指针链接 所述频率模块1。 以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定 本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在 不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的 保护范围。
权利要求
一种索引文件,其特征在于,所述索引文件包括存储索引词的索引词模块、存储索引词出现频率的频率模块、存储索引词所在文档中所有词的信息的词源文件模块、存储含有索引词文档信息的文档信息模块,所述索引词模块包括索引词信息、根据索引词信息链接到频率模块的词频指针,所述频率模块包括索引词所在文档在所述文档信息模块中的编号及索引词在其所在文档中出现的频率,所述词源文件模块包括词源文件中索引词的信息及链接所述频率模块的存放位置指针,所述文档信息模块包括含有索引词的文件信息及链接所述词源文件的文档指针,所述索引词模块通过词频指针链接所述频率模块,所述文档信息模块通过文档指针链接所述词源文件模块,所述词源文件模块通过存放位置指针信息的指针链接所述频率模块。
2.根据权利要求1所述索引文件,其特征在于,所述频率模块包括在索引词删除时标 记的删除标记。
3.根据权利要求1所述索引文件,其特征在于,所述索引词模块包括索引词模块的版本fe息。
4.根据权利要求1所述索引文件,其特征在于,所述索引词模块包括索引词的数量信肩、ο
5.根据权利要求1所述索引文件,其特征在于,所述索引词模块包括空闲块。
6.根据权利要求1所述索引文件,其特征在于,所述词源文件模块包括空闲块。
7.一种索引文件建立方法,其特征在于,所述索引文件包括存储索引词的索引词模块、 存储索引词出现频率的频率模块、存储索引词所在文档中所有词的信息的词源文件模块、 存储含有索引词文档信息的文档信息模块,包括如下步骤分词将预检索的文件按词语划分并根据倒排索引算法整理; 建立索引文件所述索引词模块包括索引词信息、根据索引词信息链接到频率模块的 词频指针,所述频率模块包括索引词所在文档在所述文档信息模块中的编号及索引词在其 所在文档中出现的频率,所述词源文件模块包括词源文件中索引词的信息及链接所述频率 模块的存放位置指针,所述文档信息模块包括含有索引词的文件信息及链接所述词源文件 的文档指针;建立链接所述索引词模块通过词频指针链接所述频率模块,所述文档信息模块通过 文档指针链接所述词源文件模块,所述词源文件模块通过存放位置指针信息的指针链接所 述频率模块。
8.根据权利要求7所述的索引文件建立方法,其特征在于,在建立索引文件步骤中,所 述频率模块包括在索弓I词删除时标记的删除标记。
9.根据权利要求7所述的索引文件建立方法,其特征在于,在建立索引文件步骤中,所 述索引词模块包括索引词模块的版本信息。
10.根据权利要求7所述的索引文件建立方法,其特征在于,所述索引词模块包括空闲块。
全文摘要
本发明涉及一种索引文件,所述索引文件包括存储索引词的索引词模块、存储索引词出现频率的频率模块、存储索引词所在文档中所有词的信息的词源文件模块、存储含有索引词文档信息的文档信息模块,所述索引词模块包括索引词信息、根据索引词信息链接到频率模块的词频指针,所述频率模块包括索引词所在文档在所述文档信息模块中的编号及索引词在其所在文档中出现的频率,所述词源文件模块包括词源文件中索引词的信息及链接所述频率模块的存放位置指针,所述文档信息模块包括含有索引词的文件信息及链接所述词源文件的文档指针,所述索引词模块通过词频指针链接所述频率模块,所述文档信息模块通过文档指针链接所述词源文件模块,所述词源文件模块通过存放位置指针信息的指针链接所述频率模块。
文档编号G06F17/30GK101944108SQ20101027567
公开日2011年1月12日 申请日期2010年9月7日 优先权日2010年9月7日
发明者杨良志 申请人:深圳市彩讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1