一种创建索引的方法和创建索引的装置的制作方法

文档序号:6576659阅读:154来源:国知局
专利名称:一种创建索引的方法和创建索引的装置的制作方法
技术领域
本发明涉及索引技术,更具体地说,涉及一种创建索引的方法和创建索引的装置。
背景技术
随着数字化信息存储技术的日渐成熟,信息的全文检索得到了广泛的应用。从互 联网搜索引擎,到图书馆图书搜索,信息全文检索技术的应用随处可见。 面对庞大的信息库,为提高全文检索的效率,往往需要对信息构建索引。以互联网 搜索引擎为例,搜索引擎公司必须对每天挖掘的大量网页数据构建索引,才能保障每日数 以千万计的网页搜索请求得到快速的响应。 然而,现有索引构建方法往往需要占用大量的系统资源,对于大型数据库而言,往 往需要配置专门的索引设备来执行索引构建任务。 因此,需要一种索引构建方案,能够有效克服现有索引构建方法存在的上述缺陷。

发明内容
本发明要解决的技术问题在于,针对现有索引构建方案占用系统资源过多的缺 陷,提供一种创建索引的方法和创建索引的装置。
本发明解决其技术问题所采用的技术方案是
构造一种创建索引的方法,包括 Sl、接收索引更新命令,提取其中包含的业务标识,在该业务标识对应的源目录下 读取源业务文件; S2、在判定读取的源业务文件与该业务标识对应的目标目录下的目标业务文件不 同时,依据所述源业务文件对所述目标业务文件进行更新; S3、为更新后的目标业务文件生成索引文件,依据该索引文件对所述业务标识对 应的索引文件目录下的索引文件进行更新。 在本发明提供的创建索引的方法中,所述索引更新命令在到达所述业务标识对应 的索引更新时间时被触发。 在本发明提供的创建索引的方法中,在所述步骤S2中,在判定所述源业务文件的 MD5校验值与所述目标业务文件的MD5校验值不同时,判定所述源业务文件与所述目标业 务文件不同。 在本发明提供的创建索引的方法中,在所述步骤S2中,在判定所述源业务文件的 修改时间与所述目标业务文件的修改时间不同时,判定所述源业务文件与所述目标业务文 件不同。 在本发明提供的创建索引的方法中,在所述步骤S2中,在判定所述源业务文件的 文件大小与所述目标业务文件的文件大小不同时,判定所述源业务文件与所述目标业务文 件不同。 本发明还提供了一种创建索引的装置,包括
接收模块,用于接收索引更新命令,提取其中包含的业务标识; 读取模块,用于在该业务标识对应的源目录下读取源业务文件; 业务文件更新模块,用于在判定读取的源业务文件与该业务标识对应的目标目录
下的目标业务文件不同时,依据所述源业务文件对所述目标业务文件进行更新; 索引文件创建模块,用于为更新后的目标业务文件生成索引文件,依据该索引文
件对所述业务标识对应的索引文件目录下的索引文件进行更新。 在本发明提供的创建索引的装置中,所述索引更新命令在到达所述业务标识对应 的索引更新时间时被触发。 在本发明提供的创建索引的装置中,所述业务文件更新模块用于在判定所述源业 务文件的MD5校验值与所述目标业务文件的MD5校验值不同时,判定所述源业务文件与所 述目标业务文件不同。 在本发明提供的创建索引的装置中,所述业务文件更新模块用于在判定所述源业 务文件的修改时间与所述目标业务文件的修改时间不同时,判定所述源业务文件与所述目 标业务文件不同。 在本发明提供的创建索引的装置中,所述业务文件更新模块用于在判定所述源业 务文件的文件大小与所述目标业务文件的文件大小不同时,判定所述源业务文件与所述目 标业务文件不同。 实施本发明的技术方案,具有以下有益效果在本发明提供的创建索引的方法和 创建索引的装置中,首先判断待创建索引的业务文件是否发生了变化。基于判断结果,只有 在业务文件发生变化时,才对该业务文件构建索引。如此一来,便可对业务文件有选择的构 建索引,即只对发生变化的业务文件创建索引,这样便可大大降低索引构建工作的执行密 度,克服现有索引构建方案占用系统资源过多的缺陷。


下面将结合附图及实施例对本发明作进一步说明,附图中
图1是依据本发明一较佳实施例的索引创建方法的流程图;
图2是依据本发明另一较佳实施例的索引创建方法的流程图;
图3是依据本发明一较佳实施例的索引创建装置的逻辑结构示意图。
具体实施例方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。 本发明提供了一种创建索引的方法和创建索引的装置,可首先判断待创建索引的 业务文件是否发生了变化,再基于判断结果,在业务文件发生变化时,才对该业务文件构建 索引。如此一来,便可对业务文件有选择的构建索引,即只对发生变化的业务文件创建索 弓l,这样便可大大降低索引构建工作的执行密度,克服现有索引构建方案占用系统资源过 多的缺陷。下面就结合附图和具体实施例对本发明提供的技术方案进行详细描述。
本发明提供的技术方案主要用于为业务提供商提供的业务创建索引。业务提供商提供的业务可概括划分为多种类型,例如但不限于图片业务、小说业务、音乐业务、视频业 务、游戏业务、主题业务、软件业务和动漫业务等等。为便于用户搜索对应的业务,服务提供 商需要对其提供的业务构建索引。而在具体实现过程中,业务提供商依照业务的类型来对 属于该类型的所有业务构建索引。每项业务都对应一描述该业务内容的描述文件。该描述 文件中写有该项业务的名称、类型、简介、提供商、业务版本、价格、縮略图、下载地址、作者、
专辑等多个属性。在构建索引过程中,对于每个业务类型,业务提供商首先生成包含属于该 业务类型的所有业务的属性文件的业务文件,并为该业务文件设置一业务标识。然后针对 上文所述的属性(即业务的名称、类型、简介、提供商、业务版本、价格、縮略图、下载地址、 作者、专辑等)为该业务文件构建索引。在具体应用过程中,每类业务对应的业务文件一般 仅在该类业务之中的某些业务发生变化(例如某些业务发生更新,或者增删业务)时才会 更新。 图1是依据本发明一较佳实施例的索引创建方法100的流程图。如图1所示,方 法100开始于步骤102。 随后,在下一步骤104,接收索引创建命令,提取其中包含的业务标识。在接收到新 的业务文件(例如增加了新的一类业务导致新增新的业务文件)时,将触发发出一索引创 建命令(例如操作人员触发发出索引创建命令),该索引创建命令之中包含该新业务文件 对应的业务标识。新接收到的业务文件将作为源业务文件存储在该业务标识对应的源目录 下,其中源目录专门用于存储源业务文件。 随后,在下一步骤106,为该业务标识生成对应的目标目录和索引文件目录。在具 体实现过程中,为该业务标识生成对应的目标目录和索引文件目录均可以依据该业务标识 来命名。 随后,在下一步骤108,在提取的业务标识对应的源目录下读取源业务文件。
随后,在下一步骤IIO,将读取的源业务文件作为目标业务文件存储到为该业务标 识生成的目标目录下。 随后,在下一步骤112,为该目标业务文件生成索引文件并存储到为该业务标识生 成的索引文件目录下,其中索引文件目录专门用于存储索引文件。有关生成索引文件的具 体内容已经在现有技术之中做了清楚的描述,因此此处不再赘述。
最后,方法100结束于步骤114。 对于每类业务而言,其业务范围和业务项目可能会发生变化,由此导致其业务文 件也发生变化。在业务文件发生变化时,新的业务文件将覆盖原有的源业务文件,即源业务 文件发生更新,由此导致源业务文件与目标业务文件不同。在这种情况下,需要对该业务重 新生成索引文件。下面就结合图2对这一过程进行详细描述。 图2是依据本发明另一较佳实施例的索引创建方法200的流程图。如图2所示, 方法200开始于步骤202。 随后,在下一步骤204,接收索引更新命令,提取其中包含的业务标识。在具体实现 过程中,索引更新命令可在到达某一类业务或者某一业务文件(即业务标识对应的)的索 引更新时间时被触发,或者由管理员手动触发。 此时,该索引更新命令中包含需要对其索引进行更新的某一类业务的业务文件所 对应的业务标识。CN 随后,在下一步骤206,在该业务标识对应的源目录下读取源业务文件。
随后,在下一步骤208,判断读取的源业务文件与提取的索引标识所对应目标目录 下的目标业务文件是否相同,若是,则转到步骤216,否则转到步骤210。如上文所述,当业 务文件发生变化时,源业务文件将被更新,由此导致源业务文件与目标业务文件不同。
在具体实现过程中,可采用下列方法其中的至少一种来判断源业务文件与目标业 务文件是否相同 分别为源业务文件和目标业务文件生成MD5校验码,然后判断源业务文件和目标 业务文件的MD5校验码是否相同。若二者相同,则源业务文件与目标业务文件相同,否则源 业务文件与目标业务文件不同; 判断源业务文件和目标业务文件的修改时间是否相同。若二者相同,则源业务文 件与目标业务文件相同,否则源业务文件与目标业务文件不同; 判断源业务文件和目标业务文件的文件大小是否相同。若二者相同,则源业务文 件与目标业务文件相同,否则源业务文件与目标业务文件不同。 在具体实现过程中,由于MD5校验码与业务文件存在一一对应的关系,即业务文 件不同,则其MD5校验码也不同。因此,在基于MD5校验码来判断源业务文件和目标业务文 件是否相同时的准确性更高。 如上文所述,若在步骤208判定源业务文件与目标业务文件不同,则转到步骤 210,依据源业务文件对目标业务文件进行更新,然后转到步骤212 。 随后,在下一步骤212,为更新后的目标业务文件生成索引文件,然后转到步骤 214。有关索引文件的具体生成方法和相关技术已经在现有技术之中做了清楚的描述,因此 本文不再赘述。 随后,在下一步骤214,依据生成的索引文件对业务标识对应的索引文件目录下的 索引文件进行更新。 最后,方法200结束于步骤216。 本发明还提供了一种创建索引的装置,下面就结合图3对其进行详细描述。
图3是依据本发明一较佳实施例的索引创建装置300的逻辑结构示意图。如图3 所示,索引创建装置300包括接收模块302、生成模块304、读取模块306、索引文件创建模块 308和业务文件更新模块310。 接收模块302用于接收索引创建命令,提取其中包含的业务标识。在接收到新的 业务文件(例如增加了新的一类业务导致新增新的业务文件)时,将触发发出一索引创建 命令(例如操作人员触发发出索引创建命令),该索引创建命令之中包含该新业务文件对 应的业务标识。新接收到的业务文件将作为源业务文件存储在该业务标识对应的源目录 下,其中源目录专门用于存储源业务文件。 生成模块304用于为该业务标识生成对应的目标目录和索引文件目录。在具体实 现过程中,为该业务标识生成对应的目标目录和索引文件目录均可以依据该业务标识来命 名。 读取模块306用于依据该业务标识在对应的源目录下读取源业务文件。此外,读
取模块306用于将所述业务标识和读取的源业务文件发往索引文件创建模块308。 索引文件创建模块308用于将源业务文件作为目标业务文件存储到为该业务标
6识生成的目标目录下。此后,索引文件创建模块308为该目标业务文件生成索引文件并存 储到为该业务标识生成的索引文件目录下,其中索引文件目录专门用于存储索引文件。有 关索引文件的具体生成方法和相关技术已经在现有技术之中做了清楚的描述,因此本文不 再赘述。 对于每项业务而言,其业务范围和业务项目可能会发生变化,由此导致其业务文 件也发生变化。在业务文件发生变化时,新的业务文件将覆盖原有的源业务文件,即源业务 文件发生更新,由此导致源业务文件与目标业务文件不同。在这种情况下,需要对该业务重 新生成索引文件。下面便对此种情况下图3中索引创建装置300的各个模块的功能进行详 细描述。 接收模块302用于接收索引更新命令,提取其中包含的业务标识。在具体实现过 程中,索引更新命令可在到达某一类业务或者某一业务文件(即业务标识对应的)的索引 更新时间时被触发,或者由管理员手动触发。其中,索引更新命令中包含相关联的业务标 识。 读取模块306用于在该业务标识对应的源目录下读取源业务文件。 业务文件更新模块310用于在判定读取的源业务文件与该业务标识对应的目标
目录下的目标业务文件不同时,依据所述源业务文件对所述目标业务文件进行更新。如上
文所述,当业务文件发生变化时,源业务文件将被更新,由此导致源业务文件与目标业务文
件不同。 在具体实现过程中,可采用下列方法其中的至少一种来判断源业务文件与目标业 务文件是否相同 分别为源业务文件和目标业务文件生成MD5校验码,然后判断源业务文件和目标 业务文件的MD5校验码是否相同。若二者相同,则源业务文件与目标业务文件相同,否则源 业务文件与目标业务文件不同; 判断源业务文件和目标业务文件的修改时间是否相同。若二者相同,则源业务文 件与目标业务文件相同,否则源业务文件与目标业务文件不同; 判断源业务文件和目标业务文件的文件大小是否相同。若二者相同,则源业务文 件与目标业务文件相同,否则源业务文件与目标业务文件不同。 在具体实现过程中,由于MD5校验码与业务文件存在一一对应的关系,即业务文 件不同,则其MD5校验码也不同。因此,在基于MD5校验码来判断源业务文件和目标业务文 件是否相同时的准确性更高。 索引文件创建模块308用于为更新后的目标业务文件生成索引文件,依据该索引
文件对所述业务标识对应的索引文件目录下的索引文件进行更新。有关索引文件的具体生
成方法和相关技术已经在现有技术之中做了清楚的描述,因此本文不再赘述。 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精
神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
权利要求
一种创建索引的方法,其特征在于,包括S1、接收索引更新命令,提取其中包含的业务标识,在该业务标识对应的源目录下读取源业务文件;S2、在判定读取的源业务文件与该业务标识对应的目标目录下的目标业务文件不同时,依据所述源业务文件对所述目标业务文件进行更新;S3、为更新后的目标业务文件生成索引文件,依据该索引文件对所述业务标识对应的索引文件目录下的索引文件进行更新。
2. 根据权利要求1所述的创建索引的方法,其特征在于,所述索引更新命令在到达所 述业务标识对应的索引更新时间时被触发。
3. 根据权利要求1所述的创建索引的方法,其特征在于,在所述步骤S2中,在判定所述 源业务文件的MD5校验值与所述目标业务文件的MD5校验值不同时,判定所述源业务文件 与所述目标业务文件不同。
4. 根据权利要求1所述的创建索引的方法,其特征在于,在所述步骤S2中,在判定所述 源业务文件的修改时间与所述目标业务文件的修改时间不同时,判定所述源业务文件与所 述目标业务文件不同。
5. 根据权利要求1所述的创建索引的方法,其特征在于,在所述步骤S2中,在判定所述 源业务文件的文件大小与所述目标业务文件的文件大小不同时,判定所述源业务文件与所 述目标业务文件不同。
6. —种创建索引的装置,其特征在于,包括 接收模块,用于接收索引更新命令,提取其中包含的业务标识; 读取模块,用于在该业务标识对应的源目录下读取源业务文件;业务文件更新模块,用于在判定读取的源业务文件与该业务标识对应的目标目录下的 目标业务文件不同时,依据所述源业务文件对所述目标业务文件进行更新;索引文件创建模块,用于为更新后的目标业务文件生成索引文件,依据该索引文件对 所述业务标识对应的索引文件目录下的索引文件进行更新。
7. 根据权利要求6所述的创建索引的装置,其特征在于,所述索引更新命令在到达所 述业务标识对应的索引更新时间时被触发。
8. 根据权利要求6所述的创建索引的装置,其特征在于,所述业务文件更新模块用于 在判定所述源业务文件的MD5校验值与所述目标业务文件的MD5校验值不同时,判定所述 源业务文件与所述目标业务文件不同。
9. 根据权利要求6所述的创建索引的装置,其特征在于,所述业务文件更新模块用于 在判定所述源业务文件的修改时间与所述目标业务文件的修改时间不同时,判定所述源业 务文件与所述目标业务文件不同。
10. 根据权利要求6所述的创建索引的装置,其特征在于,所述业务文件更新模块用于 在判定所述源业务文件的文件大小与所述目标业务文件的文件大小不同时,判定所述源业 务文件与所述目标业务文件不同。
全文摘要
本发明涉及索引技术,针对现有索引构建方案占用系统资源过多的缺陷,涉及一种创建索引的方法和创建索引的装置。创建索引的方法接收索引更新命令,提取其中包含的业务标识,在该业务标识对应的源目录下读取源业务文件;在判定读取的源业务文件与该业务标识对应的目标目录下的目标业务文件不同时,依据所述源业务文件对所述目标业务文件进行更新;为更新后的目标业务文件生成索引文件,依据该索引文件对所述业务标识对应的索引文件目录下的索引文件进行更新。本发明还提供了一种创建索引的装置。依据业务文件是否发生变化来确定是否构建索引,可大大降低索引构建工作的执行密度,克服现有索引构建方案占用系统资源过多的缺陷。
文档编号G06F17/30GK101697154SQ200910110350
公开日2010年4月21日 申请日期2009年10月28日 优先权日2009年10月28日
发明者刘克鸿, 刘飞, 杨丰, 杨旗, 王有为, 蒋铮, 马慧 申请人:卓望数码技术(深圳)有限公司;
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1