一种基于定制的索引建立方法、装置和系统的制作方法

文档序号:6470091阅读:120来源:国知局
专利名称:一种基于定制的索引建立方法、装置和系统的制作方法
技术领域
本发明涉及信息检索技术领域,尤其涉及一种基于定制的索引建立方法、 装置和系统。
背景技术
目前,随着网络的发展,越来越多的信息检索系统已经成熟应用于互联 网、电子商务等领域中,信息检索系统通常釆用搜索引擎流行的倒排索引的 检索结构,以服务的方式嵌入到现代服务行业的站点中去,作为站内搜索的 有利工具。但是,随着站点业务流程越来越复杂,数据的积累越来越多,对
信息检索的高效率要求也就越来越迫切了;其中,要求较高的应用领域主要 包括图书馆数据库、情报数据库、专利数据库、医药数据库、办公自动化、 历史资料库、电子出版系统等等。
然而,不同服务行业间的信息检索的数据结构存在着很大的不同,而从 不同行业的不同数据库的海量数据中检索到的数据也是有着千差万别的,如 果检索服务从一个行业移到另外一个行业,甚至从一个数据库到另外一个数 据库,就需要很大的人力来配置和重新开发部署,这就容易造成冗余的成本 开销,且不利于服务行业信息检索越来越复杂的需求。
此外,目前的信息检索系统普遍缺乏可定制性;系统的各种域结构以及 面向的需要建立索引的数据结构往往固化在整个系统中,整个系统只能针对 某一个领域中的某一种特定的数据结构建立索引,使得系统缺乏灵活性;例 如新闻域,当用户搜索新闻的时候,往往搜索的是新闻标题、发布时间或者 内容,而对于单一的检索系统,系统在设计时将新闻域的各种信息固化在新 闻检索系统中;而当用户需要进行人才信息检索的时候,搜索的关键词语可 能是人的名字、受教育程度等,这就需要对与新闻完全不同的域结构进行检 索,而在传统的将各种域结构固化在系统中的检索系统来讲,显然是不可行 的;同时,对于设置好的各种域结构信息,其所对应的同类型数据库定义也千差万别,例如两个完全不同的新闻数据库A和B, A数据库中的新闻信息 的表结构以及字段名称与B数据库中的新闻信息的表结构以及字段名称完全 不同,在A数据库中以news—title字段代表新闻的标题,而在B数据库中以 title字段代表新闻的标题;虽然这两个字段的名称不一样,但是其实质内容毫 无差别,均表示新闻标题。
因此,对传统的检索系统来讲,由于其所面向的建立索引的数据结构往 往也是固化在系统中的,因此在对这两个不同结构的数据库在同 一个域结构 上建立索引的过程中,往往需要针对各自不同的数据结构进行重新的系统开 发,而重新开发的系统往往具有很多雷同的逻辑操作,例如读取数据库、建 立新闻索引等,这就容易造成资源的大量浪费。

发明内容
有鉴于此,本发明解决的问题是提供一种基于定制的索引建立方法、装 置和系统,增加了检索系统的通用性和适用范围,实现了索引过程中的高度 可定制化。
为解决上述问题,本发明提供的技术方案如下 一种基于定制的索引建立方法,包括 接收索引建立请求;
根据所述请求从数据库服务器中读取指定的数据;
根据所述请求从定制信息服务器中读取所述用户定制数据的域结构信息 以及所述数据库与该域结构的映射信息;
利用所述映射信息对读取到的数据进行封装,并根据读取到的域结构信 息将封装后的数据写入到索引服务器后建立索引。
优选的,所述索引建立请求至少包括各数据库服务器的链接信息和数据 库中的定制文件名称。
优选的,根据所述索引建立请求中的数据库服务器的链接信息从各数据
6库服务器中读取指定的数据;
根据所述索S1建立请求中包含的定制文件名称从定制信息服务器中读取 所述用户定制数据的域结构信息和所述数据库与该域结构的映射信息。
优选的,所述域结构信息至少包括域名称、域描述、关键词名称链表、 标题名称链表、内容字段链表以及字段信息。
优选的,所述字段信息至少包括字段名称、字段描述、字的类型、字段 的存储方式以及索引方式。
优选的,该方法还包括
在定制信息服务器中执行域结构信息的定制操作;所述定制操作至少包 括删除、修改和新建。
优选的,所述新建域结构信息具体包括
设置域的基本结构信息;
建立主键字段并设置主键字段的默认属性;
建立域字段并设置域字段的索引属性和域属性;
将包含新建基本结构和字段信息的域结构信息存储到定制信息服务器。
优选的,所述映射信息的数据结构至少包括标志ID和域名称;
所述映射信息的属性至少包括源数据结构字段、域结构信息字段和源数 据结构的主键字段。
优选的,该方法还包括对定制信息服务器中保存的映射信息进行定制 操作;所述定制操作具体包括
从数据源读取源数据结构;
从定制信息服务器中读取域相应的域结构信息;
指定映射文件的名称;
将源数据结构映射到域结构中;将映射信息保存到定制信息服务器。
一种基于定制的索引建立装置,包括接收单元、读取单元和封装单元; 其中,所述接收单元用于接收索引建立请求;
所述读取单元用于根据所述请求从数据库服务器中读取指定的数据、根 据所述请求从定制信息服务器中读取所述用户定制数据的域结构信息以及所
述数据库与该域结构的映射信息;
所述封装单元用于利用所述读取单元读取的映射信息对读取到的数据进 行封装,并根据所述读取单元读取到的域结构信息将封装后的数据写入到索 引服务器后建立索引。
优选的,所述接收单元接收到的索引建立请求至少包括各数据库服务器 的链接信息和数据库中的定制文件名称。
优选的,该装置还包括用于在定制信息服务器中新建域结构信息的新 建单元和对定制信息服务器中保存的映射信息进行定制操作的定制单元。
优选的,所述新建单元包括设置单元、建立单元和第一写入单元;其 中,所述设置单元用于设置域的基本结构信息;
所述建立单元用于建立主键字段并设置主键字段的默认属性、建立域字 段并设置域字段的索引属性和域属性;
所述写入单元用于将包含新建基本结构和字段信息的域结构信息写入到 定制信息服务器。
优选的,所述订制单元包括第一处理单元、第二处理单元和第二写入 单元;其中,
所述第一处理单元用于从数据源读取源数据结构、从定制信息服务器中 读:f又域相应的域结构信息;
所述第二处理单元用于指定映射文件的名称,并将源数据结构映射到域 结构中;
所述第二写入单元用于将映射信息写入并保存到定制信息服务器。一种基于定制的索引建立系统,包括如上述任意一项所述的装置、定制 信息服务器、数据库服务器和索引服务器。
可以看出,采用本发明的方法、装置和系统,在索引建立时,通过对每 个源数据与域结构信息进行灵活的映射,实现了从不同的数据源到同 一个域
中建立索引,以保证系统能对各种不同格式的源数据进行正确的索引操作; 且通过域结构信息和映射信息的可定制,提高了在不同的域之间以及不同的 源数据格式之间建立索引时的工作效率,节省了大量的人力和时间资源;并 通过新建域结构信息或编辑已有的域结构信息,从而能够以自定义定制的方 式对不同的源数据格式进行灵活地映射,避免了部署开发过程中的重复步骤,
在不影响系统效率和性能的情况下,能够实现灵活的跨行业、跨数据库类型 的数据索引的建立。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1的方法流程示意图2是本发明实施例2的新建域结构信息的流程示意图3是本发明实施例中源数据到域结构信息的映射结构示意图4是本发明实施例3的映射信息的定制流程示意图5是本发明实施例4的装置结构示意图6是本发明实施例5的系统结构示意图。
具体实施例方式
本发明的基本思想在于通过索引数据结构与检索系统的分离以及数据库
9数据结构与索引数据的映射,实现了索引数据结构设置与建立索引的耦合; 通过对需要建立索引的数据进行动态设置,再将特定的数据库表映射到已经 设置的索引数据结构中,即可极大的提高检索系统在不同行业的灵活性。本 发明提出在建立索引过程中增加针对域信息结构的定制以及从不同数据库结 构到同 一个域结构的映射信息的定制,在不影响检索系统安全性和效率的前 提下,增加了检索系统的通用性和适用范围,实现了索引过程中的高度可定 制化。
信息检索中可定制的包括域信息以及从数据库到索引域信息的映射。域 信息指的是信息结构相同或者相似的一类信息的结合,比如所有的新闻信息 组成新闻域,所有招商信息组成的招商域。用户定制就要实现可以根据需要
方便地进行域信息的增加、查看和删除等定制;映射信息指的是用户将自己 已有的数据库字段和域中的字段进行映射,以便对这些数据库内的数据建立 索引并进行检索,映射信息的配置包括映射信息的增加和删除等定制操作, 在映射定制的基础上进行信息检索索引的建立。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述;显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例1提供了一种基于定制的索引建立方法,如图1所示,该 方法包4舌
步骤101:接收索引建立请求;
具体的,首先由具有访问内部网络权限的用户发送索引建立请求,当然 也可以在内部网络中输入各种命令来请求建立索引,以使得后续通过读取数 据库中的数据和定制信息来完成索引建立;其中,所述请求中包含索引操作 类型、域名称、各数据库服务器的链接信息和数据库中的定制文件名称,本
库与该域结构的映射信息;
需要注意的是,本发明实施例的索引建立过程中的各个节点通过内部网络相连,因此要求内部网络必须保证安全性,以免造成数据的破坏或者侵入;
步骤102:根据所述请求从数据库服务器中读取指定的数据;
接收到所述索引建立请求后,根据该请求中的数据库服务器的链接信息 从各数据库服务器中读取指定的数据;
步骤103:根据所述请求从定制信息服务器中读取所述用户定制数据的域 结构信息以及所述数据库与该域结构的映射信息;
所述用户定制数据的域结构信息,并根据所述索引建立请求中包含的数据库 与域结构的映射信息从定制信息服务器中读取用户定制数据所在的数据库与 该域结构的映射信息;
其中,所述的定制信息服务器存放着各种定制信息,包括域结构信息以 及不同数据库中的数据结构与域结构的映射信息;具体的,
第一、域结构信息指的是信息结构相同或者相似的一类信息的结合,比 如所有的新闻信息组成新闻域、所有招商信息组成的招商域等;其具体包括 域名称、域描述、关键词名称链表、标题名称链表、内容字段链表以及若干 个字段信息,其中字段信息包括字段名称、字^:描述、字的类型、字段的存 储方式以及索引方式其中,
域名称为域在索引中的名称,比如news;域描述为该域的描述信息,例 如news的描述信息为新闻域;关键词名称链表为用户关键词检索在该域中的 字段链表,例如news域中有ID (主键)、title (标题)、content (内容)以及 time(发布时间)字段等, 一般用户进行关键词检索时希望在title以及content 字段进行检索,所以关键词名称链表至少包括title和content;标题名称链表 为标题项显示的字段名称, 一般用户的检索结果在进行概要显示时分为标题 项和内容项,以新闻内容为例,title为标题项,所以title也位于标题字段链表 中;内容字段链表表示除标题字段以外的所有字段組成的字段链表,用于标 识上述在内容项显示的字段的名称;
而域中的若干个字段信息的结构如下所示字段名称字段在索引中的名称; 字段描述字段在索引中的描述;
字段类型字段在索引中的类型,主要有string、 int、 float以及date等;
存储方式表示字段的内容在索引中的存储方式,例如,yes表示以原数 据的方式进行存储、compress表示以压缩数据的方式存储(主要针对大量数 据,例如文章内容等)、no表示对数据不进行存储(但是仍然可以用于进行4企 索,只是显示时为null);
索引方式表示字段的索引方式,例如,tokenized表示将该字段的数据 进行分词并索引、un一tokenized表示将该字4殳的原始数据直接进行索引、 no一norms表示对原始数据直接进行索引并且关闭存储过程中的规范化。
要包括域结构信息的新建、删除和修改以及域中字段信息的增加、删除和修 改等;下面以域结构信息的新建为例进行简要说明,如本发明实施例2、图2 所示,域结构信息的新建流程主要包括
S201:设置域的基本结构信息,例如域名称、域描述等;
S202:建立主键字段并设置主键字段的默认属性,如名称、类型、存储 方式、索引方式等;
S203:建立域字段并设置域字段的索引属性(如名称、类型、存储方式、 索引方式)和域属性(是否关键词选项、是否标题显示等属性);
S204:将包含新建基本结构和字段信息的域结构信息存储到定制信息服 务器,其中,该新建域结构信息主要是以xml的格式存储,但并不局限于此;
通过上述步骤,用户即可根据需要方便地进行域结构信息的增加;而其 他诸如域结构信息的查看、修改和删除等操作,与上述流程类同,本文不再 赘述。
第二、映射信息是指从一定格式的源数据到需要建立索引的域结构的映 射,其中源数据包括数据库中的数据以及一定格式的xml数据;由于有多种
12格式完全不同的源数据映射到同 一个域结构信息中,所以每种不同格式的源
数据都有其本身特定的映射信息;从源数据到域结构信息的映射结构如图3
所示;其中,映射信息的数据结构包括
标志ID:映射信息的标志,为源数据信息的身份标志,表明该映射信息 从属于指定的源数据,具有唯一性;
域名称表明映射信息所指向的域结构信息;
此外,每个映射信息包含三个属性
1) 、源数据结构字段源数据结构中需要进行映射的字段名称;
2) 、域结构信息字段域结构信息字段中需要进行映射的字段名称;源 数据结构字段与域结构信息字段可进行多对一或者一对一映射,即若干个源 数据字段可以映射到同一个域结构信息字段;
3) 、源数据结构的主键字段通过对该字段进行修改来修改或者删除索 )数据中作为唯一标识的数据标志;
作,如本发明实施例3、图4所示,映射信息的定制流程主要包括
S401:从数据源读取源数据结构;其中,所述的数据源包括数据库数据 和以XML及其他格式存储的数据,具体格式本文不再赘述;
S402:从定制信息服务器中读取域相应的域结构信息;
S403:指定映射文件的名称;
S404:将源数据结构映射到域结构中;
S405:将映射信息保存到定制信息服务器。
通过上述步骤用户即可根据需要将已有的源数据字段和域中的字段进行 映射信息的配置,以方便为所述数据库内的数据建立索引并进行^^索;而相 应的,其他映射信息的配置操作,如修改和删除等,介于上述方式类同,本 文不再赘述。步骤104:利用所述映射信息对读取到的数据进行封装,并根据读取到的 域结构信息将封装后的数据写入到索引服务器后建立索引。
其中,所述的索引服务器用来为数据库中的数据建立索引后存放索引文 件数据。
可以看出,采用本发明实施例的方法,在索引建立时,通过对每个源数 据与域结构信息进行灵活的映射,实现了从不同的数据源到同一个域中建立 索引,以保证系统能对各种不同格式的源数据进行正确的索引操作;且通过 域结构信息和映射信息的可定制,提高了在不同的域之间以及不同的源数据 格式之间建立索引时的工作效率,节省了大量的人力和时间资源;并通过新 建域结构信息或编辑已有的域结构信息,从而能够以自定义定制的方式对不 同的源数据格式进行灵活地映射,避免了部署开发过程中的重复步骤,在不 影响系统效率和性能的情况下,能够实现灵活的跨行业、跨数据库类型的数 据索引的建立。
基于上述思想,本发明实施例4又提出了一种基于定制的索引建立装置, 如图5所示,该装置500包括接收单元510、读取单元520和封装单元530; 其中,所述接收单元510用于接收索引建立请求;
所述读取单元520用于根据所述请求从数据库服务器中读取指定的数据、 根据所述请求从定制信息服务器中读取所述用户定制数据的域结构信息以及 所述数据库与该域结构的映射信息;
所述封装单元530用于利用所述读取单元读取的映射信息对读取到的数 据进行封装,并根据所述读取单元读取到的域结构信息将封装后的数据写入 到索引服务器后建立索引。
其中,所述接收单元接收到的索引建立请求至少包括各数据库服务器的 链接信息和数据库中的定制文件名称。
此外,该装置还包括用于在定制信息服务器中新建域结构信息的新建 单元和对定制信息服务器中保存的映射信息进行定制操作的定制单元。
优选的,所述新建单元包括设置单元、建立单元和第一写入单元;其中,所述设置单元用于设置域的基本结构信息;
所述建立单元用于建立主键字段并设置主键字段的默认属性、建立域字
段并设置域字段的索引属性和域属性;
所述写入单元用于将包含新建基本结构和字段信息的域结构信息写入到 定制信息服务器。
优选的,所述订制单元包括第一处理单元、第二处理单元和第二写入 单元;其中,
所述第一处理单元用于从数据源读取源数据结构、从定制信息服务器中 读取域相应的域结构信息;
所述第二处理单元用于指定映射文件的名称,并将源数据结构映射到域 结构中;
所述第二写入单元用于将映射信息写入并保存到定制信息服务器。
除此之外,本发明实施例5还提供了一种基于定制的索引建立系统,如 图6所示,该系统包括如上所述的索引建立装置500、定制信息服务器610、 数据库服务器620和索引服务器630;其中,
所述定制信息服务器610用于存放各种定制信息,包括域结构信息以及 不同数据库中的数据结构与域结构的映射信息;
所述数据库服务器620用于存储各种数据及其相应的数据结构;
所述索引服务器630用于存放索引文件数据;
采用该系统,可以由定制服务器提供定制向导,引导用户建立域信息, 添加、编辑或删除索引域,为建立索引做好可定制的准备工作;并且定制需 要建立索引的数据表,使数据表映射到索引域,以在分布式索引服务器上建 立索引。
专业人员还可以进一步应能意识到,结合本文中所公开的实施例描述的 各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来 实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能
15一般性地描述了各示例的組成及步骤。这些功能究竟以硬件还是软件方式来 执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每 个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为 超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、 处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存
储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可纟察除可编 程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任 意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用 本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易 见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下, 在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何 在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本 发明的权利要求保护范围之内。
权利要求
1、一种基于定制的索引建立方法,其特征在于,包括接收索引建立请求;根据所述请求从数据库服务器中读取指定的数据;根据所述请求从定制信息服务器中读取所述用户定制数据的域结构信息以及所述数据库与该域结构的映射信息;利用所述映射信息对读取到的数据进行封装,并根据读取到的域结构信息将封装后的数据写入到索引服务器后建立索引。
2、 根据权利要求1所述的方法,其特征在于所述索引建立请求至少包括各数据库服务器的链接信息和数据库中的定 制文件名称。
3、 根据权利要求2所述的方法,其特征在于根据所述索引建立请求中的数据库服务器的链接信息从各数据库服务器 中读取指定的数据;根据所述索引建立请求中包含的定制文件名称从定制信息服务器中读取 所述用户定制数据的域结构信息和所述数据库与该域结构的映射信息。
4、 根据权利要求1所述的方法,其特征在于所述域结构信息至少包括域名称、域描述、关键词名称链表、标题名称 链表、内容字段链表以及字段信息。
5、 根据权利要求4所述的方法,其特征在于所述字段信息至少包括字段名称、字段描述、字的类型、字段的存储方 式以及索引方式。
6、 根据权利要求5所述的方法,其特征在于,该方法还包括在定制信息服务器中执行域结构信息的定制操作;所述定制操作至少包 括删除、修改和新建。
7、 根据权利要求6所述的方法,其特征在于,所述新建域结构信息具体包括设置域的基本结构信息;建立主键字段并设置主键字段的默认属性;建立域字段并设置域字段的索引属性和域属性;将包含新建基本结构和字段信息的域结构信息存储到定制信息服务器。
8、 根据权利要求1所述的方法,其特征在于所述映射信息的数据结构至少包括标志ID和域名称;所述映射信息的属性至少包括源数据结构字段、域结构信息字段和源数 据结构的主键字段。
9、 根据权利要求8所述的方法,其特征在于,该方法还包括对定制信 息服务器中保存的映射信息进行定制操作;所述定制操作具体包括从数据源读取源数据结构;从定制信息服务器中读取域相应的域结构信息;指定映射文件的名称;将源数据结构映射到域结构中;将映射信息保存到定制信息服务器。
10、 一种基于定制的索引建立装置,其特征在于,包括接收单元、读 取单元和封装单元;其中,所述接收单元用于接收索引建立请求;所述读取单元用于根据所述请求从数据库服务器中读取指定的数据、根 据所述请求从定制信息服务器中读取所述用户定制数据的域结构信息以及所 述数据库与该域结构的映射信息;所述封装单元用于利用所述读取单元读取的映射信息对读取到的数据进 行封装,并根据所述读取单元读取到的域结构信息将封装后的数据写入到索 引服务器后建立索引。
11、 根据权利要求IO所述的装置,其特征在于所述接收单元接收到的索引建立请求至少包括各数据库服务器的链接信 息和数据库中的定制文件名称。
12、 根据权利要求10所述的装置,其特征在于,该装置还包括用于在 定制信息服务器中新建域结构信息的新建单元和对定制信息服务器中保存的 映射信息进行定制操作的定制单元。
13、 根据权利要求12所述的装置,其特征在于,所述新建单元包括设 置单元、建立单元和第一写入单元;其中,所述设置单元用于设置域的基本结构信息;所述建立单元用于建立主键字段并设置主键字段的默认属性、建立域字 段并设置域字段的索引属性和域属性;所述写入单元用于将包含新建基本结构和字段信息的域结构信息写入到 定制信息服务器。
14、 根据权利要求12所述的系统,其特征在于,所述定制单元包括第 一处理单元、第二处理单元和第二写入单元;其中,所述第一处理单元用于从数据源读取源数据结构、从定制信息服务器中 读取域相应的域结构信息;所述第二处理单元用于指定映射文件的名称,并将源数据结构映射到域 结构中;所述第二写入单元用于将映射信息写入并保存到定制信息服务器。
15、 一种基于定制的索引建立系统,其特征在于,包括如权利要求10至 14任意一项所述的装置、定制信息服务器、数据库服务器和索引服务器。
全文摘要
本发明提供一种基于定制的索引建立方法、装置和系统,通过在建立索引过程中增加针对域信息结构的定制以及从不同数据库结构到同一个域结构的映射信息的定制,利用所述定制的映射信息对读取到的数据进行封装,并根据域结构信息将封装后的数据写入到索引服务器后建立索引,从而实现了在不影响检索系统安全性和效率的前提下,增加了检索系统的通用性和适用范围,实现了索引过程中的高度可定制化。
文档编号G06F17/30GK101667183SQ20081021433
公开日2010年3月10日 申请日期2008年9月2日 优先权日2008年9月2日
发明者炜 唐, 勇 方, 郑小林, 陈德人 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1