XML文件全文检索索引生成方法及装置与流程

文档序号:11286366阅读:218来源:国知局
XML文件全文检索索引生成方法及装置与流程

本发明涉及全文检索技术领域,尤其涉及一种xml文件全文检索索引生成方法及装置。



背景技术:

随着近些年信息化的加快,信息的获取越来越容易,特别是在互联网领域。获取互联网中的知识需要借助一些工具,而在众多工具之中最重要的工具是互联网检索引擎,即针对互联网数据的全文检索引擎。通过输入关键词,用户可以通过全文检索引擎在浩瀚的网页中检索到需要的网页。

全文检索,除了在互联网领域具有重要的应用之外,在一些信息化系统中,例如办公系统、财务系统等,也都有着广泛的应用价值。在现有的一些办公系统中,它们的一些业务数据是来自于外部系统的可扩展标记语言(extensiblemarkuplanguage,简称xml)推送,例如:新华社的电稿数据是通过xml格式的文件定期下发给各个报社的生产系统的。

鉴于此,如何为xml文件自动生成全文检索的索引,以供现有系统及互联网进行检索使用成为目前需要解决的技术问题。



技术实现要素:

为解决上述的技术问题,本发明提供一种xml文件全文检索索引生成方法及装置,能够为xml文件自动生成全文检索的索引,比现有技术更简洁、方便。

第一方面,本发明提供一种xml文件全文检索索引生成方法,包括:

根据待处理xml文件,生成xml筛选配置文件;

根据待处理xml文件,生成索引生成配置文件;

读取xml筛选配置文件,获取待处理xml文件中的待索引元素;

读取索引生成配置文件,将待处理xml文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件;

其中,所述xml筛选配置文件设置了待处理xml文件中的待索引元素;所述索引生成配置文件设置了待处理xml文件中的待索引元素的索引映射关系。

可选地,所述根据待处理xml文件,生成xml筛选配置文件,包括:

根据待处理xml文件,利用xpath技术,生成xml筛选配置文件;

相应地,所述读取xml筛选配置文件,获取待处理xml文件中的待索引元素,包括:

读取xml筛选配置文件,利用xpath技术,获取待处理xml文件中的待索引元素。

可选地,所述读取索引生成配置文件,将待处理xml文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件,包括:

读取索引生成配置文件,利用全文检索工具将待处理xml文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件。

可选地,所述全文检索工具,包括:lucene。

可选地,所述待处理xml文件,包括:外部系统推送给信息系统的xml文件,或信息系统内部每隔预设时间段产生的xml文件。

第二方面,本发明提供一种xml文件全文检索索引生成装置, 包括:配置文件生成器和索引生成器;

所述配置文件生成器,包括:第一生成模块和第二生成模块;

所述第一生成模块,用于根据待处理xml文件,生成xml筛选配置文件;

所述第二生成模块,用于根据待处理xml文件,生成索引生成配置文件;

所述索引生成器,包括:元素获取模块和索引生成模块;

所述元素获取模块,用于读取xml筛选配置文件,获取待处理xml文件中的待索引元素;

所述索引生成模块,用于读取索引生成配置文件,将待处理xml文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件;

其中,所述xml筛选配置文件设置了待处理xml文件中的待索引元素;所述索引生成配置文件设置了待处理xml文件中的待索引元素的索引映射关系。

可选地,所述第一生成模块,具体用于

根据待处理xml文件,利用xpath技术,生成xml筛选配置文件;

相应地,所述元素获取模块,具体用于

读取xml筛选配置文件,利用xpath技术,获取待处理xml文件中的待索引元素。

可选地,所述索引生成模块,具体用于

读取索引生成配置文件,利用全文检索工具将待处理xml文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件。

可选地,所述全文检索工具,包括:lucene。

可选地,所述待处理xml文件,包括:外部系统推送给信息系 统的xml文件,或信息系统内部每隔预设时间段产生的xml文件。

由上述技术方案可知,本发明的xml文件全文检索索引生成方法及装置,通过先根据待处理xml文件生成xml筛选配置文件和索引生成配置文件,再读取xml筛选配置文件获取待处理xml文件中的待索引元素,读取索引生成配置文件,利用全文检索工具将待处理xml文件中的待索引元素按照索引生成配置文件中预设的索引映射关系进行索引,生成索引文件,能够对xml文件自动生成全文检索的索引,比现有技术更简洁、方便。

附图说明

图1为本发明一实施例提供的一种xml文件全文检索索引生成方法的流程示意图;

图2为图1所示xml文件全文检索索引生成方法的一种具体的流程示意图;

图3为本发明一实施例提供的一种xml文件全文检索索引生成装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例,都属于本发明保护的范围。

图1示出了本发明一实施例提供的xml文件全文检索索引生成方法的流程示意图,如图1所示,本实施例的xml文件全文检索索引生成方法如下所述。

101、根据待处理xml文件,生成xml筛选配置文件。

其中,所述xml筛选配置文件设置了待处理xml文件中的待 索引元素。

在具体应用中,所述待处理xml文件,可以包括:外部系统推送给信息系统的xml文件,或信息系统内部每隔预设时间段产生的xml文件等。

102、根据待处理xml文件,生成索引生成配置文件;

其中,所述索引生成配置文件设置了待处理xml文件中的待索引元素的索引映射关系。

103、读取xml筛选配置文件,获取待处理xml文件中的待索引元素。

104、读取索引生成配置文件,将待处理xml文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件。

可理解的是,本实施例生成的索引可以直接被程序检索使用。

本发明的xml文件全文检索索引生成方法,通过先根据待处理xml文件生成xml筛选配置文件和索引生成配置文件,再读取xml筛选配置文件获取待处理xml文件中的待索引元素,读取索引生成配置文件,利用全文检索工具将待处理xml文件中的待索引元素按照索引生成配置文件中预设的索引映射关系进行索引,生成索引文件,能够对xml文件自动生成全文检索的索引,用户只需要修改xml筛选配置文件和索引生成配置文件,就可以达到自动化索引xml的目的,比现有技术更简洁、方便。

在具体应用中,上述步骤101,可包括:

根据待处理xml文件,利用xpath技术,生成xml筛选配置文件;

相应地,上述步骤103,包括:

读取xml筛选配置文件,利用xpath技术,获取待处理xml文件中的待索引元素;其中,所述xml筛选配置文件预先利用xpath 技术设置了待处理xml文件中的待索引元素。

可理解的是,xpath即为xml路径语言,它是一种用来确定xml(标准通用标记语言的子集)文档中某部分位置的语言,xpath基于xml的树状结构,提供在数据结构树中找寻节点的能力,可以认为xpath是专门为xml提供的小型检索语言。

利用xpath技术,获取待处理xml文件中的待索引元素,能够准确快速的定位到xml文件(文档)中有哪些元素要进行索引化,为后续的实际索引话提供数据支持。

在具体应用中,本实施例所述xml筛选配置文件除设置了待处理xml文件中的待索引元素之外,还为每一待索引元素指定对应的资源代号,例如,下面的配置片段,表示属性name=title的doc元素将被进行索引,资源代号为title:

<xmlfilters>

<xmlfiltercode="titlefitler"><xpath>//doc[@name='title']</xpath></xmlfilter>

</xmlfilters>

在具体应用中,上述步骤104,可包括:

读取索引生成配置文件,利用全文检索工具将待处理xml文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件。

其中,所述全文检索工具,可以包括:lucene等。lucene是一个全文检索技术的的一个开源实现,在本实施例中可以作为用来提供全文检索的工具,但全文检索工具不止lucene一种,本实施例并不对其进行限制。

在具体应用中,本实施例所述索引生成配置文件设置了待处理xml文件中的待索引元素的索引映射关系,例如,下面的配置片段表示,在上述xml筛选配置文件中的code为titlefitler的filter会被生成一个索引,索引名称为title,生成的索引被存储到d盘的index 目录:

<indexsdir="d:\\index">

<indexcode="title"type='string'><xmlfiltercode>titlefitler

</xmlfiltercode></index>

</indexs>

在具体应用中,本实施例所述方法的具体流程也可以进一步如图2所示。

本实施例的xml文件全文检索索引生成方法,能够对xml文件自动生成全文检索的索引,比现有技术更简洁、方便。

图3示出了本发明一实施例提供的一种xml文件全文检索索引生成装置的结构示意图,如图3所示,本实施例的xml文件全文检索索引生成装置,包括:配置文件生成器1和索引生成器2;

所述配置文件生成器1,包括:第一生成模块11和第二生成模块12;

所述第一生成模块11,用于根据待处理xml文件,生成xml筛选配置文件;

所述第二生成模块12,用于根据待处理xml文件,生成索引生成配置文件;

所述索引生成器2,包括:元素获取模块21和索引生成模块22;

所述元素获取模块21,用于读取xml筛选配置文件,获取待处理xml文件中的待索引元素;

所述索引生成模块22,用于读取索引生成配置文件,将待处理xml文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件;

其中,所述xml筛选配置文件设置了待处理xml文件中的待索引元素;所述索引生成配置文件设置了待处理xml文件中的待索引元素的索引映射关系。

在具体应用中,所述待处理xml文件,包括:外部系统推送给信息系统的xml文件,或信息系统内部每隔预设时间段产生的xml文件。

在具体应用中,所述xml筛选配置文件还为每一待索引元素指定对应的资源代号。

在具体应用中,所述第一生成模块11,可具体用于

根据待处理xml文件,利用xpath技术,生成xml筛选配置文件;

相应地,所述元素获取模块21,具体用于

读取xml筛选配置文件,利用xpath技术,获取待处理xml文件中的待索引元素。

在具体应用中,所述索引生成模块22,可具体用于

读取索引生成配置文件,利用全文检索工具将待处理xml文件中的待索引元素按照所述索引生成配置文件中预设的索引映射关系进行索引,生成索引文件。

其中,所述全文检索工具,可包括:lucene等。

可理解的是,本实施例生成的索引可以直接被程序检索使用。

本实施例的索引生成器,能够对xml文件自动生成全文检索的索引,用户只需要修改xml筛选配置文件和索引生成配置文件,就可以达到自动化索引xml的目的,比现有技术更简洁、方便。

本实施例的索引生成器,可以用于执行前述图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1