一种基于全文检索的数据分类与数据检索的方法及装置与流程

文档序号:11133997阅读:670来源:国知局
一种基于全文检索的数据分类与数据检索的方法及装置与制造工艺

本发明属于数据存储与检索领域,特别涉及一种基于全文检索的数据分类与数据检索的方法及装置。



背景技术:

目前,企业在其各个业务模块中产生的数据分为两种,一种是结构化数据,即关系型数据库,如oracle、sql server等,一种是非结构化数据,如txt、word、excel等。由于数据存在差异化,无法统一结构,同时因为企业的各个业务模块的松耦合不清晰,造成数据难统一管理,不能进行数据分类以及无法全文检索。这里所述的数据分类是根据企业自定的业务模块,将采集好的数据关联到定义好的业务模块中。所述的全文检索是可以将采集到的数据进行检索,并通过权限过滤数据后,再呈现给用户。

申请号为201510104637的中国发明专利公开了一种基于数字报纸的资讯数据分类方法,该专利仅仅是基于数字报纸的结构化数据进行数据分类,如何根据企业业务模块的结构与非结构化数据进行数据分类并没有做相关的研究。

申请号为201010550776的中国发明专利公开了一种基于系统耦合的福富企业搜索引擎技术,该方案具体公开了一种数据采集方法,但是该方案仅仅是基于非结构化数据(如word、excel、ppt、pdf等)的数据采集,只会采集非结构化数据的文件名,不采集非结构化数据的具体内容。

为此,提供一种能实现企业数据的信息采集、数据分类与全文检索的方法具有重要的研究意义和实用价值。



技术实现要素:

本发明的一个目的在于克服现有技术的缺点与不足,提供一种基于全文检索的数据分类与数据检索的方法,解决了以往企业在其各个业务模块中,产生的结构与非结构化数据不能统一采集、分类与检索的问题。

本发明的另一个目的在于提供一种全文检索的数据分类与数据检索的装置,该装置可以实现企业数据的信息采集、数据分类与全文检索。

本发明的目的通过以下的技术方案实现:一种基于全文检索的数据分类与数据检索的方法,包括以下步骤:定义各个业务模块,将业务模块产生的数据与该业务模块进行关联,对上述数据进行分类,对分类后的数据添加索引,然后存储;在用户检索数据时,根据索引查找到相应数据,根据数据与业务模块的关联信息,找到数据对应的业务模块,进而找到对应业务模块处理类的处理方法,对数据进行处理,得到检索结果。

具体的,所述方法包括以下步骤:

(1)数据采集、分类过程:

(1-1)根据需要定义不同的业务模块,建立业务模块库,规划各个业务模块的数据处理机制,所述数据处理机制为业务模块处理类的处理方法;

(1-2)对数据进行采集,并将数据与业务模块库中的业务模块进行关联;

(1-3)对数据进行结构化和非结构化分类;

(1-4)对分类之后的数据添加数据索引,将数据索引保存到数据索引库中,然后借由数据库持久化操作,将数据保存到对应的数据库中;

(2)数据检索过程:

(2-1)系统根据用户输入的检索关键字,对储存的数据进行搜索,找到对应数据的索引;通过索引找到相应的数据并提取出来;

(2-2)根据数据与业务模块的关联信息,找到数据对应的业务模块,根据该业务模块的数据处理机制,完成对数据的处理,得到检索结果。

更进一步的,所述方法还包括步骤:

(2-3)在步骤(2-2)得到检索结果后,再根据用户的权限对上述检索结果进行过滤,最终将过滤后的检索结果发送给用户。

优选的,所述步骤(1-2)中将数据与业务模块库中的业务模块进行关联的方式为:对各个业务模块赋予一个标记,该业务模块采集的数据自动添加该标记。

更进一步的,将业务模块的编码作为标记,将该标记作为后缀与结构化、非结构化数据进行关联,然后存入非结构化数据库中。

优选的,所述步骤(1-4)中对分类之后的数据添加数据索引的具体步骤为:对需要检索的线索字段进行关键字提取和分词处理,并对这些关键字进行优先级筛选及敏感信息过滤,然后提取出索引,将索引添加到分类之后的数据。

优选的,所述步骤(2-2)中,找到数据对应的业务模块后,采用面相对象开发语言的反射机制,找到该业务模块对应的数据处理机制。

一种基于全文检索的数据分类与数据检索的装置,包括:

预定义模块,用于根据需要定义不同的业务模块,建立业务模块库,规划各个业务模块的数据处理机制,所述数据处理机制为业务模块处理类的处理方法;

信息采集模块,用于对数据进行采集,并将数据与业务模块库中的业务模块进行关联;

数据分类模块,用于对数据进行结构化和非结构化分类;

数据持久化模块,用于对分类之后的数据添加数据索引,将数据索引保存到数据索引库中,然后借由数据库持久化操作,将数据保存到对应的数据库中;同时,还用于在用户输入检索关键字时,对储存的数据进行搜索,找到对应数据的索引,通过索引找到相应的数据并提取出来;

数据分类处理模块,用于根据数据与业务模块的关联信息,找到数据对应的业务模块,根据该业务模块的数据处理机制,完成对数据的处理,得到检索结果。

更进一步的,所述装置还包括:

数据权限模块,用于在数据分类处理模块得到检索结果后,再根据用户的权限对上述检索结果进行过滤,最终将过滤后的检索结果发送给用户。

优选的,所述信息采集模块中,将业务模块的编码作为后缀与结构化、非结构化数据进行关联,然后存入非结构化数据库中。

优选的,所述数据持久化模块包括索引寻找模块,所述索引寻找模块用于对需要检索的线索字段进行关键字提取和分词处理,并对这些关键字进行优先级筛选及敏感信息过滤,然后提取出索引。

本发明与现有技术相比,具有如下优点和有益效果:

1、本发明根据企业自定的业务模块,将采集好的数据关联到定义好的业务模块中,使结构与非结构化数据能够统一采集、分类与检索,并且企业数据统一存储,数据分类清晰。

2、本发明可以采集非结构化数据的内容,进行全文检索。

3、本发明通过数据权限模块,根据用户的权限对检索结果进行过滤,保证了企业信息的安全性。

附图说明

图1是本实施例的数据采集、分类与持久化的过程示意图;

图2是本实施例数据检索及权限处理的过程示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

本实施例一种基于全文检索的数据分类与数据检索的方法,包括步骤:定义各个业务模块,将业务模块产生的数据与该业务模块进行关联,对上述数据进行分类,对分类后的数据添加索引,然后存储;在用户检索数据时,根据索引查找到相应数据,根据数据与业务模块的关联信息,找到数据对应的业务模块,进而找到对应业务模块处理类的处理方法,对数据进行处理,得到检索结果。

下面结合图1、2,对上述方法进行具体说明。

参见图1,数据采集、分类过程包括下面步骤:

1、根据需要定义不同的业务模块,建立业务模块库,规划各个业务模块的数据处理机制。只有在清晰的划分业务模块后,才能对各个业务模块的数据处理机制有规划,且需要对每个业务模块可能产生的结构化数据与非结构化数据有一定的预期。

2、用户新建数据,由信息采集模块对数据进行采集,并将数据与业务模块库中的业务模块进行关联。

3、数据分类模块根据数据分类库对数据进行结构化和非结构化分类。

4、对分类之后的数据添加数据索引,将索引保存到数据索引库中,然后借由数据库持久化操作,将数据保存到对应的数据库中。

参见图2,数据检索过程包括下面步骤:

5、系统根据用户输入的检索关键字,对持久化模块中储存的数据进行部分模糊搜索,找到对应数据的索引。

6、通过索引找到相应的数据并提取出来。

7、根据数据与业务模块的关联信息,找到数据对应的业务模块,找到此业务模块对应的数据处理方法,完成对数据的处理,得到初步检索结果。

8、通过数据权限模块,根据用户的权限对初步检索结果进行过滤,并最终呈现给用户。

本实施例中,将业务模块的编码作为后缀与结构化、非结构化数据进行关联,然后存入非结构化数据库中。

优选的,步骤4中对分类之后的数据添加数据索引具体步骤为:持久化模块对需要检索的线索字段进行关键字提取和分词处理,并对这些关键字进行优先级筛选及敏感信息过滤,然后提取出索引。

本实施例一种基于全文检索的数据分类与数据检索的装置,包括:

预定义模块,用于根据需要定义不同的业务模块,建立业务模块库,规划各个业务模块的数据处理机制,所述数据处理机制为业务模块处理类的处理方法;

信息采集模块,用于对数据进行采集,并将数据与业务模块库中的业务模块进行关联;

数据分类模块,用于对数据进行结构化和非结构化分类;

数据持久化模块,用于对分类之后的数据添加数据索引,将数据索引保存到数据索引库中,然后借由数据库持久化操作,将数据保存到对应的数据库中;同时,还用于在用户输入检索关键字时,对储存的数据进行搜索,找到对应数据的索引,通过索引找到相应的数据并提取出来;

数据分类处理模块,用于根据数据与业务模块的关联信息,找到数据对应的业务模块,根据该业务模块的数据处理机制,完成对数据的处理,得到检索结果;

数据权限模块,用于在数据分类处理模块得到检索结果后,再根据用户的权限对上述检索结果进行过滤,最终将过滤后的检索结果发送给用户。

下面以线索数据为例,来具体说明本实施例数据分类与数据检索的方法:

在图1中,用户新建一条线索数据,线索数据包含:线索主题、线索编号、线索类型、线索状态、线索内容、线索经办人、线索时间、线索附属信息、线索涉及信息等信息。

系统根据数据关联的业务模块,与这条线索数据进行关联,在采集过程中,将数据标记为线索业务模块的数据,在需要检索的字段的后缀加上”_Clue”,然后存入mongoDB等非结构化数据库中,也就是图1中数据持久化模块的实际数据库。

之后将数据进行分类,线索业务模块的数据根据业务分类库,将数据存储到对应的持久化层中。期间,持久化模块会智能的对需要检索的线索字段进行关键字提取和分词处理,并对这些关键字进行优先级筛选及敏感信息过滤,再保存提取出来的索引,之后借由数据库持久化操作,将数据保存到对应的数据库中。

在图2中,用户输出想要检索的关键字,系统根据关键字,利用企业级搜索引擎如solr等,通过智能比对算法对数据进行部分模糊搜索,找到对应数据的索引,再通过索引找到相应的数据。数据提取出来后,根据数据关联的业务模块编号,找到此业务模块对应的处理类,通过C#等面相对象语言的反射机制,找到对应业务模块处理类的处理方法,实例化处理类并执行数据处理方法,以此实现对数据的处理。最后通过数据权限模块,根据当前用户的权限,处理好的数据进行过滤,并最终呈现给用户,从而实现本发明的目的。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1