一种利用非结构化文档加速结构化数据检索的方法与流程

文档序号:15445732发布日期:2018-09-14 23:20阅读:342来源:国知局

本发明涉及计算机系统中结构化数据的检索技术领域,特别涉及一种利用非结构化文档加速结构化数据检索的方法。



背景技术:

倒排索引:是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。

评分排序:根据检索条件的不同,当检索的关键字相关结果较多时,根据检索结果记录的相关性进行排序就显得尤为重要。结合自然语言处理中的词性分析技术,可使得排序结果更接近人类思维所需结果。

目前针对结构化数据检索更多停留在加速或与非结构化数据统一检索方法层面,需要提供一种新的方法,对结构化数据及其嵌套关联的数据进行高效全文检索,并能以接近人类思维的方式给出按相关性排序的结果集。



技术实现要素:

本发明的目的在于克服现有技术的缺点与不足,提供一种利用非结构化文档加速结构化数据检索的方法,将结构化数据转化为非结构化文档,达到提升其检索速度的目的;并利用自然语言分析的方法,提升其排序准确性。

本发明的目的通过以下的技术方案实现:

一种利用非结构化文档加速结构化数据检索的方法,通过将结构化数据转化为非结构化文档进行检索;设置带有一定能量的词语构建非结构化文档,使得检索结果可依照词性能量参与相关性权重计算,进而优化检索结果的排序效果。

优选的,具体步骤为:

1、搜集所有相关的结构化数据结构及其关联关系;

2、设计数据属性间的关联词,以及关联数据关系的关联词;

3、如同写文章描述对象的方式,设计生成文档的结构;

4、将生成的文档输入全文检索引擎,建立倒排索引;

5、检索结果时,根据步骤2所定义的关联词能量及对应关键字的相关性权值,参与计算关联度排序分数。

本发明与现有技术相比,具有如下优点和有益效果:

目前针对结构化数据检索更多停留在加速或与非结构化数据统一检索方法层面,而本发明既有加速检索的效果,亦能改善检索结果的排序。通过将结构化数据转换为非结构化文档的方式,可充分利用现有成熟的全文检索引擎进行简单高效的检索。通过精心设计关联词,可以接近人类思维的方式进行结果相关度评判,更符合人类习惯。

附图说明

图1是实施例1方法的数据处理阶段流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

实施例1

一种利用非结构化文档加速结构化数据检索的方法,通过将结构化数据转化为非结构化文档进行检索;通过设置带有一定能量的词语构建非结构化文档,使得检索结果可依照词性能量参与相关性权重计算,进而优化检索结果的排序效果。具体步骤如下:

1、搜集所有相关的结构化数据结构及其关联关系;

2、设计数据属性间的关联词,以及关联数据关系的关联词;

3、如同写文章描述对象的方式,设计生成文档的结构;

4、将生成的文档输入全文检索引擎,建立倒排索引;

5、检索结果时,根据步骤2所定义的关联词能量及对应关键字的相关性权值,参与计算关联度排序分数。

实施例2

一常见的人员档案类型结构化数据及其包含的属性和关联关系:

人:具有姓名,身份证,持有手机三个属性,其中持有手机可能有0个或多个。

身份证:具有身份证号,出生日期,户籍地址,发证派出所四个属性。

手机:具有手机号码,imei两个属性,其中手机号码可能有0个,1个或2个。

一种利用非结构化文档加速结构化数据检索的方法,实施步骤如下:

1、设计[人]的描述模板:[姓名],身份证为[身份证],持有[持有手机1],另持有[持有手机2],......

2、设计[身份证]的描述模板:身份证号[身份证号],出生日期为[出生日期],户籍所在地为[户籍地址],[发证派出所]签发。

3、设计[持有手机]的描述模板:[手机号码],机身号[imei]。

4、生成文档,例如:张三,身份证为身份证号123456789012345678,出生日期为1234年5月6日,户籍所在地为xx省xx市xx县,xx县派出所签发,持有手机12345678901,机身号1234567891234567。

5、检索时,依照语义分析计算关键字与[人]的关联度,例如对步骤4中的数据检索关键字“1234”时,关键字存在于身份证号与手机号和机身号中,因此评分由身份证号、手机号和机身号的权重评分相加而得;

又例如检索关键字“张”时,假设某条数据中存在“户籍所在地为湖南省张家界市”,由于语义分析“张三”为全句主语,因此权重大于假设数据中“张家界市”,则步骤4数据排序应在假设数据之前。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。



技术特征:

技术总结
本发明公开了一种利用非结构化文档加速结构化数据检索的方法,利用将结构化数据转化为非结构化文档的方法,达到提升其检索速度的目的,并利用自然语言分析的方法,提升其排序准确性。

技术研发人员:邓晨昱
受保护的技术使用者:广州慧睿思通信息科技有限公司
技术研发日:2018.03.09
技术公布日:2018.09.14
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1