基于英语知识图谱的检索方法、装置、设备及存储介质与流程

文档序号:18030194发布日期:2019-06-28 22:34阅读:152来源:国知局
基于英语知识图谱的检索方法、装置、设备及存储介质与流程

本发明涉及数据处理领域,尤其涉及一种基于英语知识图谱的检索方法、装置、设备及存储介质。



背景技术:

随着信息时代的发展,人类已经进入了大数据时代,不再面临信息匮乏的困境。然而,这些海量数据又困扰着我们,尤其是对于学习者而言,要想高效、全面、详细和准确的获取知识并找到对应问题的答案,往往是很困难的。在现有的搜素引擎中,学习者在搜素英语资源的时候,通常需要导航几个网站之后,经过自己的汇总,才能找到比较满意的结果,有时还可能找不到满意的结果。学习者要想得到满意的结果,需要自己汇总信息,若学习者不保存汇总信息,第二次查询时仍需要再次汇总信息,保存汇总信息时,还会面临组织结构和下次如何快速准确找到的问题,从而无法实现检索的有效性。



技术实现要素:

本发明的主要目的在于提出一种基于英语知识图谱的检索方法、装置、设备及存储介质,旨在提高检索的有效性。

为实现上述目的,本发明提供一种基于英语知识图谱的检索方法,所述基于英语知识图谱的检索方法包括以下步骤:

获取待检索英语知识信息;

提取所述待检索英语知识信息中的参考关键字信息,根据所述参考关键字信息在预设索引文件中查询对应的携带有个体类别信息的查询建议信息;

根据所述查询建议信息在基于本体网页语言的目标文件库中查询相关联的参考检索英语知识信息,所述参考检索英语知识信息包括维基词汇信息、固定搭配信息、例句及其翻译信息、资源信息以及知识点信息,其中,所述相关联的参考检索英语知识信息包括各个个体类别信息之间具有派生关系、复合关系、包含关系或者重点关系的参考检索英语知识信息;

根据查询到的维基词汇信息、固定搭配信息、例句及其翻译信息、资源信息以及知识点信息对所述参考检索英语知识信息进行分组;

对分组后的参考检索英语知识信息进行排序,根据排序后的参考检索英语知识信息生成目标检索英语知识图谱信息。

优选地,所述获取待检索英语知识信息之前,所述方法还包括:

获取当前英语知识信息,判断所述当前英语知识信息的文字长度;

在所述文字长度达到预设阈值时,对所述当前英语知识信息进行英文依存语法分析,根据分析结果确定所述当前英语知识信息的语法结构,根据所述语法结构进行关键词划分,根据划分结果得到当前关键词信息;

提取所述当前关键词信息中的属性信息,根据所述属性信息判断所述当前关键词信息是否为维基词条、本体类名、成员别名以及资源条目中至少一项;

在所述当前关键词信息属于维基词条、本体类名、成员别名以及资源条目中至少一项时,将所述当前关键词信息作为所述待检索英语知识信息。

优选地,所述根据所述查询建议信息在基于本体网页语言的目标文件库中查询相关联的参考检索英语知识信息,包括:

根据所述查询建议信息中的个体类别信息在预设区域查找应用场景信息;

根据所述应用场景信息在所述目标文件库中查找与所述个体类别信息建立关系的个体信息以及相关的实例信息;

判断所述实例信息的类型信息,根据所述类型信息提取所述实例信息中的数据属性信息,将所述数据属性信息作为相关联的参考检索英语知识信息。

优选地,所述根据所述查询建议信息在基于本体网页语言的目标文件库中查询相关联的参考检索英语知识信息之前,所述方法还包括:

提取待检索英语知识信息中的用户信息,所述用户信息包括用户的薄弱知识点信息、年级信息、学习基础以及学习大纲信息;

根据年级信息和学习基础确定待检索英语学科知识的难易程度信息;

根据所述薄弱知识点信息、难易程度信息以及学习大纲信息对预设文件库进行过滤,将过滤后的文件库作为所述目标文件库。

优选地,所述提取所述待检索英语知识信息中的参考关键字信息,根据所述参考关键字信息在预设索引文件中查询对应的携带有个体类别信息的查询建议信息之前,所述方法还包括:

获取历史英语知识信息以及相关联的资源信息,提取所述历史英语知识信息以及相关联的资源信息中的历史关键字信息;

将所述历史关键字信息作为三元组信息采用地形数据库的存储方式进行保存,并根据所述三元组信息建立索引信息,将建立后的三元组信息作为所述预设索引文件。

优选地,所述对分组后的参考检索英语知识信息进行排序,根据排序后的参考检索英语知识信息生成目标检索英语知识图谱信息之前,所述方法还包括:

获取当前用户行为信息,其中,所述当前用户行为信息包括预设考点、难易程度、年级信息、版本信息、更新时间信息以及预设考试试卷信息;

对所述预设考点、难易程度、年级信息、版本信息、更新时间信息以及预设考试试卷信息设置预设权重值;

将设置权重值后的预设考点、难易程度、年级信息、版本信息、更新时间信息以及预设考试试卷信息通过关联度排序算法生成排序网络模型;

所述对分组后的参考检索英语知识信息进行排序,根据排序后的参考检索英语知识信息生成目标检索英语知识图谱信息,包括:

通过所述排序网络模型对分组后的参考检索英语知识信息进行排序,根据排序后的参考检索英语知识信息生成目标检索英语知识图谱信息。

优选地,所述对分组后的参考检索英语知识信息进行排序,根据排序后的参考检索英语知识信息生成目标检索英语知识图谱信息之后,所述方法还包括:

对分组后的参考检索英语知识信息进行排序,获取排序后的参考检索英语知识信息;

获取预设白名单和预设黑名单信息,根据所述预设白名单和预设黑名单信息以及布隆过滤器对排序后的参考检索英语知识信息进行过滤,将过滤后的参考检索英语知识信息生成目标检索英语知识图谱信息。

此外,为实现上述目的,本发明还提出一种基于英语知识图谱的检索装置,其特征在于,所述基于英语知识图谱的检索装置包括:

获取模块,用于获取待检索英语知识信息;

提取模块,用于提取所述待检索英语知识信息中的参考关键字信息,根据所述参考关键字信息在预设索引文件中查询对应的携带有个体类别信息的查询建议信息;

查询模块,用于根据所述查询建议信息在基于本体网页语言的目标文件库中查询相关联的参考检索英语知识信息,所述参考检索英语知识信息包括维基词汇信息、固定搭配信息、例句及其翻译信息、资源信息以及知识点信息,其中,所述相关联的参考检索英语知识信息包括各个个体类别信息之间具有派生关系、复合关系、包含关系或者重点关系的参考检索英语知识信息;

分组模块,用于根据查询到的维基词汇信息、固定搭配信息、例句及其翻译信息、资源信息以及知识点信息对所述参考检索英语知识信息进行分组;

排序模块,用于对分组后的参考检索英语知识信息进行排序,根据排序后的参考检索英语知识信息生成目标检索英语知识图谱信息。

此外,为实现上述目的,本发明还提出一种基于英语知识图谱的检索设备,所述基于英语知识图谱的检索设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于英语知识图谱的检索程序,所述基于英语知识图谱的检索程序配置为实现如上所述的基于英语知识图谱的检索方法的步骤。

此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于英语知识图谱的检索程序,所述基于英语知识图谱的检索程序被处理器执行时实现如上文所述的基于英语知识图谱的检索方法的步骤。

本发明提出的基于英语知识图谱的检索方法,通过获取待检索英语知识信息;提取所述待检索英语知识信息中的参考关键字信息,根据所述参考关键字信息在预设索引文件中查询对应的携带有个体类别信息的查询建议信息;根据所述查询建议信息在基于本体网页语言的目标文件库中查询相关联的参考检索英语知识信息,所述参考检索英语知识信息包括维基词汇信息、固定搭配信息、例句及其翻译信息、资源信息以及知识点信息,其中,所述相关联的参考检索英语知识信息包括各个个体类别信息之间具有派生关系、复合关系、包含关系或者重点关系的参考检索英语知识信息;根据查询到的维基词汇信息、固定搭配信息、例句及其翻译信息、资源信息以及知识点信息对所述参考检索英语知识信息进行分组;对分组后的参考检索英语知识信息进行排序,根据排序后的参考检索英语知识信息生成目标检索英语知识图谱信息,从而基于本体网页语言的文件库对用户的检索内容进行高效关联知识网络检索,大大提高检索的准确性、有效性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;

图2为本发明基于英语知识图谱的检索方法第一实施例的流程示意图;

图3为本发明基于英语知识图谱的检索方法一实施例种的查询操作符图;

图4为本发明基于英语知识图谱的检索方法一实施例输入输出类型图;

图5为本发明基于英语知识图谱的检索方法一实施例sparql语句检索示意图;

图6为本发明基于英语知识图谱的检索方法一实施例模块示意图;

图7为本发明基于英语知识图谱的检索方法一实施例系统示意图;

图8为本发明基于英语知识图谱的检索方法第二实施例的流程示意图;

图9为本发明基于英语知识图谱的检索方法第三实施例的流程示意图;

图10为本发明基于英语知识图谱的检索方法建立知识本体的流程示意图;

图11为本发明基于英语知识图谱的检索方法建立图谱示意图;

图12为本发明基于英语知识图谱的检索装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。

如图1所示,该设备可以包括:处理器1001,例如cpu,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如按键,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于英语知识图谱的检索程序。

在图1所示的设备中,网络接口1004主要用于连接外网,与其他网络设备进行数据通信;用户接口1003主要用于连接用户设备,与设备进行数据通信;本发明设备通过处理器1001调用存储器1005中存储的基于英语知识图谱的检索程序,并执行本发明实施例提供的基于英语知识图谱的检索的实施方法。

基于上述硬件结构,提出本发明基于英语知识图谱的检索方法实施例。

参照图2,图2为本发明基于英语知识图谱的检索方法第一实施例的流程示意图。

在第一实施例中,所述基于英语知识图谱的检索方法包括以下步骤:

步骤s10,获取待检索英语知识信息。

需要说明的是,本实施例的执行主体为检索平台还可为进行数据处理的服务器,本实施例对此不作限制,在本实施例中,以检索平台为例进行说明。

在本实施例中,所述待检索英语知识信息包括待检索关键字信息以及检索语句等,例如初中二年级现在进行时语法等。

步骤s20,提取所述待检索英语知识信息中的参考关键字信息,根据所述参考关键字信息在预设索引文件中查询对应的携带有个体类别信息的查询建议信息,其中,所述个体类别信息包括语法、句子、短语、词汇、题目、常见错误以及多媒体文件中至少一项。

需要说明的是,英语学科的个体分类包括:语法、句子、短语、词汇、题目、常见错误、多媒体文件等,由于英语学科的个体有很多,比如一个单词,它有很多属性如音标、词性、用法、例句、年级、相关书籍、是否为四六级词汇、被考场次数等,所述预设索引文件为预先建立的关键字信息与个体类别信息的对应关系,根据所述预设索引文件,根据用户输入的待检索英语知识信息可查询出对应的个体类别信息。

在本实施例中,通过借助lucene的查询操作符可以灵活的确定查询的形式,采用如图3所示的四种形式:

1、and查询操作符,关键字之间为与的关系,采用+word1+word2的形式;

2、or查询操作符,关键字之间为或的关系,采用word1word2的形式;

3、not查询操作符,排除某个关键字的情况,采用+word1-word2的形式;

4、like查询操作符,模糊查询,采用word~的形式。

步骤s30,根据所述查询建议信息在基于本体网页语言的目标文件库中查询相关联的参考检索英语知识信息,所述参考检索英语知识信息包括维基词汇信息、固定搭配信息、例句及其翻译信息、资源信息以及知识点信息,其中,所述相关联的参考检索英语知识信息包括各个个体类别信息之间具有派生关系、复合关系、包含关系或者重点关系的参考检索英语知识信息,还可包括其他关系,本实施例对此不作限制。

可以理解的是,比如在英语中相关联的参考检索英语知识信息包括:两个词汇存在派生关系或复合关系等,某个词汇和某个句子存在包含关系等以及某个词汇和题目存在考察或重点词汇关系等。

需要说明的是,所述维基词汇信息为基于维基词条中搜索出的词条信息,所述资源信息包括试卷以及培训视频资料等产品信息,以用户输入英语知识点的方式执行查询,如图4显示查询结果,输入为英语知识点,输出内容包括当前英语知识点的维基词条信息,具体内容为该知识点的维基词汇信息、固定搭配信息、例句及其翻译信息、资源信息以及知识点信息。

在本实施例中,如图5所示,其中矩形代表本体中string类型的一条记录,椭圆代表本体中的个体,实线箭头代表本体中的对象属性关系,虚线箭头代表本体中的数据属性关系。

步骤s40,根据查询到的维基词条信息、资源信息以及关键词信息对所述参考检索英语知识信息进行分组。

为了将检索结果以可扩展标记语言(extensiblemarkuplanguage,xml)的形式进行展示,可将检索结果组织方式为根据不同的核心词构造不同的虚拟子图。

步骤s50,对分组后的参考检索英语知识信息进行排序,根据排序后的参考检索英语知识信息生成目标检索英语知识图谱信息。

需要说明的是,可通过两种方式对分组后的参考检索英语知识信息进行排序,第一种方式组内按照lucene的评分排序,第二种方式组间按照关联度排序算法进行排序,该算法加入了常见考点、难易程度、年级、版本、更新时间和大型考试试卷的权重计算,算法中以知识点为顶点构成网络,该网络关系越复杂表明对应的知识点用户越难掌握。

在本实施例中,所述检索平台设有预设多个处理模块,例如图6所示的预处理模块、过滤模块、检索模块、排序模块以及干预模块,其中,所述预处理模块,用于准确将用户输入的内容转化成机器可识别的检索语言,所述过滤模块,利用缓存技术缓存常见检索结果和避免使用全表扫描和索引全扫描这2种方式来过滤检索结果,提高检索速度,所述检索模块,用于建立lucene索引,利用地形数据库(terraindatabase,tdb)存储本体文件,用sparql在索引和本体文件上进行检索,所述排序模块,用于针对检索得到的初步结果,在未进行人工干预的前提下,按照改进的关联度排序算法进行排序,所述干预模块,用于基于白名单和黑名单原理进行干预,黑白名单数据将存储在数据库中,在保证一定准确率的前提下也可采用布隆过滤器算法进行过滤。

本实施例实现了一种系统能够根据用户特性主动向学习者注入资源的学习方式,从而提高学习者搜索质量,使搜索结果更加高效、全面、详细、准确和清晰明了,系统为学生推荐个性化的学习路径和学习资源,进而有效促进学习者的个性化教育,如图7所示检索的流程示意图,首先建立索引,larq有3种使用模式:字符索引、主题资源索引以及图索引,根据网络本体语言(thewebontologylanguage,owl)文件利用larq的字符索引建立相应的索引,然后进行sparql查询,根据sparql查询语句得到相应的结果,再进行分组,最终的xml输出结果组织方式为根据不同的核心词构造不同的虚拟子图,然后进行排序和干预,去掉非法内容或不符合平台政策规定的检索结果,最后进行xml输出。将经过分组排序人工干预后的检索结果输出为相应的xml组织形式。

本实施例具体实现了英语领域本体的知识图谱系统,与学习者在搜索引擎上的检索结果相比,检索到的结果不需要用户汇总,结果全面、详细准确和清晰明了,提高了搜索质量。

本发明提出的基于英语知识图谱的检索方法,通过获取待检索英语知识信息;提取所述待检索英语知识信息中的参考关键字信息,根据所述参考关键字信息在预设索引文件中查询对应的携带有个体类别信息的查询建议信息;根据所述查询建议信息在基于本体网页语言的目标文件库中查询相关联的参考检索英语知识信息,所述参考检索英语知识信息包括维基词汇信息、固定搭配信息、例句及其翻译信息、资源信息以及知识点信息,其中,所述相关联的参考检索英语知识信息包括各个个体类别信息之间具有派生关系、复合关系、包含关系或者重点关系的参考检索英语知识信息;根据查询到的维基词汇信息、固定搭配信息、例句及其翻译信息、资源信息以及知识点信息对所述参考检索英语知识信息进行分组;对分组后的参考检索英语知识信息进行排序,根据排序后的参考检索英语知识信息生成目标检索英语知识图谱信息,从而基于本体网页语言的文件库对用户的检索内容进行高效关联知识网络检索,大大提高检索的准确性、有效性。

在一实施例中,如图8所示,基于第一实施例提出本发明基于英语知识图谱的检索方法第二实施例,所述步骤s10之前,所述方法还包括:

获取当前英语知识信息,判断所述当前英语知识信息的文字长度。

在所述文字长度达到预设阈值时,对所述当前英语知识信息进行英文依存语法分析,根据分析结果确定所述当前英语知识信息的语法结构,根据所述语法结构进行关键词划分,根据划分结果得到当前关键词信息。

提取所述当前关键词信息中的属性信息,根据所述属性信息判断所述当前关键词信息是否为维基词条、本体类名、成员别名以及资源条目中至少一项。

在所述当前关键词信息属于维基词条、本体类名、成员别名以及资源条目中至少一项时,将所述当前关键词信息作为所述待检索英语知识信息。

在本实施例中,对待检索英语知识信息进行预处理,为提高预处理的准确性,可以采用如下四种方式或是组合进行改进:

1)记录每个用户请求内容,生成请求频次表;

2)针对用户可能出错的请求内容,给出相关的检索建议;

3)如果检索内容较长,可进行句法分析得到关键检索主题;

4)检索内容如果为维基词条、本体类名或者成员别名、资源条目,则直接进行对应类型的检索,重合的以本体检索为入口。

在一实施例中,所述步骤s30,包括:

步骤s301,根据所述查询建议信息中的个体类别信息在预设区域查找应用场景信息。

需要说明的是,所述应用场景信息为预先设定的,应用场景的划分要根据用户的实际需求,例如,若用户(初、高中生)输入某个词汇,一般情况下,是想得到对于该词汇的中英文解释、与之相关的固定搭配或者用法、该词汇在句子中的用法(给出例句及其解释)以及与之相关的语法,如果该词汇比较重要,可能还希望得到讲解该词汇的资料,如课件、ppt甚至视频资源等,以上的需求就可以作为一个以词汇为入口的应用场景。

步骤s302,根据所述应用场景信息在所述目标文件库中查找与所述个体类别信息建立关系的个体信息以及相关的实例信息。

可以理解的是,所述实例信息包括与所述个体类别信息相关的句子以及资源等信息。

步骤s303,判断所述实例信息的类型信息,根据所述类型信息提取所述实例信息中的数据属性信息,将所述数据属性信息作为相关联的参考检索英语知识信息。

为了实现本体中的资源检索,可获取到的实例信息中的数据属性信息进行特征提取,将提取后的特征作为相关联的参考检索英语知识信息,从而更全面的进行数据检索,在本实施例中主要通过sparql查询语句进行语句查询,还可为其他查询语句,本实施例对此不作限制,检索过程中计算待检测内容与数据库中的数据的相关性大小,满足一定阈值即为符合内容。

具体查询语句信息sparql查询语句的查询步骤如下:

1)根据查询词判断其类型;

2)找到与查询词建立关系的个体;

3)判断这些个体的类型;

4)找到这些个体的数据属性值。

在一实施例中,所述步骤s203之前,所述方法还包括:

提取待检索英语知识信息中的用户信息,所述用户信息包括用户的薄弱知识点信息、年级信息、学习基础以及学习大纲信息;根据年级信息和学习基础确定待检索英语学科知识的难易程度信息;根据所述薄弱知识点信息、难易程度信息以及学习大纲信息对预设文件库进行过滤,将过滤后的文件库作为所述目标文件库。

在本实施例中,在获检索结果之前需要过滤掉数据库中与检索无关的内容,资源过滤应遵循以下三个原则,推送产品应确实针对学生的薄弱环节;推送产品难易程度应与学生年级、学习基础相适应以及推送产品应符合学习大纲要求,从而基于对用户学习的方式检索出满足用户需求的检索信息。

本实施例提供的方案,通过提取待检索英语知识信息中的用户信息,根据用户信息对当前本体库进行过滤,从过滤后的本体库中检索出目标信息,从而提高检索的效率。

在一实施例中,如图9所示,基于第一实施例或第二实施例提出本发明基于英语知识图谱的检索方法第三实施例,在本实施例中,基于第一实施例进行说明,所述步骤s20之前,所述方法还包括:

获取历史英语知识信息以及相关联的资源信息,提取所述历史英语知识信息以及相关联的资源信息中的历史关键字信息;

将所述历史关键字信息作为三元组信息采用地形数据库的存储方式进行保存,并根据所述三元组信息建立索引信息,将建立后的三元组信息作为所述预设索引文件。

在本实施例中,利用tdb存储本体文件,将本体中的三元组转化并建立lucene索引,进行larq检索,larq有多种使用模式包括字符索引、主题资源索引以及图索引,根据owl文件利用larq的字符索引建立相应的索引从而实现本体的检索,提高检索效率。

在具体实现中,所述预设索引文件可为英语本体,为了构建英语本体,首先批量导入资料库,所述资料库包括牛津短语动词词典、牛津英语习语词典、牛津英语搭配词典、牛津高阶英汉双解词典第四版、用法词典、简明英汉词典、张道真实用英语语法、英语国家语库以及句库等,利用英文依存语法分析和海杜普分布式计算框架实现句子的自动分析,获得常见的二元语法结构,将结构本身及二元单词关系作为标签属性,例如对于句子mydogalsolikeseatingsausage,依据语法分析结果得到poss(dog,my)nsubj(likes,dog)advmod(likes,also)root(root,likes)xcomp(likes,eating)dobj(eating,sausage),可做标签关键字的可以是,poss,(dog,my),nsubj,(likes,dog),advmod,(likes,also),root,(root,likes),xcomp,(likes,eating),dobj(eating,sausage)

在导入上述资料库的过程中,按照知识本体标注标准提取标签关键字并将上述资源批量导入数据库,同时遍历所有词条的关键字,进行分词并建立索引,最后进一步地对索引库进行数据挖掘、检索、提取,从而寻找相互之间的关系,如图10所示,将词典、句库以及语法书等提取关键字进行批量导入,根据个体分类分为词汇、短语、句库、搭配词库、知识点等分类信息进行管理,并根据维基模式建立索引管理。

在具体实现中,索引库中的文件与维基百科的词条一一对应,其中,文件属性有包括文件名称、关键字、内容、统一资源定位符、时间信息以及状态信息等,还可包络其他属性信息,可根据实际需求进行灵活调整。

需要说明的是,词条的关联需要建立在关键字的索引上,如果以词条为节点,索引为连线,即可构成复杂的图型结构,即知识图谱信息,如图11所示,根据关联的索引可建立词条与词条之间的关系图。

在一实施例中,所述步骤s50之前,所述方法还包括:

步骤s501,获取当前用户行为信息,其中,所述当前用户行为信息包括预设考点、难易程度、年级信息、版本信息、更新时间信息以及预设考试试卷信息。

需要说明的是,所述预设考点为常见考点,预设考试试卷信息为大型考试试卷信息,例如期末考试等。

步骤s502,对所述预设考点、难易程度、年级信息、版本信息、更新时间信息以及预设考试试卷信息设置预设权重值。

步骤s503,将设置权重值后的预设考点、难易程度、年级信息、版本信息、更新时间信息以及预设考试试卷信息通过关联度排序算法生成排序网络模型。

在本实施例中,第一种方式组内按照lucene的评分排序,第二种方式组间按照改进的关联度排序算法进行排序,该算法加入了常见考点、难易程度、年级、版本、更新时间和大型考试试卷的权重计算,算法中以知识点为顶点构成网络,该网络关系越复杂表明对应的知识点用户越难掌握,从而提高检索结果的有效性。

在一实施例中,所述步骤s50包括:

通过所述排序网络模型对分组后的参考检索英语知识信息进行排序,根据排序后的参考检索英语知识信息生成目标检索英语知识图谱信息。

在一实施例中,所述步骤s50之后,所述方法还包括:

对分组后的参考检索英语知识信息进行排序,获取排序后的参考检索英语知识信息;

获取预设白名单和预设黑名单信息,根据所述预设白名单和预设黑名单信息以及布隆过滤器对排序后的参考检索英语知识信息进行过滤,将过滤后的参考检索英语知识信息生成目标检索英语知识图谱信息。

在建立好的学科领域本体基础上,利用lucene和tdb分别建立索引和存储本体文件,之后利用sparql查询语句检索出结果,进行干预的分组和排序之后,将检索结果输出为相应的xml组织形式,基于白名单和黑名单原理进行干预,黑白名单数据将存储在关系数据库中,在能保证一定的准确率的情况下采用布隆过滤器算法加快查询速度。

本实施例提供的方案,通过黑名单以及白名单的方式对检索结果进行再次过滤,去掉非法内容或者不符合政策规定的检索结果,并将检索结果以xml组织形式进行展示,从而提高检索结果的有效性。

本发明进一步提供一种基于英语知识图谱的检索装置。

参照图12,图12为本发明基于英语知识图谱的检索装置第一实施例的功能模块示意图。

本发明基于英语知识图谱的检索装置第一实施例中,该基于英语知识图谱的检索装置包括:

获取模块10,用于获取待检索英语知识信息。

需要说明的是,本实施例的执行主体为检索平台还可为进行数据处理的服务器,本实施例对此不作限制,在本实施例中,以检索平台为例进行说明。

在本实施例中,所述待检索英语知识信息包括待检索关键字信息以及检索语句等,例如初中二年级重力加速度等。

提取模块20,用于提取所述待检索英语知识信息中的参考关键字信息,根据所述参考关键字信息在预设索引文件中查询对应的携带有个体类别信息的查询建议信息,其中,所述个体类别信息包括语法、句子、短语、词汇、题目、常见错误以及多媒体文件中至少一项。

需要说明的是,英语学科的个体分类包括:语法、句子、短语、词汇、题目、常见错误、多媒体文件等,由于英语学科的个体有很多,比如一个单词,它有很多属性如音标、词性、用法、例句、年级、相关书籍、是否为四六级词汇、被考场次数等,所述预设索引文件为预先建立的关键字信息与个体类别信息的对应关系,根据所述预设索引文件,根据用户输入的待检索英语知识信息可查询出对应的个体类别信息。

在本实施例中,通过借助lucene的查询操作符可以灵活的确定查询的形式,采用如图3所示的四种形式:

1、and查询操作符,关键字之间为与的关系,采用+word1+word2的形式;

2、or查询操作符,关键字之间为或的关系,采用word1word2的形式;

3、not查询操作符,排除某个关键字的情况,采用+word1-word2的形式;

4、like查询操作符,模糊查询,采用word~的形式。

查询模块30,用于根据所述查询建议信息在基于本体网页语言的目标文件库中查询相关联的参考检索英语知识信息,所述参考检索英语知识信息包括维基词汇信息、固定搭配信息、例句及其翻译信息、资源信息以及知识点信息,其中,所述相关联的参考检索英语知识信息包括各个个体类别信息之间具有派生关系、复合关系、包含关系或者重点关系的参考检索英语知识信息,还可包括其他关系,本实施例对此不作限制。

可以理解的是,比如在英语中相关联的参考检索英语知识信息包括:两个词汇存在派生关系或复合关系等,某个词汇和某个句子存在包含关系等以及某个词汇和题目存在考察或重点词汇关系等。

需要说明的是,所述维基词汇信息为基于维基词条中搜索出的词条信息,所述资源信息包括试卷以及培训视频资料等产品信息,以用户输入英语知识点的方式执行查询,如图4显示查询结果,输入为英语知识点,输出内容包括当前英语知识点的维基词条信息,具体内容为该知识点的具体解释,英语知识点的相关资源以及英语知识点相关的关键词。

在本实施例中,如图5所示,其中矩形代表本体中string类型的一条记录,椭圆代表本体中的个体,实线箭头代表本体中的对象属性关系,虚线箭头代表本体中的数据属性关系。

分组模块40,用于根据查询到的维基词条信息、资源信息以及关键词信息对所述参考检索英语知识信息进行分组。

为了将检索结果以可扩展标记语言(extensiblemarkuplanguage,xml)的形式进行展示,可将检索结果组织方式为根据不同的核心词构造不同的虚拟子图。

排序模块50,用于对分组后的参考检索英语知识信息进行排序,根据排序后的参考检索英语知识信息生成目标检索英语知识图谱信息。

需要说明的是,可通过两种方式对分组后的参考检索英语知识信息进行排序,第一种方式组内按照lucene的评分排序,第二种方式组间按照关联度排序算法进行排序,该算法加入了常见考点、难易程度、年级、版本、更新时间和大型考试试卷的权重计算,算法中以知识点为顶点构成网络,该网络关系越复杂表明对应的知识点用户越难掌握。

在本实施例中,所述检索平台设有预设多个处理模块,例如图6所示的预处理模块、过滤模块、检索模块、排序模块以及干预模块,其中,所述预处理模块,用于准确将用户输入的内容转化成机器可识别的检索语言,所述过滤模块,利用缓存技术缓存常见检索结果和避免使用全表扫描和索引全扫描这2种方式来过滤检索结果,提高检索速度,所述检索模块,用于建立lucene索引,利用地形数据库(terraindatabase,tdb)存储本体文件,用sparql在索引和本体文件上进行检索,所述排序模块,用于针对检索得到的初步结果,在未进行人工干预的前提下,按照改进的关联度排序算法进行排序,所述干预模块,用于基于白名单和黑名单原理进行干预,黑白名单数据将存储在数据库中,在保证一定准确率的前提下也可采用布隆过滤器算法进行过滤。

本实施例实现了一种系统能够根据用户特性主动向学习者注入资源的学习方式,从而提高学习者搜索质量,使搜索结果更加高效、全面、详细、准确和清晰明了,系统为学生推荐个性化的学习路径和学习资源,进而有效促进学习者的个性化教育,如图7所示检索的流程示意图,首先建立索引,larq有3种使用模式:字符索引、主题资源索引以及图索引,根据网络本体语言(thewebontologylanguage,owl)文件利用larq的字符索引建立相应的索引,然后进行sparql查询,根据sparql查询语句得到相应的结果,再进行分组,最终的xml输出结果组织方式为根据不同的核心词构造不同的虚拟子图,然后进行排序和干预,去掉非法内容或不符合平台政策规定的检索结果,最后进行xml输出。将经过分组排序人工干预后的检索结果输出为相应的xml组织形式。

本实施例具体实现了英语领域本体的知识图谱系统,与学习者在搜索引擎上的检索结果相比,检索到的结果不需要用户汇总,结果全面、详细准确和清晰明了,提高了搜索质量。

本实施例通过上述方案,通过获取待检索英语知识信息;提取所述待检索英语知识信息中的参考关键字信息,根据所述参考关键字信息在预设索引文件中查询对应的携带有个体类别信息的查询建议信息;根据所述查询建议信息在基于本体网页语言的目标文件库中查询相关联的参考检索英语知识信息,所述参考检索英语知识信息包括维基词汇信息、固定搭配信息、例句及其翻译信息、资源信息以及知识点信息,其中,所述相关联的参考检索英语知识信息包括各个个体类别信息之间具有派生关系、复合关系、包含关系或者重点关系的参考检索英语知识信息;根据查询到的维基词条信息、资源信息以及关键词信息对所述参考检索英语知识信息进行分组;对分组后的参考检索英语知识信息进行排序,根据排序后的参考检索英语知识信息生成目标检索英语知识图谱信息,从而基于本体网页语言的文件库对用户的检索内容进行高效关联知识网络检索,大大提高检索的准确性、有效性。

此外,为实现上述目的,本发明还提出一种基于英语知识图谱的检索设备,所述基于英语知识图谱的检索设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于英语知识图谱的检索程序,所述基于英语知识图谱的检索程序配置为实现如上文所述的基于英语知识图谱的检索方法的步骤。

此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于英语知识图谱的检索程序,所述基于英语知识图谱的检索程序被处理器执行如上文所述的基于英语知识图谱的检索方法的步骤。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台智能终端设备(可以是手机,计算机,终端设备,空调器,或者网络终端设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1